Return to Video

Stemming to Consolidate Vocabulary - Intro to Machine Learning

  • 0:00 - 0:03
    Existe outra bela dica que ensinarei a vocês agora, e
  • 0:03 - 0:07
    ela tem a ver com a ideia de que nem todas as palavras exclusivas são realmente diferentes, ou
  • 0:07 - 0:09
    não muito diferentes.
  • 0:09 - 0:12
    Deixe-me mostrar um exemplo do que quero dizer.
  • 0:12 - 0:15
    Digamos que, em meu conjunto, eu tenha várias versões diferentes da palavra respond,
  • 0:15 - 0:19
    nas quais o significado muda muito pouco com base no contexto ou
  • 0:19 - 0:22
    com base na parte do discurso em que está a palavra, mas todas elas estão transmitindo
  • 0:22 - 0:27
    basicamente a mesma ideia, de que algo ou alguém está respondendo.
  • 0:27 - 0:31
    A ideia é que, se eu ingenuamente colocá-las em um conjunto de palavras,
  • 0:31 - 0:33
    todas elas serão exibidas como recursos diferentes,
  • 0:33 - 0:36
    embora, em termos gerais, estejam transmitindo a mesma ideia.
  • 0:36 - 0:39
    Isso acontecerá com muitas palavras em diversos idiomas, que passam
  • 0:39 - 0:44
    por várias transformações cujos significados são ligeiramente diferentes.
  • 0:44 - 0:46
    Felizmente para nós, existe uma forma de, mais ou menos,
  • 0:46 - 0:50
    agrupar essas palavras e representá-las como uma única palavra; a
  • 0:50 - 0:53
    maneira como isso acontece é usando um algoritmo chamado lematizador.
  • 0:53 - 0:56
    Dessa forma, se eu agrupar todas essas palavras e colocá-las em um lematizador,
  • 0:56 - 1:00
    ele, então, aplicará uma função que as fragmentará
  • 1:00 - 1:05
    até que tenham o mesmo tipo de raiz, que poderá ser algo como respon.
  • 1:05 - 1:10
    A ideia não é, necessariamente, obter uma única palavra disso, pois,
  • 1:10 - 1:15
    é claro, respon não é uma palavra, mas é como a raiz, ou o lema,
  • 1:15 - 1:21
    de uma palavra, que pode ser usada em qualquer um de nossos classificadores ou de nossas regressões.
  • 1:21 - 1:24
    Agora, transformamos essa entrada com cinco dimensões em
  • 1:24 - 1:27
    uma dimensão, sem perder nenhuma informação real.
  • 1:27 - 1:32
    Uma função de lematização pode ser, na verdade, um tanto complicada de implementarmos sozinhos.
  • 1:32 - 1:36
    Existem linguistas profissionais e linguistas de computação, que criam essas
  • 1:36 - 1:41
    funções de lematização, que descobrem melhor qual é a raiz de uma determinada palavra.
  • 1:41 - 1:45
    Em geral, o que fazemos no aprendizado de máquina é usar um
  • 1:45 - 1:49
    desses lematizadores já disponíveis, por exemplo, no NLTK, ou
  • 1:49 - 1:53
    em algum pacote de processamento de texto semelhante, e apenas usá-lo,
  • 1:53 - 1:56
    sem necessariamente analisar sempre como ele funciona.
  • 1:56 - 1:58
    Em seguida, depois de aplicarmos o lematizador,
  • 1:58 - 2:02
    é claro, temos um corpo muito mais limpo de vocabulário com que podemos trabalhar.
Tytuł:
Stemming to Consolidate Vocabulary - Intro to Machine Learning
Opis:

more » « less
Video Language:
English
Team:
Udacity
Projekt:
ud120 - Intro to Machine Learning
Duration:
02:03

Portuguese, Brazilian subtitles

Revisions Compare revisions