Return to Video

Order of Operations in Text Processing - Intro to Machine Learning

  • 0:00 - 0:02
    Este é um outro teste cuja resposta,
  • 0:02 - 0:04
    é claro, ainda não demos.
  • 0:04 - 0:06
    Espero que você tenha pensado um pouco.
  • 0:06 - 0:09
    A resposta é que é preciso fazer a lematização antes de fazer a representação do
  • 0:09 - 0:12
    conjunto de palavras por dois motivos.
  • 0:12 - 0:16
    Primeiro, porque se você colocar na representação do conjunto de palavras antes de
  • 0:16 - 0:19
    fazer a lematização, não faria sentido lematizar, porque você poderia
  • 0:19 - 0:23
    obter a mesma palavra repetidas vezes na sua representação do conjunto de palavras.
  • 0:23 - 0:27
    Você não estaria condensando a informação de maneira útil.
  • 0:27 - 0:29
    Na verdade, você a está deixando mais trabalhosa e pior
  • 0:29 - 0:33
    porque a palavra sponse aparecerá lá 6 vezes.
  • 0:33 - 0:36
    E também é mais viável tecnicamente aplicar lematização antes e
  • 0:36 - 0:39
    depois colocá-la na representação do conjunto de palavras
  • 0:39 - 0:41
    porque a lematização vai assumir uma string.
  • 0:41 - 0:45
    E a representação do conjunto de palavras vai parecer uma
  • 0:45 - 0:49
    matriz que tem vários documentos diferentes com palavras dentro.
  • 0:49 - 0:51
    Então, é quase sempre preferível fazer a lematização como
  • 0:51 - 0:53
    uma das primeiras etapas no processamento de texto.
  • 0:53 - 0:56
    Você lematiza cada palavra e depois as coloca na
  • 0:56 - 0:59
    representação que será usada no seu algoritmo de aprendizado de máquina.
Title:
Order of Operations in Text Processing - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning

Portuguese, Brazilian subtitles

Revisions Compare revisions