Return to Video

TfIdf Feature Selection Solution - Intro to Machine Learning

  • 0:00 - 0:05
    Esse argumento max df diminuirá o tamanho do meu vocabulário.
  • 0:06 - 0:09
    Ele o usará com base no número de documentos nos quais
  • 0:09 - 0:11
    uma palavra aparece.
  • 0:11 - 0:14
    Se houver uma palavra que aparece em mais de 50% dos documentos,
  • 0:14 - 0:18
    esse argumento diz para não usá-la no tfidf,
  • 0:18 - 0:21
    porque ele provavelmente não tem muitas informações,
  • 0:21 - 0:23
    por ser muito comum.
  • 0:23 - 0:25
    Este é um exemplo de outro lugar onde você pode fazer
  • 0:25 - 0:30
    uma redução de recursos, ou redução de dimensionalidade, como a chamamos.
  • 0:30 - 0:30
    Mas é claro que
  • 0:30 - 0:34
    você também tem seu modo de espera, como o SelectPercentile.
  • 0:35 - 0:38
    Espero que o que você tenha encontrado nesse exercício de codificação saliente
  • 0:38 - 0:43
    o ponto de que recursos não são o mesmo que informações.
  • 0:43 - 0:46
    Você acabou de excluir 90% dos recurso de texto, mas
  • 0:46 - 0:50
    a precisão do seu classificador não sofreu com isso.
  • 0:50 - 0:53
    Na verdade, o desempenho melhorou de algumas formas, porque é executado mais
  • 0:53 - 0:56
    rapidamente em um número menor de recursos.
  • 0:56 - 0:57
    Obviamente, isso
  • 0:57 - 0:59
    é algo que você deve ter sempre em mente.
  • 0:59 - 1:02
    Especialmente quando estiver trabalhando com dados de dimensionalidade alta.
  • 1:02 - 1:04
    Dados com muitos recursos.
  • 1:04 - 1:07
    Seja cético quanto a todos esses recursos. Pense em quais
  • 1:07 - 1:10
    você terá melhor retorno.
Title:
TfIdf Feature Selection Solution - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning
Duration:
01:12

Portuguese, Brazilian subtitles

Revisions Compare revisions