Return to Video

Stopwords - Intro to Machine Learning

  • 0:00 - 0:03
    Algumas palavras não contêm muitas informações.
  • 0:03 - 0:06
    Pode ser muito útil ficar atento a essas palavras
  • 0:06 - 0:09
    para conseguir removê-las do nosso corpus, para
  • 0:09 - 0:10
    não ter que considerá-las.
  • 0:10 - 0:13
    Assim, elas não se tornam um ruído no seu conjunto de dados.
  • 0:14 - 0:17
    Essa lista de palavras é denominada palavras irrelevantes.
  • 0:17 - 0:20
    Essa definição exata de palavra irrelevante pode variar.
  • 0:20 - 0:24
    Mas, no geral, é uma palavra com poucas informações que ocorre frequentemente.
  • 0:24 - 0:29
    Alguns exemplos pode incluir palavras como and, the, I, you e have.
  • 0:30 - 0:34
    Um pré-processamento comum na análise do texto
  • 0:34 - 0:38
    é remover as palavras irrelevantes antes de utilizar os dados.
  • 0:38 - 0:44
    Imagine que nosso grupo de palavras irrelevantes seja the, in, for, you, will, have e be.
  • 0:44 - 0:48
    Dou essas palavras para você e digo que são palavras irrelevantes.
  • 0:49 - 0:51
    Minha pergunta em um teste
  • 0:51 - 0:55
    é quantas palavras serão removidas ao remover as palavras irrelevantes da mensagem:
  • 0:55 - 0:58
    "Hi Katie the machine learning class will be great
  • 0:58 - 0:59
    best Sebastian".
Title:
Stopwords - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning

Portuguese, Brazilian subtitles

Revisions Compare revisions