Return to Video

Stopwords - Intro to Machine Learning

  • 0:00 - 0:03
    有些单词不含有太多的信息
  • 0:03 - 0:06
    所以你需要特别注意这些单词
  • 0:06 - 0:09
    然后将他们移出你的语料库
  • 0:09 - 0:10
    不用再考虑他们 这样会很有帮助
  • 0:10 - 0:13
    你不会让它们成为你的数据集中的噪音
  • 0:14 - 0:17
    总体来说 这个单词清单是停止词
  • 0:17 - 0:20
    停止词的具体定义可能会各有不同
  • 0:20 - 0:24
    但一般来说 就是出现非常频繁的低信息单词
  • 0:24 - 0:29
    比如说和、the、I、you、have 这些单词
  • 0:30 - 0:34
    而在文字分析前一个非常常见的预处理步骤
  • 0:34 - 0:38
    就是在处理数据前去除停止词
  • 0:38 - 0:44
    假设我们的停止词包括 the、in、for、you、will、have、be
  • 0:44 - 0:48
    所以我把这些给你 说 这些就是停止词
  • 0:49 - 0:51
    现在我在测试中向你提出一个问题
  • 0:51 - 0:55
    如果在下列消息中去掉停止词 那总共需要去掉多少个词
  • 0:55 - 0:58
    hi Katie, the machine learning class will be great.
  • 0:58 - 0:59
    Best, Sebastian
Title:
Stopwords - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning

Chinese, Simplified subtitles

Revisions