Return to Video

Order of Operations in Text Processing - Intro to Machine Learning

  • 0:00 - 0:02
    当然 这个小测验的答案
  • 0:02 - 0:04
    我们还没有说
  • 0:04 - 0:06
    希望你能够自己想一想
  • 0:06 - 0:09
    答案是你要在完成词袋之前进行词干提取
  • 0:09 - 0:12
    原因有两个
  • 0:12 - 0:16
    首先是 如果你在进行词干提取之前把它们放入词袋
  • 0:16 - 0:19
    词干提取就是没有意义的
  • 0:19 - 0:23
    这样你就会在词袋内得到重复很多次的相同的词
  • 0:23 - 0:27
    你就不能真正地有意义地将信息精简下来
  • 0:27 - 0:29
    事实上 可能会让词袋更加杂乱更加差
  • 0:29 - 0:33
    因为可能 respons 这种词出现的次数会乘以六倍
  • 0:33 - 0:36
    而且 先进行词干提取
  • 0:36 - 0:39
    再把它放入词袋的话 技术上更为可行
  • 0:39 - 0:41
    因为词干提取会分配一个字符串
  • 0:41 - 0:45
    词袋则像一个矩阵
  • 0:45 - 0:49
    里面有各种不同的文件 文件里有各种各样的单词
  • 0:49 - 0:51
    所以基本上你会想在文字处理
  • 0:51 - 0:53
    一开始 就进行词干提取
  • 0:53 - 0:56
    你对每个词进行词干提取
  • 0:56 - 0:59
    然后放入你使用机器学习算法的特征中
Title:
Order of Operations in Text Processing - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning

Chinese, Simplified subtitles

Revisions