Return to Video

Stemming to Consolidate Vocabulary - Intro to Machine Learning

  • 0:00 - 0:03
    这里我还要教你另外一种方便的技巧
  • 0:03 - 0:07
    它的概念是 不是所有的单词意思都是不同的
  • 0:07 - 0:09
    或者说他们的意思区别不大
  • 0:09 - 0:12
    我会用一个例子来说明我的意思
  • 0:12 - 0:15
    比如说 在我的语料库中 我有不同版本的 respond 这个词
  • 0:15 - 0:19
    虽然是在不同的语境下 或者是演讲的不同部分使用这些词
  • 0:19 - 0:22
    但他们的意思区别并不大
  • 0:22 - 0:27
    基本上讲述的是同一个东西 是指一些人或一些东西做出反应
  • 0:27 - 0:31
    如果我只是简单地把他们放入词袋
  • 0:31 - 0:33
    那他们会表现为不同的特征
  • 0:33 - 0:36
    虽然他们的意思基本上一样
  • 0:36 - 0:39
    在很多语言中很多词都有相似的情况
  • 0:39 - 0:44
    有很多不同的表达 但描述的是几乎无差别的东西
  • 0:44 - 0:46
    幸运的是 我们可以把这些词
  • 0:46 - 0:50
    绑在一起 然后用一个词来代表
  • 0:50 - 0:53
    方法就是使用一种叫词干提取的算法
  • 0:53 - 0:56
    如果我把这些所有的词打包放进词干提取
  • 0:56 - 1:00
    它会对其调用函数 把这些词分拆开来
  • 1:00 - 1:05
    找到它们相同的词根 比如说 respon
  • 1:05 - 1:10
    所以不是说一定要用一个单独的词
  • 1:10 - 1:15
    respon 就不是一个词 而是可以在分类器或回归中
  • 1:15 - 1:21
    使用的词根或词干
  • 1:21 - 1:24
    我们现在将这个五维数输入空间
  • 1:24 - 1:27
    转化为一维数 而且不会损失任何真正的信息
  • 1:27 - 1:32
    自行执行词干提取函数会比较难
  • 1:32 - 1:36
    有一些专业的语言学家和计算机语言学家建立了一些词干提取函数
  • 1:36 - 1:41
    能够很好地找出指定单词的词干
  • 1:41 - 1:45
    所以在机器学习中 我们会直接从 NLTK
  • 1:45 - 1:49
    或一些其他相似的文字处理包获取词干提取函数
  • 1:49 - 1:53
    我们只需要用就行了
  • 1:53 - 1:56
    不需要刨根问底它是如何运行的
  • 1:56 - 1:58
    完成词干提取后
  • 1:58 - 2:02
    我们的词汇表就清爽很多 方便使用了
Tytuł:
Stemming to Consolidate Vocabulary - Intro to Machine Learning
Opis:

more » « less
Video Language:
English
Team:
Udacity
Projekt:
ud120 - Intro to Machine Learning
Duration:
02:03

Chinese, Simplified subtitles

Revisions