Return to Video

TfIdf Feature Selection Solution - Intro to Machine Learning

  • 0:00 - 0:05
    这个 max_df 参数会实际缩小我的词汇表的大小
  • 0:06 - 0:09
    它会根据含有某个特定单词的
  • 0:09 - 0:11
    文件的数量来执行
  • 0:11 - 0:14
    所以如果单词出现在超过50%的文件中
  • 0:14 - 0:18
    这个参数就会确认 在 tf idf 中不使用它
  • 0:18 - 0:21
    因为它可能不含有太多的信息
  • 0:21 - 0:23
    太普遍了
  • 0:23 - 0:25
    所以这里是你能够进行特征缩减
  • 0:25 - 0:30
    或者也称为维数缩减的另外一个地方
  • 0:30 - 0:30
    当然
  • 0:30 - 0:34
    你还是能够使用之前的一些方法 例如 SelectPercentile
  • 0:35 - 0:38
    我希望你知道这个编码联系强调了
  • 0:38 - 0:43
    我们之前谈及的一点 特征与信息不是一个概念
  • 0:43 - 0:46
    你可能删除文字特征的90%
  • 0:46 - 0:50
    都对你的分类器精确度基本上没什么影响
  • 0:50 - 0:53
    而事实上 由于特征数量更少
  • 0:53 - 0:56
    它能运行得更快 效果更好
  • 0:56 - 0:57
    因此 显然地
  • 0:57 - 0:59
    你需要记住这一点
  • 0:59 - 1:02
    尤其是当你处理很高维数的数据时
  • 1:02 - 1:04
    数据中有大量的特征
  • 1:04 - 1:07
    你应该对这些特征持怀疑态度
  • 1:07 - 1:10
    思考哪些特征能真正地帮助你实现最高的性价比?
Title:
TfIdf Feature Selection Solution - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning
Duration:
01:12

Chinese, Simplified subtitles

Revisions