Return to Video

Why Upweight Rare Words - Intro to Machine Learning

  • 0:00 - 0:05
    现在假设你拿到了很多邮件 有的是我发出的
  • 0:05 - 0:06
    有的来自 Sebastian
  • 0:06 - 0:08
    我们之间可能有很多重叠的内容
  • 0:08 - 0:11
    我们可能都会谈到机器学习和优达学城
  • 0:11 - 0:13
    但是有时候会谈到 比如说物理
  • 0:13 - 0:16
    这个是我的专业
  • 0:16 - 0:17
    出现得就会比较少
  • 0:17 - 0:18
    语料库中不会有很多邮件
  • 0:18 - 0:22
    讨论物理
  • 0:22 - 0:26
    因为 Sebastian 的邮件基本上不会谈到物理
  • 0:26 - 0:27
    只可能是我的
  • 0:27 - 0:28
    又比如说
  • 0:28 - 0:31
    有很多邮件谈到 Stanley 谈到机器人
  • 0:31 - 0:33
    这个就是他的一个项目
  • 0:33 - 0:35
    是我不擅长的东西
  • 0:35 - 0:40
    所以比起优达学城和机器学习
  • 0:40 - 0:44
    像物理和 Stanley 这些词很少出现在语料库中
  • 0:44 - 0:47
    而这些词正好能告知你最重要的信息
  • 0:47 - 0:49
    让你知道信息内容大概是什么
  • 0:49 - 0:51
    某条消息的作者会是谁?
  • 0:51 - 0:54
    从另一个角度想 这可能是
  • 0:54 - 0:56
    它叫做逆向文件频率的原因
  • 0:56 - 1:00
    你通过单词在整个语料库中出现的频率
  • 1:00 - 1:02
    进行逆向加权
  • 1:02 - 1:07
    我不会现在就让你完成测试 为 Tf Idf 进行编码
  • 1:07 - 1:09
    但这是在本课结束时的近期小项目中
  • 1:09 - 1:12
    将要完成的任务
  • 1:12 - 1:15
    你会需要敲击键盘 练习这种表达
Title:
Why Upweight Rare Words - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning
Duration:
01:16

Chinese, Simplified subtitles

Revisions