Return to Video

New Enron Feature Solution - Intro to Machine Learning

  • 0:00 - 0:03
    这个是新特征的可视化图
  • 0:03 - 0:06
    x 轴是数据集中嫌疑人向特定某人
  • 0:06 - 0:09
    发送的邮件数量
  • 0:09 - 0:10
    而 y 轴
  • 0:10 - 0:14
    是我认为其他能帮助我判断的东西
  • 0:14 - 0:18
    是此人发给嫌疑人的邮件数量
  • 0:18 - 0:23
    我还将散点图中的嫌疑人标为红色
  • 0:23 - 0:26
    这样我就能轻松判断特征中是否有某种模式
  • 0:26 - 0:30
    比如说我看见红点都聚集在这一块
  • 0:30 - 0:32
    这可以帮助监督学习算法
  • 0:32 - 0:37
    预测嫌疑人
  • 0:37 - 0:41
    然后这里我看不到有什么很强的趋势
  • 0:41 - 0:45
    红点看上去和蓝点一样的混在一起
  • 0:45 - 0:48
    另外我注意到的一点是这里有一些异常值
  • 0:48 - 0:52
    一般来说 我们从大部分人处收取的或向他们发出的邮件
  • 0:52 - 0:55
    数量不超过100 但有的人的邮件数量远远超过100
  • 0:55 - 1:00
    所以 通过可视化图 我认为需要再次重复这个过程
  • 1:00 - 1:05
    通过我的个人直觉想一想哪些特征可能有用
  • 1:05 - 1:08
    我认为我当前需要的可能不是
  • 1:08 - 1:13
    从嫌疑人发给指定某人的邮件的
  • 1:13 - 1:14
    绝对数量
  • 1:14 - 1:18
    而是那个人从嫌疑人处
  • 1:18 - 1:19
    收到的邮件的比例
  • 1:19 - 1:24
    也就是说 如果你的邮件有80%来自嫌疑人
  • 1:24 - 1:27
    我直觉认为你自己可能就是其中一个
  • 1:27 - 1:30
    当然 我需要对此特征进行编码 才能测试我的设想
Title:
New Enron Feature Solution - Intro to Machine Learning
Description:

more » « less
Video Language:
English
Team:
Udacity
Project:
ud120 - Intro to Machine Learning
Duration:
01:31

Chinese, Simplified subtitles

Revisions