Chinese, Simplified subtitles

← Downloading Enron Data - Intro to Machine Learning

Get Embed Code
4 Languages

Showing Revision 7 created 10/09/2016 by Udacity Robot.

  1. 现在我已经定义了嫌疑人 是时候
  2. 亲自处理数据集了
  3. 我依照此途径查找该数据集
  4. 如以往一样 我从 Google 着手
  5. 使用 Google 搜索安然电子邮件
  6. 第一个弹出的窗口是安然电子邮件数据集
  7. 你可以看到 这是一个非常有名的数据集
  8. 在我们此之前 许多人已经出于各种不同目的研究过该数据集
  9. 它拥有自己的 Wikipedia 页面
  10. 我建议你从 MIT Technology Review 阅读
  11. 一篇与其相关的有趣的文章 该文章介绍了
  12. 多年来该数据集的大量使用信息
  13. 但第一个链接是数据集本身
  14. 我们进入该链接
  15. 点击该链接后 我们会进入卡内基梅隆大学 CS 系
  16. 它会提供数据集的些许背景知识
  17. 如果稍微向下滚动
  18. 我们就会在此处看到该链接
  19. 这才是该数据集真正的链接
  20. 链接下面还有些许信息
  21. 如果你点击该链接 则会下载 TGZ 文件
  22. 如你所见 我已将其下载到此处
  23. 我花了将近半个小时的时间下载整个数据集
  24. 所以如果你是独自执行该操作
  25. 那么我建议你开始下载 然后
  26. 可以放在一边 忙其他的事
  27. 获得数据集之后 你需要解压缩
  28. 将其移至你要使用的目录
  29. 然后运行该命令
  30. 其实并没有什么奇怪的 我只是在 Google 上搜索了如何解压缩 .tgz 文件
  31. 并发现了该命令
  32. 这个过程也会耗时数分钟
  33. 完成解压缩后 你会获得一个名为 enron mail 的目录
  34. 然后输入 CD 命令 转到该目录
  35. 此为数据集
  36. 该数据集组织包含大量目录 每个目录都属于一个人
  37. 你也看到目录太多 我甚至无法在一个页面中全部显示出来
  38. 其实 你会发现该数据集有 150 多个人
  39. 每个人的身份都是通过姓和
  40. 名字的首字母表示
  41. 粗略看看 我看到了 Jeff Skilling
  42. 我们看看是否能找到 Ken Lay
  43. 他好像也在这上面
  44. 找到了 这就是 Ken Lay
  45. 当然 还有大批我从未听说过的人
  46. 注意 我的问题是
  47. 我有多少个嫌疑人的电子邮件
  48. 我是否拥有足够的嫌疑人 我是否拥有他们的电子邮件
  49. 以便开始使用监督分类算法
  50. 描述这些电子邮件中的模式
  51. 我是这样回答这个问题的:
  52. 还是基本上手动执行某些工作
  53. 我利用嫌疑人列表
  54. 并从该目录中查找列表中每个人的姓名
  55. 我们回想一下 想想具体情况是什么样的
  56. 你可以在此处看到有注解的列表
  57. 你可能会疑惑 姓名前的这些字母代表什么意思
  58. 这些是我供自己使用的笔记
  59. 至于我是否拥有每个嫌疑人的收件箱
  60. 目前我们已经找到 Ken Lay 和 Jeff Skilling 的收件箱
  61. 但然后就开始变得困难了
  62. 因此你发现有待处理的人远多于于姓名前有 n 的个人
  63. 这表示我还没有很多人的收件箱 比如 Scott Yeager
  64. 重新回顾数据集后 我在这里没有看到 Yeager
  65. 因此我很希望能够得到 Scott Yeager 的收件箱
  66. 我希望获得他的收件箱和发件箱 但还没成功
  67. 如上所示 我还没有很多人的电子邮件收件箱
  68. 说句实话
  69. 这个时候我其实对于将其作为一个项目的可能性
  70. 已经丧失信心了
  71. 我想我总共也就只有四五个人的收件箱
  72. 而总共可能有数百封此类电子邮件
  73. 因此通过四个示例要研究总体数百个
  74. 嫌疑人的模式 几乎是没有可能的
  75. 接下来的视频中 我会介绍我的重要见解
  76. 会使该项目起死回生
  77. 为你提供全新方式 帮助你访问
  78. 嫌疑人的电子邮件收件箱