Chinese, Simplified subtitles

← Procedure - Data Wranging with MongoDB - YouTube

Get Embed Code
4 Languages

Showing Revision 1 created 08/22/2016 by Udacity Robot.

  1. 那么我们来谈谈我们的程序 我们首先要做的是
  2. 创建一个所有承运人值的列表 这个可以手动完成
  3. 可能比研究 HTML 的方法还更简单些
  4. 然后我们需要创建一个机场值的列表
  5. 现在这里有很多值
  6. 我们可能需要做的是编写一个小脚本
  7. 该脚本可以把它们提取出来
  8. 好的 所有页面都将具有这两者的相同列表
  9. 我们可以用浏览器来下载一个示例页面
  10. 从中提取这些值 接下来 我们需要
  11. 发出 HTTP 请求以下载所有数据 我稍后要谈一下
  12. 为什么我们想要立刻下载这些数据
  13. 然后我们要解析数据文件 我们想要这样做的原因是
  14. 在创建解析器时
  15. 我们想要确保使用不会改变的数据
  16. 事后 一旦我们进行一些数据清理
  17. 就可以发现我们之所以会得到一些废数据
  18. 是因为解析器中有一个 bug
  19. 如果我们依然拥有用于解析的原始数据 要找出 bug 的位置会容易很多
  20. 我还要指出
  21. 当我们弄清如何解析的时候 一次次重复下载数据真的毫无意义
  22. 你可能需要牢记的是
  23. 对于当年之前的年度 数据不会改变
  24. 所以没有理由多次去检索
  25. 这确实是一种最佳实践 如果你遇到类似这样的情况
  26. 且当你有一个抓取任务时
  27. 通常都会是类似这样的情况 你真的想要
  28. 首先抓取需要的所有数据 然后通过单独的程序
  29. 进行抓取 因此 对于这个问题
  30. 我们的解决方法基本上分三步 首先需要创建用来发出 HTTP 请求时
  31. 将用到的所有值 然后需要
  32. 发出所有 HTTP 请求 并下载所需的数据
  33. 最后 我们要解析这些数据文件中需要的数据
  34. 将其打造为特定的数据块
  35. 即我们想要使用的具体项目