YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Chinese, Simplified subtitles

← Iterative Sax XML Parsing - Data Wranging with MongoDB

Get Embed Code
4 Languages

Showing Revision 1 created 08/24/2016 by Udacity Robot.

  1. 好的 让我们来做个练习 你们在本练习中的任务是
  2. 查看芝加哥 OSM 数据集 找到这个数据集中所有的顶层标签
  3. 我们所说的顶层标签 基本上就是
  4. 你将在这个数据集中看到的所有
  5. 不同类型的标签 OSM、边界、节点、标签等等
  6. 我想让大家做的是
  7. 遍历此数据集并创建一个字典
  8. 这样每次你看到一个标签时
  9. 如果那个标签不在你的字典中 你可以添加它
  10. 最后 你的字典中应该填入
  11. 本数据集中包含的所有不同类型的标签
  12. 这里的挑战在于
  13. 这个文件非常大 如果我们看看它的大小
  14. 就在不久前我刚看过
  15. 我们会看到它接近 2G
  16. 我们在本课中已经讨论了两种不同类型的 XML 解析
  17. 一个是树型解析 在这种解析中 我们把
  18. 整个文件读入内存 然后把它当成树结构上的节点来处理
  19. 我们讨论的另一种解析 XML 的方式
  20. 是使用一个 SAX 解析器或
  21. 进行迭代解析 实际上在第三课中 我们已经学习了对元素树
  22. 进行迭代解析的方法 这就是我们要在这里做的事情
  23. 因此我们要对迭代解析做的是
  24. 一次解析一个标签
  25. 而不是把整个文件读进内存
  26. 因此 基本上大家在这里要做的就是
  27. 每次看到一个标签时都把它作为一个事件加以处理
  28. 对于这些事件 我们要做的是
  29. 从我们的字典中进行检查
  30. 看看我们以前是否见过某个特定的标签 我不是指这个标签
  31. 我指的是带这个名称的标签 边界、节点、标签等等
  32. 如果你以前没见过它 就在字典中创建一个新键
  33. 等你完成对这个文件的解析时
  34. 你将得到所有这些独特的标签名称 祝你好运!