Chinese, Simplified subtitles

← Intro to XML - Data Wranging with MongoDB

Get Embed Code
5 Languages

Showing Revision 1 created 08/22/2016 by Udacity Robot.

  1. 好 我们来深入研究 XML 吧 在我的职业生涯中
  2. 我在多个不同的数据科学项目中都使用了 XML
  3. 其中之一是处理大量研究论文
  4. 举个例子
  5. 这是布林和佩奇还在斯坦福大学读研究生时
  6. 写的关于 Google 的论文 我在该项目中所做的
  7. 就是所谓的引文分析 在引文分析中
  8. 我们要根据论文被多少其它研究论文引用
  9. 来比较这些论文的相对重要性
  10. 例如 你可以将这篇 Google 论文和我的一些著作进行比较
  11. 我的著作被引用的数量非常有限
  12. 相比之下 布林和佩吉的这篇论文被引用了 11000 次
  13. 当我在写自己的著作时
  14. 我所用的数据大多都不是可从公共渠道获得的
  15. 不过如今 相同类型的这些数据已经编码为 XML 可以供公众访问了
  16. 网上有很多公开获取网站 例如 BioMed Central
  17. 这些网站会以印刷格式
  18. 像这样 以及 .xml 格式发布文章 现在
  19. 为了进行引文分析这种工作 我们需要
  20. 访问每篇论文的参考书目
  21. 比如 我要研究的一个例子是
  22. 你的数据被编码为 .xml 格式后 会使得
  23. 拉取该类数据并以编程方式来使用它变得有多容易
  24. 我们来看看这篇论文的参考书目
  25. 这些是本研究论文所引用的全部的其它论文
  26. 现在我们来看看这些论文的 XML 版本
  27. 这里是同一篇论文
  28. 它并不是为能方便阅读而设计的
  29. 而是编码为数据 我们来跳到本论文的参考书目部分
  30. 在这里 参考书目的开头
  31. 如果我再看看这篇论文的印刷版本
  32. 可以看到 事实上
  33. 它确实与我们在这看到的一致 所以
  34. 这种使用 XML 的方式非常贴近 XML 设计者的想法
  35. 你有一些文本很多的文档
  36. 而你想要对文本进行编码
  37. 以便至少其有一部分
  38. 可以以编码方式使用 就像我们
  39. 想要对一篇研究论文的参考书目所做的一样 对于
  40. 作者列表或文档中类似这样的其它数据 也都可以这么做