Return to Video

Familiarize Yourself with the Dataset - Data Wranging with MongoDB

  • 0:00 - 0:03
    好的 现在让我们对这个数据集加深一些了解
  • 0:03 - 0:06
    我的意思是 让我们对 OpenStreetMap
  • 0:06 - 0:09
    这个项目本身有个更好的了解
  • 0:09 - 0:12
    同时开始学习我们需要了解的知识
  • 0:12 - 0:15
    以便进行这个案例研究 实际上
  • 0:15 - 0:19
    我打算开始工作 向 OpenStreetMap 提交芝加哥市的搜索结果
  • 0:19 - 0:22
    你将看到我得到了很多不同的结果
  • 0:22 - 0:25
    我感兴趣的是这一个
  • 0:25 - 0:28
    美国伊利诺伊州库克县芝加哥市的边界
  • 0:28 - 0:32
    这基本上就是从 OpenStreetMap 数据集中进行选择
  • 0:32 - 0:34
    只选择与芝加哥市有关的数据
  • 0:34 - 0:37
    所以我将一路点进到这里
  • 0:37 - 0:41
    你可以看到这个轮廓 它确定了芝加哥的边界
  • 0:41 - 0:43
    因此 我需要的数据就是
  • 0:43 - 0:46
    任何落在这里的数据 现在 如果我点击输出 将会发生的情况是
  • 0:46 - 0:50
    我会看到经纬度 它会告诉我
  • 0:50 - 0:53
    这个太大了 无法输出 好的
  • 0:53 - 0:56
    但是之后 如果我向下滚动 可以看到
  • 0:56 - 1:01
    从这个数据集中提取的数据已经准备好了
  • 1:01 - 1:02
    因此我要让它更大一点
  • 1:02 - 1:06
    这是从这个特定的数据集中已经提取好的数据
  • 1:06 - 1:11
    这些是从大都市区提取的数据
  • 1:11 - 1:14
    因此 你可以看到 实际上我以前已经点击了芝加哥的链接
  • 1:14 - 1:16
    我将继续并点击那个链接
  • 1:16 - 1:21
    然后我就能将这个 OSM 数据的压缩版本作为 XML 数据下载
  • 1:21 - 1:23
    因此我点击那个链接
  • 1:23 - 1:26
    它开始下载 完成下载后
  • 1:26 - 1:31
    我们就可以继续然后对它进行检查 好的 数据已经下载了
  • 1:31 - 1:33
    我要去看一下
  • 1:33 - 1:36
    它在我的下载目录里 我已经解压缩了
  • 1:38 - 1:40
    它在这里 好多好多好多的 XML 数据
  • 1:40 - 1:43
    你应该对这个有些眼熟
  • 1:43 - 1:47
    我们之前见过这些节点标签 实际上我们之前从这个数据集中提取了
  • 1:47 - 1:51
    少量数据 好的 我将使用 Shell 命令 LS
  • 1:51 - 1:54
    看到这个数据集的大小了吧
  • 1:54 - 1:57
    你可以看到 它大概有1.8G
  • 1:57 - 2:00
    这是一个庞大的数据集 这意味着为了
  • 2:00 - 2:03
    处理这个数据 我们不能把它读入内存
  • 2:03 - 2:05
    正如你稍后会看到的 我们会使用一个方法
  • 2:05 - 2:09
    用 SAX parser 解析器对它进行解析
  • 2:09 - 2:13
    在之前的课程中我们学过一点
  • 2:13 - 2:15
    在这种情况下 我通常会做的是对数据本身略做探索
  • 2:15 - 2:18
    我或许会写一小段代码 对这里的数据略做解析
  • 2:18 - 2:21
    好让我找到感觉
  • 2:21 - 2:24
    接下来要做的就是阅读足够多的文档
  • 2:24 - 2:28
    以便解答我们遇到的任何问题 或者至少足以让我们有个开始
  • 2:28 - 2:31
    在这里我要做的
  • 2:31 - 2:35
    只是对公开街道地图文档进行查询 看得出来 实际上维基百科上
  • 2:35 - 2:37
    有关于公开街道地图的介绍 因此如果我点进去
  • 2:37 - 2:40
    我会进入维基百科的页面 它会告诉我
  • 2:40 - 2:42
    相当多的有关开放街道地图的信息 现在我要把它放大到
  • 2:42 - 2:45
    相当夸张的程度 这样你可以在你的屏幕上看到它
  • 2:45 - 2:48
    我们向下滚动 你可以看到有很多内容
  • 2:48 - 2:53
    这里有初学者指南、开发人员参考资料以及其它信息
  • 2:53 - 2:56
    比如地图功能之类的东西
  • 2:56 - 2:59
    我之前访问过这个页面 因此我知道
  • 2:59 - 3:03
    那里有对 XML 格式进行介绍的文档
  • 3:03 - 3:06
    这在我们未来的学习中会很有用 这为我们提供了
  • 3:06 - 3:08
    我们将在这个数据集中见到的不同类型标签的例子
  • 3:08 - 3:10
    同时还对它做了一些说明
  • 3:10 - 3:14
    例如 我们从这个文档中可以看到
  • 3:14 - 3:19
    这个数据基本上是三种不同数据基元的实例
  • 3:19 - 3:22
    节点、路和关系数据基元
  • 3:22 - 3:23
    如果我们点进其中的任何一个
  • 3:23 - 3:25
    会获得有关它们的更多信息
  • 3:25 - 3:28
    因此我鼓励大家
  • 3:28 - 3:30
    都来看一下这个文档
  • 3:30 - 3:33
    确保你对节点、路和关系有所了解
  • 3:33 - 3:36
    这样你将为未来的学习打好基础 现在就来看一下这个文档吧
Tytuł:
Familiarize Yourself with the Dataset - Data Wranging with MongoDB
Video Language:
English
Team:
Udacity
Projekt:
UD032: Data Wrangling with MongoDB
Duration:
03:36

Chinese, Simplified subtitles

Revisions Compare revisions