Return to Video

Twitter Data Set - Data Wranging with MongoDB

  • 0:00 - 0:03
    我希望你喜欢这门课程
  • 0:03 - 0:05
    在这节课中 我们要查看推文的集合
  • 0:05 - 0:08
    我要说明一点
  • 0:08 - 0:11
    由于这些推文是很久以前收集的
  • 0:11 - 0:13
    因此 它们无法反映推文消息现在的状态
  • 0:13 - 0:17
    它只能反映过去某段时间的状况
  • 0:17 - 0:21
    我们的推文格式是这样的
  • 0:21 - 0:25
    可以看到 这里有唯一标识符
  • 0:25 - 0:28
    下面有推文的文本内容 然后是实体字段
  • 0:28 - 0:30
    实体字段被分成用户提及次数、 URL 和标签
  • 0:30 - 0:33
    在上节课中 我们查看了一条推文
  • 0:33 - 0:36
    所以 你应对这里的部分内容比较熟悉了
  • 0:36 - 0:40
    用户提及次数、 URL 和标签代表数据类型
  • 0:40 - 0:43
    及其在推文中出现的位置
  • 0:43 - 0:46
    它已经被提取并存储在这些字段中
  • 0:46 - 0:50
    每一条推文都有
  • 0:50 - 0:52
    用户在发推时的相关信息
  • 0:52 - 0:55
    可以看到 我们的推文文件其实包含很多其它字段
  • 0:55 - 0:58
    在这个例子中 我用省略号来代表它们
  • 0:58 - 1:01
    与我们看过的其它数据集一样
  • 1:01 - 1:05
    这类数据代表了
  • 1:05 - 1:08
    你作为数据学家可能会遇到的数据之一
  • 1:08 - 1:11
    很多数据学家都就职于与社交媒体紧密相关的公司
  • 1:11 - 1:15
    雇佣人们分析这种数据的公司数量极多
  • 1:15 - 1:19
    其中 最著名的就包括 Google 、Facebook 和 Twitter
  • 1:19 - 1:22
    现在 想一下 你希望针对推特数据进行那些分析
  • 1:22 - 1:25
    对此类数据的分析
  • 1:25 - 1:29
    往往是为了掌握用户和网络的行为
  • 1:29 - 1:31
    实现这一目的方法有很多
  • 1:31 - 1:35
    把我们的数据放在一个数据库中的最大优点是
  • 1:35 - 1:39
    很多数据库都有内置的分析工具
  • 1:39 - 1:41
    这使我们能够探索并了解数据
  • 1:41 - 1:45
    在 MongoDB 中 内置分析工具
  • 1:45 - 1:47
    是以聚合框架的形式出现的
  • 1:48 - 1:50
    虽然在大多数情况下 它无法代替 MapReduce
  • 1:50 - 1:53
    但它的确能为我们探索数据提供强大的工具
  • 1:53 - 1:57
    无论是审核数据的质量
  • 1:57 - 2:00
    还是进行其它类型的数据分析
  • 2:00 - 2:03
    MongoDB 每一次发布主要版本
  • 2:03 - 2:06
    都会具备更强大的功能
  • 2:06 - 2:08
    2.6 版就拥有几个非常有价值的强化功能
Tytuł:
Twitter Data Set - Data Wranging with MongoDB
Video Language:
English
Team:
Udacity
Projekt:
UD032: Data Wrangling with MongoDB
Duration:
02:08

Chinese, Simplified subtitles

Revisions