Return to Video

Auditing Completeness - Data Wranging with MongoDB

  • 0:00 - 0:03
    数据的完整性很难评估
  • 0:03 - 0:06
    正如我朋友 David Silverman 所说
  • 0:06 - 0:08
    你无法知道你不知道的东西
  • 0:08 - 0:11
    我们在这里讨论的不是某条记录缺失某些字段
  • 0:11 - 0:15
    而是缺失整个记录
  • 0:15 - 0:18
    也就是说 我们要试图发现整个记录缺失的情况
  • 0:18 - 0:21
    它的解决方法与处理查准率问题的方法相似
  • 0:21 - 0:26
    也就是说 我们需要参照数据
  • 0:26 - 0:28
    我利用我经常处理的数据
  • 0:28 - 0:31
    来举个例子
  • 0:31 - 0:34
    我是 MongoDB 的教育主任
  • 0:34 - 0:38
    我需要负责我们的考试认证程序
  • 0:38 - 0:41
    我们与其他科技公司的处理方法有所不同
  • 0:41 - 0:45
    因为 我们的认证考试完全是在网上提交的
  • 0:45 - 0:49
    所以 每个测试者除了拥有一个完整的考试记录外
  • 0:49 - 0:51
    在网上提交试卷时
  • 0:51 - 0:54
    我们需要监督他们考试的纪律
  • 0:54 - 0:57
    为此 我们会实行网络监督方案
  • 0:57 - 1:00
    在测试者考试时录下视频
  • 1:00 - 1:04
    我们通过网络摄像头
  • 1:04 - 1:08
    录下测试者的考试过程
  • 1:08 - 1:11
    同时利用屏幕捕捉器
  • 1:11 - 1:13
    捕捉测试者考试时的电脑桌面
  • 1:13 - 1:16
    这就意味着 我们有三份数据
  • 1:16 - 1:18
    它们要在几个方面保持一致
  • 1:18 - 1:21
    这就涉及到完整性的问题
  • 1:21 - 1:25
    它们必须在测试者名单上保持一致
  • 1:25 - 1:27
    也就是说
  • 1:27 - 1:31
    如果任何一个数据库中含有某个测试者的记录
  • 1:31 - 1:34
    那么 其他两个数据库中也必须含有该测试者的记录
  • 1:34 - 1:37
    它们还需要在考试时长上保持一致
  • 1:37 - 1:42
    所以 这里的视频时长应该基本相同
  • 1:42 - 1:45
    它还要符合我们对测试者进行录像的时长
  • 1:45 - 1:49
    当然 这些数据只需在 Epsilon 总数范围内
  • 1:49 - 1:53
    大致保持一致
  • 1:53 - 1:56
    你可能会想 如果某人考试后
  • 1:56 - 1:59
    三个数据库都没有他的记录 怎么办?
  • 1:59 - 2:02
    确实可能有这种情况 我之前说过
  • 2:02 - 2:04
    这个问题很难解决 因为我们无法知道我们不知道的东西
  • 2:04 - 2:07
    在这种情况下 利用我们刚刚讲的方法
  • 2:07 - 2:10
    就无法检测出缺失的考试记录
  • 2:10 - 2:12
    事实上 除此之外
  • 2:12 - 2:15
    我们还会采取其他措施来确保考试记录的完整度
  • 2:15 - 2:18
    这些措施就是为了
  • 2:18 - 2:21
    确保不会发生未捕捉到
  • 2:21 - 2:25
    某测试者考试数据的情况
  • 2:25 - 2:28
    总体来说 对于大多数的数据清理而言
  • 2:28 - 2:32
    审核完整度的方法因具体情况而定
  • 2:32 - 2:36
    它取决于你审核的数据和你可以使用的参考资源
タイトル:
Auditing Completeness - Data Wranging with MongoDB
Video Language:
English
Team:
Udacity
プロジェクト:
UD032: Data Wrangling with MongoDB
Duration:
02:36

Chinese, Simplified subtitles

改訂 Compare revisions