YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Chinese, Simplified subtitles

← Sources of Dirty Data - Data Wranging with MongoDB

Get Embed Code
4 Languages

Showing Revision 4 created 08/02/2016 by Udacity Robot.

  1. 脏数据有很多来源 基本上

  2. 只要人参与进来了 就会产生脏数据
  3. 这有点像我什么时候我的孩子们出现了
  4. 他们就会在厨房把泥巴搞的到处都是
  5. 我们上手我们要用的数据有很多方法
  6. 让我们洗洗手然后开始吧
  7. 好的 我们会遇到用户输入错误问题
  8. 在有些情况下 我们并没有任何数据编码标准
  9. 或者我们有标准 但是没有被很好地执行
  10. 这导致了产生的数据有问题 我们可能
  11. 不得不对同一类条目的不同形式的数据进行整合
  12. 我们可能会遇到旧数据系统遗留
  13. 那时候数据没有被编码
  14. 因为硬盘和内存容量的限制比现在大很多
  15. 随着系统的不断进化 需求改变了 数据也改变了
  16. 我们的一些数据可能丢失了他们的 UID 列
  17. 或者 数据会在格式转换中损失信息
  18. 当然 也会存在程序员的错误
  19. 最后 数据在传输和存储的过程中可能会受到宇宙射线或者
  20. 其他物理现象的损害 不过 这些倒不怪我们