There are lots of sources of dirty data. Basically, anytime
humans are involved, there's going to be dirty data. This
is a lot like any time my kids are involved,
there's going to be mud tracked through the kitchen. There
are lots of ways in which we touch data we
work with. Let me get some hand sanitizer and then
we'll get started. So, we're going to have user entry errors.
In some situations, we won't have any data coding standards,
or where we do have standards they'll be poorly
applied, causing problems in the resulting data. We might
have to integrate data where different schemas have been
used for the same type of item. We'll have
legacy data systems, where data wasn't coded when disc
and memory constraints were much more restrictive than they
are now. Over time systems evolve. Needs change, and
data changes. Some of our data won't have the unique
identifiers it should. Other data will be lost in transformation from one
format to another. And then of course there's always programmer error. And
finally, data might have been corrupted in transmission or storage by cosmic
rays or other physical phenomenon. So hey, one that's not our fault.
يوجد العديد من مصادر البيانات المهملة. بشكلٍ أساسي، في أي وقت
يتدخل فيه البشر، ستكون هناك بيانات مهملة. هذا
،أشبه كثيرًا بأي وقت يتدخل فيه أطفالي
سيكون هناك طين يمكنك تتبع آثاره في أرجاء المطبخ. هناك
عدة طرق نتعامل من خلالها مع البيانات
التي نستخدمها. اسمح لي بالحصول على منظف يدوي ثم
.سنبدأ. حسنًا، سنحصل على أخطاء إدخال المستخدم
،في بعض المواقف، لن يكون لدينا أي معايير لترميز البيانات
حيث تكون لدينا معايير سيتم تطبيقها
على نحوٍ رديء، ما ينتج عنه مشكلات في البيانات الناتجة. ربما يتعيّن
علينا دمج البيانات التي تم فيها استخدام مخططات مختلفة
لنوع العنصر نفسه. سيوجد لدينا
أنظمة بيانات قديمة، لم يتم فيها ترميز البيانات عندما كانت القيود المفروضة
على القرص والذاكرة أكثر تقييدًا منها
الآن. تتطور الأنظمة بمرور الوقت. تحتاج إلى تغيير كما أن
البيانات تتغير. لن تتضمن بعض البيانات
المعرفات الفريدة التي ينبغي أن تتضمنها. ستُفقد بيانات أخرى في التحويل من
تنسيق إلى آخر. وبالطبع ستوجد دومًا أخطاء المبرمج. وأخيرًا
ربما تعرضت البيانات أثناء التحويل أو التخزين للتلف بواسطة ،
.أشعة كونية أو أي ظاهرة طبيعية أخرى. إذًا، هذا الخطأ ليس بسببنا
Há várias fontes de dados brutos. Basicamente, sempre que houver
humanos envolvidos, haverá dados brutos. É
como quando meus filhos estão envolvidos:
tem muita bagunça na cozinha. Há
muitas maneiras de lidar com os dados com os quais
trabalhamos. Vou limpar as mãos e
vamos começar. Vamos ver os erros de entrada do usuário.
Em algumas situações, não teremos padrões de codificação de dados,
ou se tivermos, eles serão mal aplicados,
causando problemas nos dados resultantes. Talvez
seja necessário integrar dados onde diferentes esquemas foram
usados para o mesmo tipo de item. Teremos
sistemas de dados legados, onde os dados não são codificados quando as restrições
de disco e memória são mais rigorosas do que
agora. Os sistemas evoluem com o tempo. Precisam de modificações e
alterações nos dados. Alguns de nossos dados não têm os identificadores
exclusivos que deveriam. Outros serão perdidos na transformação de um
formato em outro. E depois, claro, há sempre o erro do programador. E
para finalizar, os dados podem ser corrompidos na transmissão ou armazenamento por
raios ou outro fenômeno físico. Então veja, não é culpa nossa.
脏数据有很多来源 基本上
只要人参与进来了 就会产生脏数据
这有点像我什么时候我的孩子们出现了
他们就会在厨房把泥巴搞的到处都是
我们上手我们要用的数据有很多方法
让我们洗洗手然后开始吧
好的 我们会遇到用户输入错误问题
在有些情况下 我们并没有任何数据编码标准
或者我们有标准 但是没有被很好地执行
这导致了产生的数据有问题 我们可能
不得不对同一类条目的不同形式的数据进行整合
我们可能会遇到旧数据系统遗留
那时候数据没有被编码
因为硬盘和内存容量的限制比现在大很多
随着系统的不断进化 需求改变了 数据也改变了
我们的一些数据可能丢失了他们的 UID 列
或者 数据会在格式转换中损失信息
当然 也会存在程序员的错误
最后 数据在传输和存储的过程中可能会受到宇宙射线或者
其他物理现象的损害 不过 这些倒不怪我们