-
Title:
Auditing Uniformity - Data Wranging with MongoDB
-
Description:
-
حسنًا، فلنتحدث عن مقياس جودة البيانات الأخير
-
الذي هو الاتساق. وسنلقي نظرة على التحرير
-
في حقل خاص لتحقيق الاتساق. لذلك إذا كنت تذكر، فإن الاتساق يتعلق
-
بجميع القيم الموجودة في الحقل التي تستخدم نفس
-
وحدات القياس. دعونا نلقِ نظرة على مثال. لذلك هنا
-
سنتعامل مع مجموعة بيانات المدن مرة أخرى. وما
-
،أريد استكشافه هنا هو حقل واحد فقط
-
وهو حقل خط العرض. والآن يتم تعريف حقل خط العرض
-
.في مجموعة البيانات هذه باستخدام اسم حقل محدد
-
لنلقِ نظرة على بعض مهام
-
التحرير التي قد نقوم بها هنا. والآن الطريقة التي
-
نظمت بها هذه التعليمة البرمجية هي الطريقة التي سأعالج بها
-
كل صف من الصفوف ضمن ملف البيانات هذا، ومرة أخرى
-
نستخدم هنا الوحدة النمطية tft في Python. بالنسبة إلى كل
-
صف، سنستدعي هذه الدالة audit_float_field. إذًا، هذا
-
الجزء الخاص من التعليمة البرمجية هو شيء يمكننا استخدامه
-
بالفعل لتحليل أي حقل ينبغي أن يتضمن
-
قيمة نقطة عائمة. وبشكلٍ عام، هذه هي الطريقة
-
التي أفضلها في التفكير بشأن تحرير الحقول في مجموعات البيانات. أحب
-
التفكير في الأشياء بشكلٍ عام التي يمكن أن
-
تحدث بشكلٍ خاطئ في نوع محدد من حقل البيانات. ويسري هذا الأمر
-
على بعض عمليات التحرير لهذا النوع وعندئذٍ إذا أردت
-
ذلك، يمكنني كتابة أساليب تحرير أكثر تحديدًا للتحقق
-
.من القيم. حسنًا، فلنلق نظرة على دالة audit_float_field هذه
-
.هذا هو الموضع الذي يحدث فيه جميع الأعمال الحقيقية هنا
-
وما سأقوم به هو أنني
-
سأتتبع باستمرار عدد القيم الخالية التي أجدها
-
وعدد الحقول الفارغة، إن وجدت، ثم عدد
-
قيم الحقل التي هي صفائف بالفعل. وإذا تذكرت
-
فإن الصفائف تقوم بالترميز باستخدام قوسين معقوصين وأشرطة عمودية
-
لفصل العناصر الفردية للصفائف الموجودة في مجموعة بيانات
-
مربع المعلومات. كما سأتحقق للتأكد من أن
-
القيمة هي رقم بالفعل. فإذا كانت رقمًا، فسأجري عملية تحقق
-
للتأكد من أنها تقع ضمن قيم الحد الأدنى
-
والحد الأقصى، مفهوم؟ إذًا، هذه طريقة للتأكد
-
من أنها تستخدم وحدات القياس التي
-
أتوقعها. وإذا تذكرت قبل ذلك، رأينا
-
مثالاً تم فيه تمثيل مساحة مدينة
-
.باستخدام ملليمترات مربعة على خلاف الكيلومترات المربعة
-
وما سأقوم به في هذا الجزء الخاص من التعليمة البرمجية، هو الترميز الثابت
-
بالفعل في بعض القيم لهذا الحقل الخاص. والآن، ما
-
سأقوم به هنا، إذا لم أكن أستخدم هذا كمثال
-
لهذه الدورة التدريبية، هو أنني سأعامل كل قيمة من هذه القيم بالفعل على أنها
-
معلمات سطر الأوامر التي سأدخلها في هذا البرنامج النصي. هنا
-
سأجري ترميزًا ثابتًا لها. لذلك إذا أردت استخدام
-
ذلك بالفعل لحقل مختلف فما سأقوم به هو
-
تغيير اسم الحقل وتغيير قيم الحد الأدنى والحد الأقصى
-
لاختبار حقل عائم مختلف. Okay. إذًا، بالعودة
-
إلى دالة audit_float_field، مرة أخرى، نقوم بالتحقق من القيم الخالية والقيم الفارغة
-
،والصفائف وأي حقول ليست في الحقيقة رقمًا
-
،بمجرد إنشائها عبر جميع تلك الاختبارات. وأخيرًا
-
إذا انتقلت إلى هنا، فسأحصل على شيء
-
أعتقد أنه رقم. ما سأقوم به هو
-
تحويله بالفعل إلى قيمة نقطة عائمة، نظرًا لأن
-
جميع القيم الواردة هي سلاسل بالفعل، ومن ثم سأتحقق
-
من نطاقها. حسنًا، يقع نطاق خط العرض، الطريقة
-
التي يتعين ترميز هذه البيانات بها، بين سالب 90 وموجب
-
90 ومن الناحية التقنية كان يتعين عليّ جعله على هيئة أقل من
-
.أو يساوي. Okay. فلنقم بذلك ونرَ ماذا يظهر
-
مفهوم؟ لذلك وجدت ثلاثة أشياء ليست أرقام. ويمكنك رؤية ذلك يبدو
-
.مثل قيمة خط عرض مناسبة، تم التعبير عنها بنوع وحدة مختلف وحسب
-
إجمالي عدد المدن، وهذا ما أتوقعه. عدد قليل من القيم الخالية، بالفعل
-
حسنًا، لن نقوم بالكثير بشأن ذلك في هذا المثال الخاص. و
-
عدد قليل تمامًا من الصفائف. إذا أردت تحرير ذلك بالكامل، فسأحتاج
-
إلى إلقاء نظرة على تلك الصفائف ورؤية ما يحدث
-
هناك. وبعدئذٍ سأحتاج إلى التحقق من كل قيمة فردية
-
في تلك الصفائف. ما أهتم به أكثر، في هذا المثال الخاص، هي
-
تلك القيم. توجد الآن عدة طرق مختلفة لتمثيل
-
الإحداثيات الجغرافية. إليك ثلاثة أمثلة حيث بدلاً من
-
وجود قيم الصف لخط العرض وخط الطول، حصلنا
-
بدلاً من ذلك نوع الإحداثيات هذا، الذي هو بالفعل
-
درجات ودقائق وثوانٍ. ومن ثم طريقة مختلفة
-
لترميز نفس المعلومات لخط العرض. إذا قمت بتغيير
-
هذه التعليمة البرمجية بشكلٍ طفيف، فسوف تتوفر لنا فرصة لرؤية
-
.كيف تبدو مجموعة القيم بالفعل
-
حسنًا، يمكنك رؤية أنها كل القيم الواقعة بين سالب 90
-
.وموجب 90 وهناك يمكننا رؤية عدد قليل من القيم السالبة كذلك
-
إذًا، يؤدي التعليق على ذلك إلى تشغيل هذا مرة أخرى. ما الذي يحدث
-
مع هذه القيم؟ حسنًا، يمكن أن يكون ما حدث أن تلك الأرقام
-
،قد تم ترميزها يدويًا باستخدام نظام إحداثيات مختلف
-
وهذا هو السبب الفعلي في أننا كنا نرى هذا الناتج بدلاً من
-
نوع الرقم هذا الذي نتوقعه. إذًا، هذا
-
هو نوع الشيء الذي قد نراه عند التحرير
-
لتحقيق الاتساق. لقد حصلنا على حقل فردي يتضمن
-
نوع بيانات خاصًا، في هذه الحالة، قيم خط العرض
-
لموقع المدن. لكن هناك نظامي إحداثيات
-
مختلفين يتم استخدامهما. يتم تمثيل خط عرض الدرجات العشرية
-
،وخط العرض بالدرجات والدقائق والثواني. والآن
-
بهدف التوضيح التام، جعلتُ
-
.مجموعة البيانات مهملة بتقديم تلك القيم الثلاث
-
لكن هذا هو بالضبط نوع الشيء الذي
-
يمكنك توقع رؤيته فيما يتعلق
-
.بنفس نوع القيمة التي يتم تمثيلها باستخدام وحدات مختلفة