Arabic subtitles

Auditing Uniformity - Data Wranging with MongoDB

Get Embed Code
5 Languages

Showing Revision 1 created 06/09/2016 by Udacity Robot.

  1. حسنًا، فلنتحدث عن مقياس جودة البيانات الأخير
  2. الذي هو الاتساق. وسنلقي نظرة على التحرير
  3. في حقل خاص لتحقيق الاتساق. لذلك إذا كنت تذكر، فإن الاتساق يتعلق
  4. بجميع القيم الموجودة في الحقل التي تستخدم نفس
  5. وحدات القياس. دعونا نلقِ نظرة على مثال. لذلك هنا
  6. سنتعامل مع مجموعة بيانات المدن مرة أخرى. وما
  7. ،أريد استكشافه هنا هو حقل واحد فقط
  8. وهو حقل خط العرض. والآن يتم تعريف حقل خط العرض
  9. .في مجموعة البيانات هذه باستخدام اسم حقل محدد
  10. لنلقِ نظرة على بعض مهام
  11. التحرير التي قد نقوم بها هنا. والآن الطريقة التي
  12. نظمت بها هذه التعليمة البرمجية هي الطريقة التي سأعالج بها
  13. كل صف من الصفوف ضمن ملف البيانات هذا، ومرة أخرى
  14. نستخدم هنا الوحدة النمطية tft في Python. بالنسبة إلى كل
  15. صف، سنستدعي هذه الدالة audit_float_field. إذًا، هذا
  16. الجزء الخاص من التعليمة البرمجية هو شيء يمكننا استخدامه
  17. بالفعل لتحليل أي حقل ينبغي أن يتضمن
  18. قيمة نقطة عائمة. وبشكلٍ عام، هذه هي الطريقة
  19. التي أفضلها في التفكير بشأن تحرير الحقول في مجموعات البيانات. أحب
  20. التفكير في الأشياء بشكلٍ عام التي يمكن أن
  21. تحدث بشكلٍ خاطئ في نوع محدد من حقل البيانات. ويسري هذا الأمر
  22. على بعض عمليات التحرير لهذا النوع وعندئذٍ إذا أردت
  23. ذلك، يمكنني كتابة أساليب تحرير أكثر تحديدًا للتحقق
  24. .من القيم. حسنًا، فلنلق نظرة على دالة audit_float_field هذه
  25. .هذا هو الموضع الذي يحدث فيه جميع الأعمال الحقيقية هنا
  26. وما سأقوم به هو أنني
  27. سأتتبع باستمرار عدد القيم الخالية التي أجدها
  28. وعدد الحقول الفارغة، إن وجدت، ثم عدد
  29. قيم الحقل التي هي صفائف بالفعل. وإذا تذكرت
  30. فإن الصفائف تقوم بالترميز باستخدام قوسين معقوصين وأشرطة عمودية
  31. لفصل العناصر الفردية للصفائف الموجودة في مجموعة بيانات
  32. مربع المعلومات. كما سأتحقق للتأكد من أن
  33. القيمة هي رقم بالفعل. فإذا كانت رقمًا، فسأجري عملية تحقق
  34. للتأكد من أنها تقع ضمن قيم الحد الأدنى
  35. والحد الأقصى، مفهوم؟ إذًا، هذه طريقة للتأكد
  36. من أنها تستخدم وحدات القياس التي
  37. أتوقعها. وإذا تذكرت قبل ذلك، رأينا
  38. مثالاً تم فيه تمثيل مساحة مدينة
  39. .باستخدام ملليمترات مربعة على خلاف الكيلومترات المربعة
  40. وما سأقوم به في هذا الجزء الخاص من التعليمة البرمجية، هو الترميز الثابت
  41. بالفعل في بعض القيم لهذا الحقل الخاص. والآن، ما
  42. سأقوم به هنا، إذا لم أكن أستخدم هذا كمثال
  43. لهذه الدورة التدريبية، هو أنني سأعامل كل قيمة من هذه القيم بالفعل على أنها
  44. معلمات سطر الأوامر التي سأدخلها في هذا البرنامج النصي. هنا
  45. سأجري ترميزًا ثابتًا لها. لذلك إذا أردت استخدام
  46. ذلك بالفعل لحقل مختلف فما سأقوم به هو
  47. تغيير اسم الحقل وتغيير قيم الحد الأدنى والحد الأقصى
  48. لاختبار حقل عائم مختلف. Okay. إذًا، بالعودة
  49. إلى دالة audit_float_field، مرة أخرى، نقوم بالتحقق من القيم الخالية والقيم الفارغة
  50. ،والصفائف وأي حقول ليست في الحقيقة رقمًا
  51. ،بمجرد إنشائها عبر جميع تلك الاختبارات. وأخيرًا
  52. إذا انتقلت إلى هنا، فسأحصل على شيء
  53. أعتقد أنه رقم. ما سأقوم به هو
  54. تحويله بالفعل إلى قيمة نقطة عائمة، نظرًا لأن
  55. جميع القيم الواردة هي سلاسل بالفعل، ومن ثم سأتحقق
  56. من نطاقها. حسنًا، يقع نطاق خط العرض، الطريقة
  57. التي يتعين ترميز هذه البيانات بها، بين سالب 90 وموجب
  58. 90 ومن الناحية التقنية كان يتعين عليّ جعله على هيئة أقل من
  59. .أو يساوي. Okay. فلنقم بذلك ونرَ ماذا يظهر
  60. مفهوم؟ لذلك وجدت ثلاثة أشياء ليست أرقام. ويمكنك رؤية ذلك يبدو
  61. .مثل قيمة خط عرض مناسبة، تم التعبير عنها بنوع وحدة مختلف وحسب
  62. إجمالي عدد المدن، وهذا ما أتوقعه. عدد قليل من القيم الخالية، بالفعل
  63. حسنًا، لن نقوم بالكثير بشأن ذلك في هذا المثال الخاص. و
  64. عدد قليل تمامًا من الصفائف. إذا أردت تحرير ذلك بالكامل، فسأحتاج
  65. إلى إلقاء نظرة على تلك الصفائف ورؤية ما يحدث
  66. هناك. وبعدئذٍ سأحتاج إلى التحقق من كل قيمة فردية
  67. في تلك الصفائف. ما أهتم به أكثر، في هذا المثال الخاص، هي
  68. تلك القيم. توجد الآن عدة طرق مختلفة لتمثيل
  69. الإحداثيات الجغرافية. إليك ثلاثة أمثلة حيث بدلاً من
  70. وجود قيم الصف لخط العرض وخط الطول، حصلنا
  71. بدلاً من ذلك نوع الإحداثيات هذا، الذي هو بالفعل
  72. درجات ودقائق وثوانٍ. ومن ثم طريقة مختلفة
  73. لترميز نفس المعلومات لخط العرض. إذا قمت بتغيير
  74. هذه التعليمة البرمجية بشكلٍ طفيف، فسوف تتوفر لنا فرصة لرؤية
  75. .كيف تبدو مجموعة القيم بالفعل
  76. حسنًا، يمكنك رؤية أنها كل القيم الواقعة بين سالب 90
  77. .وموجب 90 وهناك يمكننا رؤية عدد قليل من القيم السالبة كذلك
  78. إذًا، يؤدي التعليق على ذلك إلى تشغيل هذا مرة أخرى. ما الذي يحدث
  79. مع هذه القيم؟ حسنًا، يمكن أن يكون ما حدث أن تلك الأرقام
  80. ،قد تم ترميزها يدويًا باستخدام نظام إحداثيات مختلف
  81. وهذا هو السبب الفعلي في أننا كنا نرى هذا الناتج بدلاً من
  82. نوع الرقم هذا الذي نتوقعه. إذًا، هذا
  83. هو نوع الشيء الذي قد نراه عند التحرير
  84. لتحقيق الاتساق. لقد حصلنا على حقل فردي يتضمن
  85. نوع بيانات خاصًا، في هذه الحالة، قيم خط العرض
  86. لموقع المدن. لكن هناك نظامي إحداثيات
  87. مختلفين يتم استخدامهما. يتم تمثيل خط عرض الدرجات العشرية
  88. ،وخط العرض بالدرجات والدقائق والثواني. والآن
  89. بهدف التوضيح التام، جعلتُ
  90. .مجموعة البيانات مهملة بتقديم تلك القيم الثلاث
  91. لكن هذا هو بالضبط نوع الشيء الذي
  92. يمكنك توقع رؤيته فيما يتعلق
  93. .بنفس نوع القيمة التي يتم تمثيلها باستخدام وحدات مختلفة