Arabic subtitles

Downloading Enron Data - Intro to Machine Learning

Get Embed Code
4 Languages

Showing Revision 1 created 06/09/2016 by Udacity Robot.

  1. بعد أن قمت بتعريف الشخص المعني، حان الوقت للتعامل
  2. الفعلي مع مجموعة البيانات.
  3. وهذا هو المسار الذي اتخذته للعثور على مجموعة البيانات.
  4. بدأت من Google كعادتي.
  5. كان بحثي في Google عن Enron emails.
  6. وأول ما يظهر لي هو Enron Email Dataset.
  7. وكما ترون، هي مجموعة بيانات مشهورة جدًا.
  8. وقد درسها العديد من الأشخاص قبلنا لأغراض كثيرة ومختلفة.
  9. كما أن لها صفحة خاصة بها في ويكيبيديا.
  10. كما أن هناك مقالًا مشوقًا جدًا عنها أنصحكم بقراءته
  11. في مجلة MIT Technology Review حول الاستخدامات العديدة لمجموعة البيانات هذه
  12. على مدار السنوات الماضية.
  13. ولكن الرابط الأول هو الذي يحتوي على مجموعة البيانات ذاتها.
  14. فلنتبع الرابط.
  15. الذي سينقلنا إلى صفحة تابعة لقسم علوم الحاسب بجامعة كارنيغي ميلون.
  16. وتعطي هذه الصفحة بعض المعلومات العامة حول مجموعة البيانات
  17. وإذا مررنا لأسفل قليلاً،
  18. نرى هذا الرابط الموجود هنا.
  19. وهذا هو الرابط الفعلي لمجموعة البيانات.
  20. وأسفل ذلك يوجد القليل من المعلومات الإضافية.
  21. وإذا نقرنا فوق هذا، فسيتم تنزيل ملف TGZ.
  22. الذي قمت بتنزيله بالفعل هنا، كما ترون.
  23. إذا كنتم ستقومون بذلك بمفردكم،
  24. فقد استغرق تنزيل مجموعة البيانات بأكملها ما يقرب من نصف الساعة.
  25. لذا أنصح ببدء التنزيل
  26. وتركه ثم القيام بشيء آخر.
  27. وبمجرد حصولكم على مجموعة البيانات، ستحتاجون إلى فك الضغط عنها.
  28. لذلك، انقلوها إلى الدليل الذي ترغبون في العمل عليها به
  29. ثم يمكنكم تشغيل أمر كهذا.
  30. لا يوجد أي ابتكار هنا حيث بحثت عن كيفية فك ضغط ملف .tgz في google
  31. ووجدت أمر كهذا.
  32. وهذا أيضًا سيستغرق عدة دقائق.
  33. وعندما تنتهون من ذلك، ستحصلون على دليل يسمى enron mail.
  34. بعدها نغير الدليل إلى maildir.
  35. وهذه هي مجموعة البيانات.
  36. وهي منظمة في عدد من الأدلة، ينتمي كل واحد منها إلى أحد الأشخاص.
  37. وكما ترون يوجد الكثير منها هنا لدرجة أني لا أستطيع ملاءمتها جميعًا على صفحة واحدة.
  38. في الواقع، ستجدون أن هناك أكثر من 150 شخصًا في مجموعة البيانات هذه.
  39. ويتم تحديد كل دليل من خلال الاسم الأخير
  40. والحرف الأول من الاسم الأول للشخص ذي الصلة.
  41. إذن، بالبحث من خلال مستوى سطحي للغاية، أرى الاسم Jeff Skilling.
  42. لنرى إذا ما كنت أستطيع العثور على Ken Lay.
  43. يبدو أنه قد يكون موجود هنا.
  44. نعم، ها هو Ken Lay.
  45. كما توجد بالطبع مجموعة كاملة من الأشخاص الذين لم أسمع عنهم.
  46. تذكروا أن سؤالي هو،
  47. كم عدد الأشخاص المعنيين الذين لدي رسائل بريد إلكتروني منهم؟
  48. هل لدي عدد كافٍ من الأشخاص المعنيين، وهل لدي رسائل بريدهم الإلكتروني،
  49. بحيث أتمكن من البدء في وصف الأنماط الموجودة في تلك الرسائل
  50. باستخدام خوارزميات التصنيف الخاضع للإشراف؟
  51. وكانت الطريقة التي قمت من خلالها بالإجابة عن هذا السؤال،
  52. مجددًا هي استخدام العمل اليدوي بصفة أساسية.
  53. فقد أخذت القائمة التي تضم الأشخاص المعنيين
  54. وكل ما فعلته هو البحث عن كل اسم موجود بها في هذا الدليل.
  55. لنعد إلى تلك القائمة لنتذكر كيف كانت تبدو.
  56. يمكنكم رؤية القائمة المضاف إليها تعليقات هنا.
  57. وقد تتساءلون عن ماهية هذه الحروف الموجودة قبل كل اسم.
  58. هذه ملاحظات كتبتها لنفسي.
  59. وهي تخص ما إذا كان لدي صندوق الوارد لكل من هؤلاء الأشخاص.
  60. إذن، وجدنا بالفعل Ken Lay وJeff Skilling.
  61. ولكن بدأ الأمر يزداد صعوبة.
  62. فكما ترون يوجد العديد من الأشخاص الذين كتبت بجوار اسمهم حرف n.
  63. وهذا يعني أنه لا يوجد لدي Scott Yeager، على سبيل المثال.
  64. فإذا رجعت إلى مجموعة البيانات، لا أرى اسم Yeager فيها.
  65. إذن، Scott Yeager هو أحد الأشخاص الذين أرغب بالحصول على صندوق الوارد الخاص بهم.
  66. وكنت أود أن أحصل على رسائل بريده الإلكتروني المرسلة والمستلمة، ولكني لا أستطيع ذلك.
  67. وكما تبين، ليس لدي صندوق الوارد للبريد الإلكتروني الخاص بالعديد من الأشخاص.
  68. سأكون صريحة،
  69. عندما وصلت إلى هذه النقطة فقدت حماسي حقًا تجاه احتمالية
  70. استخدام هذا كمشروع على الإطلاق.
  71. فعلى ما أعتقد أن عدد الأشخاص الذين لدي صندوق الوارد لبريدهم الإلكتروني هو أربعة أو خمسة أشخاص تقريبًا.
  72. وبينما قد يحتوى ذلك على بضع مئات من رسائل البريد الإلكتروني أو ما شابه،
  73. فلا توجد فرصة حقًا أن أبدأ في وصف الأنماط الخاصة بالأشخاص المعنيين ككل
  74. باستخدام أربعة أمثلة لهم.
  75. في مقطع الفيديو التالي، أريد أن أعطيكم فكرة رئيسية
  76. خطرت لي ومنحت هذا المشروع فرصة ثانية.
  77. وهي طريقة مختلفة لمحاولة الوصول إلى صناديق الوارد للبريد الإلكتروني الخاص
  78. بالأشخاص المعنيين.