-
Title:
Downloading Enron Data - Intro to Machine Learning
-
Description:
-
بعد أن قمت بتعريف الشخص المعني، حان الوقت للتعامل
-
الفعلي مع مجموعة البيانات.
-
وهذا هو المسار الذي اتخذته للعثور على مجموعة البيانات.
-
بدأت من Google كعادتي.
-
كان بحثي في Google عن Enron emails.
-
وأول ما يظهر لي هو Enron Email Dataset.
-
وكما ترون، هي مجموعة بيانات مشهورة جدًا.
-
وقد درسها العديد من الأشخاص قبلنا لأغراض كثيرة ومختلفة.
-
كما أن لها صفحة خاصة بها في ويكيبيديا.
-
كما أن هناك مقالًا مشوقًا جدًا عنها أنصحكم بقراءته
-
في مجلة MIT Technology Review حول الاستخدامات العديدة لمجموعة البيانات هذه
-
على مدار السنوات الماضية.
-
ولكن الرابط الأول هو الذي يحتوي على مجموعة البيانات ذاتها.
-
فلنتبع الرابط.
-
الذي سينقلنا إلى صفحة تابعة لقسم علوم الحاسب بجامعة كارنيغي ميلون.
-
وتعطي هذه الصفحة بعض المعلومات العامة حول مجموعة البيانات
-
وإذا مررنا لأسفل قليلاً،
-
نرى هذا الرابط الموجود هنا.
-
وهذا هو الرابط الفعلي لمجموعة البيانات.
-
وأسفل ذلك يوجد القليل من المعلومات الإضافية.
-
وإذا نقرنا فوق هذا، فسيتم تنزيل ملف TGZ.
-
الذي قمت بتنزيله بالفعل هنا، كما ترون.
-
إذا كنتم ستقومون بذلك بمفردكم،
-
فقد استغرق تنزيل مجموعة البيانات بأكملها ما يقرب من نصف الساعة.
-
لذا أنصح ببدء التنزيل
-
وتركه ثم القيام بشيء آخر.
-
وبمجرد حصولكم على مجموعة البيانات، ستحتاجون إلى فك الضغط عنها.
-
لذلك، انقلوها إلى الدليل الذي ترغبون في العمل عليها به
-
ثم يمكنكم تشغيل أمر كهذا.
-
لا يوجد أي ابتكار هنا حيث بحثت عن كيفية فك ضغط ملف .tgz في google
-
ووجدت أمر كهذا.
-
وهذا أيضًا سيستغرق عدة دقائق.
-
وعندما تنتهون من ذلك، ستحصلون على دليل يسمى enron mail.
-
بعدها نغير الدليل إلى maildir.
-
وهذه هي مجموعة البيانات.
-
وهي منظمة في عدد من الأدلة، ينتمي كل واحد منها إلى أحد الأشخاص.
-
وكما ترون يوجد الكثير منها هنا لدرجة أني لا أستطيع ملاءمتها جميعًا على صفحة واحدة.
-
في الواقع، ستجدون أن هناك أكثر من 150 شخصًا في مجموعة البيانات هذه.
-
ويتم تحديد كل دليل من خلال الاسم الأخير
-
والحرف الأول من الاسم الأول للشخص ذي الصلة.
-
إذن، بالبحث من خلال مستوى سطحي للغاية، أرى الاسم Jeff Skilling.
-
لنرى إذا ما كنت أستطيع العثور على Ken Lay.
-
يبدو أنه قد يكون موجود هنا.
-
نعم، ها هو Ken Lay.
-
كما توجد بالطبع مجموعة كاملة من الأشخاص الذين لم أسمع عنهم.
-
تذكروا أن سؤالي هو،
-
كم عدد الأشخاص المعنيين الذين لدي رسائل بريد إلكتروني منهم؟
-
هل لدي عدد كافٍ من الأشخاص المعنيين، وهل لدي رسائل بريدهم الإلكتروني،
-
بحيث أتمكن من البدء في وصف الأنماط الموجودة في تلك الرسائل
-
باستخدام خوارزميات التصنيف الخاضع للإشراف؟
-
وكانت الطريقة التي قمت من خلالها بالإجابة عن هذا السؤال،
-
مجددًا هي استخدام العمل اليدوي بصفة أساسية.
-
فقد أخذت القائمة التي تضم الأشخاص المعنيين
-
وكل ما فعلته هو البحث عن كل اسم موجود بها في هذا الدليل.
-
لنعد إلى تلك القائمة لنتذكر كيف كانت تبدو.
-
يمكنكم رؤية القائمة المضاف إليها تعليقات هنا.
-
وقد تتساءلون عن ماهية هذه الحروف الموجودة قبل كل اسم.
-
هذه ملاحظات كتبتها لنفسي.
-
وهي تخص ما إذا كان لدي صندوق الوارد لكل من هؤلاء الأشخاص.
-
إذن، وجدنا بالفعل Ken Lay وJeff Skilling.
-
ولكن بدأ الأمر يزداد صعوبة.
-
فكما ترون يوجد العديد من الأشخاص الذين كتبت بجوار اسمهم حرف n.
-
وهذا يعني أنه لا يوجد لدي Scott Yeager، على سبيل المثال.
-
فإذا رجعت إلى مجموعة البيانات، لا أرى اسم Yeager فيها.
-
إذن، Scott Yeager هو أحد الأشخاص الذين أرغب بالحصول على صندوق الوارد الخاص بهم.
-
وكنت أود أن أحصل على رسائل بريده الإلكتروني المرسلة والمستلمة، ولكني لا أستطيع ذلك.
-
وكما تبين، ليس لدي صندوق الوارد للبريد الإلكتروني الخاص بالعديد من الأشخاص.
-
سأكون صريحة،
-
عندما وصلت إلى هذه النقطة فقدت حماسي حقًا تجاه احتمالية
-
استخدام هذا كمشروع على الإطلاق.
-
فعلى ما أعتقد أن عدد الأشخاص الذين لدي صندوق الوارد لبريدهم الإلكتروني هو أربعة أو خمسة أشخاص تقريبًا.
-
وبينما قد يحتوى ذلك على بضع مئات من رسائل البريد الإلكتروني أو ما شابه،
-
فلا توجد فرصة حقًا أن أبدأ في وصف الأنماط الخاصة بالأشخاص المعنيين ككل
-
باستخدام أربعة أمثلة لهم.
-
في مقطع الفيديو التالي، أريد أن أعطيكم فكرة رئيسية
-
خطرت لي ومنحت هذا المشروع فرصة ثانية.
-
وهي طريقة مختلفة لمحاولة الوصول إلى صناديق الوارد للبريد الإلكتروني الخاص
-
بالأشخاص المعنيين.