Now that I've defined a person of interest it's time to get our
hands dirty with the dataset.
So here's the path that I followed to find the dataset.
I started on Google as I always do.
My Google for Enron emails.
The first thing that pops up is the Enron Email Dataset.
You can see that it's a dataset that's, that's very famous.
Many have gone before us in studying this for many different purposes.
It has it's own Wikipedia page.
It has a really interesting article that I recommend you
read from the MIT Technology Review about the many uses of
this dataset throughout the years.
But the first link is the dataset itself.
Let's follow that link.
This takes us to a page from the Carnegie Mellon CS department.
It gives a little bit of background on the dataset and
if we scroll down a little ways.
We see this link right here.
This is the actual link to the dataset.
Below that is a little bit more information.
If you click on this it's going to download a TGZ file.
Which you can see I've already downloaded down here.
If you do this on your own.
It took me nearly half an hour to download the whole dataset.
So I recommend that you start the download and
then walk away to do something else.
Once you have the data set you'll need to unzip it.
So move it into the directory where you want to work and
then you can run a command like this.
There's no real magic here I just googled how to unzip .tgz and
found a command like this.
Again this will take a few minutes.
When you're done with that you'll get a directory called enron mail.
And then CD into maildir.
Here's the data set.
It's organized into a number of directories, each of which belongs to a person.
You see that there's so many here I can't even fit them all on one page.
In fact, you'll find that there's over 150 people in this dataset.
Each on is identified by their last name and
the first letter of their first name.
So, looking through on a very superficial level, I see Jeff Skilling.
Let's see if I can find Ken Lay.
Looks like he might be up here.
Yep, there's Ken Lay.
Of course, a whole bunch of people I've never heard of.
And remember, my question is,
how many of the persons of interest do I have emails from?
Do I have enough persons of interest, do I have their emails,
that I could start describing the patterns in those emails,
using supervised classification algorithms?
And so the way that I answered this question was,
again, using some work by hand basically.
I took my list of persons of interest and for
each person on that list I just looked for their name in this directory.
Let's go back to that, remind ourselves what it looked like.
You can see the annotated list here.
You might have been wondering what these letters were before each of the names.
These are my notes that I wrote to myself.
As to whether I actually have the inbox of each of each of these people.
So Ken Lay and Jeff Skilling we already found.
But then it started to become a little more difficult.
So you can see there are many, many people than I have n's next to their name.
And that means no I don't have, for example, Scott Yeager.
If I go over to the dataset, I don't see a Yeager down here.
So Scott Yeager is a person who I'd love to have his inbox.
I'd love to have some emails to in and from him, but I don't.
As it turns out, I don't have the email inboxes of a lot of people.
So I'll be honest,
at this point I was actually really just discouraged about the possibility of
using this as a project at all.
I think I counted something like four or five people that I had their inboxes.
And while that might be a few hundred emails or something like that.
There's really no chance that with four examples of persons of interest I
could start to describe the patterns of persons of interest as a whole.
In the next video, though, I want to give you a key insight that I
had that gave this project a second chance.
A different way of trying to access the email inboxes of
the persons of interest.
بعد أن قمت بتعريف الشخص المعني، حان الوقت للتعامل
الفعلي مع مجموعة البيانات.
وهذا هو المسار الذي اتخذته للعثور على مجموعة البيانات.
بدأت من Google كعادتي.
كان بحثي في Google عن Enron emails.
وأول ما يظهر لي هو Enron Email Dataset.
وكما ترون، هي مجموعة بيانات مشهورة جدًا.
وقد درسها العديد من الأشخاص قبلنا لأغراض كثيرة ومختلفة.
كما أن لها صفحة خاصة بها في ويكيبيديا.
كما أن هناك مقالًا مشوقًا جدًا عنها أنصحكم بقراءته
في مجلة MIT Technology Review حول الاستخدامات العديدة لمجموعة البيانات هذه
على مدار السنوات الماضية.
ولكن الرابط الأول هو الذي يحتوي على مجموعة البيانات ذاتها.
فلنتبع الرابط.
الذي سينقلنا إلى صفحة تابعة لقسم علوم الحاسب بجامعة كارنيغي ميلون.
وتعطي هذه الصفحة بعض المعلومات العامة حول مجموعة البيانات
وإذا مررنا لأسفل قليلاً،
نرى هذا الرابط الموجود هنا.
وهذا هو الرابط الفعلي لمجموعة البيانات.
وأسفل ذلك يوجد القليل من المعلومات الإضافية.
وإذا نقرنا فوق هذا، فسيتم تنزيل ملف TGZ.
الذي قمت بتنزيله بالفعل هنا، كما ترون.
إذا كنتم ستقومون بذلك بمفردكم،
فقد استغرق تنزيل مجموعة البيانات بأكملها ما يقرب من نصف الساعة.
لذا أنصح ببدء التنزيل
وتركه ثم القيام بشيء آخر.
وبمجرد حصولكم على مجموعة البيانات، ستحتاجون إلى فك الضغط عنها.
لذلك، انقلوها إلى الدليل الذي ترغبون في العمل عليها به
ثم يمكنكم تشغيل أمر كهذا.
لا يوجد أي ابتكار هنا حيث بحثت عن كيفية فك ضغط ملف .tgz في google
ووجدت أمر كهذا.
وهذا أيضًا سيستغرق عدة دقائق.
وعندما تنتهون من ذلك، ستحصلون على دليل يسمى enron mail.
بعدها نغير الدليل إلى maildir.
وهذه هي مجموعة البيانات.
وهي منظمة في عدد من الأدلة، ينتمي كل واحد منها إلى أحد الأشخاص.
وكما ترون يوجد الكثير منها هنا لدرجة أني لا أستطيع ملاءمتها جميعًا على صفحة واحدة.
في الواقع، ستجدون أن هناك أكثر من 150 شخصًا في مجموعة البيانات هذه.
ويتم تحديد كل دليل من خلال الاسم الأخير
والحرف الأول من الاسم الأول للشخص ذي الصلة.
إذن، بالبحث من خلال مستوى سطحي للغاية، أرى الاسم Jeff Skilling.
لنرى إذا ما كنت أستطيع العثور على Ken Lay.
يبدو أنه قد يكون موجود هنا.
نعم، ها هو Ken Lay.
كما توجد بالطبع مجموعة كاملة من الأشخاص الذين لم أسمع عنهم.
تذكروا أن سؤالي هو،
كم عدد الأشخاص المعنيين الذين لدي رسائل بريد إلكتروني منهم؟
هل لدي عدد كافٍ من الأشخاص المعنيين، وهل لدي رسائل بريدهم الإلكتروني،
بحيث أتمكن من البدء في وصف الأنماط الموجودة في تلك الرسائل
باستخدام خوارزميات التصنيف الخاضع للإشراف؟
وكانت الطريقة التي قمت من خلالها بالإجابة عن هذا السؤال،
مجددًا هي استخدام العمل اليدوي بصفة أساسية.
فقد أخذت القائمة التي تضم الأشخاص المعنيين
وكل ما فعلته هو البحث عن كل اسم موجود بها في هذا الدليل.
لنعد إلى تلك القائمة لنتذكر كيف كانت تبدو.
يمكنكم رؤية القائمة المضاف إليها تعليقات هنا.
وقد تتساءلون عن ماهية هذه الحروف الموجودة قبل كل اسم.
هذه ملاحظات كتبتها لنفسي.
وهي تخص ما إذا كان لدي صندوق الوارد لكل من هؤلاء الأشخاص.
إذن، وجدنا بالفعل Ken Lay وJeff Skilling.
ولكن بدأ الأمر يزداد صعوبة.
فكما ترون يوجد العديد من الأشخاص الذين كتبت بجوار اسمهم حرف n.
وهذا يعني أنه لا يوجد لدي Scott Yeager، على سبيل المثال.
فإذا رجعت إلى مجموعة البيانات، لا أرى اسم Yeager فيها.
إذن، Scott Yeager هو أحد الأشخاص الذين أرغب بالحصول على صندوق الوارد الخاص بهم.
وكنت أود أن أحصل على رسائل بريده الإلكتروني المرسلة والمستلمة، ولكني لا أستطيع ذلك.
وكما تبين، ليس لدي صندوق الوارد للبريد الإلكتروني الخاص بالعديد من الأشخاص.
سأكون صريحة،
عندما وصلت إلى هذه النقطة فقدت حماسي حقًا تجاه احتمالية
استخدام هذا كمشروع على الإطلاق.
فعلى ما أعتقد أن عدد الأشخاص الذين لدي صندوق الوارد لبريدهم الإلكتروني هو أربعة أو خمسة أشخاص تقريبًا.
وبينما قد يحتوى ذلك على بضع مئات من رسائل البريد الإلكتروني أو ما شابه،
فلا توجد فرصة حقًا أن أبدأ في وصف الأنماط الخاصة بالأشخاص المعنيين ككل
باستخدام أربعة أمثلة لهم.
في مقطع الفيديو التالي، أريد أن أعطيكم فكرة رئيسية
خطرت لي ومنحت هذا المشروع فرصة ثانية.
وهي طريقة مختلفة لمحاولة الوصول إلى صناديق الوارد للبريد الإلكتروني الخاص
بالأشخاص المعنيين.
Agora que defini o que é uma pessoa envolvida, é hora de trabalharmos
com o conjunto de dados.
Este foi o caminho que segui para localizar o conjunto de dados.
Comecei pelo Google, como sempre faço.
Procurei no Google por Enron emails.
A primeira coisa que apareceu foi o conjunto de dados Enron Email Dataset.
Você pode ver que é um conjunto de dados muito famoso.
Várias pessoas já o estudaram antes de nós para muitas finalidades diferentes.
Ele tem sua própria página na Wikipédia.
Ele tem um artigo muito interessante que eu recomendo,
da MIT Technology Review, sobre os diversos usos
deste conjunto de dados ao longo dos anos.
Mas, o primeiro link é o próprio conjunto de dados.
Vamos abrir esse link.
Ele nos leva a uma página do departamento da Carnegie Mellon CS.
Ele nos dá um pequeno histórico sobre o conjunto de dados e,
se rolarmos para baixo,
encontramos este link aqui.
Este é verdadeiro link para o conjunto de dados.
Abaixo disso, temos mais algumas informações.
Se você clicar aqui, um arquivo TGZ será baixado.
Você pode ver aqui que eu já o baixei.
Se você fizer isso por conta própria,
sabia que levei aproximadamente meia hora para baixar todo o conjunto de dados.
Por isso, recomendo que você inicie o download e
vá fazer outra coisa.
Quando o download for concluído, descompacte-o.
Para isso, vá para o diretório em que deseja trabalhar e
execute um comando como este.
Não existe mágica aqui; eu apenas pesquisei no Google como descompactar o .tgz e
encontrei o comando.
Mais uma vez, isso levará alguns minutos.
Quando terminar, você obterá um diretório chamado enron_mail.
Em seguida, CD em maildir.
Aqui está o conjunto de dados.
Ele está organizado em vários diretórios, cada um pertencendo a uma pessoa.
Você pode ver que há tantos que nem consigo mostrá-los em uma única página.
Na verdade, você descobrirá que há mais de 150 pessoas neste conjunto de dados.
Cada uma delas está identificada pelo sobrenome e
pela primeira letra do nome.
Então, olhando superficialmente, consigo encontrar Jeff Skilling.
Vejamos se encontro Ken Lay.
Ele deve estar mais para cima.
Sim. Aqui está Ken Lay.
E, é claro, uma série de pessoas de quem nunca ouvi falar.
E lembre-se de que minha pergunta é:
eu tenho emails de quantas pessoas envolvidas?
Tenho o número suficiente de pessoas e tenho seus emails
para que possa começar a descrever os padrões nesses emails
usando algoritmos de classificação supervisionada?
Mais uma vez, respondi a essa pergunta por meio de
trabalho manual, basicamente.
Peguei minha lista de pessoas envolvidas e
procurei o nome da cada uma delas nesse diretório.
Vamos voltar à lista e rever sua aparência.
Você pode ver a lista anotada aqui.
Talvez você esteja se perguntando o que são essas letras antes de cada um dos nomes.
Elas são anotações que fiz para mim mesma.
Para saber se realmente tenho a caixa de entrada de cada uma dessas pessoas.
Portanto, já achamos Ken Lay e Jeff Skilling.
Mas, depois, começou a ficar um pouco mais difícil.
Então, podemos ver que há muitas pessoas com um N ao lado de seus nomes.
Isso significa que eu não tenho, por exemplo, Scott Yeager.
Se eu analisar o conjunto de dados, não consigo encontrar um Yeager aqui.
Portanto, Scott Yeager é uma pessoa de quem eu adoraria ter a caixa de entrada.
Eu adoraria ter alguns emails enviados e recebidos por ele, mas não tenho.
No final das contas, não tenho as caixas de entrada de email de várias pessoas.
Honestamente,
neste ponto, eu já estava bastante desestimulada em relação à possibilidade de
usar isso como um projeto.
Acho que contei quatro ou cinco pessoas das quais tenho as caixas de entrada.
E, embora isso possa representar centenas de emails ou algo assim,
não existe nenhuma chance de que, com quatro exemplos de pessoas envolvidas, eu
possa começar a descrever padrões de pessoas envolvidas.
No próximo vídeo, falarei sobre uma boa ideia que eu
tive para dar uma segunda chance a este projeto.
Uma maneira diferente de tentar acessar as caixas de entrada de emails
das pessoas envolvidas.
现在我已经定义了嫌疑人 是时候
亲自处理数据集了
我依照此途径查找该数据集
如以往一样 我从 Google 着手
使用 Google 搜索安然电子邮件
第一个弹出的窗口是安然电子邮件数据集
你可以看到 这是一个非常有名的数据集
在我们此之前 许多人已经出于各种不同目的研究过该数据集
它拥有自己的 Wikipedia 页面
我建议你从 MIT Technology Review 阅读
一篇与其相关的有趣的文章 该文章介绍了
多年来该数据集的大量使用信息
但第一个链接是数据集本身
我们进入该链接
点击该链接后 我们会进入卡内基梅隆大学 CS 系
它会提供数据集的些许背景知识
如果稍微向下滚动
我们就会在此处看到该链接
这才是该数据集真正的链接
链接下面还有些许信息
如果你点击该链接 则会下载 TGZ 文件
如你所见 我已将其下载到此处
我花了将近半个小时的时间下载整个数据集
所以如果你是独自执行该操作
那么我建议你开始下载 然后
可以放在一边 忙其他的事
获得数据集之后 你需要解压缩
将其移至你要使用的目录
然后运行该命令
其实并没有什么奇怪的 我只是在 Google 上搜索了如何解压缩 .tgz 文件
并发现了该命令
这个过程也会耗时数分钟
完成解压缩后 你会获得一个名为 enron mail 的目录
然后输入 CD 命令 转到该目录
此为数据集
该数据集组织包含大量目录 每个目录都属于一个人
你也看到目录太多 我甚至无法在一个页面中全部显示出来
其实 你会发现该数据集有 150 多个人
每个人的身份都是通过姓和
名字的首字母表示
粗略看看 我看到了 Jeff Skilling
我们看看是否能找到 Ken Lay
他好像也在这上面
找到了 这就是 Ken Lay
当然 还有大批我从未听说过的人
注意 我的问题是
我有多少个嫌疑人的电子邮件
我是否拥有足够的嫌疑人 我是否拥有他们的电子邮件
以便开始使用监督分类算法
描述这些电子邮件中的模式
我是这样回答这个问题的:
还是基本上手动执行某些工作
我利用嫌疑人列表
并从该目录中查找列表中每个人的姓名
我们回想一下 想想具体情况是什么样的
你可以在此处看到有注解的列表
你可能会疑惑 姓名前的这些字母代表什么意思
这些是我供自己使用的笔记
至于我是否拥有每个嫌疑人的收件箱
目前我们已经找到 Ken Lay 和 Jeff Skilling 的收件箱
但然后就开始变得困难了
因此你发现有待处理的人远多于于姓名前有 n 的个人
这表示我还没有很多人的收件箱 比如 Scott Yeager
重新回顾数据集后 我在这里没有看到 Yeager
因此我很希望能够得到 Scott Yeager 的收件箱
我希望获得他的收件箱和发件箱 但还没成功
如上所示 我还没有很多人的电子邮件收件箱
说句实话
这个时候我其实对于将其作为一个项目的可能性
已经丧失信心了
我想我总共也就只有四五个人的收件箱
而总共可能有数百封此类电子邮件
因此通过四个示例要研究总体数百个
嫌疑人的模式 几乎是没有可能的
接下来的视频中 我会介绍我的重要见解
会使该项目起死回生
为你提供全新方式 帮助你访问
嫌疑人的电子邮件收件箱