-
Title:
Downloading Enron Data - Intro to Machine Learning
-
Description:
-
Agora que defini o que é uma pessoa envolvida, é hora de trabalharmos
-
com o conjunto de dados.
-
Este foi o caminho que segui para localizar o conjunto de dados.
-
Comecei pelo Google, como sempre faço.
-
Procurei no Google por Enron emails.
-
A primeira coisa que apareceu foi o conjunto de dados Enron Email Dataset.
-
Você pode ver que é um conjunto de dados muito famoso.
-
Várias pessoas já o estudaram antes de nós para muitas finalidades diferentes.
-
Ele tem sua própria página na Wikipédia.
-
Ele tem um artigo muito interessante que eu recomendo,
-
da MIT Technology Review, sobre os diversos usos
-
deste conjunto de dados ao longo dos anos.
-
Mas, o primeiro link é o próprio conjunto de dados.
-
Vamos abrir esse link.
-
Ele nos leva a uma página do departamento da Carnegie Mellon CS.
-
Ele nos dá um pequeno histórico sobre o conjunto de dados e,
-
se rolarmos para baixo,
-
encontramos este link aqui.
-
Este é verdadeiro link para o conjunto de dados.
-
Abaixo disso, temos mais algumas informações.
-
Se você clicar aqui, um arquivo TGZ será baixado.
-
Você pode ver aqui que eu já o baixei.
-
Se você fizer isso por conta própria,
-
sabia que levei aproximadamente meia hora para baixar todo o conjunto de dados.
-
Por isso, recomendo que você inicie o download e
-
vá fazer outra coisa.
-
Quando o download for concluído, descompacte-o.
-
Para isso, vá para o diretório em que deseja trabalhar e
-
execute um comando como este.
-
Não existe mágica aqui; eu apenas pesquisei no Google como descompactar o .tgz e
-
encontrei o comando.
-
Mais uma vez, isso levará alguns minutos.
-
Quando terminar, você obterá um diretório chamado enron_mail.
-
Em seguida, CD em maildir.
-
Aqui está o conjunto de dados.
-
Ele está organizado em vários diretórios, cada um pertencendo a uma pessoa.
-
Você pode ver que há tantos que nem consigo mostrá-los em uma única página.
-
Na verdade, você descobrirá que há mais de 150 pessoas neste conjunto de dados.
-
Cada uma delas está identificada pelo sobrenome e
-
pela primeira letra do nome.
-
Então, olhando superficialmente, consigo encontrar Jeff Skilling.
-
Vejamos se encontro Ken Lay.
-
Ele deve estar mais para cima.
-
Sim. Aqui está Ken Lay.
-
E, é claro, uma série de pessoas de quem nunca ouvi falar.
-
E lembre-se de que minha pergunta é:
-
eu tenho emails de quantas pessoas envolvidas?
-
Tenho o número suficiente de pessoas e tenho seus emails
-
para que possa começar a descrever os padrões nesses emails
-
usando algoritmos de classificação supervisionada?
-
Mais uma vez, respondi a essa pergunta por meio de
-
trabalho manual, basicamente.
-
Peguei minha lista de pessoas envolvidas e
-
procurei o nome da cada uma delas nesse diretório.
-
Vamos voltar à lista e rever sua aparência.
-
Você pode ver a lista anotada aqui.
-
Talvez você esteja se perguntando o que são essas letras antes de cada um dos nomes.
-
Elas são anotações que fiz para mim mesma.
-
Para saber se realmente tenho a caixa de entrada de cada uma dessas pessoas.
-
Portanto, já achamos Ken Lay e Jeff Skilling.
-
Mas, depois, começou a ficar um pouco mais difícil.
-
Então, podemos ver que há muitas pessoas com um N ao lado de seus nomes.
-
Isso significa que eu não tenho, por exemplo, Scott Yeager.
-
Se eu analisar o conjunto de dados, não consigo encontrar um Yeager aqui.
-
Portanto, Scott Yeager é uma pessoa de quem eu adoraria ter a caixa de entrada.
-
Eu adoraria ter alguns emails enviados e recebidos por ele, mas não tenho.
-
No final das contas, não tenho as caixas de entrada de email de várias pessoas.
-
Honestamente,
-
neste ponto, eu já estava bastante desestimulada em relação à possibilidade de
-
usar isso como um projeto.
-
Acho que contei quatro ou cinco pessoas das quais tenho as caixas de entrada.
-
E, embora isso possa representar centenas de emails ou algo assim,
-
não existe nenhuma chance de que, com quatro exemplos de pessoas envolvidas, eu
-
possa começar a descrever padrões de pessoas envolvidas.
-
No próximo vídeo, falarei sobre uma boa ideia que eu
-
tive para dar uma segunda chance a este projeto.
-
Uma maneira diferente de tentar acessar as caixas de entrada de emails
-
das pessoas envolvidas.