Portuguese, Brazilian subtitles

← Downloading Enron Data - Intro to Machine Learning

Get Embed Code
4 Languages

Showing Revision 13 created 06/20/2016 by Udacity Robot.

  1. Agora que defini o que é uma pessoa envolvida, é hora de trabalharmos
  2. com o conjunto de dados.
  3. Este foi o caminho que segui para localizar o conjunto de dados.
  4. Comecei pelo Google, como sempre faço.
  5. Procurei no Google por Enron emails.
  6. A primeira coisa que apareceu foi o conjunto de dados Enron Email Dataset.
  7. Você pode ver que é um conjunto de dados muito famoso.
  8. Várias pessoas já o estudaram antes de nós para muitas finalidades diferentes.
  9. Ele tem sua própria página na Wikipédia.
  10. Ele tem um artigo muito interessante que eu recomendo,
  11. da MIT Technology Review, sobre os diversos usos
  12. deste conjunto de dados ao longo dos anos.
  13. Mas, o primeiro link é o próprio conjunto de dados.
  14. Vamos abrir esse link.
  15. Ele nos leva a uma página do departamento da Carnegie Mellon CS.
  16. Ele nos dá um pequeno histórico sobre o conjunto de dados e,
  17. se rolarmos para baixo,
  18. encontramos este link aqui.
  19. Este é verdadeiro link para o conjunto de dados.
  20. Abaixo disso, temos mais algumas informações.
  21. Se você clicar aqui, um arquivo TGZ será baixado.
  22. Você pode ver aqui que eu já o baixei.
  23. Se você fizer isso por conta própria,
  24. sabia que levei aproximadamente meia hora para baixar todo o conjunto de dados.
  25. Por isso, recomendo que você inicie o download e
  26. vá fazer outra coisa.
  27. Quando o download for concluído, descompacte-o.
  28. Para isso, vá para o diretório em que deseja trabalhar e
  29. execute um comando como este.
  30. Não existe mágica aqui; eu apenas pesquisei no Google como descompactar o .tgz e
  31. encontrei o comando.
  32. Mais uma vez, isso levará alguns minutos.
  33. Quando terminar, você obterá um diretório chamado enron_mail.
  34. Em seguida, CD em maildir.
  35. Aqui está o conjunto de dados.
  36. Ele está organizado em vários diretórios, cada um pertencendo a uma pessoa.
  37. Você pode ver que há tantos que nem consigo mostrá-los em uma única página.
  38. Na verdade, você descobrirá que há mais de 150 pessoas neste conjunto de dados.
  39. Cada uma delas está identificada pelo sobrenome e
  40. pela primeira letra do nome.
  41. Então, olhando superficialmente, consigo encontrar Jeff Skilling.
  42. Vejamos se encontro Ken Lay.
  43. Ele deve estar mais para cima.
  44. Sim. Aqui está Ken Lay.
  45. E, é claro, uma série de pessoas de quem nunca ouvi falar.
  46. E lembre-se de que minha pergunta é:
  47. eu tenho emails de quantas pessoas envolvidas?
  48. Tenho o número suficiente de pessoas e tenho seus emails
  49. para que possa começar a descrever os padrões nesses emails
  50. usando algoritmos de classificação supervisionada?
  51. Mais uma vez, respondi a essa pergunta por meio de
  52. trabalho manual, basicamente.
  53. Peguei minha lista de pessoas envolvidas e
  54. procurei o nome da cada uma delas nesse diretório.
  55. Vamos voltar à lista e rever sua aparência.
  56. Você pode ver a lista anotada aqui.
  57. Talvez você esteja se perguntando o que são essas letras antes de cada um dos nomes.
  58. Elas são anotações que fiz para mim mesma.
  59. Para saber se realmente tenho a caixa de entrada de cada uma dessas pessoas.
  60. Portanto, já achamos Ken Lay e Jeff Skilling.
  61. Mas, depois, começou a ficar um pouco mais difícil.
  62. Então, podemos ver que há muitas pessoas com um N ao lado de seus nomes.
  63. Isso significa que eu não tenho, por exemplo, Scott Yeager.
  64. Se eu analisar o conjunto de dados, não consigo encontrar um Yeager aqui.
  65. Portanto, Scott Yeager é uma pessoa de quem eu adoraria ter a caixa de entrada.
  66. Eu adoraria ter alguns emails enviados e recebidos por ele, mas não tenho.
  67. No final das contas, não tenho as caixas de entrada de email de várias pessoas.
  68. Honestamente,
  69. neste ponto, eu já estava bastante desestimulada em relação à possibilidade de
  70. usar isso como um projeto.
  71. Acho que contei quatro ou cinco pessoas das quais tenho as caixas de entrada.
  72. E, embora isso possa representar centenas de emails ou algo assim,
  73. não existe nenhuma chance de que, com quatro exemplos de pessoas envolvidas, eu
  74. possa começar a descrever padrões de pessoas envolvidas.
  75. No próximo vídeo, falarei sobre uma boa ideia que eu
  76. tive para dar uma segunda chance a este projeto.
  77. Uma maneira diferente de tentar acessar as caixas de entrada de emails
  78. das pessoas envolvidas.