Portuguese, Brazilian subtitles

← Counting Words Serially - Intro to Data Science

Get Embed Code
4 Languages

Showing Revision 8 created 06/20/2016 by Udacity Robot.

  1. Veja aqui uma maneira de explicar o modelo de programação
  2. MapReduce. Digamos que eu quisesse contar o número de
  3. ocorrências de cada palavra que aparece pelo menos em
  4. um documento. Vamos usar o texto de Alice no País das Maravilhas.
  5. Aqui está um pequeno texto que diz: Alice
  6. estava começando a ficar muito cansada de estar sentada ao lado de sua irmã
  7. e não ter nada para fazer. Se
  8. eu quisesse resolver este problema sem o MapReduce, eu poderia
  9. criar um dicionário Python que tivesse todas as palavras
  10. e suas contagens. Eu poderia passar pelo documento
  11. e dizer, para cada palavra do documento, se
  12. houver uma chave para essa palavra, adicione um.
  13. Caso contrário, definiria a inicial para essa chave igual a
  14. um. E, ao invés de aplicá-la a este fragmento de sentença
  15. curto do livro, aplicaria isso ao
  16. livro todo. Antes de resolver este problema com o MapReduce,
  17. por que você não tenta gravar um script Python
  18. junto com as linhas que acabamos de discutir, que
  19. realizará a tarefa? Dadas muitas linhas de um texto,
  20. crie um dicionário com uma chave para cada palavra e
  21. um valor correspondente à contagem de palavras
  22. desse texto. Observe que queremos que as palavras sejam
  23. retiradas sem qualquer capitalização e pontuação. Queremos apenas as
  24. palavras básicas. Veja aqui um código para você começar. Primeiro,
  25. importamos a string do sistema. Depois,
  26. começamos um dicionário vazio, que coletará nossas
  27. palavras e valores. Passaremos por todas as linhas da entrada e para cada linha
  28. criaremos um array, data. Que são essencialmente todas
  29. as palavras dessa linha, divididas pelo
  30. espaço em branco. Se começarmos com esta
  31. linha. Oi, tudo bem? Ela se tornaria,
  32. Oi, tudo, bem? em um array de tamanho três. Seu código deve entrar aqui.
  33. Depois, dividimos a linha pelo espaço em branco e antes imprimimos o dicionário.