YouTube

Got a YouTube account?

New: enable viewer-created translations and captions on your YouTube channel!

Portuguese, Brazilian subtitles

← Iterative Sax XML Parsing - Data Wranging with MongoDB

Get Embed Code
4 Languages

Showing Revision 9 created 06/20/2016 by Udacity Robot.

  1. Certo. Vamos fazer um exercício. Sua tarefa nesse exercício é olhar os
  2. dados OSM de Chicago e encontrar todas as tags de nível superior nesse conjunto de dados. Agora,
  3. tags de nível superior são essencialmente
  4. todos os tipos diferentes de tags distintas que
  5. você verá nesse conjunto de dados. Então, temos osm, bounds, node, tag e
  6. etc. Gostaria que você fizesse
  7. um loop por esse conjunto de dados e criasse um dicionário
  8. sempre que visse uma tag específica. Se
  9. essa tag ainda não estiver no seu dicionário, você irá adicioná-la.
  10. Por fim, seu dicionário deverá estar preenchido com
  11. todos os tipos diferentes de tags desse
  12. conjunto de dados. O desafio aqui é que esse arquivo
  13. é imenso. Se olharmos para o tamanho dele,
  14. como fiz há alguns minutos, veremos
  15. que ele tem pouco menos de dois 2 gigabytes de dados. Bem,
  16. nós falamos sobre dois tipos diferentes de análise de XML
  17. nesse curso. Um é a análise baseada em árvore na qual, essencialmente, lemos
  18. todo o documento dentro da memória e trabalhamos com ele
  19. como nós em uma árvore. O outro modo que discutimos
  20. para a análise de XML é o uso de um analisador SAX, ou uma
  21. análise iterativa. Analisamos o método iterparse para a árvore
  22. de elementos na lição três. E é isso que você
  23. fará aqui. Então, em vez de ler todo
  24. o arquivo na memória, o que faremos
  25. com iterparse é analisar uma tag por vez.
  26. Essencialmente, o que você está fazendo aqui é
  27. tratar cada tag vista como um evento
  28. e, para cada evento, iremos
  29. verificar em nosso dicionário
  30. se vimos uma tag específica. Quero dizer, se vimos uma tag antes, não essa tag específica.
  31. Ou seja, uma tag com esses nomes. Como bounds, node, tag etc.
  32. Se você ainda não tiver visto, crie uma nova chave no dicionário. E, ao
  33. acabar a análise do arquivo, você terá
  34. todos os nomes de tag específicos. Boa sorte!