Return to Video

Familiarize Yourself with the Dataset - Data Wranging with MongoDB

  • 0:00 - 0:03
    Ok, vamos nos familiarizar um pouco mais com este conjunto de
  • 0:03 - 0:06
    dados. E o que eu realmente quero dizer aqui é: vamos obter
  • 0:06 - 0:09
    um entendimento melhor do próprio projeto OpenStreetMap e
  • 0:09 - 0:12
    começar aprendendo o que precisamos saber para fazer
  • 0:12 - 0:15
    este estudo de caso específico. Ok, eu vou continuar
  • 0:15 - 0:19
    e submeter uma pesquisa de Chicago no OpenStreetMap e
  • 0:19 - 0:22
    você verá que obtenho um número de resultados diferentes aqui.
  • 0:22 - 0:25
    O resultado no qual estou interessado é este aqui, a fronteira da cidade de
  • 0:25 - 0:28
    Chicago, Cook County, Illinois, Estados Unidos da América. Fazer isso é
  • 0:28 - 0:32
    essencialmente selecionar no conjunto de dados do OpenStreetMap,
  • 0:32 - 0:34
    apenas os dados que são pertinentes à cidade de
  • 0:34 - 0:37
    Chicago. Vou clicar nisto e você pode
  • 0:37 - 0:41
    ver o contorno aqui que identifica a fronteira da cidade. E, portanto
  • 0:41 - 0:43
    os dados com os quais estarei trabalhando serão qualquer coisa que esteja
  • 0:43 - 0:46
    aqui. Agora, se eu clicar em Export, o que vai acontecer
  • 0:46 - 0:50
    é que verei a latitude e a longitude e isso vai me dizer que
  • 0:50 - 0:53
    isso é muito grande para ser exportado. Ok, mas
  • 0:53 - 0:56
    se eu rolar para baixo, verei que há
  • 0:56 - 1:01
    extratos já preparados deste conjunto de dados. Ok,
  • 1:01 - 1:02
    deixe-me aumentar um pouco isto. Estes
  • 1:02 - 1:06
    são extratos pré-preparados deste conjunto de dados
  • 1:06 - 1:11
    específico e estes são extratos de áreas metropolitanas principais.
  • 1:11 - 1:14
    Portanto, você pode ver que eu cliquei no link Chicago
  • 1:14 - 1:16
    antes. Vou continuar e clicar nisto e,
  • 1:16 - 1:21
    aqui, eu tenho a oportunidade de baixar uma versão compactada desses dados OSM
  • 1:21 - 1:23
    como XML. Eu clico nisso e
  • 1:23 - 1:26
    o download é iniciado. E quando o download estiver concluído,
  • 1:26 - 1:31
    podemos continuar e dar uma olhada nele. Muito bem, os dados foram baixados. Vou
  • 1:31 - 1:33
    dar uma olhada neles.
  • 1:33 - 1:36
    Este é meu diretório de downloads. Eu já o descompactei,
  • 1:38 - 1:40
    e aqui está ele. Grandes quantidades de
  • 1:40 - 1:43
    dados XML. Isto deve ser um tanto familiar para você. Vimos
  • 1:43 - 1:47
    estas tags note antes e extraímos alguns dados
  • 1:47 - 1:51
    deste conjunto de dados anteriormente. Ok, vou usar o
  • 1:51 - 1:54
    comando shell LS para ver qual é o tamanho deste conjunto de dados.
  • 1:54 - 1:57
    Você pode ver aqui que ele é tem cerca de 1,8 gigabytes. Portanto, é um
  • 1:57 - 2:00
    conjunto de dados enorme. Isso significa que, para
  • 2:00 - 2:03
    processar estes dados, não podemos realmente lê-los na memória.
  • 2:03 - 2:05
    E, portanto, como você verá um pouco adiante, para analisar isso, vamos
  • 2:05 - 2:09
    usar uma abordagem que usa um analisador SAX, que já
  • 2:09 - 2:13
    examinamos um pouco em uma lição anterior. Ok. Agora, o que eu
  • 2:13 - 2:15
    geralmente faço em uma situação como esta é explorar um pouco
  • 2:15 - 2:18
    os próprios dados. Eu posso até escrever um pequeno código para analisar
  • 2:18 - 2:21
    um pouco do que está aqui e ter uma ideia do que é. A
  • 2:21 - 2:24
    próxima coisa que desejamos fazer é ler documentação suficiente para
  • 2:24 - 2:28
    responder a todas as perguntas que temos ou pelo menos o suficiente para começarmos.
  • 2:28 - 2:31
    O que vou fazer aqui é simplesmente consultar a
  • 2:31 - 2:35
    documentação do OpenStreeMap. E posso ver que realmente há um
  • 2:35 - 2:37
    Wiki do OpenStreetMap. Seu eu clicar nele,
  • 2:37 - 2:40
    abro a página do Wiki que fornece muitas
  • 2:40 - 2:42
    informações sobre o OpenStreetMap. Agora, vou aumentar isto ridiculamente
  • 2:42 - 2:45
    para que você possa vê-lo na sua tela. E se
  • 2:45 - 2:48
    rolarmos para baixo, você poderá ver que há muito para ser lido aqui.
  • 2:48 - 2:53
    Você pode ver que há um manual para iniciantes, informações para desenvolvedores e
  • 2:53 - 2:56
    outras informações - recursos de mapa, esse tipo de coisa.
  • 2:56 - 2:59
    Como li esta página antes, eu sei que há
  • 2:59 - 3:03
    documentação sobre o formato XML que será
  • 3:03 - 3:06
    útil para nós ao seguirmos em frente. Isto fornece um
  • 3:06 - 3:08
    exemplo dos diferentes tipos de tags que iremos
  • 3:08 - 3:10
    ver nesse conjunto de dados e uma
  • 3:10 - 3:14
    explicação sobre eles. Por exemplo, podemos ver nesta documentação
  • 3:14 - 3:19
    que estes dados são essencialmente instâncias de três diferentes dados primitivos.
  • 3:19 - 3:22
    Dados primitivos são nós, caminhos e relações e,
  • 3:22 - 3:23
    se clicarmos em qualquer um
  • 3:23 - 3:25
    destes, obteremos mais algumas informações
  • 3:25 - 3:28
    sobre eles, ok? Incentivo você a dar
  • 3:28 - 3:30
    uma olhada nesta documentação sozinho. Certifique-se
  • 3:30 - 3:33
    de entender sobre nós, caminhos e relações e
  • 3:33 - 3:36
    você estará bem equipado para mais. Basta fazer um pouco de leitura por enquanto.
Tytuł:
Familiarize Yourself with the Dataset - Data Wranging with MongoDB
Video Language:
English
Team:
Udacity
Projekt:
UD032: Data Wrangling with MongoDB
Duration:
03:36

Portuguese, Brazilian subtitles

Revisions Compare revisions