Return to Video

ONPC CAP02 VA02 HANDSON HADOOP

  • 0:08 - 0:10
    Falando um pouco
    da instalação do Hadoop,
  • 0:10 - 0:13
    nós temos alguns
    modos de execução,
  • 0:13 - 0:16
    dentre eles, o local
    ou pseudodistribuído,
  • 0:16 - 0:20
    que são ambientes onde nós
    não colocamos em produção,
  • 0:20 - 0:24
    utilizamos apenas para estudo
    ou teste de alguma coisa.
  • 0:24 - 0:28
    Nós temos o ambiente produtivo,
    que geralmente é um cluster,
  • 0:28 - 0:32
    e esse cluster pode ser local
    ou você pode simplesmente
  • 0:32 - 0:34
    instalar na nuvem
    também, é permitido.
  • 0:34 - 0:37
    Mas vamos trabalhar
    no sistema local, on-premise,
  • 0:37 - 0:40
    e nós também temos a opção
    de trabalhar com o Hadoop
  • 0:40 - 0:44
    em modo Docker, e aí nós temos
    um gerenciador de Docker,
  • 0:44 - 0:46
    um Kubernetes,
    por exemplo,
  • 0:46 - 0:49
    que faz toda a parte
    de simulação de máquina,
  • 0:49 - 0:53
    de gerenciamento de máquinas
    em ambiente Docker.
  • 0:53 - 0:58
    Falando um pouco mais do cluster,
    o cluster é o nosso ambiente produtivo.
  • 0:58 - 1:02
    Então, nós temos várias máquinas,
    duas, três, dez, vinte, mil máquinas.
  • 1:02 - 1:05
    Existem clusters
    de dez mil máquinas.
  • 1:05 - 1:07
    Então, quando eu falo
    de dez mil máquinas,
  • 1:07 - 1:09
    eu estou falando
    de máquinas físicas,
  • 1:09 - 1:11
    máquinas onde eu
    tenho um hardware
  • 1:11 - 1:14
    e vários discos
    dentro dessa máquina,
  • 1:14 - 1:17
    que compõe os nossos
    famosos DataNodes.
  • 1:17 - 1:22
    A arquitetura do Hadoop,
    ou, do HDFS, mais especificamente,
  • 1:22 - 1:25
    é uma arquitetura
    master/worker,
  • 1:25 - 1:30
    onde eu tenho um controlador
    e nós que obedecem a esse controlador.
  • 1:30 - 1:34
    No caso do HDFS, o nó
    master é o NameNode.
  • 1:34 - 1:37
    O NameNode
    simplesmente regula acesso
  • 1:37 - 1:42
    e sabe aonde os registros
    estão em cada DataNode.
  • 1:42 - 1:46
    Ele tem um catálogo de metadados
    que permite identificar
  • 1:46 - 1:49
    todos os blocos armazenados
    em todos os DataNodes.
  • 1:49 - 1:51
    Falando um pouco
    dos DataNodes,
  • 1:51 - 1:54
    eles realmente são
    as máquinas físicas.
  • 1:54 - 1:57
    Então, nós temos as máquinas
    locais, com os discos locais,
  • 1:57 - 2:00
    e o NameNode pode ser
    simplesmente uma VM
  • 2:00 - 2:03
    porque ele não precisa dessa
    configuração, os muitos discos.
  • 2:03 - 2:06
    Falando um pouco
    da instalação do Hadoop,
  • 2:06 - 2:08
    nós temos alguns
    modos de execução.
  • 2:08 - 2:12
    O modo mais simples é o modo
    local, ou, pseudo distribuído,
  • 2:12 - 2:15
    onde eu tenho o Hadoop instalado
    em um único servidor.
  • 2:15 - 2:18
    Esse tipo de execução,
    local e pseudo distribuído,
  • 2:18 - 2:21
    não é utilizada
    em ambiente produtivo.
  • 2:21 - 2:25
    Ela é simplesmente instalada
    numa máquina para teste ou estudo.
  • 2:25 - 2:29
    Em ambiente produtivo, nós temos
    o Hadoop instalado em cluster.
  • 2:29 - 2:33
    Então, nós temos vários
    nós ligados por rede
  • 2:33 - 2:35
    que compartilham
    recursos.
  • 2:35 - 2:38
    Nós temos uma rede complexa,
    bem grande de computadores,
  • 2:38 - 2:43
    com cinco, dez, vinte, mil, dez mil
    computadores ligados em rede
  • 2:43 - 2:48
    que compartilham recursos,
    memória, disco e CPU.
  • 2:48 - 2:51
    E também temos a opção
    de instalar com Docker.
  • 2:51 - 2:53
    Que aí, já é
    uma outra tecnologia,
  • 2:53 - 2:56
    que funciona basicamente
    igual a um cluster,
  • 2:56 - 3:00
    porém, ele cria um cluster lógico
    e não cria um cluster local,
  • 3:00 - 3:02
    com máquinas
    físicas.
  • 3:02 - 3:05
    Então, nós temos
    um gerenciador de containers,
  • 3:05 - 3:08
    um Kubernetes, por exemplo,
    que faz todo esse gerenciamento.
  • 3:08 - 3:11
    Falando um pouco mais
    do Hadoop produção,
  • 3:11 - 3:12
    que tem
    um cluster Hadoop,
  • 3:12 - 3:14
    nós falamos
    de um cluster Hadoop,
  • 3:14 - 3:17
    temos aí uma arquitetura
    master/worker
  • 3:17 - 3:20
    tanto para o HDFS
    quanto para o YARN.
  • 3:20 - 3:24
    O HDFS tem os dois
    componentes principais
  • 3:24 - 3:27
    que controlam
    e armazenam os dados.
  • 3:27 - 3:30
    Na arquitetura
    master/worker do HDFS,
  • 3:30 - 3:33
    quem faz o papel do master
    é o NameNode.
  • 3:33 - 3:38
    O NameNode regula todo
    o acesso que você faz no HDFS
  • 3:38 - 3:41
    e ele tem um catálogo
    de metadados
  • 3:41 - 3:44
    de todos os dados armazenados
    nos DataNodes.
  • 3:44 - 3:48
    Então, o NameNode sabe
    exatamente aonde os dados estão.
  • 3:48 - 3:52
    O DataNode, por sua vez,
    simplesmente armazena o dado
  • 3:52 - 3:57
    e recebe requisições de acesso,
    ou criação ou exclusão de dados,
  • 3:57 - 3:58
    vindas
    do NameNode.
  • 3:58 - 4:00
    Na arquitetura
    do YARN,
  • 4:00 - 4:03
    quem faz o papel de master
    é o Resourcing Manager.
  • 4:03 - 4:06
    O Resourcing Manager
    tem o controle,
  • 4:06 - 4:10
    ou, ele visualiza todos
    os recursos do cluster.
  • 4:10 - 4:14
    Se eu tiver dez máquinas com dez
    CPUs e dez gigas de memória,
  • 4:14 - 4:19
    o YARN simplesmente vai enxergar
    cem gigas de memória e cem cores
  • 4:19 - 4:23
    onde ele pode processar os dados
    dos jobs que nós estamos executando.
  • 4:23 - 4:28
    Então, o YARN simplesmente lança
    os jobs que serão executados no cluster
  • 4:28 - 4:32
    e o Node Manager é onde
    esse job, especificamente,
  • 4:32 - 4:35
    vai ser executado em pequenos
    pedacinhos dentro do nosso cluster,
  • 4:35 - 4:38
    em cima de cada
    DataNode.
  • 4:38 - 4:41
    Quando nós falamos de instalação
    e configuração do Hadoop,
  • 4:41 - 4:44
    eu posso simplesmente
    entrar no site do Hadoop,
  • 4:44 - 4:50
    no apachehadoop.org,
    e fazer download do Hadoop.
  • 4:50 - 4:53
    E aí eu tenho toda a parte
    de configuração, de como eu instalo,
  • 4:53 - 4:56
    se eu instalo de forma
    pseudo ou local
  • 4:56 - 5:00
    ou se instalo
    dentro de um cluster,
  • 5:00 - 5:04
    ou também se você tiver muitas
    máquinas executando o Hadoop,
  • 5:04 - 5:09
    se tiver uns nós, um cluster
    com dez, vinte, trinta mil nós,
  • 5:09 - 5:12
    fica muito complicado
    você fazer a instalação manual.
  • 5:12 - 5:14
    E, para isso,
    existem ferramentas
  • 5:14 - 5:17
    onde podemos
    automatizar essa instalação
  • 5:17 - 5:21
    e deixá-la de forma
    mais user framelly,
  • 5:21 - 5:24
    consegue utilizar muito
    tempo de instalação
  • 5:24 - 5:26
    e configuração
    do nosso cluster.
  • 5:26 - 5:28
    Dentro do ecossistema
    Hadoop,
  • 5:28 - 5:33
    quem faz esse papel de automatizar
    a instalação e configuração,
  • 5:33 - 5:35
    bem como o monitoramento,
    é o OneBody.
  • 5:35 - 5:38
    O OneBody é um software
    também open source,
  • 5:38 - 5:41
    que está dentro
    da família Hadoop,
  • 5:41 - 5:47
    que faz esse trabalho de instalar
    de forma automática,
  • 5:47 - 5:49
    e você conseguir
    gerenciar todo o cluster
  • 5:49 - 5:51
    a partir
    de uma interface web.
  • 5:51 - 5:54
    E aí tudo fica
    mais fácil.
  • 5:54 - 5:58
    Aqui, eu tenho uma instalação
    utilizando OneBody,
  • 5:58 - 6:01
    onde está numa máquina local,
    eu não tenho cluster.
  • 6:01 - 6:04
    Então, por isso,
    eu tenho um DataNode,
  • 6:04 - 6:07
    eu consigo visualizar
    meu DataNode aqui,
  • 6:07 - 6:08
    e estamos rodando
    numa Sandbox.
  • 6:08 - 6:10
    Então, eu tenho
    uma única máquina
  • 6:10 - 6:11
    onde eu tenho
    a instalação do Hadoop,
  • 6:11 - 6:14
    eu tenho um pseudo
    distribuído.
  • 6:14 - 6:17
    Se eu fosse
    executar um cluster,
  • 6:17 - 6:21
    eu teria aqui várias máquinas
    trabalhando de forma conjunta
  • 6:21 - 6:24
    a compor o meu
    cluster Hadoop.
  • 6:24 - 6:28
    E no OneBody aqui eu
    tenho a instalação no HDFS.
  • 6:28 - 6:30
    Então, eu tenho aqui
    o papel do NameNode,
  • 6:30 - 6:32
    do DataNode e também
    outros componentes
  • 6:32 - 6:37
    que tem a sua participação
    dentro desse componente.
  • 6:37 - 6:39
    Eu tenho algumas métricas
    de quanto de disco
  • 6:39 - 6:42
    eu estou utilizando,
    quanto de memória.
  • 6:42 - 6:46
    O Hadoop tem dois arquivos
    principais de configuração,
  • 6:46 - 6:52
    que é o hdfs-site.xml
    e o core-site.xml.
  • 6:52 - 6:55
    Esses arquivos compõem
    todas as configurações
  • 6:55 - 6:59
    que o Hadoop vai utilizar
    em sua execução.
  • 6:59 - 7:02
    Eles são compostos
    de parâmetros,
  • 7:02 - 7:05
    onde configuramos, por exemplo,
    tamanho de memória,
  • 7:05 - 7:10
    tamanho de bloco de arquivo,
    qual vai ser o meu fator de replicação.
  • 7:10 - 7:14
    E todas essas configurações
    também podem ser alteradas
  • 7:14 - 7:16
    na interface gráfica
    do OneBody.
  • 7:16 - 7:19
    Aqui, por exemplo,
    eu posso mudar
  • 7:19 - 7:21
    questões de permissão,
    questões de memória.
  • 7:21 - 7:25
    Eu simplesmente mudo
    a configuração aqui e salvo.
  • 7:25 - 7:29
    Na próxima execução, a hora
    que eu reiniciar o meu Hadoop,
  • 7:29 - 7:34
    reiniciar o meu HDFS, ele vai respeitar
    a configuração que eu colocar,
  • 7:34 - 7:36
    os parâmetros
    especificados.
  • 7:36 - 7:39
    Eu também tenho a instalação
    do YARN dentro do OneBody,
  • 7:39 - 7:42
    onde eu tenho o papel do master
    pelo Resource Manager.
  • 7:42 - 7:45
    E eu também tenho o papel
    do Node Manager, que é o nosso worker.
  • 7:45 - 7:49
    Então, eu tenho aqui a configuração
    tanto de um quanto de outro.
  • 7:49 - 7:54
    E, aqui, eu tenho alguns KPIs
    voltados a métricas de execução,
  • 7:54 - 7:57
    quantos jobs estão executando,
    qual o tamanho da minha fila,
  • 7:57 - 8:01
    qual o tanto de memória
    que eu tenho para executar.
  • 8:01 - 8:06
    E eu também posso mudar
    configurações na instalação do meu YARN
  • 8:06 - 8:09
    do mesmo modo
    que eu faço com o HDFS.
  • 8:09 - 8:12
    Então, eu consigo
    mexer em memória,
  • 8:12 - 8:16
    o tanto de CPU alocada para ele,
    se eu vou usar GPU ou não.
  • 8:16 - 8:20
    Enfim, tenho várias configurações
    que eu posso parametrizar
  • 8:20 - 8:24
    ou customizar de acordo
    com a minha necessidade.
  • 8:24 - 8:28
    O OneBody também possui
    a instalação do MapReduce,
  • 8:28 - 8:31
    porém, diferentemente
    do HDFS e do YARN,
  • 8:31 - 8:35
    eu não tenho aí tantas
    configurações possíveis
  • 8:35 - 8:39
    já que ele tem um papel
    mais simples.
  • 8:39 - 8:41
    Ele simplesmente vai
    processar o nosso dado
  • 8:41 - 8:45
    utilizando o HDFS e a estrutura
    de memória e CPU do YARN.
  • 8:45 - 8:48
    Então, nós temos aí
    algumas configurações
  • 8:48 - 8:50
    que também são possíveis,
    é lógico, configurações defaults,
  • 8:50 - 8:53
    porém, eu tenho
    mais configurações
  • 8:53 - 8:56
    dentro do HDFS
    e dentro do YARN.
  • 8:56 - 9:00
    Dentro do YARN, eu também
    consigo aumentar o meu cluster,
  • 9:00 - 9:02
    eu consigo
    adicionar mais nós.
  • 9:02 - 9:04
    Eu não preciso,
    por exemplo,
  • 9:04 - 9:08
    já criar de imediato
    um cluster com mil nós.
  • 9:08 - 9:12
    Eu posso começar pequeno
    com dez, vinte máquinas, por exemplo,
  • 9:12 - 9:14
    e ir crescendo de acordo
    com a minha demanda.
  • 9:14 - 9:16
    Com o passar
    do tempo,
  • 9:16 - 9:19
    com mais dados
    ou mais processamentos,
  • 9:19 - 9:22
    eu consigo adicionar
    mais máquinas
  • 9:22 - 9:24
    e ter mais poder
    de armazenamento
  • 9:24 - 9:26
    e processamento
    de memória e CPU.
  • 9:26 - 9:32
    Então, nós temos a opção de ter
    uma escalabilidade horizontal com o Hadoop,
  • 9:32 - 9:35
    e o OneBody é
    quem faz essa gerência
  • 9:35 - 9:38
    de adicionar ou remover nós
    dentro de um cluster.
  • 9:38 - 9:40
    Você pode fazer isso
    de forma manual, lógico,
  • 9:40 - 9:43
    porém, com o YARN
    é muito mais simples.
  • 9:43 - 9:45
    Eu simplesmente
    venho em Hosts,
  • 9:45 - 9:49
    e eu tenho todas as máquinas
    disponíveis aqui dentro do meu cluster.
  • 9:49 - 9:53
    Caso eu queira
    adicionar mais máquinas,
  • 9:53 - 9:57
    eu posso vir
    em Actions aqui
  • 9:57 - 10:00
    e adicionar
    novos hosts,
  • 10:00 - 10:02
    onde eu coloco
    o nome do meu host,
  • 10:02 - 10:06
    como por exemplo,
    "maquina1",
  • 10:06 - 10:07
    e tenho mais algumas
    configurações.
  • 10:07 - 10:13
    Então, todas as máquinas que executam
    Hadoop são baseadas em Linux,
  • 10:13 - 10:15
    então eu tenho
    uma chave SSH
  • 10:15 - 10:17
    que eu tenho
    que compartilhar e tudo mais,
  • 10:17 - 10:19
    tenho usuário
    e senha das máquinas,
  • 10:19 - 10:21
    a porta que eu
    vou utilizar,
  • 10:21 - 10:24
    e, depois, eu
    simplesmente escolho
  • 10:24 - 10:26
    quais serviços que eu quero
    instalar na naquele host.
  • 10:26 - 10:29
    Eu quero instalar o HDFS?
    Eu quero instalar o YARN?
  • 10:29 - 10:31
    Eu quero instalar
    o Spark?
  • 10:31 - 10:35
    Então, nós temos aí a possibilidade
    de customizar a instalação de um host
  • 10:35 - 10:37
    e adicionar
    novas máquinas
  • 10:37 - 10:41
    de forma muito fácil, muito
    dinâmica, com o OneBody.
  • 10:41 - 10:45
    Quando eu falo de gerenciamento
    de recursos dentro do OneBody,
  • 10:45 - 10:47
    eu posso, por exemplo,
    como eu já mostrei para vocês,
  • 10:47 - 10:49
    alterar
    as configurações,
  • 10:49 - 10:52
    e eu simplesmente posso
    pegar um serviço específico,
  • 10:52 - 10:54
    nesse caso,
    o HDFS,
  • 10:54 - 10:59
    e iniciar, parar,
    reiniciar esse serviço.
  • 10:59 - 11:02
    E se eu tiver um cluster
    com dez, vinte, trinta máquinas,
  • 11:02 - 11:04
    eu consigo fazer isso
    de forma automática
  • 11:04 - 11:06
    para todas as máquinas
    de uma vez,
  • 11:06 - 11:08
    ou simplesmente
    de determinado host.
  • 11:08 - 11:12
    Eu posso chegar na máquina
    dez, por exemplo,
  • 11:12 - 11:15
    e quero reiniciar somente
    o HDFS naquela máquina.
  • 11:15 - 11:17
    Eu também consigo
    fazer isso.
  • 11:17 - 11:20
    Então, nós temos aí uma forma
    muito fácil de controle de gerência
  • 11:20 - 11:23
    do nosso cluster
    com o OneBody.
  • 11:23 - 11:27
    O OneBody otimiza muito o trabalho
    de quem for administrar um cluster,
  • 11:27 - 11:32
    seja para configurar serviços,
    adicionar novos hosts,
  • 11:32 - 11:34
    parar, reiniciar
    aplicações.
  • 11:34 - 11:37
    Temos aí uma ferramenta
    muito bacana
  • 11:37 - 11:40
    onde nós podemos ter
    ganhos significativos
  • 11:40 - 11:43
    de tempo, de gerência,
    e facilitar a nossa vida
  • 11:43 - 11:48
    na parte de configuração
    e manutenção de todo o cluster.
  • 11:48 - 11:53
    Dentro do HDFS, nós temos
    ainda uma interface web
  • 11:53 - 11:56
    conhecida como
    Hadoop User Interface,
  • 11:56 - 11:58
    onde eu tenho todas
    as configurações do meu cluster.
  • 11:58 - 12:01
    Então, dentro
    do OneBody
  • 12:01 - 12:05
    eu tenho
    o NameNode UI.
  • 12:05 - 12:08
    Eu tenho aqui, por exemplo,
    quando ele foi iniciado,
  • 12:08 - 12:10
    qual é a versão
    do meu Hadoop,
  • 12:10 - 12:14
    qual é a compilação,
    o ID do meu cluster,
  • 12:14 - 12:15
    o nome
    do meu cluster.
  • 12:17 - 12:22
    Eu tenho a opção de visualizar
    se está em modo seguro ou não,
  • 12:22 - 12:25
    quanto de capacidade
    de armazenamento eu tenho,
  • 12:25 - 12:27
    quanto eu já estou
    utilizando,
  • 12:27 - 12:32
    quantos arquivos, por exemplo,
    existem lá dentro do meu HDFS.
  • 12:32 - 12:35
    Aqui, ele tem 2907
    arquivos e diretórios.
  • 12:35 - 12:39
    Eu tenho um total de blocos
    armazenados dentro do meu HDFS,
  • 12:39 - 12:42
    e, nesse caso,
    eu tenho 1840 blocos,
  • 12:42 - 12:46
    o total de objeto, quanto
    de memória ele está utilizando.
  • 12:46 - 12:50
    Então, visualizamos todas
    as configurações
  • 12:50 - 12:52
    que nós temos
    dentro do Hadoop,
  • 12:52 - 12:55
    inclusive,
    os DataNodes.
  • 12:55 - 12:57
    Nese caso, eu tenho
    um DataNode só,
  • 12:57 - 12:59
    então vai aparecer
    uma máquina só.
  • 12:59 - 13:01
    Porém, se eu tivesse
    cem máquinas,
  • 13:01 - 13:03
    apareceria cem
    máquinas aqui,
  • 13:03 - 13:06
    e eu conseguiria
    ver uma lista
  • 13:06 - 13:08
    com as cem máquinas
    separadamente.
  • 13:08 - 13:11
    E aí eu tenho qual a capacidade
    de armazenamento,
  • 13:11 - 13:15
    quantos blocos existem
    em cada máquina,
  • 13:15 - 13:18
    qual a porcentagem de utilização
    que eu tenho dentro dela.
  • 13:18 - 13:24
    Eu posso saber, por exemplo,
    se ele está em execução,
  • 13:24 - 13:25
    quanto tempo
    ele está em execução.
  • 13:25 - 13:29
    Eu tenho aí um overview
    de todo o meu ambiente
  • 13:29 - 13:32
    com o Hadoop
    User Interface.
  • 13:32 - 13:35
    Falando um pouco
    de gerenciamento
  • 13:35 - 13:37
    e acesso às aplicações
    de forma web,
  • 13:37 - 13:40
    o YARN também possui
    uma interface gráfica
  • 13:40 - 13:44
    que é o Research
    Manager User Interface,
  • 13:44 - 13:46
    onde nós temos
    uma visão de um todo,
  • 13:46 - 13:51
    de todas as aplicações que estão
    sendo executadas no nosso cluster.
  • 13:51 - 13:56
    Então, eu tenho aqui
    a capacidade total do meu cluster,
  • 13:56 - 13:57
    em memória,
    por exemplo.
  • 13:57 - 14:00
    O meu, como é uma máquina
    local, muito reduzida,
  • 14:00 - 14:03
    eu tenho aqui quatro
    gigas de memória
  • 14:03 - 14:06
    e quatro cores onde eu posso
    executar os meus jobs.
  • 14:06 - 14:09
    Quando nós temos
    um ambiente de produção,
  • 14:09 - 14:10
    ele é muito
    maior que isso.
  • 14:10 - 14:12
    Nós temos terabytes
    de memória,
  • 14:12 - 14:17
    temos centenas,
    milhares de cores,
  • 14:17 - 14:19
    de frações
    de CPU,
  • 14:19 - 14:22
    onde eu posso
    executar os meus jobs.
  • 14:22 - 14:26
    E aí eu tenho quantos por centos
    ele está sendo utilizado.
  • 14:26 - 14:28
    Nesse caso aqui, ele
    está 100% disponível.
  • 14:28 - 14:32
    Então, eu não estou executando
    nenhuma aplicação.
  • 14:32 - 14:35
    Então, nós temos
    uma opção de visualização
  • 14:35 - 14:41
    de todas as aplicações
    rodando em cima do YARN.
  • 14:41 - 14:42
    Eu consigo,
    por exemplo,
  • 14:42 - 14:46
    entrar no histórico de execução
    de cada aplicação,
  • 14:46 - 14:51
    eu consigo ver o que está sendo
    executado ou o que foi finalizado.
  • 14:51 - 14:55
    Por exemplo: esses jobs aqui
    são os jobs do Hive
  • 14:55 - 14:58
    e eles já foram executados,
    está com o status "Finished".
  • 14:58 - 15:03
    Se ele estivesse em execução,
    eu teria o status como "Running".
  • 15:03 - 15:05
    Então, eu consigo
    identificar cada um deles,
  • 15:05 - 15:10
    entrar em cada um deles e ver
    quanto tempo está sendo executado,
  • 15:10 - 15:15
    ver log, enfim, ver quem é o usuário
    responsável por aquele processo.
  • 15:15 - 15:19
    Então, eu consigo administrar
    minha fila de recursos
  • 15:19 - 15:21
    de forma
    muito eficiente.
  • 15:21 - 15:25
    E, para cada job executado,
    eu tenho, por exemplo,
  • 15:25 - 15:28
    quais recursos que ele está
    usando daquele cluster.
  • 15:28 - 15:30
    E isso é bacana, porque
    se você tiver, por exemplo,
  • 15:30 - 15:33
    um job que está
    consumindo muito recurso
  • 15:33 - 15:37
    e atrapalhando o andamento
    das suas outras tarefas,
  • 15:37 - 15:41
    você pode simplesmente matar
    esse job de forma muito fácil,
  • 15:41 - 15:45
    muito dinâmica, e liberar
    recurso para as outras aplicações.
  • 15:45 - 15:49
    Então, as ferramentas web que nós
    temos dentro de todo o ecossistema
  • 15:49 - 15:54
    nos permitem uma gerência
    muito fácil não só para a configuração,
  • 15:54 - 15:55
    mas para a operação
    do dia a dia,
  • 15:55 - 15:59
    seja ela
    com o Hadoop UI
  • 15:59 - 16:02
    ou o NameNode
    User Interface,
  • 16:02 - 16:05
    onde temos o controle
    de todos os jobs,
  • 16:05 - 16:08
    de todas as execuções
    existentes dentro do YARN.
  • 16:09 - 16:12
    Com isso, nós finalizamos
    toda a parte de gerência do Hadoop,
  • 16:12 - 16:15
    tanto com o HDFS
    ou com o YARN.
  • 16:15 - 16:18
    Então, nós vimos aí que o OneBody
    é um componente muito importante
  • 16:18 - 16:22
    dentro do cluster porque ele
    automatiza a instalação
  • 16:22 - 16:24
    e configuração de todo
    o nosso ambiente.
  • 16:24 - 16:27
    Não só para o HDFS,
    YARN ou MapReduce,
  • 16:27 - 16:29
    mas para todo software,
    todo framework
  • 16:29 - 16:32
    que compõe o nosso
    cluster Hadoop.
Title:
ONPC CAP02 VA02 HANDSON HADOOP
Video Language:
Portuguese, Brazilian
Duration:
16:43

Portuguese, Brazilian subtitles

Incomplete

Revisions