ONPC CAP02 VA02 HANDSON HADOOP

0:08 - 0:10

Falando um pouco
da instalação do Hadoop,
0:10 - 0:13

nós temos alguns
modos de execução,
0:13 - 0:16

dentre eles, o local
ou pseudodistribuído,
0:16 - 0:20

que são ambientes onde nós
não colocamos em produção,
0:20 - 0:24

utilizamos apenas para estudo
ou teste de alguma coisa.
0:24 - 0:28

Nós temos o ambiente produtivo,
que geralmente é um cluster,
0:28 - 0:32

e esse cluster pode ser local
ou você pode simplesmente
0:32 - 0:34

instalar na nuvem
também, é permitido.
0:34 - 0:37

Mas vamos trabalhar
no sistema local, on-premise,
0:37 - 0:40

e nós também temos a opção
de trabalhar com o Hadoop
0:40 - 0:44

em modo Docker, e aí nós temos
um gerenciador de Docker,
0:44 - 0:46

um Kubernetes,
por exemplo,
0:46 - 0:49

que faz toda a parte
de simulação de máquina,
0:49 - 0:53

de gerenciamento de máquinas
em ambiente Docker.
0:53 - 0:58

Falando um pouco mais do cluster,
o cluster é o nosso ambiente produtivo.
0:58 - 1:02

Então, nós temos várias máquinas,
duas, três, dez, vinte, mil máquinas.
1:02 - 1:05

Existem clusters
de dez mil máquinas.
1:05 - 1:07

Então, quando eu falo
de dez mil máquinas,
1:07 - 1:09

eu estou falando
de máquinas físicas,
1:09 - 1:11

máquinas onde eu
tenho um hardware
1:11 - 1:14

e vários discos
dentro dessa máquina,
1:14 - 1:17

que compõe os nossos
famosos DataNodes.
1:17 - 1:22

A arquitetura do Hadoop,
ou, do HDFS, mais especificamente,
1:22 - 1:25

é uma arquitetura
master/worker,
1:25 - 1:30

onde eu tenho um controlador
e nós que obedecem a esse controlador.
1:30 - 1:34

No caso do HDFS, o nó
master é o NameNode.
1:34 - 1:37

O NameNode
simplesmente regula acesso
1:37 - 1:42

e sabe aonde os registros
estão em cada DataNode.
1:42 - 1:46

Ele tem um catálogo de metadados
que permite identificar
1:46 - 1:49

todos os blocos armazenados
em todos os DataNodes.
1:49 - 1:51

Falando um pouco
dos DataNodes,
1:51 - 1:54

eles realmente são
as máquinas físicas.
1:54 - 1:57

Então, nós temos as máquinas
locais, com os discos locais,
1:57 - 2:00

e o NameNode pode ser
simplesmente uma VM
2:00 - 2:03

porque ele não precisa dessa
configuração, os muitos discos.
2:03 - 2:06

Falando um pouco
da instalação do Hadoop,
2:06 - 2:08

nós temos alguns
modos de execução.
2:08 - 2:12

O modo mais simples é o modo
local, ou, pseudo distribuído,
2:12 - 2:15

onde eu tenho o Hadoop instalado
em um único servidor.
2:15 - 2:18

Esse tipo de execução,
local e pseudo distribuído,
2:18 - 2:21

não é utilizada
em ambiente produtivo.
2:21 - 2:25

Ela é simplesmente instalada
numa máquina para teste ou estudo.
2:25 - 2:29

Em ambiente produtivo, nós temos
o Hadoop instalado em cluster.
2:29 - 2:33

Então, nós temos vários
nós ligados por rede
2:33 - 2:35

que compartilham
recursos.
2:35 - 2:38

Nós temos uma rede complexa,
bem grande de computadores,
2:38 - 2:43

com cinco, dez, vinte, mil, dez mil
computadores ligados em rede
2:43 - 2:48

que compartilham recursos,
memória, disco e CPU.
2:48 - 2:51

E também temos a opção
de instalar com Docker.
2:51 - 2:53

Que aí, já é
uma outra tecnologia,
2:53 - 2:56

que funciona basicamente
igual a um cluster,
2:56 - 3:00

porém, ele cria um cluster lógico
e não cria um cluster local,
3:00 - 3:02

com máquinas
físicas.
3:02 - 3:05

Então, nós temos
um gerenciador de containers,
3:05 - 3:08

um Kubernetes, por exemplo,
que faz todo esse gerenciamento.
3:08 - 3:11

Falando um pouco mais
do Hadoop produção,
3:11 - 3:12

que tem
um cluster Hadoop,
3:12 - 3:14

nós falamos
de um cluster Hadoop,
3:14 - 3:17

temos aí uma arquitetura
master/worker
3:17 - 3:20

tanto para o HDFS
quanto para o YARN.
3:20 - 3:24

O HDFS tem os dois
componentes principais
3:24 - 3:27

que controlam
e armazenam os dados.
3:27 - 3:30

Na arquitetura
master/worker do HDFS,
3:30 - 3:33

quem faz o papel do master
é o NameNode.
3:33 - 3:38

O NameNode regula todo
o acesso que você faz no HDFS
3:38 - 3:41

e ele tem um catálogo
de metadados
3:41 - 3:44

de todos os dados armazenados
nos DataNodes.
3:44 - 3:48

Então, o NameNode sabe
exatamente aonde os dados estão.
3:48 - 3:52

O DataNode, por sua vez,
simplesmente armazena o dado
3:52 - 3:57

e recebe requisições de acesso,
ou criação ou exclusão de dados,
3:57 - 3:58

vindas
do NameNode.
3:58 - 4:00

Na arquitetura
do YARN,
4:00 - 4:03

quem faz o papel de master
é o Resourcing Manager.
4:03 - 4:06

O Resourcing Manager
tem o controle,
4:06 - 4:10

ou, ele visualiza todos
os recursos do cluster.
4:10 - 4:14

Se eu tiver dez máquinas com dez
CPUs e dez gigas de memória,
4:14 - 4:19

o YARN simplesmente vai enxergar
cem gigas de memória e cem cores
4:19 - 4:23

onde ele pode processar os dados
dos jobs que nós estamos executando.
4:23 - 4:28

Então, o YARN simplesmente lança
os jobs que serão executados no cluster
4:28 - 4:32

e o Node Manager é onde
esse job, especificamente,
4:32 - 4:35

vai ser executado em pequenos
pedacinhos dentro do nosso cluster,
4:35 - 4:38

em cima de cada
DataNode.
4:38 - 4:41

Quando nós falamos de instalação
e configuração do Hadoop,
4:41 - 4:44

eu posso simplesmente
entrar no site do Hadoop,
4:44 - 4:50

no apachehadoop.org,
e fazer download do Hadoop.
4:50 - 4:53

E aí eu tenho toda a parte
de configuração, de como eu instalo,
4:53 - 4:56

se eu instalo de forma
pseudo ou local
4:56 - 5:00

ou se instalo
dentro de um cluster,
5:00 - 5:04

ou também se você tiver muitas
máquinas executando o Hadoop,
5:04 - 5:09

se tiver uns nós, um cluster
com dez, vinte, trinta mil nós,
5:09 - 5:12

fica muito complicado
você fazer a instalação manual.
5:12 - 5:14

E, para isso,
existem ferramentas
5:14 - 5:17

onde podemos
automatizar essa instalação
5:17 - 5:21

e deixá-la de forma
mais user framelly,
5:21 - 5:24

consegue utilizar muito
tempo de instalação
5:24 - 5:26

e configuração
do nosso cluster.
5:26 - 5:28

Dentro do ecossistema
Hadoop,
5:28 - 5:33

quem faz esse papel de automatizar
a instalação e configuração,
5:33 - 5:35

bem como o monitoramento,
é o OneBody.
5:35 - 5:38

O OneBody é um software
também open source,
5:38 - 5:41

que está dentro
da família Hadoop,
5:41 - 5:47

que faz esse trabalho de instalar
de forma automática,
5:47 - 5:49

e você conseguir
gerenciar todo o cluster
5:49 - 5:51

a partir
de uma interface web.
5:51 - 5:54

E aí tudo fica
mais fácil.
5:54 - 5:58

Aqui, eu tenho uma instalação
utilizando OneBody,
5:58 - 6:01

onde está numa máquina local,
eu não tenho cluster.
6:01 - 6:04

Então, por isso,
eu tenho um DataNode,
6:04 - 6:07

eu consigo visualizar
meu DataNode aqui,
6:07 - 6:08

e estamos rodando
numa Sandbox.
6:08 - 6:10

Então, eu tenho
uma única máquina
6:10 - 6:11

onde eu tenho
a instalação do Hadoop,
6:11 - 6:14

eu tenho um pseudo
distribuído.
6:14 - 6:17

Se eu fosse
executar um cluster,
6:17 - 6:21

eu teria aqui várias máquinas
trabalhando de forma conjunta
6:21 - 6:24

a compor o meu
cluster Hadoop.
6:24 - 6:28

E no OneBody aqui eu
tenho a instalação no HDFS.
6:28 - 6:30

Então, eu tenho aqui
o papel do NameNode,
6:30 - 6:32

do DataNode e também
outros componentes
6:32 - 6:37

que tem a sua participação
dentro desse componente.
6:37 - 6:39

Eu tenho algumas métricas
de quanto de disco
6:39 - 6:42

eu estou utilizando,
quanto de memória.
6:42 - 6:46

O Hadoop tem dois arquivos
principais de configuração,
6:46 - 6:52

que é o hdfs-site.xml
e o core-site.xml.
6:52 - 6:55

Esses arquivos compõem
todas as configurações
6:55 - 6:59

que o Hadoop vai utilizar
em sua execução.
6:59 - 7:02

Eles são compostos
de parâmetros,
7:02 - 7:05

onde configuramos, por exemplo,
tamanho de memória,
7:05 - 7:10

tamanho de bloco de arquivo,
qual vai ser o meu fator de replicação.
7:10 - 7:14

E todas essas configurações
também podem ser alteradas
7:14 - 7:16

na interface gráfica
do OneBody.
7:16 - 7:19

Aqui, por exemplo,
eu posso mudar
7:19 - 7:21

questões de permissão,
questões de memória.
7:21 - 7:25

Eu simplesmente mudo
a configuração aqui e salvo.
7:25 - 7:29

Na próxima execução, a hora
que eu reiniciar o meu Hadoop,
7:29 - 7:34

reiniciar o meu HDFS, ele vai respeitar
a configuração que eu colocar,
7:34 - 7:36

os parâmetros
especificados.
7:36 - 7:39

Eu também tenho a instalação
do YARN dentro do OneBody,
7:39 - 7:42

onde eu tenho o papel do master
pelo Resource Manager.
7:42 - 7:45

E eu também tenho o papel
do Node Manager, que é o nosso worker.
7:45 - 7:49

Então, eu tenho aqui a configuração
tanto de um quanto de outro.
7:49 - 7:54

E, aqui, eu tenho alguns KPIs
voltados a métricas de execução,
7:54 - 7:57

quantos jobs estão executando,
qual o tamanho da minha fila,
7:57 - 8:01

qual o tanto de memória
que eu tenho para executar.
8:01 - 8:06

E eu também posso mudar
configurações na instalação do meu YARN
8:06 - 8:09

do mesmo modo
que eu faço com o HDFS.
8:09 - 8:12

Então, eu consigo
mexer em memória,
8:12 - 8:16

o tanto de CPU alocada para ele,
se eu vou usar GPU ou não.
8:16 - 8:20

Enfim, tenho várias configurações
que eu posso parametrizar
8:20 - 8:24

ou customizar de acordo
com a minha necessidade.
8:24 - 8:28

O OneBody também possui
a instalação do MapReduce,
8:28 - 8:31

porém, diferentemente
do HDFS e do YARN,
8:31 - 8:35

eu não tenho aí tantas
configurações possíveis
8:35 - 8:39

já que ele tem um papel
mais simples.
8:39 - 8:41

Ele simplesmente vai
processar o nosso dado
8:41 - 8:45

utilizando o HDFS e a estrutura
de memória e CPU do YARN.
8:45 - 8:48

Então, nós temos aí
algumas configurações
8:48 - 8:50

que também são possíveis,
é lógico, configurações defaults,
8:50 - 8:53

porém, eu tenho
mais configurações
8:53 - 8:56

dentro do HDFS
e dentro do YARN.
8:56 - 9:00

Dentro do YARN, eu também
consigo aumentar o meu cluster,
9:00 - 9:02

eu consigo
adicionar mais nós.
9:02 - 9:04

Eu não preciso,
por exemplo,
9:04 - 9:08

já criar de imediato
um cluster com mil nós.
9:08 - 9:12

Eu posso começar pequeno
com dez, vinte máquinas, por exemplo,
9:12 - 9:14

e ir crescendo de acordo
com a minha demanda.
9:14 - 9:16

Com o passar
do tempo,
9:16 - 9:19

com mais dados
ou mais processamentos,
9:19 - 9:22

eu consigo adicionar
mais máquinas
9:22 - 9:24

e ter mais poder
de armazenamento
9:24 - 9:26

e processamento
de memória e CPU.
9:26 - 9:32

Então, nós temos a opção de ter
uma escalabilidade horizontal com o Hadoop,
9:32 - 9:35

e o OneBody é
quem faz essa gerência
9:35 - 9:38

de adicionar ou remover nós
dentro de um cluster.
9:38 - 9:40

Você pode fazer isso
de forma manual, lógico,
9:40 - 9:43

porém, com o YARN
é muito mais simples.
9:43 - 9:45

Eu simplesmente
venho em Hosts,
9:45 - 9:49

e eu tenho todas as máquinas
disponíveis aqui dentro do meu cluster.
9:49 - 9:53

Caso eu queira
adicionar mais máquinas,
9:53 - 9:57

eu posso vir
em Actions aqui
9:57 - 10:00

e adicionar
novos hosts,
10:00 - 10:02

onde eu coloco
o nome do meu host,
10:02 - 10:06

como por exemplo,
"maquina1",
10:06 - 10:07

e tenho mais algumas
configurações.
10:07 - 10:13

Então, todas as máquinas que executam
Hadoop são baseadas em Linux,
10:13 - 10:15

então eu tenho
uma chave SSH
10:15 - 10:17

que eu tenho
que compartilhar e tudo mais,
10:17 - 10:19

tenho usuário
e senha das máquinas,
10:19 - 10:21

a porta que eu
vou utilizar,
10:21 - 10:24

e, depois, eu
simplesmente escolho
10:24 - 10:26

quais serviços que eu quero
instalar na naquele host.
10:26 - 10:29

Eu quero instalar o HDFS?
Eu quero instalar o YARN?
10:29 - 10:31

Eu quero instalar
o Spark?
10:31 - 10:35

Então, nós temos aí a possibilidade
de customizar a instalação de um host
10:35 - 10:37

e adicionar
novas máquinas
10:37 - 10:41

de forma muito fácil, muito
dinâmica, com o OneBody.
10:41 - 10:45

Quando eu falo de gerenciamento
de recursos dentro do OneBody,
10:45 - 10:47

eu posso, por exemplo,
como eu já mostrei para vocês,
10:47 - 10:49

alterar
as configurações,
10:49 - 10:52

e eu simplesmente posso
pegar um serviço específico,
10:52 - 10:54

nesse caso,
o HDFS,
10:54 - 10:59

e iniciar, parar,
reiniciar esse serviço.
10:59 - 11:02

E se eu tiver um cluster
com dez, vinte, trinta máquinas,
11:02 - 11:04

eu consigo fazer isso
de forma automática
11:04 - 11:06

para todas as máquinas
de uma vez,
11:06 - 11:08

ou simplesmente
de determinado host.
11:08 - 11:12

Eu posso chegar na máquina
dez, por exemplo,
11:12 - 11:15

e quero reiniciar somente
o HDFS naquela máquina.
11:15 - 11:17

Eu também consigo
fazer isso.
11:17 - 11:20

Então, nós temos aí uma forma
muito fácil de controle de gerência
11:20 - 11:23

do nosso cluster
com o OneBody.
11:23 - 11:27

O OneBody otimiza muito o trabalho
de quem for administrar um cluster,
11:27 - 11:32

seja para configurar serviços,
adicionar novos hosts,
11:32 - 11:34

parar, reiniciar
aplicações.
11:34 - 11:37

Temos aí uma ferramenta
muito bacana
11:37 - 11:40

onde nós podemos ter
ganhos significativos
11:40 - 11:43

de tempo, de gerência,
e facilitar a nossa vida
11:43 - 11:48

na parte de configuração
e manutenção de todo o cluster.
11:48 - 11:53

Dentro do HDFS, nós temos
ainda uma interface web
11:53 - 11:56

conhecida como
Hadoop User Interface,
11:56 - 11:58

onde eu tenho todas
as configurações do meu cluster.
11:58 - 12:01

Então, dentro
do OneBody
12:01 - 12:05

eu tenho
o NameNode UI.
12:05 - 12:08

Eu tenho aqui, por exemplo,
quando ele foi iniciado,
12:08 - 12:10

qual é a versão
do meu Hadoop,
12:10 - 12:14

qual é a compilação,
o ID do meu cluster,
12:14 - 12:15

o nome
do meu cluster.
12:17 - 12:22

Eu tenho a opção de visualizar
se está em modo seguro ou não,
12:22 - 12:25

quanto de capacidade
de armazenamento eu tenho,
12:25 - 12:27

quanto eu já estou
utilizando,
12:27 - 12:32

quantos arquivos, por exemplo,
existem lá dentro do meu HDFS.
12:32 - 12:35

Aqui, ele tem 2907
arquivos e diretórios.
12:35 - 12:39

Eu tenho um total de blocos
armazenados dentro do meu HDFS,
12:39 - 12:42

e, nesse caso,
eu tenho 1840 blocos,
12:42 - 12:46

o total de objeto, quanto
de memória ele está utilizando.
12:46 - 12:50

Então, visualizamos todas
as configurações
12:50 - 12:52

que nós temos
dentro do Hadoop,
12:52 - 12:55

inclusive,
os DataNodes.
12:55 - 12:57

Nese caso, eu tenho
um DataNode só,
12:57 - 12:59

então vai aparecer
uma máquina só.
12:59 - 13:01

Porém, se eu tivesse
cem máquinas,
13:01 - 13:03

apareceria cem
máquinas aqui,
13:03 - 13:06

e eu conseguiria
ver uma lista
13:06 - 13:08

com as cem máquinas
separadamente.
13:08 - 13:11

E aí eu tenho qual a capacidade
de armazenamento,
13:11 - 13:15

quantos blocos existem
em cada máquina,
13:15 - 13:18

qual a porcentagem de utilização
que eu tenho dentro dela.
13:18 - 13:24

Eu posso saber, por exemplo,
se ele está em execução,
13:24 - 13:25

quanto tempo
ele está em execução.
13:25 - 13:29

Eu tenho aí um overview
de todo o meu ambiente
13:29 - 13:32

com o Hadoop
User Interface.
13:32 - 13:35

Falando um pouco
de gerenciamento
13:35 - 13:37

e acesso às aplicações
de forma web,
13:37 - 13:40

o YARN também possui
uma interface gráfica
13:40 - 13:44

que é o Research
Manager User Interface,
13:44 - 13:46

onde nós temos
uma visão de um todo,
13:46 - 13:51

de todas as aplicações que estão
sendo executadas no nosso cluster.
13:51 - 13:56

Então, eu tenho aqui
a capacidade total do meu cluster,
13:56 - 13:57

em memória,
por exemplo.
13:57 - 14:00

O meu, como é uma máquina
local, muito reduzida,
14:00 - 14:03

eu tenho aqui quatro
gigas de memória
14:03 - 14:06

e quatro cores onde eu posso
executar os meus jobs.
14:06 - 14:09

Quando nós temos
um ambiente de produção,
14:09 - 14:10

ele é muito
maior que isso.
14:10 - 14:12

Nós temos terabytes
de memória,
14:12 - 14:17

temos centenas,
milhares de cores,
14:17 - 14:19

de frações
de CPU,
14:19 - 14:22

onde eu posso
executar os meus jobs.
14:22 - 14:26

E aí eu tenho quantos por centos
ele está sendo utilizado.
14:26 - 14:28

Nesse caso aqui, ele
está 100% disponível.
14:28 - 14:32

Então, eu não estou executando
nenhuma aplicação.
14:32 - 14:35

Então, nós temos
uma opção de visualização
14:35 - 14:41

de todas as aplicações
rodando em cima do YARN.
14:41 - 14:42

Eu consigo,
por exemplo,
14:42 - 14:46

entrar no histórico de execução
de cada aplicação,
14:46 - 14:51

eu consigo ver o que está sendo
executado ou o que foi finalizado.
14:51 - 14:55

Por exemplo: esses jobs aqui
são os jobs do Hive
14:55 - 14:58

e eles já foram executados,
está com o status "Finished".
14:58 - 15:03

Se ele estivesse em execução,
eu teria o status como "Running".
15:03 - 15:05

Então, eu consigo
identificar cada um deles,
15:05 - 15:10

entrar em cada um deles e ver
quanto tempo está sendo executado,
15:10 - 15:15

ver log, enfim, ver quem é o usuário
responsável por aquele processo.
15:15 - 15:19

Então, eu consigo administrar
minha fila de recursos
15:19 - 15:21

de forma
muito eficiente.
15:21 - 15:25

E, para cada job executado,
eu tenho, por exemplo,
15:25 - 15:28

quais recursos que ele está
usando daquele cluster.
15:28 - 15:30

E isso é bacana, porque
se você tiver, por exemplo,
15:30 - 15:33

um job que está
consumindo muito recurso
15:33 - 15:37

e atrapalhando o andamento
das suas outras tarefas,
15:37 - 15:41

você pode simplesmente matar
esse job de forma muito fácil,
15:41 - 15:45

muito dinâmica, e liberar
recurso para as outras aplicações.
15:45 - 15:49

Então, as ferramentas web que nós
temos dentro de todo o ecossistema
15:49 - 15:54

nos permitem uma gerência
muito fácil não só para a configuração,
15:54 - 15:55

mas para a operação
do dia a dia,
15:55 - 15:59

seja ela
com o Hadoop UI
15:59 - 16:02

ou o NameNode
User Interface,
16:02 - 16:05

onde temos o controle
de todos os jobs,
16:05 - 16:08

de todas as execuções
existentes dentro do YARN.
16:09 - 16:12

Com isso, nós finalizamos
toda a parte de gerência do Hadoop,
16:12 - 16:15

tanto com o HDFS
ou com o YARN.
16:15 - 16:18

Então, nós vimos aí que o OneBody
é um componente muito importante
16:18 - 16:22

dentro do cluster porque ele
automatiza a instalação
16:22 - 16:24

e configuração de todo
o nosso ambiente.
16:24 - 16:27

Não só para o HDFS,
YARN ou MapReduce,
16:27 - 16:29

mas para todo software,
todo framework
16:29 - 16:32

que compõe o nosso
cluster Hadoop.

Title:: ONPC CAP02 VA02 HANDSON HADOOP
Video Language:: Portuguese, Brazilian
Duration:: 16:43

	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP
	monicafiap edited Portuguese, Brazilian subtitles for ONPC CAP02 VA02 HANDSON HADOOP

Show all

Portuguese, Brazilian subtitles

Incomplete

Revisions

Revision 25 Edited

monicafiap

ONPC CAP02 VA02 HANDSON HADOOP

Revisions

Our website uses cookies

Operating cookies (Required)