Aula 02 e 03 - Hadoop, HDFS e MapReduce

Conceitos
1. Hadoop é um framework em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples.
2. História
  1. Motivado a construir um buscador complexo, que funcione na escala da web, indexando bilhões de páginas, Doug Cutting resolveu se dedicar ao desafio iniciando seu projeto Nutch junto com Mike Cafarella, mas enfrentou alguns problemas com escalabilidade
  2. 2003 (gfs) e 2004(map reduce) Nutch motor de busca web Projeto open source da apache Muitas tarefas para implementar Escalabilidade limitada Criado por doug cutting e mike cafarella Yahoo contrata doug Sistema distribuido do nutch passa a ser um outro projeto apache independente Em 2006 o novo projeto passa a se chamar hadoop Em 2009 yahoo executa 100 terabytes de dados em mais de 3 mil nos.
Servicos Chave
1. HDFS
  1. - Hadoop Distributed File System (HDFS) - Hadoop Distributed File System (HDFS) é o sistema de armazenamento distribuído utilizado por aplicações Hadoop. - O HDFS quebra os arquivos em blocos de dados - Cria réplicas destes blocos, que são distribuídos no cluster - Permitindo computações extremamente rápidas em arquivos pequenos e em máquinas distintas. - Escalável e tolerante a falhas
    1. NameNode - NN
      1. Gerencia o namespace do sistema de arquivos do Hadoop
    2. DataNode
      1. Armazena os blocos de dados em um nó
    3. SecondaryNameNode
      1. Oferece tarefas de ponto de verificação e manutenção do NameNode
    4. Exemplo
      1. 5 nodes, Blocos de 64 MB, Arquivo de 320MB, Fator de réplica 3
        Quando um nó falha em um DataNode o NN percebe a falta de comunicação e replica os blocos que estavam nesse nó para os outros nós.
    5. comandos shell hdfs
      1. http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/FileSystemShell.html
2. MapReduce
  1. Processamento paralelo de alto desempenho
    1. O Hadoop MapReduce é um modelo de programação para criação de aplicações processam rapidamente vastas quantidades de dados em paralelo através de grandes clusters de computadores comun
    2. O código ou programa a ser executado, é transportado até o local do dado, executando tarefas independentes em cada bloco de dado (Map), e depois são consolidados gerando a resposta do processamento (Reduce).
  2. Workflow
    1. - Uma aplicação cliente submete um job ao JobTracker
      1. - JobTracker se comunica com o NameNode para determinar a localização dos dados
        - JobTracker localiza os nós TaskTrackers próximos aos dados
        - JobTracker submete as tarefas aos nós TaskTrackers
        - Nós TaskTrackers são monitorados.
        - Ao completar a tarefa, o JobTracker atualiza seu status.
  3. Estrutura de uma aplicação MapReduce
    1. Map Atua exclusivamente sobre um conjunto de entrada com chaves e valores, produzindo uma lista de chaves e valores
      1. Reduce Atua sobre os valores intermediários produzidos pelo map para, normalmente, agrupar os valores e produzir uma saída
        (K1,V1)→Map→list(K2,V2)→ (K2, list(V2))→Reduce→list(K3, V3)
  4. MapReduce não é indicado para: – Consultas que necessitam de baixa latência – Sistemas de tempo-real – Consultas em um website – Processamento de pequenas tarefas – Overhead para gerenciamento das tarefas
Arquitetura
1. hardware: - Servidores commodity - Estruturados em cluster - Self-Healing, qualquer alteração no cluster ou problema, é detectado automaticamente e compensado com os demais
Principios
1. Performance escalável - Execução em paralelo - Dados complexos e de diversas fontes e tipos - Tolerante a falhas - A instrução de processamento é transportada para onde está o dado - Poucos arquivos grandes, e não muitos arquivos pequenos
Ecosistema
1. ZooKeeper - coordination
2. Sqoop - Data exchange
3. Flume - log collector
4. HDFS - Hadoop File System
  1. Yarn MapReduce V2 - Distribuited Procesing Framework
    1. Oozie - workflow
    2. Pig - Scripting
    3. Mahout - Machine learnig
    4. R conenectors - Statistics
    5. Hive - SqlQuery
  2. Habse - Columnar Store
5. Ambari - Provisioning -Managing an MOnitoring Hadoop Clusters
6. Evolução
  1. 2015 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume, Kafka, Impala, Spark
  2. 2012 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume, Kafka, Impala.
  3. 2011 - HDFS, MR + Yarn, Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop, Oozie, Flume.
  4. 2010 - HDFS, MR , Zookeeper, Hbase, Mahout, Pig, Hive, Avro, Sqoop.
  5. 2009 - HDFS, MR, Zookeeper, Hbase, Mahout, Pig, Hive.
  6. 2008 - HDFS, MR , Zookeeper, Hbase.
  7. 2006 - HDFS, MR.
aula 2 - Vmware
1. Comandos Linux
  1. gedit – Abre editor de arquivo
  2. ls – Lista o conteúdo
  3. mkdir – cria diretório
  4. mv – renomeia ou move
  5. cd – muda de diretório
  6. cp - copia
  7. chmod – altera permissões
  8. more – mostra o conteúdo do arquivo paginando
  9. cat – mostra todo conteúdo do arquivo
  10. grep – pesquisa o conteúdo de um arquivo
  11. rm – remove o arquivo
Aula 02 parte 3
1. - Verificar instalação do Java - Configurar ssh - Configurar Hadoop - Formatar o NameNode - Iniciar os processos do HDFS - Iniciar os processos do MapReduce
2. Verificar instalação do java
  1. [root@localhost ~]# java -version
3. Configurar ssh
  1. [root@localhost ~]# mount /dev/sda1 /mnt
    1. [root@localhost ~]# /etc/init.d/sshd start
      1. [root@localhost ~]# ssh-keygen -t rsa -P ""
        [root@localhost ~]# cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
        [root@localhost ~]# ssh localhost
4. configurar hadoop. https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html
  1. Fazer downoload
    1. descompactar na pasta
      1. mover para diretorio hadoop
        editar arquivo hadoop-env.sh
        possui os dados das variáveis de ambiente do java
        editar arquivo core-site.xml
        configura a pasta temporaria, o endereço do navegador e a porta de conexão
        editar arquivo mapred-site.xml
        configura o endereço do navegador para visualizar status do job tracker
        editar arquivo hdfs-site.xml
        configura a qtde de réplicas dos arquivos e o tamanho de cada bloco
        formatar namenode
        inicia processos hdfs
        start-dfs.sh
        inicia processos mapReduce
        start-mapred.sh

Next up

Aula 02 e 03 - Hadoop, HDFS e MapReduce

Description

Resource summary

0 comments

Similar

	Created by Ronaldo Pimentel over 7 years ago