Bigdata - Arquitetura Hadoop

Description

Tecnologia na Educação Mind Map on Bigdata - Arquitetura Hadoop, created by Wagner Oliveira Nascimento on 20/05/2020.
Wagner Oliveira Nascimento
Mind Map by Wagner Oliveira Nascimento, updated more than 1 year ago More Less
Ronaldo Pimentel
Created by Ronaldo Pimentel over 6 years ago
Wagner Oliveira Nascimento
Copied by Wagner Oliveira Nascimento almost 4 years ago
0
0

Resource summary

Bigdata - Arquitetura Hadoop
  1. Características
    1. Rápido
      1. Volume
        1. diferentes fontes
        2. Tecnologias
          1. Hadoop é um framework em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples
            1. Projeto Nutch - Doug Cutting e Mike Cafarella. havia problemas de escalabilidade.
              1. Escalabilidade Conforme o aumento do volume de dados, é necessário que aumente a escalabilidade. Existem dois tipos: - Vertical: Aumentar o poder de processamento e armazenamento das máquinas - Horizontal: Aumentar o número de máquinas
                1. Hadoop foi Criado em 2005 a partir do white paper google "The Google File System" (GFS)
                  1. Hadoop
                    1. HDFS
                      1. escalabilidade horizontal --> em VARIAS maquinas
                        1. Arquivo é quebrado em vários pedaços de 64MB. padrão de mercado. Horton Claudera já utilizam tamanho maior.
                          1. É feito três cópias e distribuído pelo cluster
                            1. Algoritmo de distribuição é pensado para segurança do dado e aproveitamento do recurso.
                              1. Nodes
                                1. Namenode NN
                                  1. NameNode is the centerpiece of HDFS. NameNode is also known as the Master NameNode only stores the metadata of HDFS – the directory tree of all files in the file system, and tracks the files across the cluster. NameNode does not store the actual data or the dataset. The data itself is actually stored in the DataNodes. NameNode knows the list of the blocks and its location for any given file in HDFS. With this information NameNode knows how to construct the file from blocks. NameNode is so critical to HDFS and when the NameNode is down, HDFS/Hadoop cluster is inaccessible and considered down. NameNode is a single point of failure in Hadoop cluster. NameNode is usually configured with a lot of memory (RAM). Because the block locations are help in main memory.
                                    1. fsimage - Its the snapshot of the filesystem when namenode started
                                      1. Edit logs - Its the sequence of changes made to the filesystem after namenode started
                                        1. Only in the restart of namenode , edit logs are applied to fsimage to get the latest snapshot of the file system. But namenode restart are rare in production clusters which means edit logs can grow very large for the clusters where namenode runs for a long period of time. The following issues we will encounter in this situation. Editlog become very large , which will be challenging to manage it Namenode restart takes long time because lot of changes has to be merged In the case of crash, we will lost huge amount of metadata since fsimage is very old
                                        2. fontes: http://hadoopinrealworld.com/namenode-and-datanode/ http://blog.madhukaraphatak.com/secondary-namenode---what-it-really-do/
                                        3. Secondary namenode SNN - Secondary Namenode helps to overcome the above issues by taking over responsibility of merging editlogs with fsimage from the namenode.
                                          1. It gets the edit logs from the namenode in regular intervals and applies to fsimage Once it has new fsimage, it copies back to namenode Namenode will use this fsimage for the next restart,which will reduce the startup time Secondary Namenode whole purpose is to have a checkpoint in HDFS. Its just a helper node for namenode.That’s why it also known as checkpoint node inside the community. So we now understood all Secondary Namenode does puts a checkpoint in filesystem which will help Namenode to function better. Its not the replacement or backup for the Namenode. So from now on make a habit of calling it as a checkpoint node.
                                          2. DataNode
                                            1. DataNode is responsible for storing the actual data in HDFS. DataNode is also known as the Slave NameNode and DataNode are in constant communication. When a DataNode starts up it announce itself to the NameNode along with the list of blocks it is responsible for. When a DataNode is down, it does not affect the availability of data or the cluster. NameNode will arrange for replication for the blocks managed by the DataNode that is not available. DataNode is usually configured with a lot of hard disk space. Because the actual data is stored in the DataNode.
                                              1. usa disco
                                              2. usa memória
                                            2. MapReduce
                                              1. Caracteristicas
                                                1. Arcabouço de software para facilitar a execução de aplicações que processam um grande volume de dados em um cluster de milhares de nós de hardware convencional de maneira tolerante a falhas.
                                                  1. Tolerância a falhas ;Balanceamento de carga; Comunicação entre máquinas; Escalonamento de tarefas; Alocação de máquinas; Escalabilidade
                                                    1. Processo computacional que utiliza chave e valores. Usa força bruta - todo o conjunto de dados é processado em cada query. Modelo de processamento batch Flexibilidade - Pode processar vários tipos de arquivo, dados estruturados ou não estruturado. Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros. Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).
                                                    2. JobTracker (JT) • Nó mestre • Gerenciador de tarefas MapReduce
                                                      1. Um programa completo Uma aplicação
                                                        1. Classes Mapper
                                                          1. Classes Reducer
                                                            1. Classes Driver
                                                            2. Mova as tarefas, não os dados 1. Uma aplicação cliente submete um job ao JobTracker 2. JobTracker se comunica com o NameNode para determinar a localização dos dados 3. JobTracker localiza os nós TaskTrackers próximos aos dados 4. JobTracker submete as tarefas aos nós TaskTrackers
                                                            3. TaskTracker (TT) • Executam as tarefas MapReduce
                                                              1. Execução de um Mapper ou Reducer sobre uma fatia dos dados
                                                                1. 1 - Tarefas Map
                                                                  1. Recebe dados
                                                                    1. Split dos dados
                                                                      1. Apuração chave/valor por nó
                                                                      2. Tolerância a falhas 1. Em um grande cluster, as máquinas ficam lentas ou falham com frequência 2. MapReduce oferece recuperação automática de tarefas que falharam 3. MapReduce redireciona tarefas falhas para outros nós do cluster
                                                                        1. 3 - Tarefas Reduce
                                                                          1. Recebe os dados no formato chave/valor
                                                                            1. Sumariza de acordo com a necessidade
                                                                              1. Entrega a apuração final
                                                                              2. 2 - Shuffle and sort
                                                                                1. Agrupa em uma estrutura de coleção todos os valores escritos no Map para um mesmo valor de chave, e depois os envia para tarefas da fase Reduce
                                                                              3. Modelo chave/valor
                                                                                1. fontes: http://www.univale.com.br/unisite/mundo-j/artigos/53_Mapreduce.pdf http://blog.werneckpaiva.com.br/2011/08/como-funciona-o-map-reduce-usado-pelo-google/
                                                                                2. Modos de execução BIG DATA • Local (standalone) – Executado como um único processo java – Recomendado para depuração de código • Pseudo-distribuído – Todos os componentes Hadoop são executados em uma única máquina – Cada componente é executado em um processo java separado • Completamente distribuído – Cluster Hadoop utilizando múltiplas máquinas
                                                                                  1. … é um framework open source desenvolvido em Java … é projetado para manipular grande volume de dados … é projetado para ser escalável em milhares de máquinas … é projetado para ser executado em hardware de baixo custo … oferece resiliência por meio da replicação de dados … oferece recuperação automática do processo em caso de falha … faz distribuição automática dos dados no cluster … projetado para levar o processamento para o dado
                                                                                3. Em 2004 o Google lança o white paper "MapReduce: Simplified Data Processing on Large Clusters"
                                                                          Show full summary Hide full summary

                                                                          Similar

                                                                          13 motivos para usar a Tecnologia na Educação
                                                                          André Matias
                                                                          Ensinando com as ferramentas GoConqr
                                                                          GoConqr suporte .
                                                                          PROTAGONISMO DO ALUNO
                                                                          Alessandra S.
                                                                          10 DICAS SOBRE TECNOLOGIA EDUCATIVA
                                                                          Cristinamba
                                                                          Softwares Educacionais
                                                                          valdeiresmendes
                                                                          Tecnologias Computacionais na Educação: Desafios na Prática Docente
                                                                          Karin Elisa Frie
                                                                          Novas Tecnologias e mediação pedagógicas
                                                                          tatiana_ana2012
                                                                          JOGOS EDUCATIVOS DIGITAIS
                                                                          Beth Schneider
                                                                          4 Maneiras de Usar as Redes Sociais em Sala de Aula
                                                                          GoConqr suporte .
                                                                          TECNOLOGIAS NA ESCOLA: INTERNET NA ESCOLA E INCLUSÃO
                                                                          taize1305
                                                                          Tecnologia móvel em sala de aula: problema ou desafio?
                                                                          rosana-jatoba