Bigdata - Arquitetura Hadoop

Características
1. Rápido
2. Volume
3. diferentes fontes
Tecnologias
1. Hadoop é um framework em código aberto para armazenamento e processamento distribuídos de grandes conjuntos de dados em hardware simples
  1. Projeto Nutch - Doug Cutting e Mike Cafarella. havia problemas de escalabilidade.
    1. Escalabilidade Conforme o aumento do volume de dados, é necessário que aumente a escalabilidade. Existem dois tipos: - Vertical: Aumentar o poder de processamento e armazenamento das máquinas - Horizontal: Aumentar o número de máquinas
      1. Hadoop foi Criado em 2005 a partir do white paper google "The Google File System" (GFS)
        Hadoop
        HDFS
        escalabilidade horizontal --> em VARIAS maquinas
        Arquivo é quebrado em vários pedaços de 64MB. padrão de mercado. Horton Claudera já utilizam tamanho maior.
        É feito três cópias e distribuído pelo cluster
        Algoritmo de distribuição é pensado para segurança do dado e aproveitamento do recurso.
        Nodes
        Namenode NN
        NameNode is the centerpiece of HDFS. NameNode is also known as the Master NameNode only stores the metadata of HDFS – the directory tree of all files in the file system, and tracks the files across the cluster. NameNode does not store the actual data or the dataset. The data itself is actually stored in the DataNodes. NameNode knows the list of the blocks and its location for any given file in HDFS. With this information NameNode knows how to construct the file from blocks. NameNode is so critical to HDFS and when the NameNode is down, HDFS/Hadoop cluster is inaccessible and considered down. NameNode is a single point of failure in Hadoop cluster. NameNode is usually configured with a lot of memory (RAM). Because the block locations are help in main memory.
        fsimage - Its the snapshot of the filesystem when namenode started
        Edit logs - Its the sequence of changes made to the filesystem after namenode started
        Only in the restart of namenode , edit logs are applied to fsimage to get the latest snapshot of the file system. But namenode restart are rare in production clusters which means edit logs can grow very large for the clusters where namenode runs for a long period of time. The following issues we will encounter in this situation. Editlog become very large , which will be challenging to manage it Namenode restart takes long time because lot of changes has to be merged In the case of crash, we will lost huge amount of metadata since fsimage is very old
        fontes: http://hadoopinrealworld.com/namenode-and-datanode/ http://blog.madhukaraphatak.com/secondary-namenode---what-it-really-do/
        Secondary namenode SNN - Secondary Namenode helps to overcome the above issues by taking over responsibility of merging editlogs with fsimage from the namenode.
        It gets the edit logs from the namenode in regular intervals and applies to fsimage Once it has new fsimage, it copies back to namenode Namenode will use this fsimage for the next restart,which will reduce the startup time Secondary Namenode whole purpose is to have a checkpoint in HDFS. Its just a helper node for namenode.That’s why it also known as checkpoint node inside the community. So we now understood all Secondary Namenode does puts a checkpoint in filesystem which will help Namenode to function better. Its not the replacement or backup for the Namenode. So from now on make a habit of calling it as a checkpoint node.
        DataNode
        DataNode is responsible for storing the actual data in HDFS. DataNode is also known as the Slave NameNode and DataNode are in constant communication. When a DataNode starts up it announce itself to the NameNode along with the list of blocks it is responsible for. When a DataNode is down, it does not affect the availability of data or the cluster. NameNode will arrange for replication for the blocks managed by the DataNode that is not available. DataNode is usually configured with a lot of hard disk space. Because the actual data is stored in the DataNode.
        usa disco
        usa memória
        MapReduce
        Caracteristicas
        Arcabouço de software para facilitar a execução de aplicações que processam um grande volume de dados em um cluster de milhares de nós de hardware convencional de maneira tolerante a falhas.
        Tolerância a falhas ;Balanceamento de carga; Comunicação entre máquinas; Escalonamento de tarefas; Alocação de máquinas; Escalabilidade
        Processo computacional que utiliza chave e valores. Usa força bruta - todo o conjunto de dados é processado em cada query. Modelo de processamento batch Flexibilidade - Pode processar vários tipos de arquivo, dados estruturados ou não estruturado. Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros. Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).
        JobTracker (JT) • Nó mestre • Gerenciador de tarefas MapReduce
        Um programa completo Uma aplicação
        Classes Mapper
        Classes Reducer
        Classes Driver
        Mova as tarefas, não os dados 1. Uma aplicação cliente submete um job ao JobTracker 2. JobTracker se comunica com o NameNode para determinar a localização dos dados 3. JobTracker localiza os nós TaskTrackers próximos aos dados 4. JobTracker submete as tarefas aos nós TaskTrackers
        TaskTracker (TT) • Executam as tarefas MapReduce
        Execução de um Mapper ou Reducer sobre uma fatia dos dados
        1 - Tarefas Map
        Recebe dados
        Split dos dados
        Apuração chave/valor por nó
        Tolerância a falhas 1. Em um grande cluster, as máquinas ficam lentas ou falham com frequência 2. MapReduce oferece recuperação automática de tarefas que falharam 3. MapReduce redireciona tarefas falhas para outros nós do cluster
        3 - Tarefas Reduce
        Recebe os dados no formato chave/valor
        Sumariza de acordo com a necessidade
        Entrega a apuração final
        2 - Shuffle and sort
        Agrupa em uma estrutura de coleção todos os valores escritos no Map para um mesmo valor de chave, e depois os envia para tarefas da fase Reduce
        Modelo chave/valor
        fontes: http://www.univale.com.br/unisite/mundo-j/artigos/53_Mapreduce.pdf http://blog.werneckpaiva.com.br/2011/08/como-funciona-o-map-reduce-usado-pelo-google/
        Modos de execução BIG DATA • Local (standalone) – Executado como um único processo java – Recomendado para depuração de código • Pseudo-distribuído – Todos os componentes Hadoop são executados em uma única máquina – Cada componente é executado em um processo java separado • Completamente distribuído – Cluster Hadoop utilizando múltiplas máquinas
        … é um framework open source desenvolvido em Java … é projetado para manipular grande volume de dados … é projetado para ser escalável em milhares de máquinas … é projetado para ser executado em hardware de baixo custo … oferece resiliência por meio da replicação de dados … oferece recuperação automática do processo em caso de falha … faz distribuição automática dos dados no cluster … projetado para levar o processamento para o dado
      2. Em 2004 o Google lança o white paper "MapReduce: Simplified Data Processing on Large Clusters"

Next up

Bigdata - Arquitetura Hadoop

Description

Resource summary

Similar

	Created by Ronaldo Pimentel over 6 years ago