Conceitos básicos - 000001

Page 1

BigData Definições Grande volume de dados produzidos. Dados gerados em alta velocidade. Caracteristicas Diferentes Tipos de dados. Diferentes Origens de dados. Dado vs Informação Dados OQE códigos que constituem a matéria prima da informação. informação não tratada Caracteristicas não podem transmitir uma mensagem ou representar algum conhecimento. Informação OQE Informações são dados tratados. resultado do processamento de dados. Conjuto de dados >> Processamento >> Informação Caracteristicas têm significado podem ser tomadas decisões ou fazer afirmações considerando as informações. Exemplo: Dados: Grande, Azul, Casa,.. Informação A casa azul é grande. Conclusão: Dado é diferente de informção. Refefências: https://www.binapratica.com.br/dados-x-informacao https://pt.slideshare.net/erosaugusto/dados-x-informao7 http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx Importância 4Vs Componenes técnicos Volume(25%) - Grande quantidade de dados gerados. Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc. Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc); Veracidade - Confianças nos dados. Valor Tecnologias Hadoop Ecosistema Hadoop NoSql Spark Tópicos estudos a parate kerberos DFS

Page 2

Hadoop OQE È um framework open source que facilita o processamento em lagar escala de um grande volume de dados usando um cluster com varias máquinas de baixo custo. Caract. Foi escrito na linguagem java e baisea-se no google file sistem(GFS). Permite a computação distribuida mas com baixo custo. Escalável (Horizontalmente) Tolerante a falhas Flexível Módulos Os principais módulos são: HDFS, MapReduce e YARN. HDFS OQE Sistema de arquivos distribuidos de alta velocidade e que permite rápida transferência de dados entre os nodes Hadoop. Foi desenvolvido utilizando como base o (DFS) Caract. Tolerancia a falhas e recuperação automática. Pode rodar em máquinas com sistema operacionais diferentes. Escalabilidade Confiabiliade - mantém várias cópias dos dados. Segurança é feita com o kerberos. E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro. Foi pensado para ser ótimo em WORM Cluster HDFS Tipos de noldes. Namenode(Master node') Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios. Datanode(Work node) Armazena e buscas os blocos de dados. Reporta ao namenode a lista de blocos armazenados. MapReduce OQE Modelo de programação. Caract. Processo computacional que utiliza chave e valores. Usa força bruta - todo o conjunto de dados é processado em cada query. Modelo de processamento batch Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado. Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros. Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig). YARN - Agendador de jobs e gerenciador de recursos Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.

Next up

Conceitos básicos - 000001

Description

Resource summary

Page 1

Page 2

Similar

	Created by Luiz Alberto Nunes over 6 years ago