Conceitos básicos - 000001

Description

Resumo Conceitos básicos de bigdata. O que é, motivação e ferramentas.
Luiz Alberto Nunes
Note by Luiz Alberto Nunes, updated more than 1 year ago
Luiz Alberto Nunes
Created by Luiz Alberto Nunes over 6 years ago
19
0

Resource summary

Page 1

BigData    Definições         Grande volume de dados produzidos.         Dados gerados em alta velocidade.    Caracteristicas             Diferentes Tipos de dados.         Diferentes Origens de dados.             Dado vs Informação         Dados             OQE                 códigos que constituem a matéria prima da informação.                 informação não tratada             Caracteristicas                 não podem transmitir uma mensagem ou representar algum conhecimento.         Informação             OQE                 Informações são dados tratados.                 resultado do processamento de dados.                     Conjuto de dados >> Processamento >> Informação             Caracteristicas                 têm significado                 podem ser tomadas decisões ou fazer afirmações considerando as informações.         Exemplo:             Dados:                 Grande, Azul, Casa,..             Informação                 A casa azul é grande.         Conclusão:             Dado é diferente de informção.         Refefências:             https://www.binapratica.com.br/dados-x-informacao             https://pt.slideshare.net/erosaugusto/dados-x-informao7             http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html             http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx     Importância     4Vs         Componenes técnicos             Volume(25%) - Grande quantidade de dados gerados.             Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc.             Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc);         Veracidade - Confianças nos dados.     Valor             Tecnologias             Hadoop         Ecosistema Hadoop         NoSql         Spark   Tópicos estudos a parate kerberos DFS

Page 2

Hadoop     OQE         È um framework open source que facilita o processamento em lagar         escala de um grande volume de dados usando um cluster com varias         máquinas de baixo custo.     Caract.         Foi escrito na linguagem java e baisea-se no google file sistem(GFS).         Permite a computação distribuida mas com baixo custo.         Escalável (Horizontalmente)         Tolerante a falhas         Flexível     Módulos            Os principais módulos são: HDFS, MapReduce e YARN.             HDFS                 OQE                     Sistema de arquivos distribuidos de alta velocidade e que                     permite rápida transferência de dados entre os nodes Hadoop.                     Foi desenvolvido utilizando como base o (DFS)                 Caract.                     Tolerancia a falhas e recuperação automática.                     Pode rodar em máquinas com sistema operacionais diferentes.                     Escalabilidade                     Confiabiliade - mantém várias cópias dos dados.                     Segurança é feita com o kerberos.                     E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro.                     Foi pensado para ser ótimo em WORM                     Cluster HDFS                     Tipos de noldes.                         Namenode(Master node')                             Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios.                         Datanode(Work node)                             Armazena e buscas os blocos de dados.                             Reporta ao namenode a lista de blocos armazenados.             MapReduce                 OQE                     Modelo de programação.                 Caract.                     Processo computacional que utiliza chave e valores.                     Usa força bruta - todo o conjunto de dados é processado em cada query.                     Modelo de processamento batch                     Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado.                     Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros.                     Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).              YARN - Agendador de jobs e gerenciador de recursos               Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.  

Show full summary Hide full summary

Similar

Rounding to decimal places
Ellen Billingham
English Vocabulary
Niat Habtemariam
Geography - Unit 1A
NicoleCMB
Devices That Create Tension.
SamRowley
Cultural Studies
Emily Fenton
A-level English Language Power & Gender Theories
Libby Shaw
AQA Physics: A2 Unit 4
Michael Priest
AQA Business Unit 1
lauren_binney
GCSE AQA Biology 1 Quiz
Lilac Potato
Regular Verbs Spanish
Oliver Hall
1_PSBD New Edition
Ps Test