Conceitos básicos - 000001

Luiz Alberto Nunes
Note by Luiz Alberto Nunes, updated more than 1 year ago
Luiz Alberto Nunes
Created by Luiz Alberto Nunes almost 4 years ago
12
0

Description

Resumo Conceitos básicos de bigdata. O que é, motivação e ferramentas.

Resource summary

Page 1

BigData    Definições         Grande volume de dados produzidos.         Dados gerados em alta velocidade.    Caracteristicas             Diferentes Tipos de dados.         Diferentes Origens de dados.             Dado vs Informação         Dados             OQE                 códigos que constituem a matéria prima da informação.                 informação não tratada             Caracteristicas                 não podem transmitir uma mensagem ou representar algum conhecimento.         Informação             OQE                 Informações são dados tratados.                 resultado do processamento de dados.                     Conjuto de dados >> Processamento >> Informação             Caracteristicas                 têm significado                 podem ser tomadas decisões ou fazer afirmações considerando as informações.         Exemplo:             Dados:                 Grande, Azul, Casa,..             Informação                 A casa azul é grande.         Conclusão:             Dado é diferente de informção.         Refefências:             https://www.binapratica.com.br/dados-x-informacao             https://pt.slideshare.net/erosaugusto/dados-x-informao7             http://arthurgiroldo.blogspot.com.br/2012/04/dados-x-informacao.html             http://www.luis.blog.br/qual-a-diferenca-entre-dados-informacao-e-conhecimento.aspx     Importância     4Vs         Componenes técnicos             Volume(25%) - Grande quantidade de dados gerados.             Variedade(69%) - Variedade de origens e formatos dos dados(logs, texto streming, SGBDs, etc.             Velocidade(6%) - Os dados são gerados em grandes quantidades(sensores, dados de nabegação, etc);         Veracidade - Confianças nos dados.     Valor             Tecnologias             Hadoop         Ecosistema Hadoop         NoSql         Spark   Tópicos estudos a parate kerberos DFS

Page 2

Hadoop     OQE         È um framework open source que facilita o processamento em lagar         escala de um grande volume de dados usando um cluster com varias         máquinas de baixo custo.     Caract.         Foi escrito na linguagem java e baisea-se no google file sistem(GFS).         Permite a computação distribuida mas com baixo custo.         Escalável (Horizontalmente)         Tolerante a falhas         Flexível     Módulos            Os principais módulos são: HDFS, MapReduce e YARN.             HDFS                 OQE                     Sistema de arquivos distribuidos de alta velocidade e que                     permite rápida transferência de dados entre os nodes Hadoop.                     Foi desenvolvido utilizando como base o (DFS)                 Caract.                     Tolerancia a falhas e recuperação automática.                     Pode rodar em máquinas com sistema operacionais diferentes.                     Escalabilidade                     Confiabiliade - mantém várias cópias dos dados.                     Segurança é feita com o kerberos.                     E hotimizado para o amarzenamento de grandes arquivos e tem um tempo de leitura de um conjunto de dados inteiro e não apenas um registro.                     Foi pensado para ser ótimo em WORM                     Cluster HDFS                     Tipos de noldes.                         Namenode(Master node')                             Gerencia a estrutura do sistema e os metadados dos arquivos e diretórios.                         Datanode(Work node)                             Armazena e buscas os blocos de dados.                             Reporta ao namenode a lista de blocos armazenados.             MapReduce                 OQE                     Modelo de programação.                 Caract.                     Processo computacional que utiliza chave e valores.                     Usa força bruta - todo o conjunto de dados é processado em cada query.                     Modelo de processamento batch                     Flexibilidade - Pode pracessar vários tipos de arquivo, dados estruturados ou não estruturado.                     Confiabilidade - Processa vários jobs em paralelo sem que a falha de um afete o outros.                     Acessibilidade - suporta várias linguagens(Java, C++, Python, Apache Pig).              YARN - Agendador de jobs e gerenciador de recursos               Pricipais componetes - O HDFS e o MapReduce podes ser considerados os componentes mais importantes do framework.  

Show full summary Hide full summary

Similar

Rounding to decimal places
Ellen Billingham
Spanish: Grammar 3.2
Selam H
OCR Biology AS level (f211) flashcards/revision notes
Dariush Zarrabi
Cognitive Psychology - Loftus and Palmer (1974)
Robyn Chamberlain
9 History- The Treaty of Versailles
melgallagher
ExamTime Quick Guide to Getting Started
Andrea Leyden
Tema 1: La filosofía presocrática
Jocelyn Abigail Garcia Reyna
mi mapa conceptual
alejandro rodriguez
seis procesos de la ARH. Administración de Recursos Humanos
Lenin Lanza
Romanticismo en Francia
PAULA VALENTINA JAIMES ORTEGA
Conocimiento General de Aeronaves
vanesa medina