Big Data

Description

Mapa Mental del Tópico "Big data"
Edgar Reverón
Mind Map by Edgar Reverón, updated more than 1 year ago
Edgar Reverón
Created by Edgar Reverón about 5 years ago
71
0

Resource summary

Big Data
  1. Definición
    1. Tradicional
      1. Big Data (del idioma inglés “grandes datos”) es en el sector de tecnologías de la información y la comunicación una referencia a los sistemas que manipulan grandes conjuntos de datos (o data sets).
      2. Gartner
        1. Gartner define “Biga data” como un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información.
      3. Beneficios al Negocio?
        1. Mejor Toma de Decisiones
          1. Ganadores y Rezagados de la Industria
            1. Ventaja Competitiva
              1. Prevenir e Identificar Cyberatáques
              2. Tipos de Datos
                1. Smart Data
                  1. Son todos los datos referentes al negocio (tanto online, como offline). En este grupo se puede encontrar desde las cifras de ventas, datos sobre los clientes, datos sobre nuestra actividad online, etc. Todo aquello que esté relacionado con la consecución de los objetivos de la empresa.
                  2. Identity Data
                    1. Son todos los datos que nos permiten identificar a nuestros clientes actuales y potenciales: datos sobre sus gustos, historial de compras, perfil de internauta, tipo de interacción con nuestros contenidos (web, redes sociales, blog, mobile)entre otros.
                    2. Open Data
                      1. Agrupa al resto de datos externos a la empresa y que son accesibles por todo el mundo. Por su volumen y diversidad, nos será más difícil sacarles partido. Pero una vez encontrada la fuente de datos (e integrada), los beneficios que podemos sacar de esta información son enormes.
                    3. Retos Actuales
                      1. Variedad
                        1. Han surgido nuevos tipos de datos que se quieren almacenar: datos no estructurados. Las BD Relacionales no pueden almacenar este tipo de datos.
                        2. Escalabilidad
                          1. En búsqueda de la rapidez y rendimiento en consultas o procesamiento de datos se busca escalar siempre en horizontal. Es decir, si necesitamos más rendimiento añadimos una CPU a nuestro conjunto de trabajo para poder aumentar nuestras prestaciones en conjunto y aumentar el rendimiento reduciendo el tiempo de búsqueda o almacenamiento.
                            1. Vertical
                              1. Horizontal
                            2. Modelo Relacional
                              1. El modelo relacional no da soporte para todos los problemas. No podemos atacar todos los problemas con el mismo enfoque, queremos optimizar al 100% nuestro sistema y no podemos ajustar nuestros sistemas a estas BD. Por ejemplo, en el modelo relacional no podemos tener herencia de objetos o no podemos tener columnas variables según las filas...
                              2. Velocidad
                                1. La velocidad de generación de datos hoy en día es muy elevada, simplemente hay que verlo con las redes sociales actuales, aunque las empresas medias y muchas de las grandes no se ven afectadas por ello. Donde sí influye la velocidad es en el procesamiento de todo este conjunto ingente de datos, pues cuantos más datos tengamos más tiempo requieren. Por ello, se necesita un ecosistema que sea capaz de escalar en horizontal para trabajar en paralelo y ahorrar tiempo.
                              3. Áreas de Aplicación
                                1. Arquitectura
                                  1. Soluciones Big Data
                                    1. No SQL
                                      1. Sistema de archivos distribuido para garantizar escalabilidad
                                        1. El corazón del BigData, el concepto del algoritmo MapReduce y Hadoop, el primero es un algoritmo que permite procesar grandes volúmenes de información de forma sencilla y resumida, el segundo es una herramienta que garantiza ejecutar programas MapReduce hechos por usuarios en nodos distribuidos. Esta herramienta tiene un sistema de archivos HDFS el cual provee la distribución de trabajos a diferentes nodos que ejecutarán en paralelo este algoritmo de reducción.
                                      Show full summary Hide full summary

                                      Similar

                                      Diapositivas de Topología de Redes
                                      lisi_98
                                      Elementos que conforman a google chrome
                                      juan carlos hernandez morales
                                      Construcción de software
                                      CRHISTIAN SUAREZ
                                      Sistema de Gestor de Base de Datos MongoDB
                                      Edwin Herlop
                                      TRABAJO DE TOPOLOGÍA DE REDES
                                      lisi_98
                                      Arquitecturas de Sistemas Distribuidos
                                      Edisson Reinozo
                                      Cloud Data Integration Specialist Certification
                                      James McLean
                                      INFORMÁTICA - Periféricos de entrada y salida
                                      Serna Izaoly
                                      Conceptos Básicos de Informática
                                      jose antonio negreros orellana
                                      Managing Digital Data Review
                                      Shannon Anderson-Rush
                                      CARACTERISTICAS DE UN PROCESO INDUSTRIAL
                                      josm8506