BigData - Fundamentos

Description

Módulo 1
Julian Andrés Moncaleano Prado
Flashcards by Julian Andrés Moncaleano Prado, updated more than 1 year ago
Julian Andrés Moncaleano Prado
Created by Julian Andrés Moncaleano Prado about 6 years ago
99
0

Resource summary

Question Answer
Entender que es Big Data Es un campo orientado al análisis, procesamiento y almacenamiento de grandes colecciones de datos que, con frecuencia, provienen de distintas fuentes. Por lo general, se requieren soluciones y prácticas de Big Data cuando la tecnología tradicional de análisis, procesamiento y almacenamiento de datos no es suficiente. Big Data aborda distintos requisitos, como la combinación de múltiples datasets no relacionados, el procesamiento de grandes cantidades de datos sin estructurar y la recopilación de información oculta con plazos de tiempo definidos.
Cinco V Las cualidades que diferencian los datos procesados por medio de soluciones de Big Data: volumen, velocidad, variedad, veracidad y valor
Datasets Son los conjuntos o grupos de datos relacionados. Cada grupo o miembro de un dataset (dato) comparte los mismos atributos con otros dentro de un dataset. Ejm: tuits almacenados en un archivo plano, una colección de archivos de imágenes, un extracto de filas almacenadas en una tabla, observaciones climáticas históricas almacenadas como archivos XML, etc.
Análisis de datos Es el proceso de examinación de los datos con el fin de hallar hechos, relaciones, patrones, explicaciones y/o tendencias. El objetivo final del análisis de datos (Data Analysis) es respaldar la toma de decisiones. La realización de análisis de datos (Data Analysis) permite establecer patrones y relaciones entre los datos analizados
Analítica "La analítica es la disciplina encargada comprender los datos, analizándolos mediante una variedad de técnicas científicas y herramientas automatizadas, enfocada en el descubrimiento de patrones y correlaciones ocultos. En los entornos Big Data, la analítica por lo general es aplicada usando tecnologías y frameworks distribuidos y altamente escalables para analizar grandes volúmenes de datos provenientes de distintas fuentes. El proceso de analítica implica filtrar grandes cantidades de datos sin procesar ni estructurar, con el fin de extraer información significativa que pueda servir como datos de entrada para identificar patrones, enriquecer los datos empresariales actuales o realizar búsquedas a gran escala. La analítica facilita la toma de decisiones determinadas por datos, con un respaldo científico, de manera que estas decisiones puedan estar basadas en datos concretos y no solamente en la experiencia o la intuición. Ejm de uso: entornos orientados a los negocios, ámbito científ
Inteligencia de negocios (BI) "es el proceso de comprender el funcionamiento de una empresa —para mejorar la toma de decisiones— al analizar los datos externos y los datos generados por sus procesos empresariales. En la Inteligencia de negocios (BI), la analítica es aplicada a grandes cantidades de datos en toda la empresa. Ejm: La Inteligencia de negocios (BI) puede ser utilizada para mejorar las aplicaciones empresariales, consolidar los datos en las bodegas de datos digitales (Data Warehouse) para ejecutar consultas analíticas y analizar las consultas por medio de un tablero de control (Dashboard)."
Indicadores Clave de Desempeño (KPI) "es una forma de medir el éxito dentro de un contexto particular. Los KPI están estrechamente relacionados con los objetivos estratégicos de una empresa y eneralmente son utilizados para:  identificar áreas problemáticas, con el fin de adoptar medidas correctivas  lograr el cumplimiento normativo Los KPI sirven como puntos de referencia rápida para medir el desempeño general de la empresa por medio de los tableros de control (Dashboard) de KPI"
Unidades de tamaño de los datos Cuando se analizan los distintos tamaños de los datos, es necesario comprenderlos en unidades de cuantificación de datos. byte es utilizado como la unidad fundamental de medida con prefijos decimales, no binarios. Ejm: Kilobyte (KB) 1,000
Factores Empresariales "Factores empresariales y tecnológicos que permitieron que Big Data se convirtiera en una especialidad en sí:  Analítica y ciencia de datos  Digitalización  Tecnología asequible y hardware básico  Social media  Comunidades y dispositivos hiperconectados  Cloud Computing"
Analítica y ciencia de datos Los algoritmos de aprendizaje automático (Machine Learning), las técnicas estadísticas y el bodegaje de datos digitales (Data Warehouse) han permitido que la ciencia de datos y la analítica avancen hasta tal punto que han emergido como disciplinas en sí, con técnicas y herramientas especializadas para realizar análisis complejos y únicos. La madurez de estos campos prácticos inspiró y posibilitó gran parte de la funcionalidad esencial que se espera de las soluciones y herramientas de Big Data hoy en día.
Digitalización Para muchas empresas, los medios digitales han reemplazado los medios físicos como las comunicaciones y el mecanismo estándar de entrega. Los datos digitalizados brindan la oportunidad de recopilar datos “secundarios” adicionales; por ejemplo, cuando las personas realizan búsquedas o completan encuestas. La recopilación de datos secundarios puede ser importante para las empresas, ya que la extracción de este tipo de datos posibilita el mercadeo personalizado, las recomendaciones automatizadas y el desarrollo de características optimizadas de productos
Social media El surgimiento de social media ha permitido que los clientes suministren retroalimentación en tiempo (prácticamente) real a través de medios públicos y privados, un cambio que ha obligado a las empresas a tener en cuenta en su planeación estratégica la retroalimentación que los clientes hacen de sus ofertas. Como resultado, las empresas almacenan cada vez más datos sobre las interacciones de los clientes y a través de social media en un intento de recopilar los datos para aumentar las ventas, posibilitar un mercadeo dirigido y crear nuevos productos y servicios. Asimismo, las empresas están cada vez más interesadas en incorporar datasets disponibles al público provenientes de social media y otras fuentes externas de datos.
Comunidades y dispositivos hiperconectados El alcance cada vez mayor de la internet y la proliferación de redes de telefonía celular y wifi ha permitido que cada vez más personas estén activas de forma constante en las comunidades virtuales, ya sea directamente por medio de la interacción online, o indirectamente a través del uso de dispositivos conectados. Esto ha traído como resultado flujos masivos de datos. Algunos flujos de datos son públicos, mientras que otros flujos están dirigidos directamente a los proveedores y a las empresas. Ejm: Las comunidades y dispositivos hiperconectados incluyen la televisión, la informática móvil, RFID, refrigeradores, dispositivos GPS, dispositivos móviles y medidores inteligentes
Cloud Computing "Los avances en la tecnología de Cloud Computing han llevado a la creación de entornos remotos, a los que se les conoce como “nubes.” Estos entornos proporcionan alta escalabilidad y recursos de TI por demanda que pueden ser arrendados bajo los modelos de “pago por uso”. Las empresas tienen la oportunidad de mejorar la infraestructura y la capacidad de almacenamiento y procesamiento que proporcionan estos entornos, con el fin de crear soluciones de Big Data de gran escala que pueden ejecutar grandes tareas de procesamiento. Ejm: cómo se pueden mejorar las capacidades de escalabilidad de un entorno de nube para realizar tareas de procesamiento de Big Data. El hecho de que los recursos de TI basados en la nube puedan ser alquilados reduce de forma considerable la inversión inicial de los proyectos de Big Data. La nube puede ser utilizada, por ejemplo, para completar un análisis de datos (Data Analysis) por demanda a fin de mes, o mejorar la escalabilidad de los sistemas, aumentando la ca
OLTP - Procesamiento de Transacciones en Línea es un sistema de software que procesa los datos orientados a las transacciones.El término “transacción online” se refiere a la finalización de una actividad en tiempo real y no mediante el procesamiento por lotes (Batch Processing).
OLAP- Procesamiento Analítico en Línea es un sistema utilizado para el procesamiento de consultas de análisis de datos (Data Analysis). El OLAP es una parte esencial de los procesos de Inteligencia de negocios (BI), minería de datos (Data Mining) y aprendizaje automático (Machine Learning).Son utilizados en las analíticas diagnóstica, predictiva y prescriptiva
Sistemas de OLTP y OLAP Un sistema de OLAP siempre es alimentado con datos de múltiples sistemas de OLTP por medio de trabajos regulares de procesamiento por lotes (Batch Processing). A diferencia de los sistemas de OLTP, el tiempo de respuesta de las consultas de OLAP puede ser de varios minutos o más, dependiendo de la complejidad de la consulta y de la cantidad de registros solicitados
ETL - Extraer - Transformar - Cargar es un proceso mediante el cual los datos son cargados desde un sistema origen hacia un sistema destino. El sistema origen puede ser una base de datos, un archivo plano o una aplicación. De igual forma, el sistema destino puede ser una base de datos o cualquier otro sistema de información. ETL representa la principal operación por medio de la cual las bodegas de datos digitales (Data Warehouse) reciben datos. Una solución de Big Data abarca el conjunto de características de ETL con el fin de convertir datos de distintos tipos. La Figura 1.15 muestra que primero los datos requeridos son obtenidos o extraídos del origen, luego son modificados o transformados mediante la aplicación de reglas. Por último, los datos son insertados o cargados al sistema destino.
Data Warehouse - Bodegas de datos digitales es un repositorio central a nivel empresarial que contiene datos históricos y actuales. Las bodegas de datos digitales (Data Warehouse) son usadas considerablemente por la Inteligencia de negocios (BI) para realizar distintas consultas analíticas, y por lo general tienen interfaces con el sistema de OLAP para tener compatibilidad de consulta analítica. Una bodega de datos digital (Data Warehouse) extrae periódicamente datos de otras fuentes, como sistemas de OLTP, ERP, CRM y SCM, para consolidarlos en un dataset.
Data WareHouse - Data marts es un subconjunto de datos almacenados en una bodega de datos digital (Data Warehouse) que, por lo general, pertenece a un departamento, división o línea de negocio específica
Data Warehouse - Hadoop Hadoop es un framework de código abierto para el almacenamiento y procesamiento de datos a gran escala que técnicamente es ejecutado en hardware básico. El framework de Hadoop se ha establecido como la plataforma predeterminada de la industria para las soluciones modernas de Big Data. Puede ser utilizado como un motor de ETL o analítico para procesar grandes cantidades de datos estructurados, semiestructurados y sin estructurar.
5 V´s Volumen Velocidad Variedad Veracidad Valor
Volumen "El volumen anticipado de los datos que son procesados por las soluciones de Big Data es importante y cada vez mayor. Un gran volumen de datos implica demandas específicas de almacenamiento y procesamiento, al igual que procesos de gestión y acceso.fuentes: las transacciones online (punto de venta, bancarias), datos científicos y de investigación (Gran Colisionador de Partículas, Telescopio del Atacama Large Millimeter/submillimeter Array (ALMA)), datos de sensores (RFID, medidores inteligentes, sensores GPS), social media (Facebook, Twitter) "
Velocidad "Los datos de Big Data son recibidos con tal velocidad que se pueden acumular enormes datasets en periodos de tiempo cortos. Desde el punto de vista empresarial, la velocidad de losdatos se traduce en la cantidad de tiempo necesaria para que los datos sean procesados unavez que llegan a la empresa"
Variedad "La variedad de los datos se refiere a los múltiples formatos y tipos de datos que deben ser compatibles con las soluciones de Big Data, como datos estructurados, semiestructurados y sinestructurar.La variedad de datos presenta desafíos para las empresas en términos de integración, transformación, procesamiento y almacenamiento de los datos"
Veracidad "La veracidad se refiere a la calidad o fidelidad de los datos. Dentro de los entornos Big Data, existen datos que pueden ser significativos o que simplemente ocupan espacio. Cuando se evalúan en función de su veracidad, los datos pueden ser de dos tipos:  Ruido; datos que no tienen valor alguno  Señal; datos que tienen valor que conduce a información importante"
Valor El valor se define como la utilidad que los datos tienen para una empresa. La característica devalor está directamente relacionada con la característica de veracidad, en la medida en que,entre más alta sea la fidelidad de los datos, mayor será el valor de los mismos para la empresa. El valor también depende de qué tanto tiempo consuma el procesamiento de los datos, ya queel valor y el tiempo de procesamiento son inversamente proporcionales.
Datos estructurados " cumplen un modelo de datos o esquema  son almacenados de forma tabular  pueden ser relacionales . Por lo general, los datos estructurados son almacenados en bases de datos relacionales, y con frecuencia son generados por aplicaciones empresariales personalizadas, los sistemas de Planificación de Recursos Empresariales (ERP) y los sistemas de Relación con los Clientes (CRM). Estos datos normalmente no tienen ningún requisito especial de preprocesamiento o almacenamiento. Algunos ejemplos son las transacciones bancarias, los registros de los sistemas de OLTP y los registros de clientes."
Datos sin estructurar " no cumplen un modelo de datos o esquema  generalmente no son consistentes ni relacionales. Los datos sin estructurar se encuentran en forma textual o binaria. Algunos ejemplos son archivos de imágenes, audio y video."
Datos semiestructurados "Los datos semiestructurados tienen un nivel definido de estructura y consistencia, pero no sonrelacionales. En su mayoría se encuentran en formatos textuales, como archivos XML o JSON,y generalmente, su procesamiento es más sencillo que el de los datos sin estructurar. Entre los ejemplos de fuentes comunes de datos semiestructurados están los intercambios electrónicos de datos (EDI), los correos electrónicos, las hojas de cálculo, los canales RSS y los datos de sensores."
Metadata "Los metadata proporcionan información sobre las características y la estructura de un dataset. En su mayoría, este tipo de datos son generados por máquinas y anexados automáticamente a los datos. Son esenciales para el procesamiento, almacenamiento y análisis de Big Data. Algunos ejemplos de metadata son:  las etiquetas XML que brindan información sobre el autor y la fecha de creación de un documento  los atributos que proporcionan información sobre el tamaño del archivo y la resolución de una fotografía digitalLas soluciones de Big Data dependen de los metadata, particularmente durante elprocesamiento de datos semiestructurados y sin estructurar."
Tipos de datos y veracidad "Los datos semiestructurados y sin estructurar tienen una mayor proporción entre ruido y señalque los datos estructurados. Debido a esta mayor cantidad de ruido, se requiere la limpieza (Cleansing) automatizada y la verificación de los datos al momento de realizar procesos ETL"
Análisis cuantitativo "Técnica de análisis de datos (Data Analysis) orientada a cuantificar patrones y correlaciones hallados en los datos. Esta técnica implica el análisis de un gran número de observaciones de un dataset con base en técnicas estadísticas. Debido al amplio tamaño de la muestra, los resultados pueden aplicarse de manera general a todo el dataset. Los resultados del análisis cuantitativo son de naturaleza absoluta y, por lo tanto, pueden ser usados para realizar comparaciones numéricas. Por ejemplo, en un análisis cuantitativo de las ventas de helados, se puede encontrar que un aumento de 5 grados en la temperatura incrementa las ventas en un 15%."
Análisis cualitativo "Técnica de análisis de datos (Data Analysis) orientada a describir cualidades de varios datos por medio de palabras. En contraste con el análisis de datos (Data Analysis) cuantitativo, esto implica analizar una pequeña muestra con mayor profundidad. Los resultados de este análisis no se pueden aplicar de forma general a todo un dataset debido al pequeño tamaño de la muestra. Por ejemplo, un análisis de las ventas de conos de helado puede indicar que las cifras de las ventas en mayo no fueron tan altas comparadas con el mes de junio. Los resultados del análisis solo muestran que las cifras “no fueron tan altas comparadas con”, mas no indican ninguna diferencia numérica."
Minería de datos La minería de datos (Data Mining), también conocida como exploración de datos, es una forma especializada de análisis de datos (Data Analysis) dedicada a los datasets grandes. En relación con el análisis de Big Data, la minería de datos (Data Mining) por lo general se refiere a técnicas automáticas basadas en software que filtran los datasets masivos para identificar patrones y tendencias. Específicamente, implica extraer patrones ocultos o desconocidos en los datos con la intención de identificar patrones antes desconocidos. La minería de datos (Data Mining) constituye la base para la analítica predictiva y la Inteligencia de negocios (BI).
Analítica descriptiva "La analítica descriptiva se ejecuta para responder preguntas sobre eventos que ocurrieron. Algunas preguntas de ejemplo pueden ser:  ¿Cuáles son los datos de las ventas de los últimos 12 meses?  ¿Cuántas llamadas de soporte técnico fueron recibidas y categorizadas según la gravedad y ubicación geográfica?  ¿Cuál es la comisión mensual que gana cada agente de ventas?"
Analítica diagnóstica "La analítica diagnóstica tiene como objetivo determinar la causa de un fenómeno que ocurrió en el pasado, usando preguntas que se enfocan en la razón del evento. Algunas preguntas de ejemplo pueden ser:  ¿Por qué las ventas del segundo trimestre fueron menores que las de primer trimestre?  ¿Por qué se han recibido más llamadas de soporte técnico de la región este que de la región oeste?  ¿Por qué hubo un incremento en las tasas de readmisión de pacientes en los últimos tres meses?"
Analítica predictiva "La analítica predictiva se ejecuta en un intento por determinar el resultado de un evento que podría ocurrir en el futuro. La analítica predictiva intenta predecir el resultado de un evento. Las predicciones se hacen con base en patrones, tendencias y excepciones encontradas en datos históricos y actuales. Las preguntas normalmente se formulan usando una lógica condicional qué tal sí, como en los siguientes ejemplos:  ¿Cuáles son las probabilidades de que un cliente incurra en el incumplimiento de un préstamo si él no ha hecho el pago mensual?  Si se administra el medicamento B en vez del medicamento A, ¿cuál será la tasa de supervivencia del paciente?"
Analítica prescriptiva "La analítica prescriptiva está basada en los resultados de la analítica predictiva, al indicar acciones que se deberían realizar. Esta analítica se enfoca en qué opción indicada se debe seguir y en por qué y cuándo se debería seguir, con el fin de obtener una ventaja o mitigar un riesgo. Algunas preguntas de ejemplo pueden ser:  Entre tres opciones de medicamentos, ¿cuál ofrece los mejores resultados?  ¿Cuándo es el mejor momento para comercializar una mercancía particular?"
Aprendizaje automático Es el proceso de enseñar a las computadoras a aprender a partir de datos existentes y a aplicar el conocimiento adquirido para formular predicciones sobre datos desconocidos. Esto implica identificar patrones en los datos de entrenamiento y clasificar datos nuevos y no mostrados con base en patrones conocidos. Se utilizan algoritmos de aprendizaje automático.
Aprendizaje supervisado Donde ya se conocen las categorías de los datos. Con base en los datos introducidos, el algoritmo comprende qué datos corresponden a qué categoría. Posteriormente, el algoritmo puede aplicar el comportamiento que aprendió para categorizar los datos desconocidos.
Aprendizaje no supervisado no se conocen las categorías de los datos y no se envía ningún dato de muestra. En vez de eso, el algoritmo intenta categorizar los datos agrupándolos según atributos similares.
Bodegas de datos digitales Las bodegas de datos digitales (Data Warehouses) como componentes centrales de los entornos y ecosistemas de Big Data.
Inteligencia de negocios (BI) tradicional "La Inteligencia de negocios (BI) tradicional usa la analítica descriptiva y diagnóstica para proporcionar información sobre eventos históricos y actuales. No es realmente inteligente” porque únicamente proporciona respuestas a preguntas formuladas correctamente. Para formular preguntas correctamente es necesario entender los problemas e inconvenientes de la empresa y de los datos en sí. La Inteligencia de negocios (BI) realiza reportes sobre diferentes KPI por medio de:  reportes especializados  tableros de control (Dashboards)"
Inteligencia de negocios (BI) tradicional: reportes especializados Se enfocan en área específica de la empresa, como mercadeo o gestión de la cadena de suministro. Se generan reportes personalizados muy detallados que a menudo son tabulares.
Inteligencia de negocios (BI) tradicional: tableros de control (Dashboards) Ofrecen una perspectiva holística de las áreas clave de la empresa. La información que se muestra en los tableros de control (Dashboards) es generada en intervalos periódicos en tiempo real o prácticamente real. La presentación de los datos en los tableros de control (Dashboard) es de naturaleza gráfica; utiliza gráficos, gráficos de barras, circulares e indicadores.
Visualización de datos La visualización de datos es una técnica a través de la cual los resultados de analítica son comunicados gráficamente utilizando gráficos, mapas, grilla de datos, infografías y alertas. Las herramientas modernas de visualización de datos son interactivas y ofrecen vistas de los datos de forma resumida o detallada, sin tener que recurrir a las hojas de cálculo.
Herramientas de Visualización de datos Las herramientas de visualización de datos para las soluciones de Big Data generalmente utilizan tecnologías analíticas en memoria que reducen la latencia que se atribuye normalmente a las herramientas tradicionales de visualización de datos basadas en disco.
Visualización de Datos y BIG DATA Agregación Desglose Filtrado Agrupado Análisis “qué-tal-si”
Agregación proporcionan una vista holística y resumida de los datos a través de múltiples contextos
Desglose proporcionan una vista detallada de los datos de interés al enfocarse en un subgrupo de datos de la vista resumida
Filtrado se enfocan en un conjunto particular de datos al filtrar los datos que no son de interés inmediato
Agrupado agrupan datos en todas las múltiples categorías, para mostrar totales y subtotales
Análisis “qué-tal-si” facilitan la visualización de múltiples resultados al permitir el cambio dinámico de factores relacionados
Herramientas avanzadas de visualización Herramientas que comprenden la analítica de datos predictiva y prescriptiva, y las características de transformación de datos, se conectan directamente a las fuentes de datos estructurados, semiestructurados y sin estructurar, así mismo pueden unir datos estructurados y sin estructurar que son guardados en memoria para tener acceso rápido.
Consideraciones en la planeación y adopción de BIG DATA Justificación Empresarial Prerrequisitos Organizacionales Aprovisionamiento de Datos Privacidad Seguridad Procedencia Soporte Limitado en Tiempo Real Problemas de Rendimiento Requerimientos de Gobierno Metodología Diferencial Computación en la Nube
Justificación Empresarial Es necesario establecer metas claras en relación con el valor del negocio proporcionado por una solución de Big Data empresarial. Se deben sopesar los beneficios esperados en relación con los riesgos e inversiones. Es importante aceptar que las soluciones de Big Data no son necesarias para todas las empresas.
Prerrequisitos Organizacionales Las empresas necesitan tener frameworks de gestión de datos y gestión de Big Data. También se requiere que los responsables de implementar, personalizar, alimentar y usar las soluciones de Big Data cuenten con procesos robustos y conjuntos de habilidades adecuadas. Además, se debe evaluar la calidad de los datos que las soluciones de Big Data van procesar. También se debe planificar el período de vida del entorno Big Data. Se debe definir una hoja de ruta para garantizar que cualquier expansión o aumento necesario del entorno esté planeado para estar alineado con las exigencias de la empresa.
Aprovisionamiento de Datos Tal vez sea necesario contar con un presupuesto considerable para obtener datos externos, cuanto mayor sea el volumen y la variedad de los datos, mayores son las oportunidades de encontrar información oculta en los patrones. Este tipo de inversión puede ser recurrente, con el fin de obtener versiones actualizadas de los datasets.
Privacidad Realizar procesos de analítica sobre los datasets puede revelar información confidencial sobre las organizaciones o las personas naturales, es necesario entender la naturaleza de los datos que están siendo acumulados y las regulaciones pertinentes sobre la protección de datos, así como las técnicas especiales para etiquetado y anonimato de datos.
Seguridad La seguridad en Big Data implica garantizar que las redes de datos proporcionen acceso a repositorios lo suficientemente seguros por medio de mecanismos personalizados de autenticación y autorización. Implica establecer niveles de acceso a los datos para diferentes categorías de usuarios
Procedencia Se refiere a la información sobre el origen de los datos que ayuda a determinar su autenticidad y calidad, también se utiliza con fines de auditoría. Para resolver los problemas de procedencia puede ser necesario hacer anotaciones de la información del origen y otros metadata en los datos, a medida que son generados o recibidos.
Soporte Limitado en Tiempo Real Muchas soluciones y herramientas modernas de Big Data de código abierto están orientadas en lotes, lo que significa que pueden tener soporte limitado para la transmisión del análisis de datos (Data Analysis), o no tener soporte alguno. Se puede lograr el procesamiento de datos en tiempo prácticamente real al procesar datos transaccionales a medida que son recibidos y combinarlos con datos de procesamiento por lotes (Batch Processing) que ya están resumidos.
Problemas de Rendimiento Casos en los que grandes datasets están acompañados por algoritmos complejos de búsqueda, lo que puede generar mayores tiempos de consulta.
Requerimientos de Gobierno "Se requiere un framework de gestión para garantizar que los datos y el entorno de solución mismo están regulados, estandarizados y se desarrollan de manera controlada.  Estandarización sobre cómo se etiquetan los datos y sobre los metadata usados para el etiquetado  Políticas que regulan el tipo de datos externos que se pueden adquirir  Políticas para la protección de datos y conservar el anonimato de datos  Políticas para el archivo de datos provenientes de fuentes de datos y resultados de análisis  Políticas para la limpieza (cleansing) y filtrado (filtering) de datos"
Metodología Diferencial Metodología para controlar cómo fluyen los datos hacia dentro y hacia afuera de las soluciones de Big Data y controlar cómo se pueden establecer los loop de retroalimentación, para facilitar que los datos procesados sean sometidos a mejoras constantes, cada ciclo de retroalimentación puede revelar la necesidad de modificar los pasos existentes o de crear nuevos pasos.
Computación en la Nube Cloud Computing introduce entornos remotos que pueden hospedar una infraestructura de TI para almacenar y procesar datos a gran escala. la adopción de un entorno Big Data puede requerir que una parte o todo el entorno esté hospedado en la nube.
Show full summary Hide full summary

Similar

Mapa mental BIG DATA
leydam
Mapa Mental Big Data
Juan Carlos Estr7460
BIG DATA
Jairy Meneses
Examen Fundamental Big Data
Juan Taborda
Big Data
eaavilas
Glosario Terminos competencias digitales
Rosario Arana
Modulo 2 - Big Data Analysis & Technology Concepts
Juan Taborda
glosario big data
flor romero
Parte 1: Sociodeterminismo
Oriol Palmero Milan
Big Data, funciones del psicopedagogo, seguridad y confidencialidad 0
Beatriz Sánchez
Big Data Tema 1 Introducción al big data en la educación
Adriana Marzuca