Módulo 7: Ingeniería fundamental de Big Data

Question	Answer
que es la ingeniería de datos	campo que se encarga del desarrollo, prueba, implementacion y mantenimiento de las soluciones de procesamiento de datos
actividades principales en la ingeniería de datos	almacenamiento y procesamiento de datos
caracteristicas y desafios de la ingenieria de big data	* volumen * velocidad * variedad * importacion y exportacion de grandes cantidades de datos desde y hacia tecnologias de almacenamiento tradicionales * validacion y limpieza de datos por lotes y en tiempo real * establecimiento de un entorno optimo de procesamiento y almacenamiento de datos * desarrollo de algoritmos eficientes de procesamiento de datos *desarrollo de big data pipelines y aplicaciones big data
pregunta de examen. Para la partición de los datos, los patrones de la consulta deben ser tomados en cuenta, de tal forma que los shards no	no se conviertan en cuellos de botella en términos de rendimiento.
La ubicación de los datos, o conservar los datos a los que frecuentemente se tiene acceso en un solo shard, ayuda a	contrarrestar problemas de rendimiento de cuellos de botella
que es el sharding	proceso de particionar horizontalmente un gran data set en un grupo de datasets mas pequeños y manejables llamados shards.
Los shards están distribuidos entre distintos nodos, en donde un nodo es un	servidor o computadora
Cada shard es almacenado en un nodo aparte y cada nodo solamente es responsable por	los datos que almacena
Cada shard comparte el mismo ___ , y todos las shards representan colectivamente la	esquema, base de datos compelta
que se hace en el sharding para lograr la escalabilidad horizontal	se distribuye la carga de procesamiento entre distintos nodos
un beneficio del sharding es que	brinda tolerancia parcial a errores
en que principio se basa el algoritmo map reduce	se basa en el principio de dividir un problema difícil en tantas partes sea posible
que enfoques se usan para lograr el principio de divide y veneras de el algoritmo map reduce	1. paralelismo de tareas 2. paralelismo de datos
de que se trata el paralelismo de tareas	consiste en la paralelizacion de el procesamiento de datos dividiendo una tarea en subtareas
cada subtarea en el paralelismo de tareas se ejecuta en..	procesadores diferentes
el paralelismo de datos consiste en	consiste en la paralelizacion del procesamiento de datos dividiendo un dataset en subdatasets
en el paralelismo de datos los subdatasets se procesan ___	en paralelo
Cada subtarea ejecuta un algoritmo ___ y cada subdataset es procesado usando el ___ algoritmo	diferente, mismo
cuales son las operaciones de map reduce	funcion maping funcion reduce
las firmas de las funciones map y reduce se limitan a un conjunto de	pares llave - valor
el conjunto de pares llave y valor es la unica forma de comunicar el mapeo con el __	reduce
de que depende la lógica de la función de mapeo	depende de la forma en que se analizan los registros
de que depende la lógica de la función reduce	depende del resultado de la funcion de mapeo
consideraciones para desarrollar un algoritmo map reduce	1. Lógica algorítmica relativamente simple 2. Disponibilidad del dataset de forma distribuida particionada a traves del cluster 3. Comprension de la estructura de los datos dentro del dataset (para elegir un unico registro que sera la calve) 4. Dividir la logica algoritmica en funciones de mapeo y reduce 5. emtir la llave correcta a partir de la funcion de mapeo 6. emitir la llave correcta a partir de la funcion reduce
inconsistencias de escritura que ocurren en replicacion pear to pear pueden ser enfrentadas implementando concurrencia ___ o ___	OPTIMISTA O PESIMISTA
identifique el requerimiento del motor de procesamiento que permite procesar grandes cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al recurso de computacion.	procesamiento distribuido
QUE MECANISMO NO SQL AGRUPA COLUMNAS RELACIONADAS EN UNA FILA	COLUMNAR
LA LOGICA DE LA FUNCION REDUCE ES DEPENDIENTE DE LA FUNCION __	MAPING
El framework de map reduce se basa en el principio de	dividir un problema dificil en tantas veces sea necesario
El ____ y el ____ son los dos enfoques usados generalmente para el principio de dividir un problema dificil en tantas partes sea necesario	paralelismo de tareas paralelismo de datos
El ____ se refiere a la paralelizacion del procesamiento de datos al dividir una tarea en subtareas y ejecutar cada subtarea en un procesador por separado, generalmente en un nodo separado dentro del cluster	paralelismo de tareas
el ___ se refiere a la paralelizacion de procesamiento de datos al dividir un dataset en varios subdatasets y procesar estos en paralelo	paralelismo de datos
el framework de map reduce aborda la necesidad de una ejecución repetida de la misma tarea en datos distribuidos al usar el enfoque	paralelismo de datos
En map reduce la lógica en la función reduce depende del resultado de la función	mapeo
el framework de map reduce requiere que el dataset sea ___ a traves del cluster para que multiples funciones ___________ puedan procesar los subdatasets en paralelo	particionado, mapeo
con el algoritmo map reduce, la lógica en la función de mapeo no debe depender del dataset completo, pues solo se dispone de los datos dentro de una ___	sola division
Map reduce es una implementacion muy utilizada por el mecanismo de motor de ____	procesamiento por lotes
Map reduce es un motor de procesamiento enfocado en el modo por ___ que se usa para procesar grandes cantidades de datos por medio del procesamiento en ___ implementado en clusters de ____	lotes, paralelo, hadware basico
Map reduce requiere que los datos de entrada hagan parte de un modelo de datos en particular?	Falso
Que sucede cuando se aplica el paradigma de procesamiento distribuido tradicional a grandes cantidades de datos	Tradicionalmente se pasan los datos del nodo de almacenamiento al nodo de procesamiento para datasets pequenos, pero al usar grandes datasets mover los datos implica una sobrecarga
Con map reduce es el algoritmo de procesamiento el que se transfiere hacia ___	los nodos que almacenan los datos
El algoritmo es ejecutado en paralelo en los nodos de almacenamiento de datos eliminando la necesidad de transferir ____	primero los datos
Cuales son las tareas de mapeo	Mapear, combinar (opcional), dividir
Cuales son las tareas de reduce	* Mezclar y clasificar *Reducir
Que hace la primera parte de la tarea del algoritmo map reduce: mapear?	el archivo del data set se divide en partes mas pequeñas,
Al dividir el dataset cada parte se analiza como un par ___ ___	llave valor
la llave generalmente es la ___ ordinal del registro	posicion
segunda parte de la funcion mapear	los pares clave valor se llevan a una funcion de mapeo o mapeador
la funcion de mapeo funciona como logica definida por el usuario?	verdadero
la tercera parte de la función mapear es	una vez procesado cada registro llave valor según la función de mapeo se genera un resultado también en forma de clave valor
en el mapeo la llave y valor de salida no puede ser la misma que la llave de entrada ni un valor de subcadena del valor de entrada ni otro objeto serializable?	Falso
generalmente las tareas de mapeo y reduce se ejecutan en ____ nodos	distintos
que función se usa para agregar los datos resultado del mapeo antes de que sean procesados por el reductor?	funcion combinador
en la etapa de combinacion existen llaves duplicadas?	no porque se realiza una agregacion de la llave por valor.
por que el motor de map reduce puede no usar la etapa de combinacion?	porque la etapa de combinacion es solo una etapa de mejora
un combinador debe ser especificado unicamente cuando su uso no afecte el __ __	resultado neto
que se hace en la etapa dividir	si hay mas de un reductor involucrado, un particionador divide el resultado del mapeador en particiones entre las distintas instancias de los reductores
en la etapa dividir, el numero de particiones es igual al numero de ____	reductores
como solventar que algunos reductores reciban una mayor cantidad de pares que otros?	personalizando la logica del la division garantizando una distribucion equitativa de los pares llave valor
en que etapa se genera el indice del reductor?	en la etapa de division de la funcion mapeo
las bases de datos no sql son compatibles con la evolucion __	del esquema
Únicamente se pueden buscar los valores por medio de las llaves,	dispositivo de almacenamiento llave valor
Es necesario almacenar datos sin estructurar	dispositivo de almacenamiento llave valor
DATOS SEMIESTRUCTURADOS, ESQUEMAS PLANOS O ANIDADOS	dispositivo de almacenamiento documento
ESCRITURA/LECTURA ALEATORIA EN TIEMPO REAL	dispositivo de almacenamiento columnar
almacenamiento de links entre entidades	grafo
como se le llama a la entidad en grafos	vertice
como se le llama al link en grafos	borde
operaciones de lectura o escritura de alto rendimiento	dispositivo de almacenamiento llave valor
dispositivo de almacenamiento que se basa en ACID	GRAFOS
Para datos binarios y de estructura sencilla	llave valor
PATRONES CONSULTA DE INSERCION, SELECCION Y ELIMINACION	llave valor
PATRONES CONSULTA DE INSERCION, ACTUALIZACION,SELECCION Y ELIMINACION	documentos, columnar
Jane necesita almacenar una gran cantidad de archivos del circuito cerrado de televisión. Debido a la baja calidad del video, todos los archivos serán procesados, uno después de otro, utilizando una biblioteca de software de mejoramiento de video. ¿Qué tipo de dispositivo de almacenamiento puede utilizar Jane para garantizar la máxima capacidad de procesamiento de lectura y un procesamiento rápido de los archivos de video?	sistema de archivos distribuido
Kerry está diseñando una aplicación de Big Data que debe almacenar grandes cantidades de archivos XML. Cada archivo XML representa una entidad aparte, compuesta por múltiples secciones, cada una con subcampos. Se deben recuperar y actualizar distintas secciones del archivo XML como parte del flujo de trabajo (Workflow) de procesamiento. ¿Qué tipo de dispositivo de almacenamiento NoSQL es el más adecuado para los requisitos de almacenamiento de datos de Kerry?	Documento
Roger planea reemplazar la base de datos relacional con una base de datos NoSQL para almacenar los datos de sesión de los usuarios de una popular tienda online. Las sesiones de los usuarios son identificadas por medio de la ID y de una marca de hora, y almacenan los datos específicos de la aplicación, que son exclusivamente anexados. Los datos de sesión de los usuarios son analizados, lo que requiere que los datos de la sesión de cada uno de los usuarios sean agrupados. ¿Qué tipo de dispositivo de almacenamiento NoSQL puede ser utilizado en este caso?	llave valor
Mike está a cargo del diseño de una base de datos para almacenar activos físicos que se encuentran distribuidos geográficamente por el país. Cada activo tiene un conjunto básico de atributos, como ID, tipo y fecha de fabricación. Asimismo, cada activo está conectado físicamente con varios otros activos. Mike conoció que la base de datos será usada intensamente por los ingenieros con el fin de hallar activos que están conectados con otros, así como para determinar la distancia entre dos activos. ¿Qué tipo de dispositivo de almacenamiento puede usar Mike para satisfacer los requisitos de consulta de los ingenieros?	grafos
John está diseñando una aplicación web que almacena distintas piezas de información relacionadas con cada cliente, como la información personal del cliente (incluyendo dirección e información de tarjeta de crédito), el historial de compras del cliente y comentarios publicados en la página web para diferentes productos. John quiere ser capaz de buscar clientes usando sus nombres para poder actualizar los registros de los clientes. Igualmente, él espera que se ejecuten varios tipos de análisis de los clientes. Uno de los análisis que determina los sentimientos de los clientes requiere acceso interactivo a texto en los comentarios, además de buscar los comentarios hechos por cada cliente. ¿Qué tipo de base de datos NoSQL puede utilizar John para facilitar el acceso a cada campo y permitir que los datos de los comentarios sean recuperados rápidamente?	columnar
Los _____ son una buena opción cuando se debe acceder a los datos en modo de streaming sin operaciones aleatorias de lectura ni escritura	sistemas de archivos distribuidos
los ____funcionan mejor con menos archivos, pero de mayor tamaño, a los cuales se accede de forma secuencial	sistemas de archivos distribuidos
caracteristicas del motor de procesamiento big data	1 procesamiento de datos distribuido/paralelo 2 procesamiento de datos sin esquema 3 soporte para multiples cargas de trabajo 4 escalabikidad llineal 5redundancia y tolerancia a fallos 6bajo costo
Dar soporte a un entorno de procesamiento distribuido con capacidades de procesamiento paralelo requiere un motor de procesamiento que pueda ofrecer un rendimiento estable mientras el volumen de datos crece.	ESCALABILIDAD LINEAL
Implementar un software de código abierto en un hardware básico ayuda a	reducir costos
que caracteristica de procesamiento apoya la capacidad del motor de procesamiento para aprovechar el Cloud Computing.	bajo costo
que caracteristica de procesamiento : , es necesario que la plataforma de procesamiento subyacente sea compatible tanto con las cargas de trabajo transaccionales como con las de lote.	soporte para multiples cargas de trabajo
los datos de big data se presentan de dos formas:	gruesos (caracteristica de volumen) rapidos (caracteristica de velocidad)
caracteristica de procesamiento: es necesario utilizar un modelo de procesamiento basado en el principio de dividir un problema difícil en tantas partes como sea necesario, al igual que sucede con el procesamiento de datos paralelos.	Procesamiento de datos distribuidos/paralelos
que caracteristica del motor de procesamiento fomenta el uso de software de codigo abierto y cloud computing	bajo costo
la replicacion crea multiples copias de un dataset, conocidas como ____ y las almacena en varios nodos	replicas
que caracteristica del motor de procesamiento permite el procesamiento de datos tanto por lotes como en tiempo real	soporte para multiples cargas de trabajo
que caracteristica de motor de porcesamiento permite que haya funcionalidad cuando se presentan fallas en el sistema	redundancia y tolerancia a fallos
el teorema cap establece que un sistema de archivos distribuido solo puede proporcionar dos de las tres propiedades, que son	consistencia disponibilidad tolerancia al particionado
___ es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets mas pequenos y manejables llamados ___ distribuidos entre multiples nodos	sharding, shards
que caracteristica del motor de procesamiento permite el procesamiento de grandes cantidades de datos en la fuente sin necesidad de transferirlos desde su lugar de almacenamiento hasta un recurso de informatica?	procesamiento de datos distribuido/paralelo
el ___ de map reduce aborada la necesidad de una ejecucion repetida de la misma tarea en datos distribuidos al usar un enfoque de paralelismo de datos	framework
en la replicacion ___, el nodo maestro es el unico punto de contacto para todas las operaciones de escritura, mientras que los datos pueden ser leidos desde cualquier nodo esclavo	maestro esclavo
que significa BASE	DISPONIBILIDAD TODO EL TIEMPO ESTADO FLEXIBLE CONSISTENCIA A LARGO PLAZO
en la replicacion peer to peer no hay nodos maestro ni esclavo y todos los nodos llamados __, operan al mismo nivel	peers
en el contexto de teorema CAP las bases de datos relacionales proporcionan ___ y ____	consistencia, disponibilidad
que caracteristica del motor de procesamiento da soporte a los modelos de datos cambiantes y permite el procesamiento de datos en su forma original sin la necesidad de llevar a cabo ninguna transformacion en el modelo de datos	procesamiento de datos sin esquema
que modo de porcesamiento en tiempo reral es: se ubica dentro de la categoría de tiempo real. El ___ generalmente se refiere al procesamiento de consultas en tiempo real. La Inteligencia de negocios (BI) y la analítica operativa generalmente hacen uso del modo en tiempo real.	modo interactivo
el procesamiento en big data requiere un entorno ___ qyue sea capaz de procesar datos en ___, lo caul es una caracteristica soportada por la arquitectura en ____	distribuido, paralelo, cluster
Los clusters permiten el procesamiento de datos ____ y son altamente ___	distribuidos, escalables
En la arquitectura en cluster, los datasets de Big Data pueden ser procesados por ___ o ___ usando un motor de procesamiento por lotes	lotes o en real time
falso o verdadero ? A fin de que los datos almacenados tengan una estructura, la mayoría de dispositivos de almacenamiento de tipo llave-valor (key-value) ofrecen colecciones o sectores de almacenamiento (buckets; por ejemplo, tablas) dentro de los cuales se pueden organizar las parejas de llave-valor (key-value),	verdadero

Next up

Módulo 7: Ingeniería fundamental de Big Data

Description

Resource summary

Similar

	Created by Smac Smac about 6 years ago