Módulo 7: Ingeniería fundamental de Big Data

Description

Informática Flashcards on Módulo 7: Ingeniería fundamental de Big Data, created by Smac Smac on 06/03/2018.
Smac Smac
Flashcards by Smac Smac, updated more than 1 year ago
Smac Smac
Created by Smac Smac about 6 years ago
190
0

Resource summary

Question Answer
que es la ingeniería de datos campo que se encarga del desarrollo, prueba, implementacion y mantenimiento de las soluciones de procesamiento de datos
actividades principales en la ingeniería de datos almacenamiento y procesamiento de datos
caracteristicas y desafios de la ingenieria de big data * volumen * velocidad * variedad * importacion y exportacion de grandes cantidades de datos desde y hacia tecnologias de almacenamiento tradicionales * validacion y limpieza de datos por lotes y en tiempo real * establecimiento de un entorno optimo de procesamiento y almacenamiento de datos * desarrollo de algoritmos eficientes de procesamiento de datos *desarrollo de big data pipelines y aplicaciones big data
pregunta de examen. Para la partición de los datos, los patrones de la consulta deben ser tomados en cuenta, de tal forma que los shards no no se conviertan en cuellos de botella en términos de rendimiento.
La ubicación de los datos, o conservar los datos a los que frecuentemente se tiene acceso en un solo shard, ayuda a contrarrestar problemas de rendimiento de cuellos de botella
que es el sharding proceso de particionar horizontalmente un gran data set en un grupo de datasets mas pequeños y manejables llamados shards.
Los shards están distribuidos entre distintos nodos, en donde un nodo es un servidor o computadora
Cada shard es almacenado en un nodo aparte y cada nodo solamente es responsable por los datos que almacena
Cada shard comparte el mismo ___ , y todos las shards representan colectivamente la esquema, base de datos compelta
que se hace en el sharding para lograr la escalabilidad horizontal se distribuye la carga de procesamiento entre distintos nodos
un beneficio del sharding es que brinda tolerancia parcial a errores
en que principio se basa el algoritmo map reduce se basa en el principio de dividir un problema difícil en tantas partes sea posible
que enfoques se usan para lograr el principio de divide y veneras de el algoritmo map reduce 1. paralelismo de tareas 2. paralelismo de datos
de que se trata el paralelismo de tareas consiste en la paralelizacion de el procesamiento de datos dividiendo una tarea en subtareas
cada subtarea en el paralelismo de tareas se ejecuta en.. procesadores diferentes
el paralelismo de datos consiste en consiste en la paralelizacion del procesamiento de datos dividiendo un dataset en subdatasets
en el paralelismo de datos los subdatasets se procesan ___ en paralelo
Cada subtarea ejecuta un algoritmo ___ y cada subdataset es procesado usando el ___ algoritmo diferente, mismo
cuales son las operaciones de map reduce funcion maping funcion reduce
las firmas de las funciones map y reduce se limitan a un conjunto de pares llave - valor
el conjunto de pares llave y valor es la unica forma de comunicar el mapeo con el __ reduce
de que depende la lógica de la función de mapeo depende de la forma en que se analizan los registros
de que depende la lógica de la función reduce depende del resultado de la funcion de mapeo
consideraciones para desarrollar un algoritmo map reduce 1. Lógica algorítmica relativamente simple 2. Disponibilidad del dataset de forma distribuida particionada a traves del cluster 3. Comprension de la estructura de los datos dentro del dataset (para elegir un unico registro que sera la calve) 4. Dividir la logica algoritmica en funciones de mapeo y reduce 5. emtir la llave correcta a partir de la funcion de mapeo 6. emitir la llave correcta a partir de la funcion reduce
inconsistencias de escritura que ocurren en replicacion pear to pear pueden ser enfrentadas implementando concurrencia ___ o ___ OPTIMISTA O PESIMISTA
identifique el requerimiento del motor de procesamiento que permite procesar grandes cantidades de datos en la fuente sin la necesidad de transferir datos del almacenamiento al recurso de computacion. procesamiento distribuido
QUE MECANISMO NO SQL AGRUPA COLUMNAS RELACIONADAS EN UNA FILA COLUMNAR
LA LOGICA DE LA FUNCION REDUCE ES DEPENDIENTE DE LA FUNCION __ MAPING
El framework de map reduce se basa en el principio de dividir un problema dificil en tantas veces sea necesario
El ____ y el ____ son los dos enfoques usados generalmente para el principio de dividir un problema dificil en tantas partes sea necesario paralelismo de tareas paralelismo de datos
El ____ se refiere a la paralelizacion del procesamiento de datos al dividir una tarea en subtareas y ejecutar cada subtarea en un procesador por separado, generalmente en un nodo separado dentro del cluster paralelismo de tareas
el ___ se refiere a la paralelizacion de procesamiento de datos al dividir un dataset en varios subdatasets y procesar estos en paralelo paralelismo de datos
el framework de map reduce aborda la necesidad de una ejecución repetida de la misma tarea en datos distribuidos al usar el enfoque paralelismo de datos
En map reduce la lógica en la función reduce depende del resultado de la función mapeo
el framework de map reduce requiere que el dataset sea ___ a traves del cluster para que multiples funciones ___________ puedan procesar los subdatasets en paralelo particionado, mapeo
con el algoritmo map reduce, la lógica en la función de mapeo no debe depender del dataset completo, pues solo se dispone de los datos dentro de una ___ sola division
Map reduce es una implementacion muy utilizada por el mecanismo de motor de ____ procesamiento por lotes
Map reduce es un motor de procesamiento enfocado en el modo por ___ que se usa para procesar grandes cantidades de datos por medio del procesamiento en ___ implementado en clusters de ____ lotes, paralelo, hadware basico
Map reduce requiere que los datos de entrada hagan parte de un modelo de datos en particular? Falso
Que sucede cuando se aplica el paradigma de procesamiento distribuido tradicional a grandes cantidades de datos Tradicionalmente se pasan los datos del nodo de almacenamiento al nodo de procesamiento para datasets pequenos, pero al usar grandes datasets mover los datos implica una sobrecarga
Con map reduce es el algoritmo de procesamiento el que se transfiere hacia ___ los nodos que almacenan los datos
El algoritmo es ejecutado en paralelo en los nodos de almacenamiento de datos eliminando la necesidad de transferir ____ primero los datos
Cuales son las tareas de mapeo Mapear, combinar (opcional), dividir
Cuales son las tareas de reduce * Mezclar y clasificar *Reducir
Que hace la primera parte de la tarea del algoritmo map reduce: mapear? el archivo del data set se divide en partes mas pequeñas,
Al dividir el dataset cada parte se analiza como un par ___ ___ llave valor
la llave generalmente es la ___ ordinal del registro posicion
segunda parte de la funcion mapear los pares clave valor se llevan a una funcion de mapeo o mapeador
la funcion de mapeo funciona como logica definida por el usuario? verdadero
la tercera parte de la función mapear es una vez procesado cada registro llave valor según la función de mapeo se genera un resultado también en forma de clave valor
en el mapeo la llave y valor de salida no puede ser la misma que la llave de entrada ni un valor de subcadena del valor de entrada ni otro objeto serializable? Falso
generalmente las tareas de mapeo y reduce se ejecutan en ____ nodos distintos
que función se usa para agregar los datos resultado del mapeo antes de que sean procesados por el reductor? funcion combinador
en la etapa de combinacion existen llaves duplicadas? no porque se realiza una agregacion de la llave por valor.
por que el motor de map reduce puede no usar la etapa de combinacion? porque la etapa de combinacion es solo una etapa de mejora
un combinador debe ser especificado unicamente cuando su uso no afecte el __ __ resultado neto
que se hace en la etapa dividir si hay mas de un reductor involucrado, un particionador divide el resultado del mapeador en particiones entre las distintas instancias de los reductores
en la etapa dividir, el numero de particiones es igual al numero de ____ reductores
como solventar que algunos reductores reciban una mayor cantidad de pares que otros? personalizando la logica del la division garantizando una distribucion equitativa de los pares llave valor
en que etapa se genera el indice del reductor? en la etapa de division de la funcion mapeo
las bases de datos no sql son compatibles con la evolucion __ del esquema
Únicamente se pueden buscar los valores por medio de las llaves, dispositivo de almacenamiento llave valor
Es necesario almacenar datos sin estructurar dispositivo de almacenamiento llave valor
DATOS SEMIESTRUCTURADOS, ESQUEMAS PLANOS O ANIDADOS dispositivo de almacenamiento documento
ESCRITURA/LECTURA ALEATORIA EN TIEMPO REAL dispositivo de almacenamiento columnar
almacenamiento de links entre entidades grafo
como se le llama a la entidad en grafos vertice
como se le llama al link en grafos borde
operaciones de lectura o escritura de alto rendimiento dispositivo de almacenamiento llave valor
dispositivo de almacenamiento que se basa en ACID GRAFOS
Para datos binarios y de estructura sencilla llave valor
PATRONES CONSULTA DE INSERCION, SELECCION Y ELIMINACION llave valor
PATRONES CONSULTA DE INSERCION, ACTUALIZACION,SELECCION Y ELIMINACION documentos, columnar
Jane necesita almacenar una gran cantidad de archivos del circuito cerrado de televisión. Debido a la baja calidad del video, todos los archivos serán procesados, uno después de otro, utilizando una biblioteca de software de mejoramiento de video. ¿Qué tipo de dispositivo de almacenamiento puede utilizar Jane para garantizar la máxima capacidad de procesamiento de lectura y un procesamiento rápido de los archivos de video? sistema de archivos distribuido
Kerry está diseñando una aplicación de Big Data que debe almacenar grandes cantidades de archivos XML. Cada archivo XML representa una entidad aparte, compuesta por múltiples secciones, cada una con subcampos. Se deben recuperar y actualizar distintas secciones del archivo XML como parte del flujo de trabajo (Workflow) de procesamiento. ¿Qué tipo de dispositivo de almacenamiento NoSQL es el más adecuado para los requisitos de almacenamiento de datos de Kerry? Documento
Roger planea reemplazar la base de datos relacional con una base de datos NoSQL para almacenar los datos de sesión de los usuarios de una popular tienda online. Las sesiones de los usuarios son identificadas por medio de la ID y de una marca de hora, y almacenan los datos específicos de la aplicación, que son exclusivamente anexados. Los datos de sesión de los usuarios son analizados, lo que requiere que los datos de la sesión de cada uno de los usuarios sean agrupados. ¿Qué tipo de dispositivo de almacenamiento NoSQL puede ser utilizado en este caso? llave valor
Mike está a cargo del diseño de una base de datos para almacenar activos físicos que se encuentran distribuidos geográficamente por el país. Cada activo tiene un conjunto básico de atributos, como ID, tipo y fecha de fabricación. Asimismo, cada activo está conectado físicamente con varios otros activos. Mike conoció que la base de datos será usada intensamente por los ingenieros con el fin de hallar activos que están conectados con otros, así como para determinar la distancia entre dos activos. ¿Qué tipo de dispositivo de almacenamiento puede usar Mike para satisfacer los requisitos de consulta de los ingenieros? grafos
John está diseñando una aplicación web que almacena distintas piezas de información relacionadas con cada cliente, como la información personal del cliente (incluyendo dirección e información de tarjeta de crédito), el historial de compras del cliente y comentarios publicados en la página web para diferentes productos. John quiere ser capaz de buscar clientes usando sus nombres para poder actualizar los registros de los clientes. Igualmente, él espera que se ejecuten varios tipos de análisis de los clientes. Uno de los análisis que determina los sentimientos de los clientes requiere acceso interactivo a texto en los comentarios, además de buscar los comentarios hechos por cada cliente. ¿Qué tipo de base de datos NoSQL puede utilizar John para facilitar el acceso a cada campo y permitir que los datos de los comentarios sean recuperados rápidamente? columnar
Los _____ son una buena opción cuando se debe acceder a los datos en modo de streaming sin operaciones aleatorias de lectura ni escritura sistemas de archivos distribuidos
los ____funcionan mejor con menos archivos, pero de mayor tamaño, a los cuales se accede de forma secuencial sistemas de archivos distribuidos
caracteristicas del motor de procesamiento big data 1 procesamiento de datos distribuido/paralelo 2 procesamiento de datos sin esquema 3 soporte para multiples cargas de trabajo 4 escalabikidad llineal 5redundancia y tolerancia a fallos 6bajo costo
Dar soporte a un entorno de procesamiento distribuido con capacidades de procesamiento paralelo requiere un motor de procesamiento que pueda ofrecer un rendimiento estable mientras el volumen de datos crece. ESCALABILIDAD LINEAL
Implementar un software de código abierto en un hardware básico ayuda a reducir costos
que caracteristica de procesamiento apoya la capacidad del motor de procesamiento para aprovechar el Cloud Computing. bajo costo
que caracteristica de procesamiento : , es necesario que la plataforma de procesamiento subyacente sea compatible tanto con las cargas de trabajo transaccionales como con las de lote. soporte para multiples cargas de trabajo
los datos de big data se presentan de dos formas: gruesos (caracteristica de volumen) rapidos (caracteristica de velocidad)
caracteristica de procesamiento: es necesario utilizar un modelo de procesamiento basado en el principio de dividir un problema difícil en tantas partes como sea necesario, al igual que sucede con el procesamiento de datos paralelos. Procesamiento de datos distribuidos/paralelos
que caracteristica del motor de procesamiento fomenta el uso de software de codigo abierto y cloud computing bajo costo
la replicacion crea multiples copias de un dataset, conocidas como ____ y las almacena en varios nodos replicas
que caracteristica del motor de procesamiento permite el procesamiento de datos tanto por lotes como en tiempo real soporte para multiples cargas de trabajo
que caracteristica de motor de porcesamiento permite que haya funcionalidad cuando se presentan fallas en el sistema redundancia y tolerancia a fallos
el teorema cap establece que un sistema de archivos distribuido solo puede proporcionar dos de las tres propiedades, que son consistencia disponibilidad tolerancia al particionado
___ es el proceso de particionar horizontalmente un gran dataset en un grupo de datasets mas pequenos y manejables llamados ___ distribuidos entre multiples nodos sharding, shards
que caracteristica del motor de procesamiento permite el procesamiento de grandes cantidades de datos en la fuente sin necesidad de transferirlos desde su lugar de almacenamiento hasta un recurso de informatica? procesamiento de datos distribuido/paralelo
el ___ de map reduce aborada la necesidad de una ejecucion repetida de la misma tarea en datos distribuidos al usar un enfoque de paralelismo de datos framework
en la replicacion ___, el nodo maestro es el unico punto de contacto para todas las operaciones de escritura, mientras que los datos pueden ser leidos desde cualquier nodo esclavo maestro esclavo
que significa BASE DISPONIBILIDAD TODO EL TIEMPO ESTADO FLEXIBLE CONSISTENCIA A LARGO PLAZO
en la replicacion peer to peer no hay nodos maestro ni esclavo y todos los nodos llamados __, operan al mismo nivel peers
en el contexto de teorema CAP las bases de datos relacionales proporcionan ___ y ____ consistencia, disponibilidad
que caracteristica del motor de procesamiento da soporte a los modelos de datos cambiantes y permite el procesamiento de datos en su forma original sin la necesidad de llevar a cabo ninguna transformacion en el modelo de datos procesamiento de datos sin esquema
que modo de porcesamiento en tiempo reral es: se ubica dentro de la categoría de tiempo real. El ___ generalmente se refiere al procesamiento de consultas en tiempo real. La Inteligencia de negocios (BI) y la analítica operativa generalmente hacen uso del modo en tiempo real. modo interactivo
el procesamiento en big data requiere un entorno ___ qyue sea capaz de procesar datos en ___, lo caul es una caracteristica soportada por la arquitectura en ____ distribuido, paralelo, cluster
Los clusters permiten el procesamiento de datos ____ y son altamente ___ distribuidos, escalables
En la arquitectura en cluster, los datasets de Big Data pueden ser procesados por ___ o ___ usando un motor de procesamiento por lotes lotes o en real time
falso o verdadero ? A fin de que los datos almacenados tengan una estructura, la mayoría de dispositivos de almacenamiento de tipo llave-valor (key-value) ofrecen colecciones o sectores de almacenamiento (buckets; por ejemplo, tablas) dentro de los cuales se pueden organizar las parejas de llave-valor (key-value), verdadero
Show full summary Hide full summary

Similar

FUNDAMENTOS DE REDES DE COMPUTADORAS
anhita
Test: "La computadora y sus partes"
Dayana Quiros R
Abreviaciones comunes en programación web
Diego Santos
Seguridad en la red
Diego Santos
Conceptos básicos de redes
ARISAI DARIO BARRAGAN LOPEZ
Excel Básico-Intermedio
Diego Santos
Evolución de la Informática
Diego Santos
Introducción a la Ingeniería de Software
David Pacheco Ji
La ingenieria de requerimientos
Sergio Abdiel He
TECNOLOGÍA TAREA
Denisse Alcalá P
Navegadores de Internet
M Siller