Conjunto de datos de gran
tamaño fuera de las
capacidades de la mayoría de
los software utilizados para
capturar, gestionar y procesar la
información dentro de un lapso
tolerable de tiempo.
Procedimiento de
gestión y análisis de
enormes volúmenes de
datos
¿Qué tipos de datos debo explorar?
1.- Web and Social Media: Incluye
contenido web e información que es
obtenida de las redes sociales
2.- Machine-to-Machine (M2M): M2M se
refiere a las tecnologías que permiten
conectarse a otros dispositivos.
3.- Big Transaction Data: Incluye registros de
facturación, en telecomunicaciones registros
detallados de las llamadas (CDR)
4.- Biometrics: Información biométrica
en la que se incluye huellas digitales,
escaneo de la retina, reconocimiento
facial, genética, etc.
5.- Human Generated: Diversas
cantidades de datos generados
por personas
características
las 7 V del Big Data
Volumen de información El volumen se
refiere a la cantidad de datos que son
generados cada segundo, minuto y días
en nuestro entorno.
Velocidad de los datos La velocidad se refiere
a los datos en movimiento por las constantes
interconexiones que realizamos, es decir, a la
rapidez en la que son creados, almacenados y
procesados en tiempo real.
Variedad de los datos La variedad se refiere
a las formas, tipos y fuentes en las que se
registran los datos.
Veracidad de los datos Grado de fiabilidad
de la información recibida.
Viabilidad Capacidad
que tienen las compañías en generar
un uso eficaz del gran volumen de
datos que manejan.
Visualización de los datos Modo en el que
los datos son presentados.
Valor de los datos El valor se obtiene de
datos que se transforman en información; esta a su
vez se convierte en conocimiento, y este en acción
o en decisión. El valor de los datos está en que sean
accionables, es decir, que los responsable de la
empresas puedan tomar una decisión (la mejor
decisión) en base a estos datos.
algunas de las herramientas Big Data
más conocidas
Hadoop Herramienta más habitual a la hora
de procesar datos.
Python Otra de las herramientas principales
dentro del sector, se basa en un lenguaje más
avanzado de programación
Elasticsearch Programa que nos facilita el
procesamiento de datos a gran escala, pero
con la particularidad de que este proceso se
lleva a cabo en tiempo real.
Apache A través de este sistema se pueden
procesar un gran número de datos en tiempo
real. En este caso, lo que se analiza más bien
son los flujos constantes de información
Lenguaje R Lenguaje de programación que se
asemeja bastante al matemático, motivo por el
cual se saca provecho a esta herramienta para
cálculos estadísticos y para el análisis de los
gráficos.