.Tecnologías como
Internet generan datos,
al abaratamiento y desarrollo
del almacenamiento y los recursos de
red
.La calidad del conocimiento extraído depende
en gran medida de la calidad de los
datos
.los datos deben ser
lo que se dice, es importante la calidad de
datos
.los datos deben ser escalables para
su procesamiento
.los datos deben estar
disponibles y preparados para adaptarse al
entorno cambiante de los negocios
.Pre procesamiento de datos
El pre procesamiento de datos es una etapa
esencial del proceso de descubrimiento de
información
.normalmente el uso de datos
de baja calidad implica un proceso de
minería de datos con pobres resultados
.La preparación de datos está formada por
una serie de técnicas SU objetivo
de inicializar correctamente los datos que
servirán de entrada para los algoritmos de
minería de datos
.
Big Data, calidad de datos, datos imperfectos, datos masivos, discretización,
minería de datos, preprocesamiento de datos, selección de atributos, selección de instancias,
transformación de datos.
Tres características son asociadas a este nuevo
paradigma de datos: exactos, procesables
y ágiles (accurate, actionable y agile, en inglés).
Una descripción breve de estos términos
nos conduce a tres aspectos esenciales
en el uso de los datos: a) los datos deben ser
lo que se dice, es importante la calidad de
datos; b) los datos deben ser escalables para
su procesamiento; c) los datos deben estar
disponibles y preparados para adaptarse al
entorno cambiante de los negocios.
Preprocesamiento de datos:
El preprocesamiento de datos es una etapa
esencial del proceso de descubrimiento de
información o KDD.
Debido a que normalmente el uso de datos
de baja calidad implica un proceso de
minería de datos con pobres resultados, se
hace necesaria la aplicación de técnicas de
preprocesamiento.
En la Las tecnologías y algoritmos sofisticados
y novedosos son necesarios para procesar
eficientemente lo que se conoce como Big
Data. Estos nuevos esquemas de procesamiento
han de ser diseñados para procesar
conjuntos de datos grandes, datos masivos,
dentro de tiempo de cómputo razonable y
en un rango de precisión adecuado
En estos Algoritmos de preprocesamiento
de datos masivos
En esta subsección mostramos brevemente
los algoritmos de preprocesamiento disponibles
en las herramientas de analítica de datos
previamente descritas, así como las propuestas
que encontramos en la literatura especializada