PRE-PROCESAMIENTO Y CALIDAD DE DATOS
QUE HOY POR HOY SE GENERAN DEMASIADAS MASAS O CANTIDADES INMENSAS DE INFORMACIÓN GRACIAS A LA AYUDA Y APORTE DE LA TECNOLOGÍA Y QUE ESTO CONLLEVA A QUE MUCHOS DE ESTOS SISTEMAS SE SATUREN O NO FUNCIONEN CORRECTAMENTE.
EL CONOCIMIENTO EXTRAÍDO DEPENDE EN GRAN PARTE DE LA CALIDAD QUE ESTOS DATOS PUEDAN OFRECER ES DECIR QUE LA INFORMACIÓN QUE NOSOTROS OBTENGAMOS SEA REAL SEA FACTIBLE YA QUE ESTA PUEDE SER INTERRUMPIDA O OPACADA POR AGENTES EXTERIORES COMO EL RUIDO Y LOS VALORES PERDIDOS.
HAY TRES CARACTERÍSTICAS QUE SON ASOCIADAS A ESTE NUEVO CICLO: PROCESA-BLE,Y ÁGIL
Debido a que normalmente el uso de datos
de baja calidad implica un proceso de
minería de datos con pobres resultados
Selección relevante de datos: eliminando registros
duplicados, eliminando anomalías, …
Reduccion de Datos: Selección de características,
muestreo o selección de instancias, discretización.
Los algoritmos de pre procesamiento también
están afectados por el problema de la
esca labilidad
La limpieza de datos es el acto de descubrimiento y corrección o eliminación de registros de datos erróneos de una tabla o base de datos.
Imputar valores perdidos se utiliza para generar imputaciones múltiples. Los conjuntos de datos completos pueden analizarse con procedimientos que admiten conjuntos de datos de imputación múltiple.
es cualquier dato que podría identificar potencialmente a un individuo específico.