You are on page 1of 47

PRE PROCESAMIENTO DE LOS DATOS

Facultad de Estadstica
Universidad Santo Toms, Bogot, Colombia
Docente:

MASTER(e) EN BUSINESS INTELLIGENCE, UNIVERSITAT DE BARCELONA ESTADSTICO, UNIVERSIDAD NACIONAL DE COLOMBIA

DANIEL LEONARDO CRUZ

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

1. 2. 3. 4. 5. 6. 7.

Objetivos del pre-procesamiento Deteccin de outliers Valores faltantes Discretizacin Numerizacin Reduccin de filas Reduccin de dimensiones

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

El propsito fundamental de la preparacin de los datos es la manipulacin y transformacin de los datos sin refinar para que la informacin contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma ms fcil D. Pyle, 1999, pp. 90

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Datos malos -> extraccin de patrones/reglas malas (poco tiles):

Datos Incompletos Datos con Ruido Datos inconsistentes Datos duplicados Variables dependientes

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Datos de calidad-> posible generacin de patrones/reglas de calidad

Recuperar informacin incompleta Eliminar outliers Resolver conflictos

Decisiones de calidad deben ser basadas en datos de calidad.

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Reduccin del tamao del conjunto de datos ->posible mejora de la eficiencia del proceso de Minera de Datos
Seleccin de datos relevantes: eliminando registros duplicados, eliminando anomalas Reduccin de Datos: Seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Hecho: La preparacin de datos (limpieza, transformacin,puede llevar la mayor parte del tiempo de trabajo (hasta un 90%).
Introduccin a la Minera de Datos - USTA 2013 2 Todos los derechos reservados

Limpieza Integracin
Datos

Transformacin Reduccin
Introduccin a la Minera de Datos - USTA 2013 2 Todos los derechos reservados

Resuelve redundancias

Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers,...

Resuelve inconsistencias/conflictos entre datos

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Existen muchos datos que no contienen todos los valores para las variables.

Inferirlos Ignorarlos

Ignorarlos: No usar los registros con valores perdidos

Ventaja: Es una solucin fcil. Desventajas: Perdida de mucha informacin disponible en esos registros. No es efectiva cuando el porcentaje de valores perdidos por variable es grande.

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Suavizamiento (Smoothing):

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Obtiene los datos de diferentes fuentes de Informacin

Resuelve problemas de representacin y codificacin

Integra los datos desde diferentes tablas para crear informacin homognea, ...

Bibliografa: E.Schallehn, K. Sattler, G. Saake. Efficient Similarity


Based Operations for Data Integration. Data And Knowledge Engineering 48:3, 351-387, 2004.
Introduccin a la Minera de Datos - USTA 2013 2 Todos los derechos reservados

Diferentes escalas:
Pesos vs Dolares Atributos derivados

Salario Mensual vs Salario Anual

Solucin

Procedimientos semiautomticos ETL Minera


2013 2 Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

Los datos son transformados o consolidados de forma apropiada para la extraccin de informacin. Diferentes vas:

Sumarizacin de datos Operaciones de agregacin, etc.

Bibliografa: T. Y. Lin. Attribute Transformation for Data Mining I: Theoretical Explorations. International Journal of Intelligent Systems 17, 213-222, 2002.

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

La combinacin de dos o ms atributos (u objetos) en un solo atributo (u objeto) propsito reduccin de datos Reducir el nmero de atributos u objetos El cambio de escala Ciudades agregan en regiones, estados, pases, etc

Ms "estable" de datos: Los datos agregados tiende a tener una menor variabilidad

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Variacin de la precipitacin en Australia

Desviacin estndar de la precipitacin mensual promedio

Desviacin estndar de la precipitacin media anual

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Normalizacin min-max

Normalizacin z-score

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Normalizacin min-max

Normalizacin z-score

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Normalizacin por escala decimal

Donde j es el entero ms pequeo tal que Max (| v|) < 1

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Discretizacin Seleccin de Instancias (objetos) Seleccin de caractersticas

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Divide el rango de atributos continuos en Intervalos


Almacena solo las etiquetas de los intervalos

Importante para reglas de asociacin y clasificacin, algunos algoritmos solo aceptan datos discretos.

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Ejemplo:

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Distribucin de Peso

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Igual amplitud

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Diagrama de cajas

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Intervalo de confianza (no paramtrico)

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Diagrama de dispersin

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Cluster

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Estadsticas - regresin

Existen muchas estadsticas que permiten detectar outliers y `` Leverage Points 1. La matriz H 2. Distancia de Cook 3. DFFITS 4. DFBETAS 5. COVRATIO

Fuente: Cursos UN

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Estadsticas - regresin

Existen muchas estadsticas que permiten detectar outliers y `` Leverage Points 1. La matriz H 2. Distancia de Cook 3. DFFITS 4. DFBETAS 5. COVRATIO

Fuente: Cursos UN

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

1. Algoritmo 1R 2. Basado en entropa 3. Entropa con MDL 4. Chi Merge Fuente: http://castle.uprm.edu/dm4.pdf UniValle

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

Introduccin a la Minera de Datos - USTA

2013 2

Todos los derechos reservados

You might also like