Professional Documents
Culture Documents
Facultad de Estadstica
Universidad Santo Toms, Bogot, Colombia
Docente:
2013 2
1. 2. 3. 4. 5. 6. 7.
Objetivos del pre-procesamiento Deteccin de outliers Valores faltantes Discretizacin Numerizacin Reduccin de filas Reduccin de dimensiones
2013 2
2013 2
El propsito fundamental de la preparacin de los datos es la manipulacin y transformacin de los datos sin refinar para que la informacin contenida en el conjunto de datos pueda ser descubierta o estar accesible de forma ms fcil D. Pyle, 1999, pp. 90
2013 2
Datos Incompletos Datos con Ruido Datos inconsistentes Datos duplicados Variables dependientes
2013 2
2013 2
Reduccin del tamao del conjunto de datos ->posible mejora de la eficiencia del proceso de Minera de Datos
Seleccin de datos relevantes: eliminando registros duplicados, eliminando anomalas Reduccin de Datos: Seleccin de caractersticas, muestreo o seleccin de instancias, discretizacin.
2013 2
Hecho: La preparacin de datos (limpieza, transformacin,puede llevar la mayor parte del tiempo de trabajo (hasta un 90%).
Introduccin a la Minera de Datos - USTA 2013 2 Todos los derechos reservados
Limpieza Integracin
Datos
Transformacin Reduccin
Introduccin a la Minera de Datos - USTA 2013 2 Todos los derechos reservados
Resuelve redundancias
2013 2
Existen muchos datos que no contienen todos los valores para las variables.
Inferirlos Ignorarlos
Ventaja: Es una solucin fcil. Desventajas: Perdida de mucha informacin disponible en esos registros. No es efectiva cuando el porcentaje de valores perdidos por variable es grande.
2013 2
Suavizamiento (Smoothing):
2013 2
Integra los datos desde diferentes tablas para crear informacin homognea, ...
Diferentes escalas:
Pesos vs Dolares Atributos derivados
Solucin
Los datos son transformados o consolidados de forma apropiada para la extraccin de informacin. Diferentes vas:
Bibliografa: T. Y. Lin. Attribute Transformation for Data Mining I: Theoretical Explorations. International Journal of Intelligent Systems 17, 213-222, 2002.
2013 2
La combinacin de dos o ms atributos (u objetos) en un solo atributo (u objeto) propsito reduccin de datos Reducir el nmero de atributos u objetos El cambio de escala Ciudades agregan en regiones, estados, pases, etc
Ms "estable" de datos: Los datos agregados tiende a tener una menor variabilidad
2013 2
2013 2
Normalizacin min-max
Normalizacin z-score
2013 2
Normalizacin min-max
Normalizacin z-score
2013 2
2013 2
2013 2
Importante para reglas de asociacin y clasificacin, algunos algoritmos solo aceptan datos discretos.
2013 2
Ejemplo:
2013 2
Distribucin de Peso
2013 2
Igual amplitud
2013 2
2013 2
Diagrama de cajas
2013 2
2013 2
Diagrama de dispersin
2013 2
Cluster
2013 2
Estadsticas - regresin
Existen muchas estadsticas que permiten detectar outliers y `` Leverage Points 1. La matriz H 2. Distancia de Cook 3. DFFITS 4. DFBETAS 5. COVRATIO
Fuente: Cursos UN
2013 2
2013 2
Estadsticas - regresin
Existen muchas estadsticas que permiten detectar outliers y `` Leverage Points 1. La matriz H 2. Distancia de Cook 3. DFFITS 4. DFBETAS 5. COVRATIO
Fuente: Cursos UN
2013 2
2013 2
2013 2
2013 2
2013 2
2013 2
2013 2
2013 2
1. Algoritmo 1R 2. Basado en entropa 3. Entropa con MDL 4. Chi Merge Fuente: http://castle.uprm.edu/dm4.pdf UniValle
2013 2
2013 2
2013 2
2013 2
2013 2
2013 2
2013 2