Prepro

Preprocesamiento de Datos
Francisco Herrera
Grupo de Investigacin SCI2S
Dpto. Ciencias de la Computacin e I.A.
Universidad de Granada
Jos Riquelme, Roberto Ruiz
Grupo de Investigacin MLG
Dpto. Lenguajes y Sistemas Informticos
Universidad de Sevilla
Reunin Red Nacional DM & ML
Madrid, 6-7 Mayo, 2004
Sumario
9 Introduccin
9 Importancia de la Preparacin de Datos
9 Qu incluye la Preparacin de Datos?
9 Reduccin de Datos
9 Seleccin de Instancias
9 Seleccin de Caractersticas
Introduccin
D. Pyle, 1999, pp. 90:
The fundamental purpose of data preparation

is to manipulate and transforrm raw data so
that the information content enfolded in the
data set can be exposed, or made more easily
accesible.
Dorian Pyle
Data Preparation for Data Mining
Morgan Kaufmann Publishers, 1999
Introduccin
Problem
Specification
Post Data Mining

Evaluation
Interpretation
Exploitation
Resourcing
Data Mining
Data Preparation
Data Collecting
Data cleaning
Data Transformation
Data Reduction
Importancia de la Preparacin de Datos
1. Los datos reales pueden ser impuros, pueden conducir
a la extraccin de patrones/reglas poco tiles.
Esto se puede deber a:
Datos Incompletos: falta de valores de atributos,
Datos con Ruido
Datos inconsistentes (incluyendo discrepancias)
2. La preparacin de datos puede generar un conjunto de
datos ms pequeo que el original, lo cual puede
mejorar la eficiencia del proceso de Minera de Datos.
Esta actuacin incluye:
Seleccin relevante de datos: eliminando registros
duplicados, eliminando anomalas,
Reduccion de Datos: Seleccin de caractersticas,
muestreo o seleccin de instancias, discretizacin.
3. La preparacin de datos genera datos de calidad, los
cuales pueden conducir a patrones/reglas de calidad.
Por ejemplo, se puede:
Recuperar informacin incompleta.
Eliminar outliers
Resolver conflictos,
Qu incluye la Preparacin de Datos?
El Preprocesamiento de Datos / La Preparacin de
Datos engloba a todas aquellas tcnicas de anlisis de
datos que permite mejorar la calidad de un conjunto de
datos de modo que las tcnicas de extraccin de
conocimiento/minera de datos puedan obtener mayor y
mejor informacin (mejor porcentaje de clasificacin,
reglas con ms completitud, etc.)
Bibliografa:
S. Zhang, C. Zhang, Q. Yang. Data preparation for data mining.
Applied Artificial Intelligence 17:5-6, 375-381, 2003.
Special Issue Data Cleaning and Preprocessing: 13 artculos
Es difcil dar una lista exacta de tareas o tpicos.
Diferentes autores dan diferentes tareas y clasificacines.
Se pueden incluir las siguientes tareas o tpicos:
-
Data collecting and integration
Data cleaning
Data transformation
Data reduction (Feature Selection, Instance Selection,

Discretization)
Data collecting and integration
Obtiene los datos de diferentes fuentes de informacin
Resuelve problemas de representacin y codificacin
Integra los datos desde diferentes tablas para crear
informacin homognea, ...
Bibliografa
especfica para
cada aplicacin.
Bibliografa:
V. Detours, J. E. Dumont, H. Bersini and C. Maenhaut. Integration
and cross-validation of high-throughout gene expression data:
Ejemplo en el mbito comparing heterogeneous data sets, FEBS Letters 546:1, 2003,
de la Bioinformtica 98-102.
Data cleaning
Resuelve conflictos entre datos
Elimina outliers
Chequea y resuelve problemas de ruido, valores
perdidos,
Bibliografa:
W. Kim, B. Choi, E-K. Hong, S-K. Kim. A Taxonomy of Dirty Data.
Data Mining and Knowledge Discovery 7, 81-99, 2003.
Data transformation
Los datos son transformados o consolidados de forma
apropiada para la extraccin de informacin.
Diferentes vas:
Sumarizacin de datos
Operaciones de agregacin, etc.
Bibliografa:
T. Y. Lin. Attribute Transformation for Data Mining I: Theoretical
Explorations. International Journal of Intelligent Systems 17,
213-222, 2002.
Data reduction
Selecciona datos relevantes para la tarea de la minera
de datos/extraccin de informacin.
Diferentes vas para la Reduccin de Datos:
Seleccin de Caractersticas
Seleccin de Instancias
Discretizacin
Reduccin de Datos
Reduccin
de Datos
Seleccin de
Caractersticas
Seleccin de
Instancias
Discretizacin
Apretujamiento de
Instancias
Data Squashing
Reduccin de Datos
Reduccin
de Datos
Seleccin de
Caractersticas
Seleccin de
Instancias
Discretizacin
Apretujamiento de
Instancias
Data Squashing
Bibliografa:
H. Liu, H. Motoda. Feature Selection for Knowledge Discovery
and Data Mining. Kluwer Academic, 1998.
H. Liu, H. Motoda (Eds.) Feature Extraction, Construction, and
Selection: A Data Mining Perspective, Kluwer Ac., 1998.
Reduccin de Datos
Reduccin
de Datos
Seleccin de
Caractersticas
Seleccin de
Instancias
Discretizacin
Apretujamiento de
Instancias
Data Squashing
Bibliografa:
H. Liu, F. Hussain, C.L. Tan, M. Dash. Discretization: An Enabling
Technique. Data mining and Knowledge Discovery 6, 393-423,
2002.
Reduccin de Datos
Reduccin
de Datos
Seleccin de
Caractersticas
Seleccin de
Instancias
Discretizacin
Apretujamiento de
Instancias
Data Squashing
Bibliografa:
A. Owen, Data Squashing by Empirical Likelihood.
Reduccin de Datos
Reduccin
de Datos
Seleccin de
Caractersticas
Seleccin de
Instancias
Discretizacin
Apretujamiento de
Instancias
Data Squashing
Bibliografa:
T. Reinartz. A Unifying View on Instance Selection.
Seleccin de
Instancias
Sampling
Boosting
Seleccin de
Prototipos
Aprendizaje
basado en
Instancias
Aprendizaje
Activo
Seleccin de
Prototipos
Seleccin
Basada en
Reglas NN
Seleccin Basada
en Eliminacin
Ordenada
Sampling
Algoritmos
Evolutivos
Muestreo
Aleatorio
Estrategia de Seleccin de Prototipos
Estrategia de Seleccin de Conjuntos de Entrenamiento
Data Mining
Algorithm
J.R. Cano, F. Herrera, M. Lozano. Using Evolutionary
Algorithms as Instance Selection for Data Reduction in KDD: An
Experimental Study.
IEEE Trans. on Evolutionary Computation 7:6, 561-575, 2003.
Algunos Resultados
Medium size data sets
Classification con
reduction rate >
70%.
Seleccin de
Prototipos
%Reduccin
%Ac. test 1NN
(%Ac. 1-NN+%Rd.)/2
CHC
Ib2
Drop1
Cnn
Drop3
PBIL
Ib3
CHC
Ennrs
Cnn
CHC
Ennsr
Drop3
Rmhc
Rnn
Rmhc
Drop2
Ib2
Drop3
Rnn
Drop1
Icf
Cnn
Drop1
Ib3
Ib2
PBIL
Icf
Rnn
Rmhc
Icf
Drop2
Ennrs
Ib3
PBIL
Drop2
%Reduction
%Ac. test C4.5 (%Ac. C4.5+%Rd.)/2
CHC
PBIL
CHC
Ib2
Rmhc
Rmhc
Classification
con reduction
rate > 70%.
Drop1
CHC
Ennrs
Cnn
Ib3
Drop1
Drop3
Ennrs
Drop3
Seleccin de
Conjuntos de
Entrenamiento
Rnn
Drop2
Icf
Rmhc
Icf
Cnn
Icf
Drop1
Ib3
Drop2
Drop3
PBIL
Ennrs
Cnn
Drop2
Ib3
Rnn
Rnn
PBIL
Ib2
Ib2
El orden de los algoritmos es superior a O(n2) y suele
estar en orden O(n3) .
Cmo realizar la seleccin de instancias con grandes
bases de datos?
Combinamos una estrategia de estratificacin con los
algoritmos de seleccin de instancias.
Data Set
T1
IS
T2
IS
T3
IS
Tt
IS
SS1
SS2
SS3
SSt
TR1
TR2
TR3
TRt
TS1
TS2
TS3
TSt
Estrategia de Estratificacin
Conjuntos de datos:
Name
Number of Number of Number of

Instances Features
Classes
Adult
30132
14
Kdd Cup99
494022
41
23
Adult. Nmero de estratos: 10
Execution
Time(sec)
Rules
Number
C4.5
327
Cnn Strat
21
Drop1 Strat
44
Drop2 Strat
%
Reduction
C4.5
%Ac. Trn
%Ac. Test
88.72%
85.40%
97.34%
52.17%
36.45%
95.09%
24.92%
26.31%
48
179
70.33%
85.61%
83.09%
Drop3 Strat
41
75
95.57%
82.96%
77.29%
Ib2 Strat
12
99.57%
49.42%
36.37%
Ib3 Strat
162
76.69%
85.17%
82.73%
Icf Strat
33
138
85.62%
79.99%
82.21%
20172
99.38%
83.78%
82.76%
CHC Strat
Kdd Cup99. Nmero de estratos: 100
Execution Rules
Time(sec) Number
%
Reduction
C4.5
%Ac Trn
%Ac Test
99.97%
99.94%
265
252
83
81.61%
98.48%
96.43%
Drop1 Strat
111
99.97%
38.63%
34.97%
Drop2 Strat
105
82
76.66%
81.40%
76.58%
Drop3 Strat
131
49
56.74%
77.02%
75.38%
Ib2 Strat
48
82.01%
95.81%
95.05%
Ib3 Strat
74
78.92%
99.13%
96.77%
Icf Strat
242
68
23.62%
99.98%
99.53%
CHC Strat
1960
99.68%
98.97%
97.53%
C4.5
Cnn Strat
ADULT: Algunos datos a destacar: Particin 1

No.
Instancias - N
Adult
30132
No.
Variables
No. Reglas
No. Variables/
regla
Confidencia de
las Reglas
N(Cond,Clas)/N
C4.5
IS-CHC/
C4.5
C4.5
IS-CHC/
C4.5
C4.5
IS-CHC/
C4.5
359
14
0.003
0.167
14
La seleccin de instancias nos permite obtener conjuntos de reglas

ms interpretables y con aporte de mayor informacin.
Dos lneas de actuacin futura:
z
Sistema de Clasificacin ms preciso: Avanzar en la combinacin de la

estratificacin y tcnicas evolutivas para mejorar la precisin.
Subgroup Discovery: La obtencin de reglas de calidad que aporten
informacin.
N. Lavrac, B. Kavsek, P. Flach, L. Todorowski. Subgroup Discovery with CN2-SD.

Journal of Machine Learning Research 5 (2004) 153-188.
Recientemente se han publicado diferentes
aproximaciones al problema de Seleccin de Instancias.
J.C. Riquelme, J.S. Aguilar-Ruiz, M. Toro. Finding representative
patterns with ordered projections. Pattern Recogition 36 (2003)
1009-1018.
POP: Algoritmo de seleccin de instancias va proyeccin

seleccionando regiones para cada clase.
Mtodos de aprendizaje: k-NN, C4.5.
S-W. Kim, B.J. Oommen. Enhancing prototype reduction schemes
with LVQ3-type algorithms. Pattern Recognition 36 (2003) 10831093.
LVQ3: Utilizan LVQ y SVM para la seleccin de instancias.

S-W. Kim, B.J. Oommen. Enhancing Prototype Reduction Schemes
with Recursion: A Method Applicable for Larga Data Sets. IEEE
Trans. on SMC, 2004.
Combina un mtodo recursivo para la particin de bases de datos

con LVQ y SVM.
S. Papadimitriou, S. Mavroudi, L. Vladutu, A.Bezerianos. Generalized
radial basis function neural networks trained with instance based
learning for data mining of symbolic data. Applied Intelligence 16
(2002) 223-234.
P.C. Pendaharkar, J.A. Rodger. Technical efficiency-based selection of
learning cases to improve forecasting accuracy of neural networks
under monotonicity assumption. Decision Support Systems 36
(2003)117-136.
Se utiliza la seleccin de instancias para el entrenamiento de redes

neuronales.
K.W. Lau, Q.H. Wu. Online training of support vector classifier. Pattern
Recognition 36 (2003) 1913-1920.
Se utiliza la seleccin de instancias para SVM.
Conclusiones
La seleccin de instancias puede permitir mejorar la
precisin/interpretabilidad de los mtodos de aprendizaje
automtico.
Existen evidencias de buen comportamiento combinando
seleccin de instancias y los mtodos de aprendizaje.
Para cada mtodo de aprendizaje puede ser necesario
disear un mecanismo de seleccin de instancias que sea
cooperativo con el propio mtodo de aprendizaje.
Sumario
9 Introduccin
9Proceso general para la SA
9Esquemas/Framework
9Catalogacin de algoritmos existentes
9Distintas Clasificaciones
9Tendencias
Introduccin
La SA pretende elegir atributos que sean relevantes
para una aplicacin y lograr el mximo rendimiento con
el mnimo esfuerzo. El resultado de la SA sera:
Menos datos los algoritmos pueden aprender ms rpidos
Mayor exactitud el clasificador generaliza mejor
Resultados ms simples ms fcil de entender
Menos atributos evitar obtenerlos posteriormente
SA y Transformacin (extraccin y construccin)

Bibliografa:
H. Liu, H. Motoda. Feature Selection for Knowledge Discovery
and Data Mining. Kluwer Academic, 1998.
Proceso para la SA
La SA se puede considerar como en problema de bsqueda
{}
Datos
originales
(GS)
Generacin
Subconjuntos
Subconjunto
atributos
(CE)
Criterio
Evaluation
{1,2}
{1}
{2}
{3}
{4}
{1}{3}
{2,3}
{1,4}
{2,4}
{1,2,3}
{1,2,4} {1,3,4} {2,3,4}

{1,2,3,4}
no
Criterio
Parada
si
Subconjunto
Seleccionado
{3,4}
Estudios realizados
P. Langley (1994). Selection of Relevant Features in Machine
Learning. Procs. of the AAAI Fall Symposium on Relevance. AAAI
Press, New Orleans, LA.
Agrupa las funciones de evaluacin: Filtro y Envolvente (wrapper).

A.L. Blum and P. Langley (1997). Selection of Relevant Features
and Examples in Machine Learning. Artificial Intelligence on
Relevance, pp. 245-271.
Utiliza la dependencia con el proceso de induccin: Filtro, wrapper,

Empotrados (embedded) y Ponderados.
Estudios realizados
J. Doak (1994). An Evaluation of Search Algorithms for Feature
Selection. Informe tcnico, Safeguards Systems Group. Los
Alamos National Laboratory.
Establece tres categoras para las estrategias de bsqueda: exponencial O(2N),
secuencial O(N2) y aleatoria O(?).
Clasifica las medidas de evaluacin basndose en la naturaleza de estas: filtro,
wrapper y wrapper modificado.
M. Dash and H. Liu (1997). Feature Selection for Classification.

Intelligent Data Analisys.
Establece tres categoras para las estrategias de bsqueda: completa, heurstica y
aleatoria.
Clasifica las medidas de evaluacin basndose en la naturaleza de estas: filtro
(distancia, informacin, dependencia y consistencia) y wrapper.
Esquemas
L.C. Molina, L. Belanche and A. Nebot (2002). Feature Selection
Algorithms: A Survey and Experimental Evaluation. In Proc. of the
International Conference on Data Mining (ICDM'02), IEEE C.S.
Propone un criterio para evaluar el rendimiento de un algoritmo de SA con respecto
a las particularidades de relevancia, irrelevancia, redundancia y tamao de la
muestra.
Caracterizacin de algoritmos de SA.
M. Dash and H. Liu (1997). Feature Selection for Classification.

Intelligent Data Analisys, 1 (3).
H. Liu and L. Yu (2002). Feature Selection for Data Mining.
http://www.public.asu.edu/~huanliu/feature_selection.html
Clasificacin de los algoritmos existentes.
Incluye SA no supervisada y propone una plataforma unificada.
Medida de Evaluacin
Caracterizacin
Divergencia
Precisin
Consistencia
Informacin
Dependencia
Distancia
Generacin de sucesores
Esquema de Generacin
Exponencial
Secuencial
Aleatoria
Completa
Heurstica
No-determinista
Adelante
Atrs
Aleatoria
Compuesta
Ponderada
Organizacin
de la Bsqueda
Creterio de
evaluacin
Distancia
Informacin
Estrategia de Bsqueda
Exponencial / Completa
Secuencial / Heurstica
Ad: BFF
At: B&B , Bobr88
Ad: Segen
P: ReliefF
At: MDLM
Ad: SFG
At: SBG, DTM, Koller
Ad: CFS
Ad: POE+ACC
P: PRESET
C: FCBC
Dependencia
Consistencia
Ad: Focus, Schlimmer

At: MIFES1, ABB
Precisin
Al/Ad: BS
At: AMB&B, OBLIVION
Ad: Ichi-Skla
Aleatoria / No
determinista
P: ReliefF
Al: LVF, LVI, QBB*

Ad: WSFG, Quei-Gels
At: WSBG,SBS-SLASH,RC
C: PQSS, BDS, RACE
Cualquiera
Ad: SFG
At: SBG
Inf+Presic
Ad: BBHFS
C: Xing
Al: LVW,GA,SA, RMHC-PF1

Al/C: RGSS
FSS-EBNA
Distintas Clasificaciones
1. Segn la evaluacin:
2. Disponibilidad de la clase:
filter
Supervisados
wrapper
No supervisado
3. Segn la bsqueda:
Completa O(2N)
Heurstica O(N2)
Aleatoria ?
4. Segn la salida del algoritmo:

Ranking
Subconjunto de atributos
Algoritmos Ranking
Devuelven una lista de atributos ordenados segn algn
criterio de evaluacin.
Entrada: x atributos - U criterio evaluacin
Lista = {}
Para cada Atributo xi, i {1,...,N}
vi = calcular(xi,U)
situar xi dentro de Lista conforme vi
Salida: Lista, atts ms relevantes al principio
Algoritmos Subconjunto de atributos
Devuelven un subconjunto de atributos optimizado segn
algn criterio de evaluacin.
Entrada: x atributos - U criterio evaluacin
Subconjunto = {}
Repetir
Sk = generarSubconjunto(x)
si existeMejora(S, Sk,U)
Subconjunto = Sk
Hasta CriterioParada()
Salida: Lista, atts ms relevantes al principio
Sistemas de SA
Dash, Liu and Motoda (2000).

Consystency based feature
selection (PAKDD). Kyoto,
Japan. Springer-Verlag.
Elige automticamente el mejor
algoritmo de SA (Basado en
consistencia).
Comparison table of the discussed method.
Generation
Evaluation
B&B
MDLM
Focus
complete
complete
complete
distance
information
consistency
y
y
n
y
y
y
n
n
y
Relief
DTM
POE+ACC
heuristic
heuristic
heuristic
distance
information
dependency
y
y
y
y
y
y
y
y
y
y
y
-
n
y
y
y
-
n
n
n
LVF
random
consistency
y*
y**
y++
y*
Contin. Discrete Nominal
Large Multiple Handle Optimal

Dataset Classes Noise Subset
y
y++
y
n
n
y
n
y
Method
method does not discuss about the particular characteristic.

if certain assumptions are valid.
user is required to provide the noise level.
y**
provided there are enough resources.
*note : "classifier error rate" not included (ie. Depend on specify classifier).
Sistemas de SA
M. Kudo and J. Sklansky (2000). Comparison

of Algorithms that Select Features for
Pattern Classifiers, Elsevier Science.
Clasifica segn objetivo: A, B y C

segn tamao BD: small, medium, L,VL
Segn criterio: Monotono, aprox. y no
Incremento de los datos
Algoritmos hbridos: Combinan las ventajas de los algoritmos tipo
filtro (rapidez) y wrapper (precisin)
S. Das (2001). Filters, Wrappers and a Boosting-Based Hybrid for
Feature Selection, ICML, p. 74-81. Morgan Kaufmann Publishers.
Utiliza el concepto de Boosting.
E.P. Xing, M.I. Jordan and R.M. Karp (2001). Feature Selection for
High-Dimensional Genomic Microarray Data, ICML, p. 601-608.
Morgan Kaufmann Publishers.
Selecciona atts con IG alta y se reducen mediante Markov.
Incremento de los datos
H. Liu, H. Lu and L. Yu (2003). Active Sampling: An Effective
Approach to Feature Selection. SIAM ICDM.
Selecciona las instancias con mayor probabilidad de tener informacin determinante
de la relevancia de los atributos.
L. Yu and H. Liu (2003). Feature Selection for High-Dimensional: A

fast Correlation-Based Filter Solution, ICML. Morgan Kaufmann
Publishers.
Selecciona atts altamente correlados con la clase y despus elimina redundantes.
Validaciones
10 fcv
Test File
(10%)
10 Runs
Classifier
% Acc.
Size
N Atts
BDs
Training File
(E 90%)
Selectors
Reduced
Training
File (E)
Reduce
Classifier
% Acc.
Size
N Atts
Validaciones
Selectors
BDs
Reduced
BDs
Classifier
Classifier
% Acc.
Size
N Atts
% Acc.
Size
N Atts
Validacin algoritmos ranking
Atributos
A1
A2
A3
A4
A5
A6
A7
A8
A9
Ranking
A5
A7
A4
A3
A1
A8
A6
A2
A9
80
82
81
83
83
85
84
83
84
A5
A7
A4
A3
A1
A8
(6 atributos)
Mejor
Subconjunto
Validacin algoritmos ranking
Glass2-C4.5
Segment-NB
Sonar-C4.5
Conclusiones
La seleccin de atributos puede permitir mejorar la
precisin e interpretabilidad de los mtodos de aprendizaje
automtico, adems de reducir el tamao de la BD y el
tiempo de los algoritmos de aprendizaje.
Para diferentes aplicaciones puede convenir distintos
algoritmos de seleccin de caracterstica.
Conclusiones
El preprocesamiento de datos suele ser una necesidad cuando
se trabaja con una aplicacin real, con datos obtenidos
directamente del problema.
Una ventaja: El preprocesamiento de datos permite aplicar los
modelos de Aprendizaje/Minera de Datos de forma ms rpida
y sencilla, obteniendo modelos/patrones de ms calidad:
precisin e/o interpretabilidad.
Un inconveniente: El preprocesamiento de datos no es un
rea totalmente estructura con una metodologa concreta de
actuacin para todos los problemas.
Cada problema puede requerir una actuacin diferente,
utilizando diferentes herramientas de preprocesamiento.

Prepro

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Prepro

Uploaded by

Copyright:

Available Formats

Preprocesamiento de Datos

The fundamental purpose of data preparation

Post Data Mining

Data collecting and integration

Data reduction (Feature Selection, Instance Selection,

%Ac. test 1NN

%Ac. test C4.5 (%Ac. C4.5+%Rd.)/2

Number of Number of Number of

ADULT: Algunos datos a destacar: Particin 1

La seleccin de instancias nos permite obtener conjuntos de reglas

Sistema de Clasificacin ms preciso: Avanzar en la combinacin de la

N. Lavrac, B. Kavsek, P. Flach, L. Todorowski. Subgroup Discovery with CN2-SD.

POP: Algoritmo de seleccin de instancias va proyeccin

LVQ3: Utilizan LVQ y SVM para la seleccin de instancias.

Combina un mtodo recursivo para la particin de bases de datos

Se utiliza la seleccin de instancias para el entrenamiento de redes

Se utiliza la seleccin de instancias para SVM.

SA y Transformacin (extraccin y construccin)

{1,2,4} {1,3,4} {2,3,4}

Agrupa las funciones de evaluacin: Filtro y Envolvente (wrapper).

Utiliza la dependencia con el proceso de induccin: Filtro, wrapper,

M. Dash and H. Liu (1997). Feature Selection for Classification.

M. Dash and H. Liu (1997). Feature Selection for Classification.

Ad: Focus, Schlimmer

Al: LVF, LVI, QBB*

Al: LVW,GA,SA, RMHC-PF1

4. Segn la salida del algoritmo:

Dash, Liu and Motoda (2000).

Contin. Discrete Nominal

Large Multiple Handle Optimal

method does not discuss about the particular characteristic.

M. Kudo and J. Sklansky (2000). Comparison

Clasifica segn objetivo: A, B y C

L. Yu and H. Liu (2003). Feature Selection for High-Dimensional: A

You might also like