You are on page 1of 52

Minera de Datos en las Empresas

Metodologa y Algoritmos
10 de noviembre de 2011 CONGRESO NACIONAL DE TECNOLOGIAS IXTAPA ZIHUATANEJO
ngel Kuri Morales akuri@itam.mx

Minera de Datos
La minera de datos consiste en buscar relaciones interesantes entre objetos de bases de datos muy grandes. Tpicamente del orden de los terabytes.

Prembulo
Algunas de las ideas que se van a exponer fueron exploradas, originalmente, en un trabajo que se present en Leipzig, Alemania, julio 17, 2007 durante el congreso de minera de datos celebrado en esa ciudad.

Motivation
Present day commercial requirements imply that leading companies must dedicate important resources to achieve better customer-business relationships. In view of state-of-the-art technologies this is only achievable by analyzing large quantities of the customers data bases.

Goals
In general, the goal is to achieve the said analysis in the most efficient possible way. Our aim is to propose and apply a methodology which improves the process overall efficiency importantly without impairing the quality of the results. This aim is reached by applying our methodology as will be shown through a case study.

Case Study: Data Mining


For a very large multi-national Latin American company. Data was extracted from several databases with several million records each. The final aim is to characterize the companys customers in order to be able to design new ad hoc products and services.

Methodology
Data preprocessing The databases were scanned to obtain an integrated smaller but representative sample Data was semi-automatically filtered out to eliminate incomplete and/or noisy elements Search Space Reduction Original number of features in the data was reduced from 415 to129 Elements in the sample were further reduced Clustering

Search Space Reduction


Vertical
Data was analyzed and features with high (>75%) correlation were eliminated Data reduction of 68.91%.

Horizontal
Determination of optimal sub-samples from specific best-fit regressive functions Reduction:
~94% over original data set.

Clustering
Elbow criterion
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PC PE

PC=Partition coefficient; PE=Partition entropy

Clustering
Clustering result

Search Space Reduction


1. 2.

3.

4.

Select several n equally sized samples. Select sets of m variables to perform a goodness-of-fit test. Aim: prove that, within each sample, the behavior of the selected variables is statistically equivalent. Perform a search for the best regressive function. (We programmatically tested 34 non-linear models, selecting the one with the highest correlation factor). Repeat steps 2 and 3 as needed.

Search Space Reduction


Similar behavior of variables between samples.

Search Space Reduction


Similar behavior of variables between samples.

Statistical Validation
Model 1: obtained from sample Model 2: obtained from original data
Model 1 (%) 30 21 15 12 12 10 Model 2 (%) 27 20 18 15 12 8

Clust. A B C D E F

Diff. (%)
3 1 3 3 0 2

Ftima; Leipzig, Alemania

Metodologa
1. 2. 3. 4. 5. 6. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor

Complejidad
La complejidad del anlisis tiene que ver con los tiempos de consulta de las bases de datos. Por ello es interesante agregar un punto adicional a la metodologa planteada.

Metodologa
1. 2. 3. 4. 5. 6. 7. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin de la muestra mnima Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor

Clustering Proceso no supervisado que permite la particin de un conjunto de datos D en k grupos o clusters, con base en un criterio de similitud.
21

Edwin (y yo); Berln, Alemania

Codificacin de las variables categricas


Para cada variable Determinar valores distintos Asignar un cdigo numrico a cada valor Crear un diccionario de cdigos Crear un metadiccionario global

Clusters Codificados

Enrique y Daniel; Pars, Francia

Eliminacin de variables correlacionadas


Se calcula una tabla de correlaciones Se establece un umbral de correlacin Se encuentran i grupos de variables Gi(Vi1, , Vin) i=1,,m Se eliminan todas las variables excepto una de cada grupo El grupo reducido conforma la nueva BD

Determinacin de la muestra mnima


Se determina el valor de la muestra cuyo incremento entrpico es menor que un umbral predeterminado Se establece la equivalencia de comportamientos de primer orden entre las variables de la BD

Determinacin del nmero de Clusters


Se aplica el algoritmo de Medias C Difusas para un cierto nmero de clusters (i=1,,N) Se mide, para cada i: El coeficiente de particin La entropa de cluster Se aplica el criterio del codo Se eligen las opciones ms razonables

Obtencin de los centroides


Una vez que se determina la cantidad ms plausible de clusters (C1, , Cn) Se calculan los centroides para C1, , Cn. Cada centroide es un vector de v dimensiones (en donde v es el nmero de variables significativas)

Centroides

Diseo de un clasificador/predictor
Conociendo las posiciones de los centroides es posible hacer induccin acerca de nuevos objetos.

La presuncin bsica es que existen regularidades (patrones) tcitas en las fronteras de los clusters.
En ese contexto es razonable suponer que, si es posible preservar dichos patrones en submuestras adecuadamente determinadas, se alcanzarn las mismas conclusiones inductivas sin necesidad de observar todo el universo.

Milagro!! Milagro!!

Determinacin del tamao de la muestra mnima


Podemos entonces plantear la siguiente hiptesis:
La informacin contenida en una muestra aleatoria de la base de datos D de tamao M es aproximadamente igual a la de la D para una adecuadamente elegida. Al criterio anterior agregamos una condicin complementaria: El comportamiento de las variables de M debe ser similar al de las variables de D.

Uso de Funciones Predeterminadas


Una posibilidad es establecer un conjunto de modelos de aproximacin a priori. Para ello es necesario: a) Elegir modelos adecuados b) Programar cada uno de los modelos Este enfoque se us en el trabajo mostrado arriba.

Luis, Yo, Enrique y Amaury; Lisboa, Portugal

En este ejemplo se puede observar que el comporta miento de las variables es similar

Este ejemplo es anlogo para variables diferentes

Generalizacin
El problema con el enfoque anterior es que es sumamente laborioso, difcil de generalizar y es complicado establecer comparaciones objetivas entre los diversos comportamientos de las muestras.

Alternativa:
Aproximaciones polinomiales de grados aceptables.

Algoritmo de ascenso
El objetivo de este algoritmo es expresar el comportamiento de una variable independiente (y) como funcin de un conjunto de variables independientes (v). y f (v , v ,...,v )
1 2 n

y f ( v)

Forma del aproximador


La forma del aproximador se define como:
y c1 X 1 c 2 X 2 ... cm X m (1)

Donde m es el nmero de coeficientes deseados y Xi denota una combinacin de las variables independentes. Es decir, Xi = fi(v). Dependiendo de la forma en la que stas se definen podemos obtener aproximadores distintos. Por convencin hacemos que M=m+1.

Ejemplo 1

Ejemplo 1

Ejemplo 2

Optimizacin Evolutiva
La herramientas modernas de optimizacin no presentan esta limitante. Es el caso, por ejemplo, de los algoritmos genticos. Con ellos es posibles optimizar usando cualquier norma.

Ivn; Valparaso, Chile

Regreso al Algoritmo de Ascenso


Con el algoritmo de ascenso se computaron las relaciones pareadas de 29 variables para determinar la equivalencia entre dos muestras determinadas de acuerdo con su entropa. Las aproximaciones se hacen fcilmente comparables y permiten certificar la equivalencia estadstica de las muestras.

Ejemplo de datos reales

C 1. o n c 2. l 3. u 4. s i o n e s

Usando estas metodologa es factible reemplazar bases de datos por muestras cuyo tamao y caractersticas permiten el minado de los datos de manera mucho ms prctica y eficiente. Puede aplicarse a aproximadores de rdenes superiores. Es una metodologa computacionalmente ms cara que alternativas clsicas. Implica la definicin de parmetros de los cules depende: 1. 2. 3. 4. Umbral de entropa Confiabilidad de los pares Mximo grado del aproximador Umbral de tolerancia a las diferencias entre M1 y M2.

You might also like