Minería de Datos en Las Empresas

Minera de Datos en las Empresas
Metodologa y Algoritmos
10 de noviembre de 2011 CONGRESO NACIONAL DE TECNOLOGIAS IXTAPA ZIHUATANEJO
ngel Kuri Morales akuri@itam.mx
Minera de Datos
La minera de datos consiste en buscar relaciones interesantes entre objetos de bases de datos muy grandes. Tpicamente del orden de los terabytes.
Prembulo
Algunas de las ideas que se van a exponer fueron exploradas, originalmente, en un trabajo que se present en Leipzig, Alemania, julio 17, 2007 durante el congreso de minera de datos celebrado en esa ciudad.
Motivation
Present day commercial requirements imply that leading companies must dedicate important resources to achieve better customer-business relationships. In view of state-of-the-art technologies this is only achievable by analyzing large quantities of the customers data bases.
Goals
In general, the goal is to achieve the said analysis in the most efficient possible way. Our aim is to propose and apply a methodology which improves the process overall efficiency importantly without impairing the quality of the results. This aim is reached by applying our methodology as will be shown through a case study.
Case Study: Data Mining

For a very large multi-national Latin American company. Data was extracted from several databases with several million records each. The final aim is to characterize the companys customers in order to be able to design new ad hoc products and services.
Methodology
Data preprocessing The databases were scanned to obtain an integrated smaller but representative sample Data was semi-automatically filtered out to eliminate incomplete and/or noisy elements Search Space Reduction Original number of features in the data was reduced from 415 to129 Elements in the sample were further reduced Clustering
Search Space Reduction

Vertical
Data was analyzed and features with high (>75%) correlation were eliminated Data reduction of 68.91%.
Horizontal
Determination of optimal sub-samples from specific best-fit regressive functions Reduction:
~94% over original data set.
Clustering
Elbow criterion
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PC PE
PC=Partition coefficient; PE=Partition entropy
Clustering
Clustering result

1. 2.
3.
4.
Select several n equally sized samples. Select sets of m variables to perform a goodness-of-fit test. Aim: prove that, within each sample, the behavior of the selected variables is statistically equivalent. Perform a search for the best regressive function. (We programmatically tested 34 non-linear models, selecting the one with the highest correlation factor). Repeat steps 2 and 3 as needed.

Similar behavior of variables between samples.

Similar behavior of variables between samples.
Statistical Validation
Model 1: obtained from sample Model 2: obtained from original data
Model 1 (%) 30 21 15 12 12 10 Model 2 (%) 27 20 18 15 12 8
Clust. A B C D E F
Diff. (%)
3 1 3 3 0 2
Ftima; Leipzig, Alemania
Metodologa
1. 2. 3. 4. 5. 6. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor
Complejidad
La complejidad del anlisis tiene que ver con los tiempos de consulta de las bases de datos. Por ello es interesante agregar un punto adicional a la metodologa planteada.
Metodologa
1. 2. 3. 4. 5. 6. 7. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin de la muestra mnima Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor
Clustering Proceso no supervisado que permite la particin de un conjunto de datos D en k grupos o clusters, con base en un criterio de similitud.
21
Edwin (y yo); Berln, Alemania
Codificacin de las variables categricas

Para cada variable Determinar valores distintos Asignar un cdigo numrico a cada valor Crear un diccionario de cdigos Crear un metadiccionario global
Clusters Codificados
Enrique y Daniel; Pars, Francia
Eliminacin de variables correlacionadas

Se calcula una tabla de correlaciones Se establece un umbral de correlacin Se encuentran i grupos de variables Gi(Vi1, , Vin) i=1,,m Se eliminan todas las variables excepto una de cada grupo El grupo reducido conforma la nueva BD
Determinacin de la muestra mnima

Se determina el valor de la muestra cuyo incremento entrpico es menor que un umbral predeterminado Se establece la equivalencia de comportamientos de primer orden entre las variables de la BD
Determinacin del nmero de Clusters

Se aplica el algoritmo de Medias C Difusas para un cierto nmero de clusters (i=1,,N) Se mide, para cada i: El coeficiente de particin La entropa de cluster Se aplica el criterio del codo Se eligen las opciones ms razonables
Obtencin de los centroides

Una vez que se determina la cantidad ms plausible de clusters (C1, , Cn) Se calculan los centroides para C1, , Cn. Cada centroide es un vector de v dimensiones (en donde v es el nmero de variables significativas)
Centroides
Diseo de un clasificador/predictor
Conociendo las posiciones de los centroides es posible hacer induccin acerca de nuevos objetos.
La presuncin bsica es que existen regularidades (patrones) tcitas en las fronteras de los clusters.
En ese contexto es razonable suponer que, si es posible preservar dichos patrones en submuestras adecuadamente determinadas, se alcanzarn las mismas conclusiones inductivas sin necesidad de observar todo el universo.
Milagro!! Milagro!!
Determinacin del tamao de la muestra mnima

Podemos entonces plantear la siguiente hiptesis:
La informacin contenida en una muestra aleatoria de la base de datos D de tamao M es aproximadamente igual a la de la D para una adecuadamente elegida. Al criterio anterior agregamos una condicin complementaria: El comportamiento de las variables de M debe ser similar al de las variables de D.
Uso de Funciones Predeterminadas

Una posibilidad es establecer un conjunto de modelos de aproximacin a priori. Para ello es necesario: a) Elegir modelos adecuados b) Programar cada uno de los modelos Este enfoque se us en el trabajo mostrado arriba.
Luis, Yo, Enrique y Amaury; Lisboa, Portugal
En este ejemplo se puede observar que el comporta miento de las variables es similar
Este ejemplo es anlogo para variables diferentes
Generalizacin
El problema con el enfoque anterior es que es sumamente laborioso, difcil de generalizar y es complicado establecer comparaciones objetivas entre los diversos comportamientos de las muestras.
Alternativa:
Aproximaciones polinomiales de grados aceptables.
Algoritmo de ascenso
El objetivo de este algoritmo es expresar el comportamiento de una variable independiente (y) como funcin de un conjunto de variables independientes (v). y f (v , v ,...,v )
1 2 n
y f ( v)
Forma del aproximador

La forma del aproximador se define como:
y c1 X 1 c 2 X 2 ... cm X m (1)
Donde m es el nmero de coeficientes deseados y Xi denota una combinacin de las variables independentes. Es decir, Xi = fi(v). Dependiendo de la forma en la que stas se definen podemos obtener aproximadores distintos. Por convencin hacemos que M=m+1.
Ejemplo 1
Ejemplo 1
Ejemplo 2
Optimizacin Evolutiva
La herramientas modernas de optimizacin no presentan esta limitante. Es el caso, por ejemplo, de los algoritmos genticos. Con ellos es posibles optimizar usando cualquier norma.
Ivn; Valparaso, Chile
Regreso al Algoritmo de Ascenso

Con el algoritmo de ascenso se computaron las relaciones pareadas de 29 variables para determinar la equivalencia entre dos muestras determinadas de acuerdo con su entropa. Las aproximaciones se hacen fcilmente comparables y permiten certificar la equivalencia estadstica de las muestras.
Ejemplo de datos reales
C 1. o n c 2. l 3. u 4. s i o n e s
Usando estas metodologa es factible reemplazar bases de datos por muestras cuyo tamao y caractersticas permiten el minado de los datos de manera mucho ms prctica y eficiente. Puede aplicarse a aproximadores de rdenes superiores. Es una metodologa computacionalmente ms cara que alternativas clsicas. Implica la definicin de parmetros de los cules depende: 1. 2. 3. 4. Umbral de entropa Confiabilidad de los pares Mximo grado del aproximador Umbral de tolerancia a las diferencias entre M1 y M2.

Minería de Datos en Las Empresas

Uploaded by

Document Information

Original Description:

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Minería de Datos en Las Empresas

Uploaded by

Copyright:

Available Formats

Minera de Datos en las Empresas

Case Study: Data Mining

Search Space Reduction

PC=Partition coefficient; PE=Partition entropy

Search Space Reduction

Search Space Reduction

Search Space Reduction

Ftima; Leipzig, Alemania

Edwin (y yo); Berln, Alemania

Codificacin de las variables categricas

Enrique y Daniel; Pars, Francia

Eliminacin de variables correlacionadas

Determinacin de la muestra mnima

Determinacin del nmero de Clusters

Obtencin de los centroides

Determinacin del tamao de la muestra mnima

Uso de Funciones Predeterminadas

Luis, Yo, Enrique y Amaury; Lisboa, Portugal

Este ejemplo es anlogo para variables diferentes

Forma del aproximador

Ivn; Valparaso, Chile

Regreso al Algoritmo de Ascenso

Ejemplo de datos reales

You might also like