Professional Documents
Culture Documents
Metodologa y Algoritmos
10 de noviembre de 2011 CONGRESO NACIONAL DE TECNOLOGIAS IXTAPA ZIHUATANEJO
ngel Kuri Morales akuri@itam.mx
Minera de Datos
La minera de datos consiste en buscar relaciones interesantes entre objetos de bases de datos muy grandes. Tpicamente del orden de los terabytes.
Prembulo
Algunas de las ideas que se van a exponer fueron exploradas, originalmente, en un trabajo que se present en Leipzig, Alemania, julio 17, 2007 durante el congreso de minera de datos celebrado en esa ciudad.
Motivation
Present day commercial requirements imply that leading companies must dedicate important resources to achieve better customer-business relationships. In view of state-of-the-art technologies this is only achievable by analyzing large quantities of the customers data bases.
Goals
In general, the goal is to achieve the said analysis in the most efficient possible way. Our aim is to propose and apply a methodology which improves the process overall efficiency importantly without impairing the quality of the results. This aim is reached by applying our methodology as will be shown through a case study.
Methodology
Data preprocessing The databases were scanned to obtain an integrated smaller but representative sample Data was semi-automatically filtered out to eliminate incomplete and/or noisy elements Search Space Reduction Original number of features in the data was reduced from 415 to129 Elements in the sample were further reduced Clustering
Horizontal
Determination of optimal sub-samples from specific best-fit regressive functions Reduction:
~94% over original data set.
Clustering
Elbow criterion
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 PC PE
Clustering
Clustering result
3.
4.
Select several n equally sized samples. Select sets of m variables to perform a goodness-of-fit test. Aim: prove that, within each sample, the behavior of the selected variables is statistically equivalent. Perform a search for the best regressive function. (We programmatically tested 34 non-linear models, selecting the one with the highest correlation factor). Repeat steps 2 and 3 as needed.
Statistical Validation
Model 1: obtained from sample Model 2: obtained from original data
Model 1 (%) 30 21 15 12 12 10 Model 2 (%) 27 20 18 15 12 8
Clust. A B C D E F
Diff. (%)
3 1 3 3 0 2
Metodologa
1. 2. 3. 4. 5. 6. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor
Complejidad
La complejidad del anlisis tiene que ver con los tiempos de consulta de las bases de datos. Por ello es interesante agregar un punto adicional a la metodologa planteada.
Metodologa
1. 2. 3. 4. 5. 6. 7. Anlisis de contenidos y estructura Codificacin de las variables categricas Eliminacin de variables correlacionadas Determinacin de la muestra mnima Determinacin del nmero de Clusters Obtencin de los centroides Diseo de un clasificador/predictor
Clustering Proceso no supervisado que permite la particin de un conjunto de datos D en k grupos o clusters, con base en un criterio de similitud.
21
Clusters Codificados
Centroides
Diseo de un clasificador/predictor
Conociendo las posiciones de los centroides es posible hacer induccin acerca de nuevos objetos.
La presuncin bsica es que existen regularidades (patrones) tcitas en las fronteras de los clusters.
En ese contexto es razonable suponer que, si es posible preservar dichos patrones en submuestras adecuadamente determinadas, se alcanzarn las mismas conclusiones inductivas sin necesidad de observar todo el universo.
Milagro!! Milagro!!
En este ejemplo se puede observar que el comporta miento de las variables es similar
Generalizacin
El problema con el enfoque anterior es que es sumamente laborioso, difcil de generalizar y es complicado establecer comparaciones objetivas entre los diversos comportamientos de las muestras.
Alternativa:
Aproximaciones polinomiales de grados aceptables.
Algoritmo de ascenso
El objetivo de este algoritmo es expresar el comportamiento de una variable independiente (y) como funcin de un conjunto de variables independientes (v). y f (v , v ,...,v )
1 2 n
y f ( v)
Donde m es el nmero de coeficientes deseados y Xi denota una combinacin de las variables independentes. Es decir, Xi = fi(v). Dependiendo de la forma en la que stas se definen podemos obtener aproximadores distintos. Por convencin hacemos que M=m+1.
Ejemplo 1
Ejemplo 1
Ejemplo 2
Optimizacin Evolutiva
La herramientas modernas de optimizacin no presentan esta limitante. Es el caso, por ejemplo, de los algoritmos genticos. Con ellos es posibles optimizar usando cualquier norma.
C 1. o n c 2. l 3. u 4. s i o n e s
Usando estas metodologa es factible reemplazar bases de datos por muestras cuyo tamao y caractersticas permiten el minado de los datos de manera mucho ms prctica y eficiente. Puede aplicarse a aproximadores de rdenes superiores. Es una metodologa computacionalmente ms cara que alternativas clsicas. Implica la definicin de parmetros de los cules depende: 1. 2. 3. 4. Umbral de entropa Confiabilidad de los pares Mximo grado del aproximador Umbral de tolerancia a las diferencias entre M1 y M2.