Professional Documents
Culture Documents
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis
lisis Clster
Clster
Clustering (anlisis de conglomerados) se refiere a la tarea de agrupar un conjunto de objetos de
tal forma que se obtengan grupos (clsteres)
(
) lo ms similares entre s. Al detenernos un momento
a reflexionar lo anterior se nos presenta la pregunta qu es similar? Ms adelante intentaremos
clarificar esta pregunta, de momento revisemos la definicin propuesta por Everitt:
El
El anlisis clster es un conjunto de mtodos para construir (con suerte) una clasificacin sensible
e informativa de un conjunto de datos sin clasificar usando los valores de las variables observados
en cada individuo
individuo
El objetivo del anlisis clster es partir un conjunto de datos en grupos, si bien esto suena simple,
llevarlo a cabo es una compleja tarea.
La estructura de nuestro estudio en el tema para este curso puede resumirse como sigue:
Seleccin de
variables
VARCLUS
Grficos
PRINCOMP MDS
Clustering
discreto
Jerrquico
De optimizacin
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Los divisivos:
1.
2.
3.
4.
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Si bien el clster jerrquico es la columna vertebral del anlisis clster, no est exento de
problemas:
Distancia eucldea
Distancia cityblock
cityblock (Manhattan)
Mtrica de Minkowski
|
|
|
DM
|
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
#%$
"
Analicemos un ejemplo mediante SAS. Contamos con una tabla con 15 observaciones que
contiene los dividendos otorgados por las acciones de ciertas empresas del sector energtico de
los EEUU.
Si queremos calcular la distancia entre las compaas, usaremos PROC DISTANCE, el res
resultado
ultado del
clculo lo enviaremos a un DATASET llamado DIST
PROC DISTANCE
DATA=AA.STOCK
=AA.STOCK
METHOD=EUCLID
=EUCLID
OUT=DIST
=DIST
;
VAR INTERVAL(DIV_:)
INTERVA (DIV_:)
;
RUN;
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis
sis de componentes principales (PCA)
Escalamiento multidimensional (MDS)
PCA
Como habamos revisado anteriormente, el anlisis de componentes principales es un mtodo
para transformar un conjunto de variables en un nuevo conjunto de variables ortogonales
conservando
onservando la mayor cantidad de varianza posible contenida en los datos. Cuando trabajamos en
el hiperespacio, las primeras 2 componentes principales pueden ser utilizadas como ejes para
ayudarnos a localizar visualmente los clsteres.
clsteres
MDS
Es una tcnica matemtica de reduccin de dimensiones que mapea las distancias entre las
observaciones en un espacio de ms alta dimensin en otro de ms baja. MDS localiza las
observaciones un espacio dimensional reducido tal que las diferencias entre pares de puntos en el
espacio dimensional ms bajo coinciden lo ms cercano posible. MDS no hace ningn supuesto
estadstico pero es vulnerable a mnimos locales. En particular MDS minimiza la siguiente funcin
de error:
/
2.
1 3
.
. 5
.
1 3
. .
En el siguiente ejemplo utilizamos ambos mtodos para graficar la forma de los clsteres en el
DATASET STOCK.
Primero usaremos componentes principales:
PROC PRINCOMP
DATA=AA.
=AA.STOCK
OUT=PRIN
=PRIN
;
VAR DIV:
;
RUN;
PROC GPLOT
DATA=PRIN;
=PRIN;
PLOT PRIN2*PRIN1=COMPANY;
RUN;
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Clustering Jerrquico
Los mtodos jerrquicos son la columna vertebral del anlisis clster. Parte de su popularidad
recae en que no son afectados por el llamado efecto de orden aunado a que no se necesita
intuir a priori cuntos clsteres estn presentes en los datos. Los mtodos jerrquicos no escalan
bien con el nmero de observaciones
observaciones (el error escala al cuadrado o cubo). No existe un mtodo
considerado como el mejor, esto no quiere decir que todos los mtodos sean equivalentes,
simplemente poseen distintas caractersticas. La implementacin en SAS PROC CLUSTER realiza
clustering jerrquico
jerrquico aglomerativo.
PROC CLUSTER proporciona 11 mtodos distintos para el anlisis, a saber:
1.
2.
3.
4.
5.
6.
Average Linkage
Centroid Linkage
Complete Linkage
Density Linkage
Equal variance mximum likelihood (EML)
Flexible beta
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
7.
8.
9.
10.
11.
El procedimiento
procedimiento clster
clster normalmente se parea con el procedimiento TREE ya sea para dibujar el
dendograma o asignar la pertenencia al clster
clster de cada observacin.
Ahora centrmonos
centrmonos en los mtodos de clasificacin, en nuestro estudio revisaremos 3: Average,
Centroid y Ward.
Average
La distancia entre clsteres es la distancia promedio entre pares de observaciones. El mtodo
tiende a unir clsteres con varianzas pequeas y sesga a pr
producir clsteres con varianza igual. Otra
caracterstica es que es menos influenciado por valores atpicos que la mayora de los mtodos,
adems computacionalmente es ms rpido que la mayora de los mtodos.
67
6 7
22 , . 5
9; .9:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Centroid
La distancia entre los clsteres es la distancia eucldea cuadrada de cada uno de los centroides de
los clsteres.
clsteres
>>>>
>>>>
67 =
6 =7
En este mtodo los datos extremos tampoco afectan demasiado, se trabaja directamente con los
datos coordenados y si los grupos a fusionar son de tamaos muy distintos, el centroide del nuevo
grupo estar muy cerca del centroide del grupo ms grande.
Ward
El mtodo de la mnima varianza de Ward une clsteres tales que en cada generacin es
minimizada la suma de cuadrados dentro del clster sobre todas las particiones obtenidas al
fusionar dos clsteres de cada generacin previa. En este mtodo se realiza un anlisis de var
varianza
ianza
(ANOVA) en cada fusin de la jerarqua y tiende a unir clsteres con un nmero pequeo de
observaciones sesgando a producir clsteres esfricos con aproximadamente el mismo tamao. Es
muy sensible a datos atpicos.
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Donde >>
>>
6 es el vector de medias y
respectivamente.
respectivamente
67
?
>>>>
>>>
6
7>
1
1
) + ?
Clustering de optimizacin
El clustering
lustering de optimizacin particiona un conjunto de datos al optimizar algn criterio especfico
(funcin de error). A diferencia de los mtodos jerrquicos, el error escala linealmente con el
nmero de observaciones por lo que estos mtodos son tiles en grandes conjuntos de datos. El
nmero de particiones debe especificarse a priori.
pri
En teora se puede generar y calificar cada posible particin de tamao en @ grupos, asegurando
as la obtencin de un mnimo global. Problemas no triviales ocasionaran una explosin
combinatoria de particiones insostenible, por tanto, se desarrollaron algoritmos de bsqueda
heurstica que realizan el trabajo de forma eficiente
efi ciente en el espacio de particiones potenciales
usando la siguiente metodologa:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Separacin
Homogeneidad intra-clster
intra clster
La variacin entre clsteres se define como la suma de las disimilitudes entre las observaciones en
el clster y las observaciones fuera de l. De manera ms formal, dada alguna medida HBI ,BK de la
disimilitud
litud entre las observaciones ! y 4 en el clster C es:
1F
Donde
1J
) HBI ,B
BK ?EB .,.E
.
La distancia inter-clster
clster define la separacin entre los clsteres como la mnima disimilitud entre
un caso en el clster C y uno fuera
L
C! ) HBI ,BK -
Homogeneidad
El criterio est basado en grupos que tienen una estructura relativamente cohesiva midie
midiendo
ndo la
similitud de observaciones en el mismo clster, dos ejemplos son:
Variacin dentro del clster: suma de disimilitudes entre dos observaciones en el mismo
clster, puede usarse para reflejar la cohesin del clster
1F
1F
D C
) HBI ,BK - ; ' N1
1,2O
.
,.E
Dimetro del clster: la mxima disimilitud entre dos observaciones del mismo clster,
puede ser usada para medir homogeneidad.
L
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Variabilidad
Variabi
La variabilidad total del clster puede ser partida en variabilidad dentro del clster y variabilidad
entre clsteres, es decir: P Q + R,, donde:
S 1F
P 2 . 5522 . 5
.
S
R
S 1F
U$
U$ Z
Q 2 . U$ 52
52 . U$ 5
.
En las ecuaciones
ecuaciones previas, . es el 4-simo
simo miembro del cl
clster !, U$ es la media del clster
clster ! y es
el vector de las medias de cada variable.
Lo anterior conduce a dos criterios naturales de agrupacin:
Para minimizar la variabilidad dentro del clster se puede usar la funcin de la traza
traza:
VWXY
P'
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Los primeros dos pasos son el algoritmo de bsqueda heurstica. El paso 3 es la iteracin extra que
realiza las asignaciones
asignaciones finales a cada clster.
Preparacin para clustering
Una vez realizado el anlisis factorial correspondiente, un paso fundamental previo a cualquier
trabajo analtico consiste en investigar
investigar la multicolinealidad de las variables
variables,, para ello utilizaremos
una tcnica llamada clustering de variables. La solucin de SAS nos p
proporciona
oporciona PROC VARCLUS
para llevar a cabo dicha tarea.
tarea
PROC VARCLUS divide un conjunto
conjunto de variables numricas en clsteres
steres jerrquicos o disjuntos.
Con cada clster
cl ster se asocia una combinacin lineal
l ineal de las variables en el cl
clster.
ster. Dicha combinacin
lineal puede ser la primera componente principal (obtenida
obtenida por anlisis oblicuo de componentes)
o la componente centroide. PROC VARCLUS intenta maximizar la varianza que es eexplicada
xplicada por los
componentes clster,
clster, as, VARCLUS nos permite reducir la dimensin y la multicolinealidad de las
variables. El resumen de VARCLUS nos da el nmero de variables en cada clster y la varianz
varianza
explicada por el componente clster. ste ltimo es similar a la varianza explicada por factores,
pero incluye nicamente contribuciones de las variables en el clster en lugar de contribuciones
de todas las variables como lo hara PROC FACTOR.
Para poder
poder determinar la seleccin de variables, VARCLUS hace el cmputo de dos medidas
cuadradas de correlacin: Own Cluster y Next Closest que representan la correlacin de la
variable con su mismo clster y con el clster ms cercano respectivamente. Lo ante
anterior
rior nos
permite calcular el ratio 1 [ dado por:
1 [LX\]
1 []^1
1 [1_`\
1_`\ aW]Y_Y\
Cundo el ratio es pequeo nos indica buen clustering, las variables con menor ratio sern
seleccionadas como representante de las variables dentro de su clster.
Para concluir nuestro aprendizaje en el tema,
tem , realizaremos un ejercicio es SAS Enterprise Miner
Miner.
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
La siguiente
uiente pantalla nos permitir configurar
configurar el nombre de nuestro proyecto
proyecto:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Una vez dentro de la aplicacin debemos dar de alta la librera donde trabajaremos:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Una vez que hemos cargado nuestros datos procederemos a construir nuestro diagrama de
anlisis
lisis arrastrando los nodos desde el panel derecho:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
El diagrama final
fina XML debe quedar as:
Los resultados:
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera
Anlisis Clster
Anlisis Multivariado
FES Acatln UNAM
Jos Gustavo Fuentes Cabrera