You are on page 1of 22

Anlisis de Clster

El anlisis Clster es un conjunto de tcnicas que tienen por objeto la bsqueda de grupos
similares de individuos o variables. ste anlisis nos permite, a partir de una serie de
observaciones de los individuos que disponemos, clasificarlos en grupos (o conglomerados)
de carcter lo ms homogneo posible y, que a su vez, dichos grupos sean lo ms diferente
posible los unos de otros.

Adems, el anlisis Clster es til para reducir la informacin de la que disponemos y nos
puede sugerir nuevas relaciones a investigar entre los elementos.

Pertenece, al igual que otras tipologas y que el anlisis discriminante al conjunto de tcnicas
que tiene por objetivo la clasificacin de los individuos. La diferencia fundamental entre el
anlisis clster y el discriminante reside en que en el anlisis clster los grupos son
desconocidos a priori y son precisamente lo que queremos determinar; mientras que en el
anlisis discriminante, los grupos son conocidos y lo que pretendemos es saber en qu medida
las variables disponibles nos discriminan esos grupos y nos pueden ayudar a clasificar o
asignar los individuos en/a los grupos dados.

Procedimientos:

Supongamos que disponemos de "n" observaciones de ciertos elementos de los que tenemos
informacin sobre "k" variables (edad, situacin econmica,...). Los pasos que se deben seguir
para realizar el anlisis Clster son los siguientes:

1. Establecemos un indicador que nos diga en qu medida cada par de elementos se


parecen entre s. A esta "medida" se le denomina distancia o similaridad.
2. A continuacin, creamos grupos de forma que cada uno de ellos, contenga las
muestras ms parecidas entre s, de acuerdo con la distancia que hemos calculado en
el punto anterior. Para llevar a cabo este paso, existen dos tipos de tcnicas que nos
permiten realizar el anlisis: Tcnicas jerrquicas y Tcnicas no jerrquicas. Veremos
estas dos tcnicas en los prximos apartados.
3. Por ltimo, describimos los grupos que hemos obtenido y los comparamos unos con
otros. Para compararlos, es til ver el valor promedio que toman las variables que
utilizamos en cada grupo.
Clculo de la matriz de distancias:

Se pueden utilizar distintas frmulas para el clculo de las distancias y su matriz dependiendo
de si las observaciones son mtricas o se trata de datos binarios.

Si las observaciones son mtricas, podemos utilizar cualquiera de las siguientes medidas:

Distancia Eucldea
Distancia Eucldea al cuadrado
Distancia de Minskowski

Si las observaciones son de datos binarios, utilizamos cualquiera de las siguientes medidas:

Distancia Eucldea: Dij= b+c


Distancia Eucldea al cuadrado: Dij= 1/2(b+c)
Distancia de tamao: Dij= [(b-c)^2]/[(a+b+c+d)^2]

Una vez tenemos calculadas las distancias con el mtodo escogido, elaboramos una matriz
cuyo nmero de filas ser igual al nmero de columnas. El tamao de la matriz depender del
nmero de elementos o individuos que estamos analizando. En las intersecciones colocamos
la distancia obtenida para cada par de elementos sobre las variables que hemos analizado.
De esta manera obtenemos una matriz simtrica cuya diagonal principal es 0 para todas las
intersecciones.

Formacin de los Grupos:

Una vez que hemos calculado la matriz de distancias y sabemos que observaciones son las
ms parecidas pasamos a conformar los grupos. Esto implica tener en cuenta dos cosas:

Seleccionar el algoritmo de agrupacin


Determinar un nmero de grupos razonable

Existen muchos tipos de algoritmos de agrupacin. Si distintos mtodos de agrupacin nos


aportan conclusiones similares ser razonable suponer que existe una agrupacin natural
objetiva. Como hemos mencionado anteriormente, los algoritmos de agrupacin posibles se
pueden dividir en "Clusters jerrquicos" y "Clusters no jerrquicos".
Clusters jerrquicos

Los principales algoritmos de agrupamiento de este tipo son:

Mtodo de agrupacin de centroides: Comenzamos uniendo las dos observaciones ms


cercanas. El grupo formado se sustituye por una observacin que lo represente y en la
que las variables tomen los varoles medios de aquellas observaciones que forman el
grupo representado (o tambin llamado centroide). A continuacin, recalculamos la
matriz de distancia y unimos las dos observaciones ms cercanas para continuar
repitiendo el proceso anterior. Finalizaremos cuando todas las observaciones acaben
integradas en un mismo grupo.

Mtodo de la vinculacin simple: Segn este mtodo, la distancia entre dos grupos es la
distancia entre los miembros o elementos ms cercanos. Es por sto, que dicho mtodo
tambin recibe el nombre de "vecino ms cercano".

Mtodo de la vinculacin completa: Se diferencia con el anterior en que la distancia


entre dos grupos viene dada por la distancia entre sus miembros ms alejados. A ste
mtodo tambin se le conoce con el nombre de "vecino ms alejado".

Mtodo de la vinculacin inter-grupos: La distancia entre dos grupos se obtiene


calculando la distancia promedio entre todos los pares de observaciones que pueden
formarse tomando un miembro de un grupo y otro miembro del otro grupo. Tambin se
le conoce como mtodo de la vinculacin promedio.

El anlisis clster jerrquico nos permite elegir entre muchas opciones que difieren en cuanto
al nmero de conglomerados. Cada cul debe decidir cul es el nmero de conglomerados
que conforman una solucin razonable.

Clusters no jerrquicos

A diferencia de los Clusters jerrquicos, se conoce a priori el nmero de grupos que deseamos.
Las observaciones son, por tanto, asignadas a cada uno de los "x" conglomerados permitiendo
la maximizacin de la homogeneidad de los sujetos asignados a un y mismo grupo y la
heterogeneidad entre los distintos conglomerados.
Debemos seguir los siguientes pasos para llevar a cabo un anlisis clster no jerrquico:

1. Determinanos los centroides iniciales de los "x" conglomerados. A estos centroides los
denominaremos "semillas" pueden ser fijados por cada cual si disponemos de
informacin previa o mediante el ordenador decidiendo sus valores aleatoriamente.
2. Una vez establecidas las semillas, cada observacin se asigna a aquel conglomerado,
de entre los "x" existentes, cuyo centroide est ms cercano a esa observacin.
3. Recalculamos los centroides de los "x" grupos de acuerdo con las observaciones que
han sido clasificadas en cada uno de ellos. Si el cambio en los centroides es mayor que
el criterio de que hayamos supuesto, repetimos el paso 2. El proceso finaliza cuando
se cumple el criterio preestablecido.

Eleccin entre anlisis de clster jerrquico y no jerrquico:

La decisin entre qu tipo de anlisis utilizamos no debe ser disyuntiva, pues ambos enfoques
se complementan entre s. Cuando sospechamos el nmero de grupos en los que se unen las
observaciones, podra ser ms adecuada la utilizacin del anlisis no jerrquico. Sin embargo,
requiere que se suministren los centroides iniciales de esos grupos y sta informacin es difcil
que sea proporcionada. Cuando no disponemos de ningn tipo de informacin a priori, lo idea
resultara de la realizacin de un anlisis jerrquico, utilizar las herramientas que ste nos
ofrece para seleccionar el nmero de grupos y, con esta informacin realizar un anlisis no
jerrquico que nos permita maximizar la homogeneidad dentro de cada grupo y la
heterogeneidad entre grupos.
Ejemplo prctico:
ANLISIS DISCRIMINANTE

El Anlisis Discriminante es una tcnica estadstica multivariante cuya finalidad es analizar si existen
diferencias significativas entre grupos de objetos respecto a un conjunto de variables medidas sobre
los mismos para, en el caso de que existan, explicar en qu sentido se dan y facilitar procedimientos
de clasificacin sistemtica de nuevas observaciones de origen desconocido en uno de los grupos
analizados.

Se puede predecir si una empresa va a entrar en bancarrota?

Es posible predecir con antelacin si un cliente que solicita un prstamo a un banco va a ser un
cliente moroso?

Existe discriminacin por razones de sexo o de raza en una empresa o en un colegio?

El Anlisis Discriminante se puede considerar como un anlisis de regresin donde la variable


dependiente es categrica y tiene como categoras la etiqueta de cada uno de los grupos, mientras
que las variables independientes son continuas y determinan a qu grupos pertenecen los objetos.

Se pretende encontrar relaciones lineales entre las variables continuas que mejor discriminen en
los grupos dados a los objetos.

Construir una regla de decisin que asigne un objeto nuevo con un cierto grado de riesgo, cuya
clasificacin previa se desconoce, a uno de los grupos prefijados.

Para efectuar el anlisis es necesario considerar una serie de supuestos:

(a) Se tiene una variable categrica y el resto de variables son de intervalo o de razn y son
independientes respecto de ella.

(b) Se necesitan al menos dos grupos, y para cada grupo se necesitan dos o ms casos.

(c) El nmero de variables discriminantes debe ser menor que el nmero de objetos menos 2, es
decir, (x1 , x2 , , xp ) donde p < (n2) siendo n nmero de objetos.

(d) Ninguna variable discriminante puede ser combinacin lineal de otras variables discriminantes.
(e) El nmero mximo de funciones discriminantes es el mnimo [nmero de variables, nmero de
grupos menos 1] con q grupos, (q1) funciones discriminantes .

(f) Las matrices de covarianzas dentro de cada grupo deben de ser aproximadamente iguales. (g) Las
variables continuas deben seguir una distribucin normal multivariante.
Anlisis Discriminante con SPSS

Cuando se utiliza SPSS se suelen considerar varias fases en el anlisis discriminante.

Comprobacin de los supuestos paramtricos del anlisis discriminante

En sentido estricto, la funcin discriminante minimiza la probabilidad de equivocarse al clasificar los


individuos en cada grupo. Para ello, las variables originales se deben distribuir como una normal
multivariante y las matrices de covarianzas deben ser iguales en todos los grupos. En la prctica es
una tcnica robusta y funciona bien aunque las dos restricciones anteriores no se cumplan.

Si un conjunto de variables se distribuye como una normal multivariante, entonces cualquier


combinacin lineal de ellas se distribuye como una normal univariante. Por ello, si alguna de las
variables originales no se distribuye como una normal, entonces es seguro que todas las variables
conjuntamente no se distribuirn como una normal multivariante.

La segunda restriccin se refiere a la igualdad entre las matrices de covarianzas de los grupos. Para
comprobar esto, se puede usar la prueba M de Box, que est incluida en el SPSS. Dicha prueba tiene
como hiptesis nula que las matrices de covarianzas son iguales. Se basa en el clculo de los
determinantes de las matrices de covarianzas de cada grupo. El valor obtenido se aproxima por una F
de Snedecor. Si el p-valor es menor que 0,05 se rechaza la igualdad entre las matrices de covarianzas.
El test M de Box es sensible a la falta de normalidad multivariante, es decir, matrices iguales pueden
aparecer como significativamente diferentes si no existe normalidad. Por otra parte, si las muestras
son grandes, pierde efectividad (es ms fcil rechazar la hiptesis nula).

Seleccin de las variables discriminantes:

Primero se puede realizar un anlisis descriptivo univariante calculando las medias y las desviaciones
estndar de las variables originales para cada uno de los grupos por separado. Si para alguna variable
las medias de los grupos son diferentes y la variabilidad es pequea, se considera que dicha variable
ser importante a la hora de discriminar a los grupos.

A continuacin, se observan las relaciones entre las variables. Se calculan matrices de correlaciones
en lugar de matrices de covarianzas por ser ms fcilmente interpretables. Adems de analizar la
correlacin entre pares de variables sin distinguir grupos, se debe analizar las correlaciones dentro de
cada grupo y luego considerar la media de las mismas Se calcula tambin la matriz Pooled within-
groups correlation matrix. Dicha matriz se calcula como una matriz media de correlaciones calculadas
por separado en cada grupo. A menudo no se parece a la matriz de correlaciones total. Veamos, por
ejemplo, el siguiente grfico de dos variables y tres grupos:

Estadsticos usados

F de Snedecor: Se compara para cada variable las desviaciones de las medias de cada uno de los
grupos a la media total, entre las desviaciones a la media dentro de cada grupo. Si F es grande para
cada variable, entonces las medias de cada grupo estn muy separadas y la variable discrimina bien.
Si F es pequea, la variable discriminar poco, ya que habr poca homogeneidad en los grupos y stos
estarn muy prximos.

de Wilks Tambin se la denomina U-estadstico. Cuando se considera a las variables de modo


individual, la es igual al cociente entre la suma de cuadrados dentro de los grupos y la suma de
cuadrados total (sin distinguir grupos). Es decir, equivale a las desviaciones a la media dentro de cada
grupo, entre las desviaciones a la media total sin distinguir grupos. Si su valor es pequeo, la variable
discrimina mucho: la variabilidad total se debe a las diferencias entre grupos, no a las diferencias
dentro de grupos.

Variables originales que se consideran

La idea del Anlisis discriminante es construir funciones lineales de las variables originales que
discriminen entre los distintos grupos. Sin embargo, no todas las variables discriminan de la misma
forma o tienen los mismos valores de la F de Snedecor o de la de Wilks. Por ello, a la hora de construir
las funciones lineales, no es necesario incluir a todas las variables iniciales en la funcin.

Como criterio general para seleccionar una variable se emplea la seleccin del valor de la de Wilks
o, de modo equivalente, del valor de su F asociada. Se usan fundamentalmente dos mtodos de
seleccin de variables: el mtodo directo y el mtodo stepwise.

En el mtodo directo se consideran todas las variables originales que verifiquen un criterio de
seleccin. El mtodo stepwise es un mtodo que funciona con varios pasos:

(i) Se incluye en el anlisis la variable que tenga el mayor valor aceptable para el
criterio de seleccin o de entrada.
(ii) Se evala el criterio de seleccin para las variables no seleccionadas. La variable
que presenta el valor ms alto para el criterio se selecciona (siempre que est
dentro de un lmite).
(iii) Se examinan las variables seleccionadas segn un criterio de salida y se examinan
tambin las variables no seleccionadas, para ver si cumplen el criterio de entrada.
Se excluyen o se incluyen variables segn cumplan los criterios de entrada y de
salida.
(iv) Se repite el paso (iii) hasta que ninguna variable ms pueda ser seleccionada o
eliminada.

Adems de todo lo anterior, en el SPSS se considera un nmero mximo de pasos, dado que una
variable puede ser incluida y eliminada en ms de una ocasin. Se toma el doble del nmero de
variables originales como nmero mximo de pasos del mtodo stepwise.
TEORA

El anlisis discriminante es una tcnica del Anlisis Multivariante que permite asignar nuevos casos a
grupos previamente conocidos. Su objetivo es clasificar un nuevo caso a partir del conocimiento de
los valores que presenta en ciertas variables discriminadoras. A diferencia del Anlisis de Clster, se
deben conocer los grupos de antemano y a qu grupo pertenecen ciertos casos en los que se han
medido ciertas variables discriminadoras. Estos datos de los grupos conocidos se suele denominar
serie de entrenamiento del algoritmo,

Mientras que los casos nuevos a clasificar se denomina serie de asignacin o serie de prueba. Para
hacer estos clculos algunos paquetes estadsticos emplean las funciones discriminantes lineales de
Fisher, SIMFIT utiliza la llamada distancia de Mahalanobis:

D 2 = (A-B) ^t (CA+CB)^ -1 (A-B)

Y en base a las distancias de Mahalobis de cada nuevo caso a las medias de los grupos es capaz de
asignar los nuevos casos a los grupos.

You might also like