You are on page 1of 13

Una prctica con Cluster Analysis

Ernesto Torres Anguiano


Mucho se ha escuchado a lo largo del tiempo sobre el anlisis cluster,
distintos mtodos y formas de aplicarlo.

sus

Pero, Cmo empez todo? Desde siempre; El hombre siempre se ha


caracterizado por tratar de buscar, identificar y clasificar de distintas maneras a los
distintos animales, elementos, eventos o fenmenos con los que convive en el
universo.
Hay muchos ejemplos de esto; Desde que en los antiguos tiempos se
calificaban/clasificaban a las personas de acuerdo a sus creencias (paganos o
fieles a la ley), o en la forma en que hoy en da las amas de casa catalogan de
acuerdo a su percepcin a las distintas marcas de leche que hay en el mercado
(Nutritivas, Caras, Baratas, Para Grandes, Para Nios, etc.).
Esas agrupaciones que se pretenden identificar, deben buscar que en el interior
de cada grupo o clasificacin existan elementos que sean muy parecidos entre si,
y que difieran lo ms posible en relacin a los elementos de otro grupo; y parte de
stas clasificaciones las podemos encontrar hoy dentro de un conjunto de tcnicas
que conocemos como cluster anlisis.
Dentro de nuestro ramo, podramos mencionar algunas aplicaciones que tenemos
de ste anlisis, tales como: Segmentacin y Posicionamiento, Estudio de Perfiles,
Comportamiento del consumidor, Seleccin de mercados de prueba, Deteccin de
problemas o Desarrollo de Nuevos Productos.
En esencia, el anlisis cluster (Tambin conocido en otras ramas como
taxonoma numrica, anlisis tipolgico, o clasificacin
automticai) es un mtodo de anlisis que clasifica objetos o elementos, en
grupos bien definidos llamados conglomerados/clusters; Donde cada uno de
ellos (Clusters) debe tener a elementos que sean muy similares entre si (A lo que
conocemos como Homogeneidad) y estos deben ser diferentes a los objetos de
los otros grupos (Heterogeneidad) con respecto a algn criterio de seleccin
predeterminado.
Es decir, revela agrupaciones naturales dentro de un conjunto de datos que son
muy tiles para obtener un conocimiento ms profundo sobre los elementos o
individuos que existen en una poblacin determinada; y en base a esto poder
tomar decisiones, establecer estrategias y planes de accin que nos ayuden a
plantear objetivos o, en el caso de estar ya planteados, alcanzarlos o superarlos.
El cluster anlisis tiene distintos mtodos de realizacin, destacando por su uso
los Mtodos Jerrquicos o Exploratorios (Que se caracterizan por la Anidacin de
acuerdo a la importancia de similaridad de los elementos) y Mtodos No

Jerrquicos (Que desarrollan los conglomerados cuando el investigador ha


definido de manera anticipada su nmero).
A lo largo de la realizacin de un anlisis cluster debemos tomar distintas
decisiones para poder realizarlo de una manera adecuada, decisiones como lo
son la seleccin de variables que incluiremos o el nmero de
clusters/conglomerados que queremos conservar en el anlisis; Decisiones que
analizaremos mediante la aplicacin de el siguiente caso.
Supongamos que un Museo realiza encuestas a un grupo de nios al terminar el
recorrido; dicha encuesta sta diseada con distintas preguntas generales y
algunas que pueden ayudarnos a identificar grupos y disear estrategias que
vayan acorde con los nios que estn ms interesados en asistir a un museo.
Algunas de las preguntas que encontramos en sta encuesta son las siguientes:
Sexo
Edad
A Es divertido ir al museo?*
divertid
B Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? *
pidocomp
*
C Puedo aprender en la escuela lo mismo que en el museo?
aprendom
D Prefiero ir al museo en excursiones con la escuela? *
excur
E Ir al museo en mi tiempo libre me quita tiempo para jugar? *
quitatie
F No me interesa en lo mas mnimo asistir al museo? *
nomeint
Te gust tu visita al museo? (Si/No)
gustovis
*
De Totalmente en desacuerdo a Totalmente de acuerdo en escala de 7 puntos.

Suponiendo que las preguntas de la seccin denominada como Opiniones


generales que tengo en relacin al museo son con las que el equipo pretende
agrupar a los 25 nios que respondieron la encuesta, se tendran que hacer
primero 2 consideraciones:
1. Que para identificar los grupos de nios, las preguntas que se elijan deben
de estar en la misma escala de medicin. (En caso de que esto no sea
posible, se deben de estandarizar los valores)
2. Justificar la aplicacin del cluster anlisis, lo cual podemos hacer
demostrando que existe fuerte asociacin entre las variables que van a
configurarlo.

Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25
nios:
caso sexo

edad divertid pidocomp aprendom excur quitatie nomeint gustovis

10

10

10

10

10

11

10

12

13

14

15

16

17

18

19

20

21

22

23

24

10

25

10

Y a partir de sta base de datos nosotros empezaramos a trabajar para poder


identificar a nios que tienen caractersticas similares en relacin a sus opiniones
de un museo.
Nuestro siguiente paso es escoger las variables que podramos nosotros utilizar
para identificar a los grupos (recordamos que estas variables deben de estar en la
misma escala de medicin, o en su defecto, deben tener estandarizados los
valores).
Entonces tenemos que para esta agrupacin podemos utilizar las siguientes
preguntas:
A Es divertido ir al museo?*
divertid
B Siempre que voy al museo le pido a mis papas que me compren algo de lo que venden
adentro? *
pidocomp
*
C Puedo aprender en la escuela lo mismo que en el museo?
aprendom
D Prefiero ir al museo en excursiones con la escuela? *
excur
E Ir al museo en mi tiempo libre me quita tiempo para jugar? *
quitatie
F No me interesa en lo mas mnimo asistir al museo? *
nomeint

(Medidas en escalas de 7 puntos de Totalmente en desacuerdo a Totalmente de


Acuerdo)
Ya que hemos elegido a las variables que consideramos que podemos utilizar para
nuestro anlisis, debemos demostrar su aplicabilidad mediante la demostracin de
la existencia de una fuerte asociacin entre las variables que van a configurarlo, lo
cual podemos hacer con el siguiente anlisis de correlacin.
Tabla de Correlaciones Bivariadas

Es divertido
ir al museo
Es divertido ir al museo

Correlacin de Pearson

Cuando voy al museo


le pido a mis papas
que me compren algo
de los materiales que
venden adentro

Correlacin de Pearson

Puedo aprender en la
escuela lo mismo que
en el museo

Prefiero ir al museo en
excursiones con la
escuela
Ir al museo en mi
tiempo libre me quita
tiempo para jugar
No me interesa en lo
mas mnimo asistir al
museo

Sig. (bilateral)
N

Pido a mis
papas que
me compren
algo dentro
del museo
**

Puedo
aprender en
la escuela lo
mismo que
en el museo

Prefiero ir al
museo en
excursiones
con la
escuela

Ir al museo
en mi tiempo
libre me
quita tiempo
para jugar

.818**

No me
interesa en lo
mas mnimo
asistir al
museo
**
**

.000
25

Correlacin de Pearson

.099

.034

Sig. (bilateral)
N

.638

.870

25

25

Correlacin de Pearson

-.066

-.318

Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N

.755
25
.099
.636
25
-.816**
.000
25

.121
25
-.111
.599
25
-.591**
.002
25

**

**

.631**
.001
25
.616**
.001
25
-.296
.152
25

**

.577**
.003
25
-.071
.735
25

-.218
.295
25

**. La correlacin es significativa al nivel 0,01 (bilateral).

Entonces podemos identificar la existencia de fuertes correlaciones entre distintas


variables (tanto positivas como negativas), mismas que nos dan la pauta para
continuar con la aplicacin de nuestro anlisis.
Si no se observaran fuertes correlaciones entre las variables que sern parte del
Anlisis Cluster se puede concluir que no tiene sentido realizarlo.
Ya que hemos demostrado la existencia de fuertes correlaciones entre las
variables que sujetaremos a la formacin de grupos, debemos de seleccionar el
procedimiento por el cual vamos nosotros a llevar a cabo dicha agrupacin.
De los dos mtodos que hemos descrito con anterioridad es recomendable
siempre empezar por los mtodos Jerrquicos (Tambin conocidos cmo
exploratorios), ya que stos nos presentan distintos diagramas (como el
Dendrograma o la Grfica de Tmpanos) que nos ayudan a estudiar/decidir en
cuntos clusters podemos dividir a los elementos.
4

Una vez que hemos realizado la agrupacin por un mtodo Jerrquico, podemos
realizarla tambin por un mtodo no jerrquico para validar o confirmar de alguna
forma los datos obtenidos en un principio. (De ah que los mtodos no jerrquicos
se conozcan tambin como mtodos confirmatorios)
As pues, mediante la ayuda de un paquete estadstico procedemos a elaborar el
anlisis jerrquico que incluya a las 6 variables antes mencionadas.
Donde un paso muy importante es la seleccin de la distancia por la cual se
calcular el grado de similaridad de los elementos. (una de las distancias ms
utilizadas es la distancia euclidiana cuadrada).
sta distancia es muy importante porque es la que empieza a agrupar a los
elementos ms similares entre s (de ah el nombre de jerrquico) y los grfica en
una grfica llamada dendrograma que por motivos prcticos, la mayora de las
veces reescala las distancias reales entre los elementos a valores entre 0 y 25.
El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos
podramos utilizar, en ste caso de nuestro anlisis, el dendrograma se muestra
as:
* *

H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine

C A S E
Label
Num

Poca distancia
entre los casos
de cada cluster

20
21
18
19
25
23
24
22
2
5
9
10
3
4
6
1
8
7
11
15
13
16
14
17
12

0
5
10
15
20
25
+---------+---------+---------+---------+---------+

Mucha distancia
entre los clusters (3)
En sta grfica podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en stos momentos es poder definir con
cuantos grupos quedarnos, opciones que podran ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar
en cuenta la practicidad del manejo de la informacin, y que tampoco podemos
considerar como un cluster o conglomerado a 1 slo elemento.
As que de manera grfica podemos optar por la opcin de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
lneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estara conformado por los
siguientes nios/elementos:
Conglomerado 1: Nios 20,21,18,19,25,23, 24 y 22 (8 nios)
Conglomerado 2: Nios 2,5,9,10,3,4,6,1,8 y 7 (10 nios)
Conglomerado 3: Nios 11,15,13,16,14,17 y 12 (7 nios)
Es muy importante que al ejecutar un anlisis cluster indiquemos al paquete que
nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de
esta manera tener ya el conglomerado de pertenencia de cada elemento en
nuestra base de datos y poder estudiar las caractersticas de cada conglomerado.
Tambin podemos justificar nuestra decisin de 3 conglomerados mediante la
creacin de una tabla que (esto slo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la informacin de pertenencia de cada
caso) nos muestre cuantos elementos estaran en cada conglomerado entre las
opciones que mostramos como probables en un inicio.

1
2
3
4
5
6
7

2 clusters
Casos
18
7

3 clusters
Casos
10
7
8

4 clusters
Casos
10
7
7
1

5 clusters
Casos
9
1
7
7
1

6 clusters
Casos
9
1
7
5
1
2

7 clusters
Casos
7
2
1
7
5
1
2

De sta manera podemos analizar que si tuviramos 2 clusters, uno tendra 18


casos y el otro 7, pero si tuviramos 4 clusters tendramos uno con 10 nios, otro
con 7, otro con 7 y otro con 1, de modo que la opcin mas viable o equilibrada
sera la que tomamos de manera visual de 3 clusters; No debemos olvidar que
6

adems de prcticos y homogneos, los clusters deben aportar informacin


razonable y fcil de comprender a la investigacin.

Una vez que hemos determinado el nmero de los clusters, podemos proceder a
estudiarlos y compararlos; una buena opcin podra ser desarrollar grficas que
nos apoyen en su estudio, y de acuerdo a las caractersticas de los clusters
podramos tambin otorgarles un nombre con el cual podamos identificarlos ms
fcilmente.
Totalm ente
de Acue rdo

7
6
5
4
3

Totalm e nte 2
en
desacue rdo

Interesados

Desinteresados

Ldicos

De acuerdo a esto, desarrollamos una grfica donde mostramos los promedios


obtenidos por cada conglomerado en las diferentes preguntas, donde
encontramos cosas interesantes para nuestra investigacin:
Cluster 1: Formado por 8 alumnos, nos muestra valores altos en las preguntas de
diversin y de consumo, adems nos presenta un muy bajo promedio en la
pregunta de no me interesa en lo ms mnimo ir al museo, es decir, se
encuentran muy interesados en ir al museo, se divierten mucho ah, y adems les
piden a sus papas que les compren cosas dentro, entonces de una forma simple
podramos identificar a ste cluster como Interesado.
Cluster 2: Formado por 10 alumnos, nos muestra valores muy altos en las
preguntas de Aprendo lo mismo en la escuela que en el museo, prefiero ir al
museo en excursiones con la escuela e Ir al museo en mi tiempo libre me quita
tiempo para jugar, nos dan a entender que es un segmento que gusta de ir al
7

museo en el tiempo de la escuela y no en el tiempo libre (Quiz para perder


tiempo de clases), lo cual nos permitira identificar a ste cluster como un grupo
ldico.
Cluster 3: Formado por 7 alumnos, nos muestra valores muy bajos en la mayora
de los reactivos, pero tambin nos muestra un promedio muy alto en la pregunta
No me interesa en lo ms mnimo ir al museo, y al ser un segmento
completamente aptico, podramos identificarlo como un segmento
completamente Desinteresado.
Una vez definidas las etiquetas de cada cluster, podemos tambin continuar en la
investigacin de las caractersticas de cada grupo, tales como el sexo o si es que
gustaron de su visita al museo.
Distribucin del sexo por cluster
Cluster
Total
Base
Sexo

N
%
Femenino
Masculino

n
%
n
%

25
100.0%
15
60.0%
10
40.0%

1(Interesado)
10
100.0%
7
70.0%
3
30.0%

2 (Desinteresado)
7
100.0%
3
42.9%
4
57.1%

3 (Ldico)
8
100.0%
5
62.5%
3
37.5%

Enero 2005

Sexo por Segmento


Cluster Analysis
8

7
6

# Casos

Donde
al
estudiar
las
caractersticas
de
cada
cluster en cuanto al sexo,
podemos observar que las
mujeres forman parte en su
mayora del segmento que se
encuentra interesado (70%) y
en segundo lugar
con el
segmento ldico (62.5%);
mientras que los hombres
forman parte en mayor
nmero del segmento que no
se encuentra interesado con
nada que tenga que ver con
un museo.

5
4

4
3

Femenino
Masc ulino

2
Interesados

Desinteres ados

Ldicos

Tambin podemos estudiar la opinin de cada cluster en relacin a su visita al


museo, es decir, si gustaron de ella o no, a lo que podemos ver lo siguiente:
Recuento

Total

Donde obviamente la mayora


de los nios interesados
gustaron de la visita al museo
(9), slo dos casos del
segmento desinteresado lo
hicieron, y en lo que respecta
a los nios catalogados como
ldicos 5 gustaron de su visita
al museo.

Total
10
7
8
25

Gusto de la visita al museo por segmento


Cluster Analysis
10
9
8

# Casos

Cluster

Interesados
Desinteresados
Ldicos

Te gust tu visita al
museo?
No
Si
1
9
5
2
3
5
9
16

6
5

4
3
2

No

1
Interesados

Si
Desinteresados

Ldicos

Ya hemos estudiado las caractersticas principales de cada cluster, y ya podemos


decir que los conocemos, ahora en cuanto a manera de justificacin de las
agrupaciones podemos tambin hacerlo mediante la demostracin de que existen
diferencias significativas entre cada uno de los clusters.
stas diferencias resultan ser obvias desde cierto punto de vista, y son utilizadas
solo para propsitos meramente descriptivos, ya que uno de los objetivos del
anlisis de conglomerados es precisamente maximizar las diferencias entre los
grupos de casos.

Las diferencias significativas entre stos grupos de casos las mostramos en la


siguiente tabla.

ANOVA

Es divertido ir al museo

Cuando voy al museo le pido a


mis papas que me compren
algo de lo venden adentro

Puedo aprender en la escuela


lo mismo que en el museo

Suma de
cuadrados

gl

Media
cuadrtica

Sig.

Inter-grupos

67.886

33.943

61.642

.000

Intra-grupos

12.114

22

.551

Total

80.000

24

Inter-grupos

82.328

41.164

54.449

.000

Intra-grupos

16.632

22

.756

Total

98.960

24

Inter-grupos

29.911

14.956

14.736

.000

Intra-grupos

22.329

22

1.015

52.240

24

Inter-grupos

45.726

22.863

32.844

.000

Intra-grupos

15.314

22

.696

Total

61.040

24

Inter-grupos

35.083

17.541

23.030

.000

Intra-grupos

16.757

22

.762

Total

51.840

24

Inter-grupos

41.931

20.966

19.357

.000

Intra-grupos

23.829

22

1.083

Total

65.760

24

Total
Prefiero ir al museo en
excursiones con la escuela

Ir al museo en mi tiempo libre


me quita tiempo para jugar

No me interesa en lo mas
mnimo asistir al museo

En sta tabla podemos tambin identificar cules son las variables que
contribuyen ms al proceso de agrupamiento, esto podemos hacerlo mediante los
valores F, entonces podemos concluir que las variables que contribuyen ms al
agrupamiento son: Es divertido ir al museo, y Cuando voy al museo le pido a mis
papas que me compren algo adentro.
En relacin a los mtodos no jerrquicos o confirmatorios (Como el mtodo de KMedias), es necesario indicar con anticipacin el nmero de clusters en los que se
quiere dividir la base (Adems, no debemos olvidar que cada una de las variables
implicadas en el anlisis deben estar en la misma escala de medicin, o en caso
de no serlo, estar estandarizadas); por esto es necesario realizar una fase previa
10

de un anlisis jerrquico que nos oriente y permita identificar de manera visual en


cuantos grupos se pueden dividir la base.

Cuando contamos con una base base de datos extensa, resulta hasta cierto punto
difcil poder interpretar el dendrograma (debido a su extensin), as que
podramos realizar el anlisis de K-medias pidindole a la mquina soluciones
mltiples (podramos hacerlo con ste ejercicio, con una solucin de 3 a 7
clusters), pidindole tambin a la mquina que nos guarden los conglomerados de
pertenencia para cada individuo.
Posteriormente, podramos crear una tabla idntica a la que mostramos
anteriormente en la cual nos indiquen cuantos casos existiran para cada cluster,
y as tomar la decisin de cuantos clusters conservar.
Invitamos al lector a realizar la prctica mediante los conglomerados jerrquicos y
no jerrquicos con sta base de datos para comparar los resultados.
Otra forma mediante la que podramos comprobar/validar nuestra clasificaciones
es de manera grfica, para esto realizamos un diagrama de dispersin por medio
de un anlisis discriminante.

Funciones Discriminantes Cannicas

Cluster
Centroides de grupo
Ldicos
Desinteresados
Interesados

11

Poca
distancia
entre los
casos
de cada

a
Resultados de la clasificacin
Grupo de pertenencia pronosticado
Interesados

Desintere
sados

Ldicos

Total

10

10

Desinteresados

Ldicos

100.0

.0

.0

100.0

Desinteresados

.0

100.0

.0

100.0

Ldicos

.0

.0

100.0

100.0

Average Linkage
(Betw een Groups)

Original

Recuento

Interesados

Interesados

a. Clasificados correctamente el 100.0% de los casos agrupados originales.

En dicho diagrama de dispersin y en la tabla que muestra los resultados de


clasificacin podemos observar que tenemos una muy buena clasificacin (Esta
clasificacin tan alta no se logra siempre, vara muchas veces tanto del nmero de
casos como de la forma en que se distribuyen, en sta ocasin tuvimos la fortuna
de que los casos muestren una agrupacin natural perfectamente delimitada),
donde de manera grfica podemos observar que los tres grupos se diferencian
muy bien, encontrndose cada uno en regiones muy independientes.
Una de las principales aplicaciones de ste anlisis es el poder identificar a los
grupos dentro de una poblacin y poder orientar estrategias a cada uno de llos
para que nosotros podamos alcanzar los objetivos ms fcilmente y de la manera
ms ptima, as que si usted fuera de las personas del museo, y estuviera
planeando invitar a distintos nios a una nueva exposicin, A quines les
mandara la carta de invitacin?

12

Csar Lpez, Tcnicas Estadsticas con SPSS, 2001

You might also like