Professional Documents
Culture Documents
sus
Tras aplicar la encuesta obtenemos las siguientes respuestas por parte de los 25
nios:
caso sexo
10
10
10
10
10
11
10
12
13
14
15
16
17
18
19
20
21
22
23
24
10
25
10
Es divertido
ir al museo
Es divertido ir al museo
Correlacin de Pearson
Correlacin de Pearson
Puedo aprender en la
escuela lo mismo que
en el museo
Prefiero ir al museo en
excursiones con la
escuela
Ir al museo en mi
tiempo libre me quita
tiempo para jugar
No me interesa en lo
mas mnimo asistir al
museo
Sig. (bilateral)
N
Pido a mis
papas que
me compren
algo dentro
del museo
**
Puedo
aprender en
la escuela lo
mismo que
en el museo
Prefiero ir al
museo en
excursiones
con la
escuela
Ir al museo
en mi tiempo
libre me
quita tiempo
para jugar
.818**
No me
interesa en lo
mas mnimo
asistir al
museo
**
**
.000
25
Correlacin de Pearson
.099
.034
Sig. (bilateral)
N
.638
.870
25
25
Correlacin de Pearson
-.066
-.318
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
Correlacin de Pearson
Sig. (bilateral)
N
.755
25
.099
.636
25
-.816**
.000
25
.121
25
-.111
.599
25
-.591**
.002
25
**
**
.631**
.001
25
.616**
.001
25
-.296
.152
25
**
.577**
.003
25
-.071
.735
25
-.218
.295
25
Una vez que hemos realizado la agrupacin por un mtodo Jerrquico, podemos
realizarla tambin por un mtodo no jerrquico para validar o confirmar de alguna
forma los datos obtenidos en un principio. (De ah que los mtodos no jerrquicos
se conozcan tambin como mtodos confirmatorios)
As pues, mediante la ayuda de un paquete estadstico procedemos a elaborar el
anlisis jerrquico que incluya a las 6 variables antes mencionadas.
Donde un paso muy importante es la seleccin de la distancia por la cual se
calcular el grado de similaridad de los elementos. (una de las distancias ms
utilizadas es la distancia euclidiana cuadrada).
sta distancia es muy importante porque es la que empieza a agrupar a los
elementos ms similares entre s (de ah el nombre de jerrquico) y los grfica en
una grfica llamada dendrograma que por motivos prcticos, la mayora de las
veces reescala las distancias reales entre los elementos a valores entre 0 y 25.
El dendrograma es muy importante porque nos ayuda a identificar cuantos grupos
podramos utilizar, en ste caso de nuestro anlisis, el dendrograma se muestra
as:
* *
H I E R A R C H I C A L
C L U S T E R
A N A L Y S I S * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E
Label
Num
Poca distancia
entre los casos
de cada cluster
20
21
18
19
25
23
24
22
2
5
9
10
3
4
6
1
8
7
11
15
13
16
14
17
12
0
5
10
15
20
25
+---------+---------+---------+---------+---------+
Mucha distancia
entre los clusters (3)
En sta grfica podemos notar la existencia de distintos grupos de alumnos
(clusters), donde nuestra principal tarea en stos momentos es poder definir con
cuantos grupos quedarnos, opciones que podran ir desde los dos hasta que cada
alumno represente su propio cluster (es decir, 25 clusters), pero debemos tomar
en cuenta la practicidad del manejo de la informacin, y que tampoco podemos
considerar como un cluster o conglomerado a 1 slo elemento.
As que de manera grfica podemos optar por la opcin de tres clusters, donde
existe poca distancia entre los elementos de cada cluster (la observamos por las
lneas horizontales) y mucha distancia entre los distintos clusters (la observamos
de la misma manera), donde cada conglomerado estara conformado por los
siguientes nios/elementos:
Conglomerado 1: Nios 20,21,18,19,25,23, 24 y 22 (8 nios)
Conglomerado 2: Nios 2,5,9,10,3,4,6,1,8 y 7 (10 nios)
Conglomerado 3: Nios 11,15,13,16,14,17 y 12 (7 nios)
Es muy importante que al ejecutar un anlisis cluster indiquemos al paquete que
nos guarde el conglomerado de pertenencia de cada elemento (en el rango de
opciones probables que le indiquemos, P.E. de 2 a 7 conglomerados), para de
esta manera tener ya el conglomerado de pertenencia de cada elemento en
nuestra base de datos y poder estudiar las caractersticas de cada conglomerado.
Tambin podemos justificar nuestra decisin de 3 conglomerados mediante la
creacin de una tabla que (esto slo se puede hacer cuando de manera previa le
hemos indicado al paquete que nos guarde la informacin de pertenencia de cada
caso) nos muestre cuantos elementos estaran en cada conglomerado entre las
opciones que mostramos como probables en un inicio.
1
2
3
4
5
6
7
2 clusters
Casos
18
7
3 clusters
Casos
10
7
8
4 clusters
Casos
10
7
7
1
5 clusters
Casos
9
1
7
7
1
6 clusters
Casos
9
1
7
5
1
2
7 clusters
Casos
7
2
1
7
5
1
2
Una vez que hemos determinado el nmero de los clusters, podemos proceder a
estudiarlos y compararlos; una buena opcin podra ser desarrollar grficas que
nos apoyen en su estudio, y de acuerdo a las caractersticas de los clusters
podramos tambin otorgarles un nombre con el cual podamos identificarlos ms
fcilmente.
Totalm ente
de Acue rdo
7
6
5
4
3
Totalm e nte 2
en
desacue rdo
Interesados
Desinteresados
Ldicos
N
%
Femenino
Masculino
n
%
n
%
25
100.0%
15
60.0%
10
40.0%
1(Interesado)
10
100.0%
7
70.0%
3
30.0%
2 (Desinteresado)
7
100.0%
3
42.9%
4
57.1%
3 (Ldico)
8
100.0%
5
62.5%
3
37.5%
Enero 2005
7
6
# Casos
Donde
al
estudiar
las
caractersticas
de
cada
cluster en cuanto al sexo,
podemos observar que las
mujeres forman parte en su
mayora del segmento que se
encuentra interesado (70%) y
en segundo lugar
con el
segmento ldico (62.5%);
mientras que los hombres
forman parte en mayor
nmero del segmento que no
se encuentra interesado con
nada que tenga que ver con
un museo.
5
4
4
3
Femenino
Masc ulino
2
Interesados
Desinteres ados
Ldicos
Total
Total
10
7
8
25
# Casos
Cluster
Interesados
Desinteresados
Ldicos
Te gust tu visita al
museo?
No
Si
1
9
5
2
3
5
9
16
6
5
4
3
2
No
1
Interesados
Si
Desinteresados
Ldicos
ANOVA
Es divertido ir al museo
Suma de
cuadrados
gl
Media
cuadrtica
Sig.
Inter-grupos
67.886
33.943
61.642
.000
Intra-grupos
12.114
22
.551
Total
80.000
24
Inter-grupos
82.328
41.164
54.449
.000
Intra-grupos
16.632
22
.756
Total
98.960
24
Inter-grupos
29.911
14.956
14.736
.000
Intra-grupos
22.329
22
1.015
52.240
24
Inter-grupos
45.726
22.863
32.844
.000
Intra-grupos
15.314
22
.696
Total
61.040
24
Inter-grupos
35.083
17.541
23.030
.000
Intra-grupos
16.757
22
.762
Total
51.840
24
Inter-grupos
41.931
20.966
19.357
.000
Intra-grupos
23.829
22
1.083
Total
65.760
24
Total
Prefiero ir al museo en
excursiones con la escuela
No me interesa en lo mas
mnimo asistir al museo
En sta tabla podemos tambin identificar cules son las variables que
contribuyen ms al proceso de agrupamiento, esto podemos hacerlo mediante los
valores F, entonces podemos concluir que las variables que contribuyen ms al
agrupamiento son: Es divertido ir al museo, y Cuando voy al museo le pido a mis
papas que me compren algo adentro.
En relacin a los mtodos no jerrquicos o confirmatorios (Como el mtodo de KMedias), es necesario indicar con anticipacin el nmero de clusters en los que se
quiere dividir la base (Adems, no debemos olvidar que cada una de las variables
implicadas en el anlisis deben estar en la misma escala de medicin, o en caso
de no serlo, estar estandarizadas); por esto es necesario realizar una fase previa
10
Cuando contamos con una base base de datos extensa, resulta hasta cierto punto
difcil poder interpretar el dendrograma (debido a su extensin), as que
podramos realizar el anlisis de K-medias pidindole a la mquina soluciones
mltiples (podramos hacerlo con ste ejercicio, con una solucin de 3 a 7
clusters), pidindole tambin a la mquina que nos guarden los conglomerados de
pertenencia para cada individuo.
Posteriormente, podramos crear una tabla idntica a la que mostramos
anteriormente en la cual nos indiquen cuantos casos existiran para cada cluster,
y as tomar la decisin de cuantos clusters conservar.
Invitamos al lector a realizar la prctica mediante los conglomerados jerrquicos y
no jerrquicos con sta base de datos para comparar los resultados.
Otra forma mediante la que podramos comprobar/validar nuestra clasificaciones
es de manera grfica, para esto realizamos un diagrama de dispersin por medio
de un anlisis discriminante.
Cluster
Centroides de grupo
Ldicos
Desinteresados
Interesados
11
Poca
distancia
entre los
casos
de cada
a
Resultados de la clasificacin
Grupo de pertenencia pronosticado
Interesados
Desintere
sados
Ldicos
Total
10
10
Desinteresados
Ldicos
100.0
.0
.0
100.0
Desinteresados
.0
100.0
.0
100.0
Ldicos
.0
.0
100.0
100.0
Average Linkage
(Betw een Groups)
Original
Recuento
Interesados
Interesados
12