You are on page 1of 6

ANLISIS CLUSTER DE K-MEDIAS El anlisis cluster de K-medias es una herramienta diseada para asignar casos a un nmero fijo de grupos

(clusters o conglomerados) cuyas caractersticas no se conocen an pero que se basan en un conjunto de variables especificadas. Es muy til cuando queremos clasificar un gran nmero (miles) de casos. Un buen anlisis cluster es: Eficiente. Utiliza tan pocos conglomerados como sea posible. Efectivo Captura todos conglomerados estadstica y comercialmente importantes. Por ejemplo, un conglomerado con cinco clientes puede ser estadsticamente diferente pero no muy beneficioso. El procedimiento del anlisis cluster de K-medias empieza con la construccin unos centros de conglomerados iniciales. Podemos asignar estos nosotros mismos o tener un procedimiento de seleccin de k observaciones bien situadas para los centros de conglomerados. Despus de la obtencin de los centros de los conglomerados, el procedimiento: Asigna casos a los conglomerados basndose en la distancia de los centros de los conglomerados. Actualizar las posiciones de los centros de los conglomerados basndose en los valores medios de los casos en cada conglomerado. Estos pasos se repiten hasta que cualquier reasignamiento de los casos haga que los conglomerados sean internamente ms variables o externamente similares. Un operador de telecomunicaciones quiere segmentar su base de clients segn el patrn de uso del servicio. Si los clientes pueden ser clasificados segn el uso, la compaa puede ofrecer paquetes ms atractivos a sus clientes. Las variables estandarizadas que indican el uso del servicio estn contenidas en telco_extra.sav. Usemos el procedimiento del anlisis cluster de K-medias para encontrar subconjuntos de similares de clientes. Para ejecutar el anlisis cluster, del men elegimos: Analizar Clasificar Conglomerado de K-medias Seleccionamos desde Standardized log-long distance hasta Standardized logwireless y desde Standardized multiple lines hasta Standardized electronic billing como variables a analizar. Pongamos 3 como el nmero de conglomerados. Pulsemos Iterar.

Pongamos 20 como nmero de iteraciones. Pulsemos continuar. Pulsemos opciones en el cuadro de dilogos del anlisis cluster de k-medias.

Seleccionamos Tabla ANOVA e Informacin del conglomerado para cada caso de los estadsticos de grupo. Seleccionamos excluir casos segn pareja en el grupo de valores perdidos. Pulsamos continuar, luego Aceptar en el cuadro de dilogos del anlisis cluster de k-medias.

Estas selecciones producen una solucin de tres conglomerados. Los casos han sido excluidos segn pareja puesto que hay muchos valores perdidos debido al hecho de la mayora de los clientes no subscriben todos los servicios. Los centros iniciales de los conglomerados son los valores de las variables de las k observaciones bien espaciadas.
Centros iniciales de los conglomerados Conglomerado 2 -1,70 -,20 -,65 -,86 -1,75 -,95 1,51 1,68 -,76 1,04 -,97 1,01 1,00 -,77

zlnlong zlntoll zlnequi zlncard zlnwire zmultlin zvoice zpager zinterne zcallid zcallwai zforward zconfer zebill

1 2,48 2,34 1,34 2,49 1,14 1,05 1,51 1,68 1,31 1,04 1,03 1,01 1,00 -,77

3 ,12 -,39 ,59 -1,28 1,42 1,05 1,51 1,68 1,31 -,96 1,03 -,99 -1,00 1,30

Los valores de la tabla son las medias de cada variable dentro de cada conglomerado inicial. Por defecto, el programa elige casos que son distintos y usa los valores de estos casos para definir los conglomerados iniciales. Si especificamos nosotros mismos los centros de los conglomerados, los valores apareceran en la tabla. El historial de iteracin muestra el progreso del proceso de conglomeracin en cada etapa.

a Historial de iteraciones

Iteracin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Cambio en los centros de los conglomerados 1 2 3 3,298 3,590 3,491 1,016 ,427 ,931 ,577 ,320 ,420 ,240 ,180 ,195 ,119 ,125 ,108 ,093 ,083 ,027 ,069 ,094 ,032 ,059 ,051 ,018 ,035 ,085 ,063 ,025 ,359 ,333 ,068 ,439 ,287 ,079 ,368 ,177 ,125 ,139 ,078 ,077 ,096 ,020 ,041 ,047 ,015 ,014 ,027 ,000 ,019 ,038 ,000 ,000 ,000 ,000

a. Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000. La iteracin actual es 18. La distancia mnima entre los centros iniciales es de 6,611.

En cada iteracin, dado que los casos se reasignan a diferente conglomerado, los centros de los conglomerados cambian. Cada valor indica la distancia entre el nuevo centro de conglomerado y el centro del conglomerado en la etapa previa. As, por ejemplo, tras la reasignacin de casos producida entre las iteraciones 1 y 2 en el conglomerado 1, la distancia entre el centro de dicho conglomerado en la iteracin 1 y la 2 es igual a 1,016, luego ha habido un cambio an importante entre los centros, por lo que la reasignacin tiene un efecto significativo en la posicin del centro del conglomerado, por lo que tiene sentido seguir con el proceso de reasignacin. Cuando el cambio es suficientemente pequeo para todos los conglomerados, la iteracin para y se alcanza la solucin final. En un problema de conglomeracin complejo, puede excederse el nmero mximo de iteraciones antes de alcanzar una solucin estable. Esto puede ser debido a que el nmero de conglomerados fijado para dividir el grupo sea errneo, o que las variables elegidas para dividir el grupo no sean las adecuadas, o bien haber partido de unos centros equivocados, o simplemente por la complejidad del problema.

En nuestro caso, en las primeras iteraciones, los centros de los conglomerados aumentan bastante. Por la iteracin decimocuarta, se han establecido al rea general de su ubicacin final, y las ltimas cuatro iteraciones son los ajustes secundarias. Si el algoritmo para debido a que se ha alcanzado el nmero mximo de iteraciones, podemos querer incrementar dicho nmero mximo puesto que la solucin puede ser inestable. En nuestro caso, esto no se ha producido, puesto que, tal y como se muestra en el pie de la tabla, se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio, o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de 0. La iteracin actual es la 18. La distancia mnima entre centros iniciales es de 6,611.
Centros de los conglomerados finales Conglomerado 2 ,05 ,22 ,24 ,12 ,81 -,19 ,17 ,02 ,42 -,75 ,48 -,29 1,26 -,24 1,43 -,38 ,81 -,59 ,82 ,71 ,76 ,72 ,78 ,69 ,74 ,67 ,70 -,63

1 zlnlong zlntoll zlnequi zlncard zlnwire zmultlin zvoice zpager zinterne zcallid zcallwai zforward zconfer zebill

3 -,16 -1,05 -,69 -,17 -1,00 -,05 -,44 -,44 -,02 -,81 -,80 -,79 -,75 ,05

La tabla anterior muestra los valores finales de los centros de los conglomerados. Los valores son las medias de cada variables en cada conglomerado final. Los centros de los conglomerados finales reflejan los atributos del caso prototipo para cada conglomerado. Los clientes del conglomerado 1 tienden a ser grandes derrochadores que compran muchos servicios. Los clientes del conglomerado 2 tienden a ser gastadores moderados que compran los servicios de llamada. Los clientes del conglomerado 3 gastan muy poco y no compran muchos servicios.
Distancias entre los centros de los conglomerados finales Conglomerado 1 2 3 1 3,500 4,863 2 3,500 3,396 3 4,863 3,396

Esta tabla muestra las distancias eucldeas entre los centros de los conglomerados fianales. As vemos como los conglomerados ms alejados entre s son el 1 y 3 y los ms prximos son el 2 y 3.
ANOVA Conglomerado Media cuadrtica gl 13,063 43,418 99,056 6,301 52,879 38,032 236,301 298,992 123,447 308,104 294,674 288,343 262,397 112,782 Error Media cuadrtica ,976 ,820 ,488 ,984 ,646 ,926 ,528 ,402 ,754 ,384 ,411 ,424 ,476 ,776 gl 997 472 383 675 293 997 997 997 997 997 997 997 997 997 F 13,387 52,932 202,999 6,402 81,873 41,084 447,554 743,348 163,642 802,474 717,172 680,718 551,678 145,381 Sig. ,000 ,000 ,000 ,002 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000

zlnlong zlntoll zlnequi zlncard zlnwire zmultlin zvoice zpager zinterne zcallid zcallwai zforward zconfer zebill

2 2 2 2 2 2 2 2 2 2 2 2 2 2

Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.

La tabla ANOVA indica qu variables contribuyen ms a la solucin de los conglomerados. As, las variables con valores de F grandes proporcionan mayor separacin entre los conglomerados. Por tanto, en nuestro caso, la variable que proporciona mayor separacin entre los conglomerados es zcallid, con un F = 802,474, mientras que la que menos es zincard, con un F = 6,402.

You might also like