Professional Documents
Culture Documents
Guía de estudio
1. Introducción
2. Análisis en Rp
• Cálculo de la primera componente principal
• Cálculo de las otras componentes principales
• Correlaciones entre las Zk y las Xj
3. Análisis en Rn
• Determinación del primer eje G1
• Determinación de los otros ejes Gk
• Relación entre los valores propios k y k
• Relación entre los vectores propios ak y bk
• Relación entre las coordenadas Gjk y las correlaciones kj
4. Interpretación
• Resultados para la interpretación de las variables
• Resultados para la interpretación de los individuos
• Convenciones para facilitar la interpretación
• Individuos suplementarios
Supongamos que tenemos las mediciones de p variables cuantitativas X1, …Xp, sobre n
individuos, donde el número de variables puede ser grande y algunas de las variables estarán
correlacionadas. A estas variables las denominaremos variables iniciales en lo que sigue.
El objetivo del análisis en componentes principales (ACP) es hallar p nuevas variables Z1,
Z2, …, Zp, cada una de las cuales es una combinación lineal de las variables Xj; de tal manera,
que r de ellas, con r p, recojan la mayor parte de la información de las variables iniciales;
por ejemplo, podríamos tener 18 variables Xj, y lograr que 3 variables Z1, Z2 y Z3 recojan el
78% de la información de las variables iniciales. Así, el objetivo del ACP es reducir las
dimensión de las variables por analizar.
Las nuevas variables Zk construídas se las denomina componentes principales. Este capítulo
se ocupa de desarrollar el cálculo de las componentes principales y de cómo interpretar los
resultados.
Es oportuno una observación. En el desarrollo del ACP, para simplificar los cálculos y los
resultados, utilizaremos la varianza poblacional en lugar de la varianza muestral, que sería
lo apropiado; esto es, en el cálculo de la varianza utilizaremos como divisor n en lugar de
(n-1). El ACP es una técnica descriptiva, no utiliza ningún supuesto sobre la distribución de
los datos, y el “descuido” en el divisor empleado no tiene mayor repercusión en la
interpretación de los resultados.
Antes de continuar, veamos un ejemplo numérico simple para entender el ACP en dos
dimensiones y para que la generalización sea fácil de estudiarla.
Supongamos que tenemos una matriz de datos X que contiene las mediciones de 20 individuos en
las variables iniciales X1 y X2, las cuales están centradas. El gráfico en el plano X1X2 permite ver la
nube de individuos alrededor del origen.
Si encontramos dos nuevas variables Z1 y Z2, combinaciones lineales de las iniciales, tales que:
Z1 = 0.852 X1 + 0.524 X2
Z2 = -0.524 X1 + 0.852 X2
podemos obtener las mediciones de los individuos en estas nuevas variables en la matriz Z,
mediante:
Z = XA
donde:
0.852 −0.524
𝐀 = [𝐚1 𝐚2 ] = [ ]
0.524 0.852
Las nuevas variables Z1 y Z2, son las componentes principales, que al ser combinación lineal de
variables centradas, también están centradas.
Notemos que el valor de las varianzas es V(Z1)=5.86 y V(Z2)=0.34, y que suman 6.20, igual a la
información total de X1 y X2. La diferencia ahora es que Z1 recoje el 94.4% y Z2 apenas el 5.6%.
Entonces, si prescindimos de Z2, en lugar de trabajar con X1 y X2, podemos hacerlo solo con Z1, ya
que resume la mayor parte de la información de las variables iniciales; esto es, hemos reducido
en uno la dimensión de las variables por analizar.
Por ahora, para mostrar que Z1 reproduce en gran parte la información total de X1 y X2, veamos
los ejemplos siguientes. Si observamos el plano X1X2, los individuos 18 y 7 son los que menos se
parecen, el uno está en el tercer cuadrante y el otro en el primer cuadrante; diferencia que
también se verifica sobre Z1, el individuo 18 es el que tiene el valor más negativo y el individuo 7
el más positivo, y por tanto son los más distantes. En cambio, los individuos 10 y 15 tienen un
comportamiento parecido en el plano X1X2, y tienen también mediciones parecidas sobre Z1.
Notemos que los vectores a1 y a2 que constituyen las columnas de la matriz A, son unitarios y
ortogonales entre sí; y por tanto, para hallar las componentes principales, lo que hemos realizado
es una rotación en el sentido positivo de los ejes X1 y X2 en un ángulo de 31.6 grados, el arcoseno
de 0.852. Ya en este punto, es fácil deducir que a1 y a2 son los vectores unitarios que definen los
nuevos ejes Z1 y Z2.
2. Análisis en Rp
Para desarrollar la técnica descriptiva del ACP vamos a usar al mismo tiempo, dos enfoques
completamente equivalentes: un algebraico y otro estadístico. La ventaja de proceder así, es
que las ideas del álgebra matricial permiten fácilmente interpretar estadísticamente los
resultados.
Ahora, las variables Zk serán p nuevos ejes en Rp y Zik será el valor que toma el individuo i
sobre la variable Zk, o la coordenada de dicho individuo sobre el eje Zk.
a1´=(a11, a21,…,ap1)
Z1 = X a1 (5.2)
Luego, el promedio de las proyecciones al cuadrado sobre Z1 viene dado por la función f(a1):
1
f(a1) = ∑ni=1 (X(i) a1 )𝟐 (5.3)
𝑛
1
= ∑ni=1 (Zi1 )𝟐
𝑛
= 1/n Z1´Z1
= 1/n a1´X´X a1
Con la restricción de que a1 debe ser un vector unitario. Resumiendo, tenemos que
maximizar f(a1) con la restricción de que a1 es un vector unitario:
Ahora, si consideramos a Z1 como una variable, la ecuación (5.1) nos dice que el valor del
individuo i en Z1 es una combinación lineal de los valores que toma este individuo sobre las
p variables Xj, por lo que a nivel de variables, la variable Z1 es una combinación lineal de
las variables Xj. Si X´=(X1,…,Xp) es el vector de variables aleatorias:
p
Z1 = ∑j=1 aj1 Xj (5.5)
= a1´ X
= 1/n a1´X´X a1
Para hallar una solución por multiplicadores de Lagrange, construimos la función objetivo:
Así, el vector a1 que da la dirección al eje Z1 es el vector propio de R asociado al valor propio
1. Si con estos resultados volvemos a calcular la varianza de Z1, utilizado (5.9), tenemos:
Como V(Z1) debe ser máxima, 1 es el mayor valor propio de R y a1 su vector propio
asociado.
Ahora hallemos la segunda componente principal Z2, que será la componente que recoja la
mayor información de los individuos, sin contar lo que ya recoje Z1. Esta segunda
componente estará determinada por el vector unitario a2, de tal manera que las proyección
del individuo i sobre el eje Z2 será:
p
Zi2 = X(i) a2 = ∑j=1 Xij aj2 (5.13)
Las coordenadas de los n individuos sobre el eje Z2 o las mediciones de los individuos en
la variable Z2, son las componentes del vector Z2´=(Z12, …,Zi2,….,Zn2) que se obtiene por:
Z2 = X a2 (5.14)
También, a nivel de variables, la variable Z2 es una combinación lineal de las variables Xj,
y también estará centrada:
p
Z2 = ∑j=1 aj2 Xj (5.15)
= a2´ X
= a1´ R a1 + a2´ R a2
Como hemos dicho, el enfoque algebraico coincide con el estadístico, ya que en este último
exigimos que las variables Z1 y Z2 recojan la mayor información, o equivalentemente, que
tengan la mayor varianza; entonces, queremos maximizar:
expresión que coincide con la función f(a1, a2). Para emplear Lagrange, construimos la
función objetivo:
con solución:
R a1 = 1 a1 (5.20)
R a2 = 2 a2
que indica que a1 y a2 son vectores propios de R, asociados a los valores propios 1 y 2,
respectivamente. Considerando que a1 y a2 son unitarios, la función a maximizar (5.18), e
igual la (5.17), es igual a:
Como 1 es el mayor valor propio de R, 2 debe ser el segundo mayor valor propio. Además,
como R es simétrica, los vectores propios a1 y a2 son ortogonales. Si trasladamos este
resultado de ortogonalidad a las variables Z1 y Z2, obtenemos que su covarianza y
correlación son cero:
El razonamiento efectuado para obtener las dos primeras componentes, se puede generalizar
para las demás componentes. Entonces para cualquier valor de k, k=1,2,…,p, la k-ésima
componente está determinada por el vector unitario ak, de tal manera que las proyección del
individuo i sobre el eje Zk es:
p
Zik = X(i) ak = ∑j=1 Xij ajk (5.23)
Zk´=(Z1k, …,Zik,….,Znk)
Zk = X ak (5.24)
R ak = k ak (5.26)
Donde k es el k-ésimo valor propio más grande de R y ak su vector propio asociado, tales
que:
ak´ak = 1 (5.27)
ak´ar = 0 si k r
V(Zk)= k (5.28)
R = A D A´ (5.30)
A= (a1,…, ap): matriz cuyas columnas son los vectores propios unitarios de R
D= diag(1,.., p): matriz que contiene los valores propios de R en la diagonal
Si Z= (Z1,…,Zp) es la matriz nxp que contiene las coordenadas de los n individuos en las
p componentes principales, entonces:
Z = (Z1…Zp) (5.31)
= (Xa1…Xap)
= XA
por lo que la correlación entre una componente Zk y una variable Xj, es:
Disponemos del promedio que alcanzaron 10 marcas de autos (A, B, …,J) sobre 3 características del
auto: si es cómodo, si es deportivo y si es elegante. La escala utilizada fue de 0 a 10, donde 10 fue la
calificación más favorable. Los datos son modificados de un ejemplo de Grande y Abascal.
A partir de la matriz de datos originales obtenemos la matriz centrada y reducida X, con la cuál es
fácil obtener la matriz de correlación R. Puede notarse que la correlación entre cómodo y elegante
es alta y positiva; lo que indica que los encuestados esperan que un auto elegante sea también
cómodo.
Como la traza de R es 3, la suma de los valores propios debe ser 3. Por (5.28), las varianzas de las
componentes principales coinciden con los valores propios, y por construcción, la varianza de Z1 es
la mayor (1=2.03), seguida por la varianza de Z2 (2=0.93) y por último, la varianza de Z3 (3=0.04).
Así, Z1 recoge el 67.6% de la información de las 10 marcas, Z2 el 31% y Z3 el 1.4%; por lo que podemos
trabajar solo con las dos primeras componentes y estaremos usando el 98.6% de la información.
Esto es, en lugar de analizar los datos con las 3 variables originales podemos analizarlos con las 2
primeras componentes; la omisión de Z3 solo nos costará el 1.4% de la información de la matriz X.
Al sacar los vectores propios de R: a1, a2 y a3, correspondientes a los valores propios 1, 2 y 3,
respectivamente, obtenemos la matriz A, entonces las Zk se expresan como combinaciones lineales
de las Xj, por:
Z1= 0.68 X1 + 0.26 X2 + 0.69 X3 = 0.68 cómodo + 0.26 deportivo + 0.69 elegante
Z2= -0.22 X1 + 0.97 X2 - 0.14 X3 = -0.22 cómodo + 0.97 deportivo - 0.14 elegante
Z3= 0.70 X1 + 0.06 X2 - 0.71 X3 = 0.70 cómodo + 0.06 deportivo - 0.71 elegante
Las coordenadas de los individuos en las Zk están resumidas en la matriz Z= XA; así por ejemplo el
auto E tiene de coordenadas (1.35, -0.69, 0.19). Además, solo por comprobación, podemos verificar
que la varianza de cada Zk coincide con su k relacionado.
La matriz de covarianzas entre las Zk y las Xj, se puede calcular por Czx= DA´ o por Czx= A´R, y por
supuesto utilizando las mediciones de las Zk y las Xj, mediante Czx= Z´X/n. La matriz Czx no es
simétrica; por ejemplo, el término C13=1.395 es la covarianza entre Z1 y X3, mientras que el término
C31=0.029 es la covarianza entre Z3 y X1.
3. Análisis en Rn
b1´=(b11, …, bn1)
La proyección del vector que contiene las observaciones de la variable Xj sobre G1, es
entonces:
y, las proyecciones de las p variables (los p vectores columnas de X) sobre G1, son:
El promedio de las proyecciones al cuadrado de las p variables sobre el eje G1, es una función
de b1, dada por:
1
h(b1) = ∑pj=1 (Gj1 )𝟐 (5.39)
p
= 1/p G1´G1
= b1´ T b1
donde T=1/p XX´ es una matriz nxn. Entonces, nuestro propósito es maximizar h(b1) con la
restricción de que b1 sea unitario, esto es:
Resolviendo por Lagrange, se encuentra que el máximo ocurre cuando b1 es vector propio
de T asociado al valor propio 1:
T b1 = 1 b1 (5.41)
h(b1)= 1 (5.42)
Como queremos que h alcanze su máximo, 1 debe ser el mayor de los valores propios de la
matriz T.
De manera análoga a la obtención de Z2, el segundo eje G2 estará determinado por el vector
propio unitario b2 de T asociado al valor propio 2, el segundo mayor valor propio de T.
por lo que T tendrá p valores propios mayores que 0, al igual que R (recordemos que n>p).
Resumiendo, el eje Gk, para k=1,…,p, está definido por el vector propio unitario bk de la
matriz T, asociado al valor propio k, tal que se cumple:
Con los datos de la calificación de las 10 marcas de autos construimos la matriz T, que tiene 3 valores
propios positivos: 1= 6.76, 2= 3.10 y 3= 0.14, cuya suma es igual a la traza de T. Los valores propios
de T son las columnas de la matriz B, con los que calculamos la matriz G, cuyas columnas contienen
las coordenadas de las variables en los ejes G1, G2 y G3. Así obtenemos que:
Veamos ahora que relación existe entre el valor propio 1 de R y el valor propio 1 de T.
Secuencialmente obtenemos que:
T b1 = 1 b1 (5.45)
1/p XX´ b1 = 1 b1
1/p X´XX´ b1 = 1 X´b1
R (X´b1) = (p 1/n) (X´b1)
de donde p1/n es un valor propio de R, y como tal, debe ser menor o igual a 1, el mayor
de los valores propios de R. Se tiene entonces:
1 n/p 1 (5.46)
R a1 = 1 a1 (5.47)
1/n X´X a1 = 1 a1
1/n XX´X a1 = 1 X a1
T (X a1) = (n 1/p) (X a1)
por lo que n1/p es valor propio de T, y debe ser menor o igual a 1, el mayor de los valores
propios de T. Así que:
1 n/p 1 (5.48)
1 = n/p 1 (5.49)
Siguiendo el mismo razonamiento se muestra que para k=1,…,p, la relación entre los valores
propios de R y T, es:
k = n/p k (5.50)
Queda por ver la relación que existe entre los vectores propios de R y T. De la última
igualdad en (5.47) y empleando (5.49), tenemos que:
T (X a1) = 1 (X a1)
así que el vector Xa1 es un vector propio asociado a 1, por lo que debe diferir de b1 a lo más
en una constante, digamos:
b1 = c Xa1
b1 = ± (n 1)-½ Xa1
El signo en (5.51) indica solo la dirección en que crecerá Gk, por lo que basta tomar solo uno
de los dos, nosotros tomaremos siempre el positivo. Entonces la matriz B, cuyas columnas
son los vectores unitarios bk, se obtiene por:
Las coordenadas de las p variables sobre el eje Gk resultan relacionadas con las coordenadas
del vector ak al utilizar (5.51):
De donde, la matriz G= (G1 ... Gk ... Gp) que contiene las coordenadas de las variables Xj en
los ejes Gk, es igual a:
Notemos que las ecuaciones desde la (5.50) a la (5.56), indican que no hace falta realizar los
cálculos en Rn ya que todos los resultados que se necesitan se los puede obtener de los
resultados del análisis en Rp.
• Los valores propios de T, por 44, se los obtiene multiplicando los valores propios de R por
n/p=10/3.
• Utilizamos (5.52) para calcular la matriz B, cuyas columnas son los vectores unitarios bk.
• Las coordenadas de las variables Xj en los ejes Gk se obtienen con (5.54).
4. Interpretación
Lo que indica que las p variables Xj se encuentran en una hiperesfera de radio n½ y centro
en el origen.
Donde rjk es la correlación entre las dos variables. De lo que podemos concluir que:
• La distancia mínima entre dos variables es 0 y ocurre cuando las variables tienen una
correlación positiva igual a 1.
• La distancia máxima entre dos variables es 4n y sucede cuando las variables tienen una
correlación negativa igual a -1.
Así, si dos variables tienen una correlación positiva (comportamiento parecido) estarán
cerca, y mucho más si la correlación está cerca de 1. En cambio, dos variables con una
correlación negativa estarán alejadas, y mucho más si la correlación está cerca de -1.
La ecuación (5.56) muestra que Gjk, la coordenada de Xj en el eje Gk, es igual a la correlación
entre Zk y Xj, multiplicada por una constante, y se deduce que la coordenada Gjk:
Los individuos no se encuentran a la misma distancia del origen en Rp. Para juzgar la calidad
de la representación del individuo i en el eje k se usa la contribución relativa, que mide la
cantidad de información de i restituída por el eje k:
Z2
CRik = ∑p ik 2 (5.62)
j=1 X ij
Así, si dos individuos están bien representados en el plano ZkZr, su proximidad se interpreta
como un comportamiento semejante.
Resumamos los pasos necesarios en el ACP valiéndonos de la información sobre las 10 marcas de
autos.
Para facilitar la interpretación de los resultados utilizaremos las salidas gráficas del SgPlus
y algunas convenciones. Los límites numéricos que utilizaremos son referenciales y pueden
ser cambiados por el analista si es que considera necesario. El ACP es una técnica descriptiva
que la utilizamos para analizar una muestra y formar hipótesis sobre lo que sucede en la
población de donde se extrajo la muestra.
• Para clasificar los valores de una variable en altos, medios, regulares y bajos, utilizaremos
como límites, de manera descendente: el máximo, el cuartil superior, la mediana, el
cuartil inferior y el mínimo. Para identificar rápidamente valores clasificados en alguna
de las cuatro categorías (altos, medios, regulares o bajos), utilizaremos cuatro colores:
verde (altos), amarillo (medios), celeste (regulares) y rojo (bajos).
• Para clasificar una correlación, diremos: que es una correlación alta, si es mayor a 0.70
(verde); que es una correlación media, si es mayor a 0.50 (amarillo); que es una
correlación regular, si es mayor a 0.30 (celeste); y que es una correlación baja, si está por
debajo de 0.30 (rojo).
• Como hay p variables, diremos que Xj contribuye medianamente a la formación del eje
Gk si la contribución absoluta es mayor a 1/p en porcentaje (amarilla), y que contribuye
fuertemente si es mayor a 2/p en porcentaje (verde).
• Diremos que una variable Xj está bien representada en un nuevo eje o en el plano
generado por dos nuevos ejes, si el eje o el plano restituyen al menos el 60% de la
información de Xj. Las contribuciones relativas se colorean de manera descendente
(verde, amarillo, celeste, rojo) hasta alcanzar el 60%.
Ya que tenemos todos los cálculos necesarios, interpretemos los resultados del ACP para las 10
marcas de autos.
Análisis de ejes
• Los dos primeros ejes explican el 96.5% de la variación de los datos: Z1 explica el 67.6% y Z2
el 31%.
• Eje Z1:
- Las variables que más contribuyen a la formación de Z1 son cómodo y elegante.
- Este eje está correlacionado positivamente con las 3 variables, por lo que es un eje de
“tamaño” (los otros ejes serán de “forma”).
- Z1 está correlacionado fuertemente con cómodo y elegante, por lo que las coordenadas
de los autos sobre Z1 consideradas de izquierda a derecha, tenderán a mostrar un orden
creciente respecto a la comodidad y elegancia. Si ordenamos las marcas según la
coordenada en Z1, de manera creciente, obtenemos: B, G, I, A, C, D, F, E, J, H; así, el auto
B es el menos cómodo y elegante, y el auto H es considerado el más cómodo y elegante.
• Eje Z2:
- Deportivo es la variable que contribuye casi en la totalidad a la formación del eje Z2.
- Z2 está correlacionado fuerte y positivamente con deportivo, por lo que las coordenadas
de los autos sobre Z2, tienden a ordenar a los autos desde los menos deportivos a los más
deportivos conforme nos movemos de abajo hacia arriba por el eje Z2; así, el auto
considerado el menos deportivo es el auto I, y los más deportivos, G y H.
• Eje Z3:
- Cómodo y elegante son las variables que más contribuyen a la formación de Z3.
- La variabilidad que expresa Z3 es pequeña y la correlación con las Xj es bastante baja. Las
correlaciones con cómodo y elegante son de signo contrario, por lo que Z3 recoge
pequeñas diferencias entre la comodidad y la elegancia.
• Cómodo:
- Bien explicada solamente con el primer eje y casi representada totalmente en el plano 1-
2. Si se ordenan los autos en forma creciente a las coordenadas sobre Z1, el ordenamiento
tiende a ordenarlos desde los menos a los más cómodos.
• Elegante:
- Bien explicada solamente con el primer eje y casi representada totalmente en el plano 1-
2. Si se ordenan los autos en forma creciente a las coordenadas sobre Z1, el ordenamiento
tiende a ordenarlos desde los menos a los más elegantes.
- Elegante tiene un comportamiento similar a cómodo, ya que ambas variables están bien
representadas en el plano 1-2 y se encuentran cerca.
• Deportivo:
- Bien explicada solamente con el segundo eje y casi representada totalmente en el plano
1-2. Si se ordenan los autos en forma creciente a las coordenadas sobre Z2, el
ordenamiento tiende a ordenarlos desde los menos a los más deportivos.
Plano (1,2)
- Las 3 características están explicadas en este plano, cada una con más del 97%, por lo que es
suficiente analizar solo este plano.
- Para los autos bien representados en este plano se tendrá que: los autos con valores altos en
las 3 variables se ubicarán en el cuadrante 1, los autos deportivos aunque no cómodos ni
elegantes se ubicarán en el cuadrante 2, los autos con bajas puntuaciones en las 3 variables
se ubicarán en el cuadrante 3, y los autos cómodos y elegantes, aunque no tan deportivos en
el cuadrante 4; además, mientras más alejados del origen más notoria será la descripción.
Análisis de individuos
- Todos los individuos tienen una calidad de representación mayor al 94% en el plano (1,2), por
lo que el análisis en este plano será suficiente para caracterizarlos; observar el cuartil en que
caen las mediciones de los autos en las variables iniciales también es útil para resumir las
conclusiones.
Zs = Xs A (5.63)
Las 17 características (variables) de los detergentes que puntuaron los encuestados fueron:
Arom deja un aroma agradable en la ropa Fuer es fuerte con las manchas
Buen es bueno Lbc lava bien en caliente
Caro es caro Lbf lava bien en frío
Como el envase es cómodo Lmal lava mal
Dcol decolora la ropa Nolo no deja olor
Deli es delicado con la ropa Rapi es rápido
Deso es buen desodorante para la ropa Srop deja la ropa suave
Disu se disuelve mal Suav suave al tacto
Estr estropea la ropa
Los individuos que participaron se identifican del 01 al 12 y las respuestas que dieron sobre el
detergente A están identificadas por A01,…,A12; las respuestas sobre el detergente B se distinguen
por B01,…,B12; y las respuestas sobre el detergente C se identifican por C01,…,C12. Esta codificación
consta en la variable zRsp.
En este ejemplo interesa solo el análisis de las variables. Respecto a los individuos se realizarán dos
tipos de análisis de individuos suplementarios más adelante.
• Sabemos que la traza de R, la suma de los valores propios y el número de variables es igual a
p, que en este caso es 17. Un nuevo eje para que explique más del promedio debería tener
una varianza mayor que 1; es por esto, que se suele analizar aquellos ejes relacionados con
valores propios mayores a 1.
• Los dos primeros ejes: Z1(32.9%) y Z2 (27.7%) explican el 60.5% de la variación de los datos. Si
incluímos los ejes, Z3 (7.9%) y Z4 (6.6%), se explica el 75%. Los valores propios a partir del
quinto son menores que 1 y explican variaciones menores de los datos (menos de 1/17=5.5%).
• Eje Z1:
- El primer eje recibe una contribución alta de lbc, lbf y lmal, y una contribución media de
buen, deso, disu, estr, fuer, nolo y rapi.
- Z1 tiene una correlación alta negativa con estr y lmal; una correlación media negativa con
disu, fuer y nolo; una correlación media positiva con deso y rapi; y, tiene una correlación
alta positiva con buen, lbc y lbf. Podemos decir que Z1 coloca los aspectos negativos del
lavado en el lado izquierdo y los aspectos de calidad de lavado en el lado derecho.
- En la zona central se sitúan características no relacionadas con la calidad de lavado, como
formato cómodo y caro, que tienen una correlación casi nula con el eje y no son de interés
en la interpretación del eje.
- En consecuencia, se puede interpretar este eje como de “calidad de lavado”. Es decir el
primer factor de diferenciación o rasgo de opinión en que se basan las diferencias entre
los detergentes es la calidad de lavado.
• Eje Z2:
- La formación del segundo recibe una contribución alta de dcol y una contribución media
de arom, disu, estr, fuer, nolo, suav y srop.
- Z2 tiene una correlación alta negativa con dcol y fuer; una correlación media negativa con
disu y estr; una correlación media positiva con nolo y srop; y, tiene una correlación alta
positiva con arom y suav. Es un eje que opone características de rudeza en el lavado con
las características relacionadas con la suavidad y la delicadeza del lavado. Podría
denominarse un factor de “delicadeza en el lavado”.
• Plano 1-2
- En el cuadrante 4 están bien representadas lbf, lbc, buen y rapi; son variables que se
encuentran muy próximas y que también están muy correlacionadas positivamente. La
idea de que un detergente sea bueno, los encuestados lo asocian a lavar bien.
- En el cuadrante 3 están bien representadas disu, estr y fuer, son características de rudeza.
Estas características son asociadas a lavar mal más que al lavar bien.
- En el cuadrante 4 se puede incluir a deso, que aunque está bien representada en el plano
1-7, su contribución a la formación del primer eje es media y además, tiene una correlación
positiva con lbf, lbc, buen y rapi (y una correlación negativa con nolo, como es de
esperarse).
- Deli y srop son características que están bien representadas en planos diferentes al 1-2,
aunque el segundo eje explica el mayor porcentaje de ellas y tiene una correlación positiva
con ellas; además, deli y srop están correlacionadas positivamente con las características
de suavidad, por lo que se ubican en el cuadrante 1.
- Como y caro, ubicadas cerca del origen del plano 1-2, están bien representadas en el plano
3-4 que recoge poca variación y son características poco importantes a la hora de
diferenciar los detergentes.
Análisis de suplementarios 1
Consideremos como individuos suplementarios los promedios de las calificaciones obtenidos por los
3 detergentes, identificados por A, B y C. Primero se calcula la matriz Xs y se compara los valores
obtenidos con los cuartiles de las variables Xj, para tener una idea de que tan pequeños o grandes
son; luego, se estima la calidad de la representación de los individuos suplementarios en las
componentes principales. Entonces, se concluye:
- Las opiniones sobre el detergente C son las más dispersas. Es el que peor lava y no deja olor
en la ropa. No es rápido ni desodoriza la ropa, aunque tiene más “delicadeza” que el
detergente B.
Análisis de suplementarios 2
Supongamos que si un individuo dio una puntuación de 4 o 5 en la característica bueno indica una
predisposición a comprarlo. Entonces tenemos que:
Con estos 3 grupos creamos 9 individuos suplementarios, que son el promedio de las puntuaciones
del grupo cuando evaluaron los 3 detergentes, de la siguiente manera:
Los individuos son 25 países europeos de una división política de antaño sobre los que se midió el
porcentaje promedio de proteína que obtienen de determinados alimentos en su dieta diaria. Los
datos se han tomado de Peña. En este ejemplo, al hablar del consumo de un alimento en realidad
se habla del “porcentaje de proteínas obtenido de dicho alimento en la dieta diaria promedio”. En
el archivo de Excel se incluyen cinco hojas de cálculo:
Análisis de ejes
• Por la manera en que se construyen los ejes, el análisis de los planos según la cantidad de
información que recogen es, en general: 1-2, 1-3, 1-4,…, 2-3, 2-4,…, 3-4, 3-5, ….
Plano 1-2
• Eje Z1:
- Contribución: media (cereal, nuez, huevo y leche).
- Correlación: alta negativa (cereal, nuez), media positiva (cblanca, croja y fécula), alta
positiva (huevo, leche)
- Caracterización: es un eje que opone los alimentos vegetales (cereal, nuez) con leche,
huevo, cárnicos y fécula.
• Eje Z2:
- Contribución: alta (pescado y fruta), media (fécula)
- Correlación: regular negativa (cblanca, cereal, leche), regular positiva (fécula), alta
positiva (pescado y fruta)
- Caracterización: es un eje que representa a los países consumidores de pescado, fruta y
fécula, y en el otro extremo y en menor medida a los consumidores de cblanca y cereal.
• Análisis de variables
- Para analizar las variables iremos formando grupos con comportamientos semejantes de
variables bien representadas en este plano.
- A1 (cereal y nuez) y A2 (huevo y leche), grupos que se contraponen, y tienen una alta
contribución y correlación con Z1.
- A3 (pescado, fécula) por su contribución y correlación positiva con el eje Z2.
El plano 1-5 explica el 60.5% de fécula y en el plano 1-2 el 55.8%; como el eje 5 no lo
analizaremos, consideraremos a fécula representada en el plano 1-2.
Tanto pescado como fécula tienen correlaciones positivas con las variables de A2 y
negativas con las variables de A1.
• Análisis de individuos
- Para analizar los individuos iremos formando grupos con comportamientos semejantes de
individuos bien representadas en cada plano.
- C1 (Albania, Bulgaria, Rumania, Yugoslavia)
Son los países que más contribuyen a la formación de Z1, y están representados
bastante bien solo con eje Z1.
Consumo de A1, alto en cereal y sobre el promedio en nuez
Consumo A2, bajo en huevo y leche
Consumo A3, bajo en pescado y bajo el promedio en fécula
Consumo bajo el promedio en cblanca
Consumo bajo el promedio en croja, con la excepción de Albania (ligeramente superior
al promedio)
- C3 (Portugal, España)
Países bastante representados solo en el eje Z2.
Consumo A1, alto en nuez y mediano en cereal
Consumo A2, bajo en leche
Consumo A3, alto en pescado y fécula
Consumo bajo en cblanca y croja
Consumo alto de fruta
Plano 1-3
• Eje Z3:
- Contribución: Alta (cblanca), media (fruta, leche y pescado)
- Correlación: media alta positiva (cblanca), regular negativa (leche y pescado)
- Permite obtener diferencias no visibles en el plano 1-2
• Análisis de variables
- cBlanca y leche, bien explicadas en este plano
- También estarán bien explicadas las variables ya analizadas y explicadas solo por el eje 1:
cereal, huevo, leche, nuez.
• Análisis de individuos
- R1 (Austria y Ale Este)
Consumo A1, medio en cereal y bajo en nuez
Consumo A2, alto en huevo y medio en leche
- R2 (Hungría)
Consumo A1, alto de cereal y nuez
Consumo A2, bajo de leche
Consumo A3, bajo pescado y bajo el promedio en fécula
Consumo alto en cblanca
Consumo bajo en croja
Consumo medio en fruta
Más cerca de los países de C1, excepto por comportamientos particulares commo el
consumo alto en cblanca
Plano 1-4
• Eje Z4:
- Contribución: alta (croja, fruta), media (fécula y nuez).
- Correlación: media positiva (croja)
• Análisis de variables
- cRoja explicada en este plano, además de las anteriores explicadas solo por Z1: cereal,
huevo, leche, nuez. En cuánto a la correlación, se vió que croja y fécula tienen una
correlación media con Z1.
• Análisis de individuos
- R4 (Francia, Suiza, RU)
Consumo A1, mediano en cereal y sobre el promedio nuez
Consumo A2, sobre el promedio en huevo y leche
Consumo A3: mediano en pescado
Consumo mediano en cblanca
Consumo alto en croja
Consumo alto en fruta a excepción de RU
Países más cercanos a los países de C2, excepto por comportamientos particulares aquí
descritos.
- R5 (Grecia, Italia)
Consumo A1, sobre el promedio en cereal y nuez
Consumo A2, mediano en huevo y leche
Consumo A3, mediano en pescado y bajo en fécula
Consumo bajo el promedio cblanca
Consumo mediano en croja
Otros planos
- Plano 1-5: fécula explicada en este plano
- Plano 2-4: fruta explicada en este plano
Otros países
Hay 3 países que se interpretan en ejes que reproducen poca variación. Si se los ubica en el
plano 1-2, están cerca del origen y en forma general, son intermedios respecto a los otros:
- W1 (Checoslovaquia)
Representado en el plano 3-6, aunque podría aceptarse su representación en el plano
2-3.
Más cerca de C1, difiere en alto consumo de cblanca y bajo en nuez.
- W2 (Polonia)
Representado en el plano 3-7.
Más cerca de C1, difiere en un consumo bajo el promedio en nuez, mediano en huevo
y leche, alto en fécula y fruta.
- W3 (Urss)
Representado en el plano 4-5, aunque podría aceptarse su representación en el plano
1-5.
Más cerca de C1, difiere en un consumo alto en fécula.