You are on page 1of 12

ANLISIS DE COMPONENTES PRINCIPALES (ACP)

Para desarrollar este tcnica vamos a contar con los datos de 41 ciudades
de USA donde se midieron diferentes variables relacionadas con la
contaminacin atmosfrica (Contaminacin Atmosfrica.sav)

Las variables son:


SO2: Contaminacin Atmosfrica
NEG.TEMP: Temperatura anual en grados F
EMPRESAS: Nmero de empresas con ms de 20 trabajadores
POBLACION: Poblacin (en miles de habitantes)
VIENTO: Velocidad media del viento
PRECIP: Precipitacin anual media
DIAS: Das lluviosos al ao.
Nos interesa investigar la relacin entre la concentracin en SO2 y el resto
de las variables. Para ello trataremos de identificar variables subyacentes,
o constructos, que expliquen la configuracin de correlaciones dentro del
conjunto de variables observadas. Para que este procedimiento estadstico
tenga sentido, es necesario que entre las variables de estudio haya una
estructura importante de correlacin, es decir, que entre las variables
observadas exista relacin.
El procedimiento que permite realizar el anlisis de componentes
principales se encuentra en el submen Reduccin de dimensiones del
men Analizar:

Al pulsar en dicha opcin, el cuadro de dilogo que aparece tiene el


siguiente aspecto:
2

Para empezar, hay que seleccionar las variables que vayan a ser incluidas
en el anlisis, que en este caso seran todas.
Si pulsamos en el botn de Descriptivos, se obtienen las opciones que
aparecen en la figura anexa:
En este submen se puede solicitar al
procedimiento que muestre los
descriptivos univariados, la solucin
inicial (comunalidades, autovalores y
porcentaje de varianza explicada por
cada factor), as como algunos
estadsticos que permitan comprobar
la adecuacin de la muestra al anlisis
de componentes principales. Desde
un puno de vista prctico, la prueba
de esfericidad de Bartlett contrasta si
la matriz de correlaciones es una matriz identidad, lo que indicara que el
ACP es inadecuado, porque las variables estn incorrelacionadas entre s.

En cuanto al mtodo de extraccin (botn Extraccin) las opciones son:


Como se puede observar
que existen diversos
procedimientos,
en
nuestro caso vamos a
aplicar la tcnica de
Componentes
principales. Tambin se
puede especificar que el
anlisis se aplique a una
matriz de correlaciones o
a
una
matriz
de
covarianzas y, se pueden
seleccionar a priori el
nmero de componentes que se desea extraer, o especificar alguna
condicin genrica que permita extraer slo aqullos que verifiquen una
determinada condicin (normalmente la de que los componentes
seleccionados sean aquellos cuyos autovalores sea superiores a la unidad).
Como se est realizando un ACP no es necesario que roten los ejes, pero si
puede ser interesante que obtengamos el grfico de sedimentacin
(criterio grfico para la posterior decisin del nmero de componentes a
extraer). Todas estas opciones se seleccionan en el mismo cuadro de
opciones:

Si se pulsa en el botn de Puntuaciones del cuadro de dilogo del anlisis


factorial, se comprueba que se pueden almacenar las puntuaciones
factoriales obtenidas a partir del anlisis efectuado en el rea de trabajo del
fichero de datos, es decir se pueden aadir c nuevas variables que
representan los c componentes extrados. La matriz de coeficientes de las
puntuaciones factoriales muestran los coeficientes por los que se
multiplican las variables para obtener las puntuaciones factoriales. Todo
esto se muestra en el siguiente cuadro:

Adems, se pueden representar las variables observadas en funcin de los


componentes extrados, si se solicitan los Grficos de saturaciones.
Al ejecutar el procedimiento con todas las opciones elegidas, los resultados
son los siguientes:
1. En primer lugar aparecen las medias y desviaciones tpicas de las
variables incorporadas en el procedimiento:

La matriz de correlaciones entre las variables originales:

Al ser la matriz de correlaciones no definida positiva, esto quiere


decir que su determinante vale aproximadamente 0, con lo que existe
colinealidad entre las variables consideradas, lo que no hace
necesaria la comprobacin de la esfericidad de las variables
(mediante el contraste de Bartlett), ni el clculo del coeficiente KMO.
No obstante, si observamos ambos estadsticos:

Se observa que efectivamente se rechaza que la matriz de


correlaciones es distinta de la matriz unidad. Si las variables estn
correlacionadas hay muchos valores altos en valor absoluto fuera de
6

la diagonal principal de la matriz de correlaciones, adems el


determinante es menor que 1.
Por otra parte, la medida de la adecuacin muestral de Kaiser-MeyerOlkin contrasta si las correlaciones parciales entre las variables son
suficientemente pequeas. El estadstico KMO vara entre 0 y 1.
Valores pequeos indican que el anlisis de componentes principales
puede no ser una buena idea, dado que las correlaciones entre los
pares de variables no pueden ser explicadas por otras variables.
2. Las comunalidades aparecen a continuacin, y se puede comprobar
que son bastantes altas (cercanas a 1), con lo cual se puede decir que
las variables quedan muy
bien explicadas a travs
de las componentes
extradas (a excepcin de
la variable Velocidad del
viento).

3. A continuacin se puede comprobar el porcentaje de varianza que


explica cada componente, y cules son las componentes finalmente
extradas (aquellas cuyos autovalores superen la unidad)

Entre las tres componentes extradas se acumula el 84,85% de la


variabilidad de las variables originales.
7

El grfico de sedimentacin (herramienta grfica para la decisin del


nmero de componentes que hay que seleccionar, y que se ha dado
en denominar diagrama del codo o escombrera) resulta ser:

Tcnicamente el grfico muestra la clara ruptura entre la


pronunciada pendiente de las dos primeras componentes y el
descenso gradual de los restantes (los sedimentos).
En esta figura se aprecia que la seleccin de dos componentes parece
ser adecuada, pero el porcentaje de varianza explicada es de slo
61,6%, y este porcentaje aumenta al 84,85% con el tercero. Se
confirma entonces el nmero final de tres componentes finalmente
extrados.
4. La matriz de componentes que aparece a continuacin es la que se
denomina matriz de carga o saturaciones factoriales, y nos indica la
carga de cada variable en cada factor, de modo que los factores con
unos pesos factoriales ms elevados en trminos absolutos nos
indican una relacin estrecha con las variables.

Adems, se puede expresar cada variable en funcin de los factores,


haciendo una combinacin lineal de ellos utilizando sus cargas
factoriales respectivas. Por ejemplo,
1 = 0.489 + 0.906 + 0.856 + 0.524 0.060
+ 0.353
2 = 0.156 0.206 0.272 + 0.160 + 0.763
+ 0.867
3 = +0.793 + 0.322 + 0.414 0.351 + 0.596
0.110

El primer componente se le podra etiquetar como calidad de


vida con valores positivos altos en EMPRESAS y POBLACIN
indicando un entorno relativamente prspero.
El segundo componente se puede etiquetar como tiempo
hmedo con pesos altos en PRECIP y DIAS.
El tercer componente estara ms relacionado con el tipo de
clima al presentar elevadas puntuaciones en TEMP y PRECIP.
Incluso, a partir de las cargas factoriales se puede calcular la
comunalidad de cada una de las variables.
5. Por ltimo el grfico de componentes permite realizar la
representacin grfica de la matriz de componentes que hemos
realizado.
9

La representacin tridimensional puede resultar un poco


complicada de interpretar. Si realizamos una representacin
bidimensional:

Vemos, por ejemplo, como la primera componente es una variable


de tipo econmico-demogrfico, que opone las variables EMPRESAS
y POBLACIN con NEG. TEMP. La segunda componente es de tipo
climtica pues opone PRECIP y DIAS con el resto.

10

6. Si se realiza un anlisis de regresin de la variables SO2 sobre los tres


componentes:

Se observa que la cantidad de SO2 se explica claramente por el primer


componente de calidad de vida (con valores altos positivos en
EMPRESAS y POBLACIN) en donde a mayor actividad empresarial
aumenta (de forma muy significativa) la concentracin de SO2, esto
es, empeora la calidad del aire.

11

Observamos como por ejemplo Chicago tiene una mayor calidad de


vida y menor humedad ambiental. Y, en Seatle tienen una buena
calidad de vida y una elevada humedad ambiental.

12

You might also like