Professional Documents
Culture Documents
ANLISIS DE COMPONENTES PRINCIPALES Introduccin El objetivo del Anlisis de Componentes Principales lo podemos plantear como: dadas las observaciones de n objetos para p variables, se pretende representar adecuadamente esta informacin con un nmero q < p de variables, construidas como combinaciones lineales incorrelacionadas de las variables originales, que estn ordenadas en orden decreciente de importancia de acuerdo a la varianza. En el objetivo planteado se pueden destacar dos aspectos: - Representar los datos en espacio de dimensin menor al generado por los datos y al que estos se ajusten lo mejor posibles. Puede entenderse entonces como la bsqueda del subespacio de mejor ajuste de la nube de puntos, en el sentido de los mnimos cuadrado, y por otro lado como la identificacin de variables latentes o no observadas que se generan en los datos. - Transformar las variables originales, en general correlacionadas, en nuevas variables, incorrelacionadas, y ordenadas en orden de importancia de acuerdo a la variabilidad y que llamaremos las Componentes Principales. El origen del Anlisis de Componentes Principales (ACP) se debe a K. Pearson quien en 1901 propuso la bsqueda de un subespacio que mejor se ajusta a los datos, para esto utiliz el mtodo de los de mnimos cuadrados, esto es minimizando la suma de los cuadrados de las distancias de cada punto al subespacio. Hotelling en 1933 propuso hallar las componentes principales como las combinaciones lineales de las variables que maximizan la variabilidad. Otra propuesta es la formulada por Gower (1966), minimizando la discrepancia entre los puntos calculados en el espacio original y en el espacio de baja dimensin. El ACP se aplica fundamentalmente a datos con un nivel de medicin de intervalo y por tanto de razn, sin embargo algunos autores han planteado la posibilidad de aplicarlo a otro tipo de datos tales como: datos con nivel de medicin ordinales o de rangos como lo describe Lebart et al (1985), o incluso datos nominales conocido como Anlisis de componentes principales categrico (CATPCA); este procedimiento se encuentra descrito en Young (1981), Kuhfeld, Sarle, y Young, (1985), Saporta, (1983), Young, Takane, y de Leeuw, J. (1978, 1985). En este captulo se presentar el ACP para datos cuyo nivel de medicin es como mnimo de intervalo. Se pueden hallar las componentes principales poblacionales y por otro lado las componentes principales derivadas de la muestra. Cuando se supone que el vector de las variables originales tiene distribucin normal multivariante, es posible obtener algunos resultados inferenciales, pero si no se hacen estas
suposiciones se puede presentar como una tcnica exploratoria, esto es fundamentalmente descriptiva. En este captulo se har un desarrollo desde el punto de vista muestral. Los datos Suponga que se tienen las medidas de p , variables con nivel de medicin de intervalo, tomadas sobre n individuos; estas observaciones las podemos representar en una matriz X de tamao (n p) . Suponemos adems que todas las variables juegan el mismo papel, es decir el conjunto no se divide en variables dependientes e independientes. Por simplicidad suponemos adems que las columnas de la matriz X estn centradas con respecto a la media de cada una de las variables, esto es x el vector de medias de la muestra para el anlisis es un vector de ceros. Construimos S la matriz de varianzas covarianzas muestral de las variables originales (que suponemos definida positiva). Si suponemos que X es centrada por columnas con respecto a la media, entonces la matriz de varianzas y covarianzas muestral la podemos obtener como:
S=
1 X'X n 1
Planteamos inicialmente algunas propiedades generales de las combinaciones lineales. Sea x al vector de las variables originales esto es:
x ' = [ X 1 ,..., X p ]
Nos interesa construir p combinaciones lineales de estas variables y que a su vez estn incorrelacionadas. La combinacin lineal k para k = 1,..., p se puede expresar como:
Yk = a 'k x = a1k X 1 + a2 k X 2 + ... + a pk X p
donde a 'k = [a1k , a2 k ,..., a pk ] los llamamos los coeficientes de la combinacin lineal. Las combinaciones lineales cumplen, entre otras, las siguientes propiedades:
Si se tiene otra combinacin lineal Yk ' = a 'k ' x = a1k ` X 1 + a2 k ` X 2 + ... + a pk ' X p = a 'k ' x , con a 'k ' = [a1k ' , a2 k ' ,..., a pk ' ] , la covarianza muestral entre los dos pares de combinaciones lineales, Yk y Yk ' , es : a'k Sa k ' .
Obtencin de las Componentes Principales muestrales Si suponemos que rango(S) = p , las componentes principales las definimos como p combinaciones lineales de las variables originales que son: incorrelacionadas, con varianzas progresivamente decrecientes y con la restriccin que el vector de los coeficientes sea de longitud unitaria. Para mayor claridad las planteamos una a una partiendo de la primera hasta la ltima.
' x que maximiza La primera componente principal es la combinacin lineal a1
su varianza muestral a 2 Sa 2 , sujeto a la restriccin ' ' muestral cero para la pareja (a1x, a 2 x) .
'
a '2a 2 = 1 y covarianza
La k -sima componente principal es la combinacin lineal a'k x que maximiza su varianza muestral a'k Sa k , sujeto a la restriccin a k a k = 1 y covarianza muestral
'
Esto se puede continuar hasta construir la p-sima componente principal que, es la combinacin lineal a 'p x cuya varianza muestral a 'p Sa p es mnima, sujeto a la restriccin
a 'p a p = 1 y covarianza muestral cero para la pareja (a 'k x, a 'p x) con
k < p.
La solucin al problema planteado la obtenemos utilizando el siguiente resultado: Resultado 1. Si S = s jj '
con pares de valores y vectores propios (1 , v1 );(2 , v 2 );...;( p , v p ) entonces: 1. La k -sima componente principal est dada por:
para k = 1, 2,..., p
donde 1 2 ... p 0 2. La varianza muestral de Yk es igual a k para k = 1, 2,..., p 3. La covarianza muestral entre las componentes Yk y Yk ' es igual a 0 para k'k 4. La suma total de las varianzas de las variables originales es: cumple que
s
j =1
jj
para j , k = 1, 2,..., p
Teniendo en cuenta la parte 1 del resultado anterior, para obtener las componentes principales basta con obtener la descomposicin espectral de la matriz de covarianzas S esto es:
S = VV '
Donde
1 2 ... p 0 y
V ' V = I . Los
coeficientes de las combinaciones lineales que definen las componentes principales son las columnas de V , es decir, las componentes de los vectores propios. Las puntuaciones (coordenadas) de los individuos en las componentes principales estn dadas por:
Y = XV
Si se seleccionan q , con q < p , componentes principales estas se pueden obtener construyendo una nueva matriz Vq con las q primeras columnas de V . Las puntuaciones de los individuos en las q primeras componentes principales estn dadas por:
Yq = XVq
Adems del resultado anterior la varianza explicada por la componente k es exactamente k y la varianza total explicada por las componentes principales es igual a la varianza total de las variables originales. Adems se pueden expresar los siguientes enunciados:
k =1
La proporcin de varianza muestral explicada por las primeras componentes, con q < p es :
k =1 k =1 p
Estas proporciones se pueden expresar en porcentajes. Componentes principales de las variables estandarizadas Supongamos que se tiene una matriz de datos que representamos en una matriz:
x11 x 21 X= xn1
' x12 x1 p x1 ' x22 x2 p x 2 = ' xn 2 xnp xn
x11 x1 s1 x x 21 1 Z = s1 x x n1 1 s1
x12 x2 s2 x22 x2 s2 xn 2 x2 s2