Professional Documents
Culture Documents
, j = 1,2,3, . . . , t
Si se usan las matrices de correlacin
yy
,
xx
y
xy
, las variables cannicas son
funciones de las variables originales estandarizadas. Se obtienen los mismos
autovalores, pero los autovectores cambian.
Los autovectores j
y j
i > 0
s i
i
i
A
1
) 1 (
2
=
-(N -
) 1 (
2
1
+ + q s
)LnA
Si se dejan de considerar sucesivamente la primera, la segunda, etc. Correlaciones
cannicas podr conocerse en que momento las correlaciones ya no son significativas
teniendo en cuenta que
2
tendr (s -1)x(q 1) grados de libertad, (s 2)X(q 2) grados
de libertas, etc. En el caso de que exista significatidad, es decir, de que haya relacin
entre el primero y el segundo grupo de variables, los coeficientes (variables) cannicos
indican la importancia de cada variable, su aportacin al hecho de que exista esa
correlacin cannica determinada.
5.- PROCEDIMIENTO con R
4
El comando para realizar anlisis de correlacin cannica en R es
Cancor( x, y, xcenter = TRUE, ycenter = TRUE)
Donde:
a) x es una matriz de nxs que contiene las coordenadas de X.
b) y es una matriz de nxq que contiene las coordenadas de Y.
c) xcenter es una variable lgica o un vector de longitud s, el cual describe si deben
centrarse los valores de x antes del anlisis. Si es verdadero
(valor por defecto) se restan los promedios de cada columna; si es falso,
no se ajustan las columnas. En otro caso, se resta de las columnas el
vector suministrado.
d) ycenter es anlogo a xcenter.
El resultado es una lista que contiene los siguientes elementos:
a) cor: correlaciones
b) xcoef : coeficientes estimados para las variables x ( los
,
s ).
c) ycoef : coeficientes estimados para las variables y ( los
,
s ).
d) xcenter : valores usados para ajustar x.
e) ycenter : valores usados para ajustar y.
6.- APLICACIN Y DISCUSION
EJEMPLO 1
Los siguientes datos corresponden a 100 empleados bancarios, que incluye las
siguientes variables:
LCURRENT: Logaritmo del salario actual.
LSTART : Logaritmo del salario inicial.
EDUC : Nivel educativo ( en aos ).
SENIOR : Nivel del cargo en el banco.
AGE : Edad en aos.
EXPER : Experiencia de trabajo relevante en aos.
Deseamos seleccionar las variables de salario con el resto de las variables.
Los datos son:
LCURRENT LSTART EDUC SENIOR AGE EXPER
9.6853 9.0359 16 81 28.5 0.25
10.2524 9.7642 19 83 41.92 13
10.0345 9.2873 15 98 41.17 12
9.0848 8.3448 12 92 25.5 0.42
9.0143 8.4118 12 73 47.92 12.83
5
8.9464 8.1889 15 96 60.5 1.92
i > 0
s i
i
i
A
1
) 1 ( = (1 - 0.6140286)(1 -0.3804727)= 0.239119819
6
2
=
-(N -
) 1 (
2
1
+ + q s
)LnA = -(100 - (4 + 2 + 1))Ln0.239119819
2
=
- 96.5 ( -1.43079051) = 138.071285
Como
2
(4*2) =
138.071285 > 18.465 al 99.9% de nivel de confianza,
entonces
la hiptesis nula de incorrecciones es rechazada.
Si deja de considerarse la primera correlacin cannica:
A = (1 - 0.3804727)= 0.6195273
2
=
-98.5Ln0.6195273 = 47.1616533
Como es significativo con (3*1) g.l. Entonces se consideran que las dos correlaciones
cannicas son significativas.
Los dos pares de variables cannicas basados en las variables estandarizados son:
Z
1
= 0.056LCURRENT + 0.048LSTART
W
1
= 0.084EDUC + 0.0001SENIOR 0.067AGE + 0.060EXPER
Z
2
= 0.212LCURRENT 0.214LSTART
W
2
= -0.030EDUC + 0.079SENIOR 0.055AGE 0.021EXPER
Z
1
es casi un promedio entre LCURRENT y LSTART, mientras que W
1
contiene
coeficientes positivos relativamente grandes para EDUC y EXPER y un coeficiente
negativo relativamente grande para AGE; por lo tanto, W
1
mide un contraste entre las
variables EDUC y EXPER y la variable AGE, de manera que mientras mayores sean los
valores de EDUC y EXPER relativos a AGE, mayor ser el valor de W
1
. La correlacin
positiva entre Z
1
y W
1
sugiere que el nivel de salario es mayor cuando la educacin y la
experiencia son altas con relacin a la edad.
Z
2
presenta ms bien un contraste entre el salario actual y el salario inicial. W
2
es
prioritariamente una funcin de AGE y SENIOR. Mientras mayor es el nivel en la
empresa relativo a la edad, mayor es W
2
. La correlacin positiva entre estas variables
sugiere que la diferencia entre el salario actual y el inicial ser mayor cuando el nivel
del empleado en la empresa es alto con respecto a la edad.
7
Tambien es til determinar las correlaciones entre las variables cannicas y cada una de
las variables usadas para el clculo de las mismas. Estas correlaciones se denominan
pesos cannicos o correlaciones estructurales.
En nuestro ejemplo:
> banco.cest<-cbind(cor(banco.st,as.matrix(banco.st[,1:2])%*%banco.cc$xcoef), +
cor(banco.st,as.matrix(banco.st[,-(1:2)])%*%banco.cc$ycoef[,1:2]))
> colnames(banco.cest)<-c("Z1","Z2","W1","W2")
> banco.cest
Z1 Z2 W1 W2
LCURRENT 0.97606212 0.21749193 0.59933004 0.08274975
LSTART 0.96724414 -0.25384792 0.59391555 -0.09658221
EDUC 0.54361718 -0.01787781 0.88532879 -0.04698841
SENIOR -0.01117106 0.27906634 -0.01819305 0.73347266
AGE -0.29384400 -0.20910255 -0.47855102 -0.54958617
EXPER -0.05539759 -0.20588514 -0.09021989 -0.54112983
Ntese que la matriz de correlacin estructural puede escribirse como:
Rxz
Ryz
1
]
1
Rxw
Ryw
Z
1
tiene alta correlacin con las variables relativas al salario, correlacin positiva alta
con EDUC y correlacin negativa dbil con AGE. Es decir, al aumentar el nivel
educativo el salario tambien aumentar. La correlacin de Z
2
con las variables relativas
al salario es bastante dbil, ya que Z
2
mide la diferencia entre ambas. Z
2
presenta
correlaciones negativas dbiles con AGE Y exper y correlacin positiva dbil con
SENIOR.
Con respecto a las variables explicativas, W
1
est altamente correlacionada con las
variables relativas al salario y con la educacin, y tiene correlacin negativa dbil con la
edad. W
2
presenta baja correlacin con las variables de salario, presenta correlaciones
negativas con edad y experiencia, y correlacin positiva relativamente alta con el nivel
en el banco.
8
EJEMPLO 2
Se tiene informacin de la actividad econmica de municipios de la Ciudad de
Granada(1995): Con estos datos se desea realizar un Anlisis de Correlacin Cannica,
de las variables econmicas en funcin de un conjunto de variables influyentes.
Y1 = Nmero de telfonos
Y2 = Nmero de turistas
Y3 = Consumo de energa elctrica
X1 = Superficie agraria
X2 = Nmero de cabezas de ganado
X3 = Empleo industrial
X4 = Nmero de licencias comerciales
X5 = Nmero de vehculos de transporte
Los datos son:
tel tur elec supagri cabgan empind liccom vehtrans
86 107 323 2309 267 0 12 157
167 230 658 5114 2607 0 15 314
4293 3854 29066 5524 2392 120 686 5581
...
196 256 866 2075 947 2 57 421
121 145 411 733 5849 0 9 182
1165 1176 7466 2936 3707 9 235 2024
3250 3610 17102 537 1192 27 430 5323
616 746 2709 2374 8831 13 90 1083
> turismo.frm<- read.table("C:/data/turismo.txt", header=T)
> turismo.st<-(turismo.frm-matrix(rep(apply(turismo.frm,2,mean),168), ncol=8,
byrow=T))/sqrt(matrix(rep(apply(turismo.frm,2,var),168), ncol=8,byrow=T))
> turismo.cc<-cancor(turismo.st[,1:3],turismo.st[,-(1:3)])
> turismo.cc
$cor
[1] 0.9999394 0.7520363 0.6231840
$xcoef
[,1] [,2] [,3]
tel -0.012518234 -2.30118307 1.2332115
tur -0.062530702 2.37489634 -0.6622364
elec -0.002361405 -0.07508306 -0.5759855
$ycoef
[,1] [,2] [,3] [,4] [,5]
supagri 0.0002954111 0.01658545 -0.001976328 0.0005682599 0.11628978
cabgan -0.0001026942 0.01929927 0.012940357 0.0755509421 -0.09288285
empind 0.0009463737 0.07025393 -0.070934243 -0.0355219456 -0.02622231
liccom 0.0042588514 -1.19854189 -0.160708811 0.3849038671 0.31463636
vehtrans -0.0817611587 1.17772871 0.167067795 -0.3958926237 -0.29555893
$xcenter
tel tur elec
-1.212758e-17 1.868958e-18 1.151319e-17
9
$ycenter
supagri cabgan empind liccom vehtrans
-1.318596e-17 -1.082137e-17 1.334085e-17 1.738079e-17 -6.784008e-18
H
o
:
i = 0
H
a :
i > 0
$cor
[1] 0.9999394 0.7520363 0.6231840
s i
i
i
A
1
) 1 (
=5.66226E-06
LnA=-12.08
2
(4*3)
=21
2
=
-(N -
) 1 (
2
1
+ + q s
)LnA= -(168-4)*(-12.08)=1981.12
Por tanto se rechaza Ho.
$cor
0.7520363 0.6231840
A = (1 - 0.7520363)(1-0.623184)= 0.09343669
2
(3*2)
= 12.592
2
=
-164*Ln0.09343669 = 388.76
Por tanto se rechaza Ho.
$cor
0.6231840
A = (1-0.623184)= 0.376816
2
=
-164*Ln 0.376816 =-164*-0.976=160.064
2
(2*1)
= 5.991
Por tanto se rechaza Ho.
Las correlaciones entre los tres primeros vectores cannicos son 0.9999394, 0.7520363
y 0.6231840
respectivamente. Las tres son suficientemente altas como para ser tomadas en cuenta.
Los tres pares de variables cannicas basados en las variables estandarizados son:
Z
1
= -0.013tel 0.063tur -0.002elec
W
1
= 0.0003supagri -0.0001cabgan +0.0009empind + 0.0043liccom -0.0818vehtrans
Z
2
= -2.301tel + 2.375tur -0.075elec
W
2
= 0.0166supagri +0.0193cabgan + 0.0703empind + -1.1985liccom + 1.1777vehtrans
10
Z
3
= 1.233tel -0.662tur -0.576elec
W
3
= -0.0020supagri + 0.0129cabgan -0.0709empind + -0.1607liccom + 0.1671vehtrans
Tambien es til determinar las correlaciones entre las variables cannicas y
cada una de las variables usadas para el clculo de las mismas. Estas correlaciones
se denominan pesos cannicos o correlaciones estructurales.
En nuestro ejemplo:
> turismo.cest<-cbind(cor(turismo.st,as.matrix(turismo.st[,1:3])%*%turismo.cc$xcoef),
+ cor(turismo.st,as.matrix(turismo.st[,-(1:3)])%*%turismo.cc$ycoef[,1:3]))
> colnames(turismo.cest)<-c("Z1","Z2","Z3","W1","W2","W3")
> turismo.cest
Z1 Z2 Z3 W1 W2
tel -0.99967842 -0.0242954254 0.007265496 -0.99961787 -0.0182710411
tur -0.99996950 0.0071381022 0.003169146 -0.99990893 0.0053681117
elec -0.99064752 -0.0602246186 -0.122435638 -0.99058751 -0.0452910975
supagri -0.06630017 0.2973301384 -0.104247030 -0.06630419 0.3953667535
cabgan -0.23363287 0.2247646856 -0.090917017 -0.23364703 0.2988747945
empind -0.14048030 0.1105585989 -0.607514932 -0.14048881 0.1470123230
liccom -0.99535734 -0.0340470290 -0.048148901 -0.99541764 -0.0452731209
vehtrans -0.99980548 0.0002981993 -0.009802384 -0.99986605 0.0003965225
W3
tel 0.004527741
tur 0.001974961
elec -0.076299936
supagri -0.167281289
cabgan -0.145891117
empind -0.974856362
liccom -0.077262730
vehtrans -0.015729516
Z
1
tiene alta correlacin negativa con el nmero de telefonos, nmero de turistas,
consumo de energa elctrica, nmero de locencias comerciales y nmero de vehiculos
de transporte y correlacin negativa dbil con el nmero de cabezas de ganado.
Con respecto a las variables explicativas, W
1
esta altamente correlacionada
negativamente con el nmero de telefonos, nmero de turistas, consumo de energa
elctrica, nmero de locencias comerciales y nmero de vehiculos de transporte y
correlacin negativa dbil con el nmero de cabezas de ganado.
CONCLUSIONES
El anlisis de correlacin cannica es una tcnica til y potente para explorar las
relaciones entre variables dependientes e independientes mltiples. La tcnica es ante
11
todo descriptiva, aunque puede ser empleada con fines predictivos. Los resultados
obtenidos a partir de un anlisis cannico deben dar respuestas a cuetiones relacionadas
con el nmero de maneras en las que se relacionan dos conjuntos de mltiples variables,
la validez de las relaciones y la naturaleza de las relaciones definidas.
El anlisis cannico posibilita al investigador combinar en una medida
compuesta, lo que de otra forma podra ser un gran nmero difcil de manejar de
correlaciones bivariantes entre conjuntos de variables. Es til para identificar relaciones
globales entre mltiples variables dependientes e independientes, especialmente cuando
el analista tiene poco conocimiento a priori sobre las relaciones entre los conjuntos de
variables. Fundamentalmente, el investigador puede aplicar el anlisis de correlacin
cannica a un conjunto de variables, seleccionar aquellas variables (tanto dependietes
como independientes) que aparecen ser significativamente relacionadas, y llevar a cabo
posteriores correlaciones cannicas con las restantes variables mas significativas, o
realizar regresiones con estas variables.
Al igual que cualquer otra tcnica multivariante, el Anlisis de Correlacin Cannica
debe estar sujeto a mtodos de validacin que aseguren que los resultados no son
solamente especficos de los datos de la muestra y que pueden ser generalizados a la
poblacin. El procedimiento ms directo es crear dos submuestras de los datos(si el
tamao muestral lo permite) y llevar a cabo el anlisis en cada submuestra de forma
separada. Despus, los resultados se pueden comparar para buscar la igualdad de las
funciones cannicas, las cargas de los valores tericos, y dems aspectos. Si se
encuentran importantes diferencias , el investigador debe considerar el realizar una
investigacin adicional para que los resultados finales son representativos de los valores
poblacionales , y no solamente de una nica muestra.
Otro enfoque consiste en evaluar la sensibilidad de los resultados a la eliminacin de
una variable dependiente y/o independiente . Dado que el procedimento de correlacin
cannica maximiza la correlacin y no optimiza la interpretabilidad , las cargas y las
ponderaciones cannicas pueden variar sustancialmente si una variable es eliminada de
algn valor terico. Para asegurar la estabilidad de las cargas y de las ponderaciones
cannocas el investigador debe estimar multiples correlaciones cannocas , en donde
en cada una se elimina una variable dependiente o independiente diferente.
12
Los pesos cannicos j
y j