You are on page 1of 22

Capitulo 2.

Anlisis de correspondencias

11.1 Introduccin Es comn encontrar casos cuyas matrices de datos tienen filas y columnas asociadas con modalidades de variables categricas. Las entradas de esta matriz contienen la frecuencia absoluta o relativa de los individuos que toman tales valores en cada una de las respectivas modalidades. A estas matrices se les conoce tambin con el nombre de tablas de contingencias. Un anlisis de la informacin contenida en las filas o en las columnas se hace a travs del anlisis de correspondencias, el cual en adelante se notar como AC. Esta tcnica puede ser vista como el procedimiento que encuentra la mejor representacin para dos conjuntos de datos, los dispuestos en filas, o en las columnas de la respectiva matriz de datos (Lebart, Morineau y Warwick, 1984, pg. 30). De otra manera, el anlisis de correspondencias, tal como el ACP, busca obtener una tipologa de las filas o tipologa de las columnas y relacionarlas entre s. Lo anterior justifica el uso del trmino correspondencia, pues la tcnica busca las filas (o columnas) pueden estar suministrando informacin equivalente respecto a un conjunto de individuos. Una de las tareas es encontrar filas (o columnas) e interpretar la informacin all consignada. En resumen, en lugar de comparar filas/columnas utilizando probabilidades condicionales, el anlisis de correspondencias procede a obtener un pequeo nmero de dimensiones (factores), de tal forma que la primera dimensin explique la mayor parte de la asociacin total entre filas y columnas (medidas mediante un coeficiente ji-cuadrado), la segunda dimensin explique la mayor parte del residuo de la asociacin no explicada por la primera, y as sucesivamente con el resto de las dimensiones. El nmero mximo de dimensiones es igual al menor nmero de categoras de cualquiera de las dos variables (fila o columna), menos uno, pero por lo comn dos o tres dimensiones son suficientes para representar con rigor la asociacin entre las dos variables. En este sentido las dimensiones son conceptualmente similares a las componentes principales. El anlisis de correspondencias se desarrolla mediante el trabajo sobre dos tablas de datos: una primera tabla contiene las frecuencias respecto a las modalidades de dos variables; usualmente se denomina anlisis de correspondencias binarias; el segundo tipo de tabla contiene la informacin sobre varias variables; el anlisis se conoce como de correspondencias mltiples. En la primera parte se dedicar al desarrollo del AC binario o

simple; el anlisis de correspondencias mltiples se presenta en la segunda parte de este captulo. A manera de ejemplo, considrese la matriz de frecuencias contenida en la tabla 2.1, tomada de Thompson (1995). En esta tabla las filas son el color de los ojos y las columnas el color del cabello, cuyas modalidades varan de claro a oscuro. Para encontrar la representacin ms adecuada de estos datos, es necesario comparar las filas y las columnas de la tabla. Tal comparacin implica hacer uso de una medida de distancia apropiada. El anlisis de correspondencias permite describir las proximidades existentes entre los perfiles, color de cabello (perfil fila) y color de los ojos (perfil columna), de acuerdo con la particin que se haga de los individuos, sea por filas o por columnas. La matriz de densidades o frecuencias relativas y las densidades marginales de filas y columnas es mostrada en la Tabla 2.2. Los nmeros son dados como porcentaje y representan el . Los nmeros a la derecha de cada fila, presentan las densidades marginales, como el porcentaje , y la ltima fila representa las densidades marginales por columna . En resumen, la mayora de las personas tienen el color de los ojos medio (32.93%) y el color de cabello ms comn es tambin medio (39.66%). Tabla 2.1. Frecuencias absolutas Color de Cabello Medio Oscuro (m) (o) 584 188 241 909 403 2137 110 412 681 1391

Color de ojos Claros (C) Azules (A) Medio (M) Oscuros (O) Total

Rubio (ru) 688 326 343 98 1455

Rojo (r) 116 38 84 48 286

Negro (n) 4 3 26 85 118

Total 1580 718 1774 1315 5387

El origen del anlisis de correspondencias se puede remontar a los trabajos Hirschfeld (1935) y de Fisher (1940) sobre tablas de contingencia, pero el verdadero responsable de esta tcnica estadstica es Benzecri (1964,1973 y 1976); tal como se cita en Lebart, Morineau y Fnelon (1985, pg. 276). Cox y Cox (1995, pg. 126) presentan el AC como un mtodo de escalamiento multidimensional sobre las filas y las columnas de una tabla de contingencia o matriz de datos cuyas entradas deben ser no negativas. En reconocimiento

a la escuela francesa se mantienen en este texto algunos de sus trminos, los cuales tienen sus respectivas nominaciones en la escuela anglosajona. Tabla 2.2. Frecuencias relativas Color de Cabello Medio Oscuro (m) (o) 10.84 3.49 4.47 16.87 7.48 39.66 2.04 7.65 12.65 25.83

Color de ojos Claros (C) Azules (A) Medio (M) Oscuros (O) Total

Rubio (ru) 12.77 6.05 6.37 1.82 27.01

Rojo (r) 2.15 0.71 1.56 0.89 5.31

Negro (n) 0.07 0.06 0.48 1.58 2.19

Total 29.32 13.33 32.93 24.42 100.00

Se presenta en este captulo, en forma esquemtica, la tcnica del anlisis de correspondencia. Por ser una tcnica estadstica relativamente nueva de nuestro medio, la escritura de esta parte sigue el estilo de la literatura citada para cada caso.

2.2. Representacin geomtrica de una tabla de contingencia


En la tabla de contingencia (matriz de datos) pueden considerarse dos espacio, el espacio fila o el espacio columna . Para el ejemplo anterior, el espacio color de los ojos y el espacio color de cabello , respectivamente. La matriz de datos , tiene -filas y -columnas, representa el nmero de individuos de la fila y la columna . En el ejemplo, es el nmero de individuos con el color de ojos y color del cabello . El nmero total de individuos por fila se nota por El nmero total de individuos por columna se nota por

El nmero total de individuos de la tabla est dado por

Las frecuencias relativas absolutas y marginales se notan como sigue se ha transformado en

Con lo anterior se puede apreciar que la matriz de elementos la matriz de elementos ; esta ltima se nota por .

Las frecuencias relativas condicionales, de columna respecto a filas (perfiles) y fila respecto a columnas, se escriben, respectivamente, como sigue:

En el espacio fila coordenadas

o nube de puntos fila, el -simo vector (perfil fila) tiene

La nube de puntos fila (perfil fila) queda determinada por la matriz , donde la matriz matriz diagonal que contiene las frecuencias marginales por fila o pesos . Se observa que cada punto o perfil fila est afectado por su peso . El centroide o baricentro (centro de gravedad) de la nube de puntos fila se representa por , sus coordenadas son las frecuencias marginales; es decir, ( ). De manera similar, en el espacio columna (perfil columna) tiene coordenadas o nube de puntos columna, el -simo vector

De esta manera, la nube de puntos columna queda representada por la matriz , donde es una matriz diagonal que contiene las frecuencias marginales por columna o pesos . Se nota tambin, que cada uno de estos puntos est afectado por los respectivos pesos . Tambin, el centroide o baricentro de la nube de puntos columna se representa por sus coordenadas son las frecuencias marginales; es decir, . En forma grfica se puede representar lo anterior mediante el esquema de la figura 2.1. ,

Figura 2.1. Tabla de frecuencias y sus marginales 2.2.1 Perfiles fila y columna Las ecuaciones 2.4 y 2.5 equivales a las densidades marginales y condicionales, respectivamente. De la tabla que contiene la frecuencia por celdas para cada fila , el vector de densidades condicionales de tamao es determinado a travs de , con y se nota por . Estas densidades condicionales por fila son llamadas perfiles fila. Paralelamente, el vector columna de densidades condicionales , con y es notado por . Las tablas 2.3 y 2.4 contienen los perfiles fila y columna, respectivamente. As, la tabla 2.3 muestra la distribucin del color del cabello por cada uno de los colores de ojos; recprocamente la tabla 2.4 suministra la distribucin del color de ojos manteniendo constante el color del cabello.

Tabla 2.3. Perfil fila Color de Cabello Medio Oscuro (m) (o) 0.3697 0.1190 0.3357 0.5124 0.3065 0.3966 0.1532 0.2322 0.5179 0.2583

Color de ojos Claros (C) Azules (A) Medio (M) Oscuros (O) Centroide columna

Rubio (ru) 0.4354 0.4540 0.1933 0.0745 0.2701

Rojo (r) 0.0734 0.0529 0.0474 0.0365 0.0531

Negro (n) 0.0025 0.0042 0.0147 0.0646 0.0219

Total 1.0000 1.0000 1.0000 1.0000 1.0000

La distribucin de frecuencias condicionadas, del color de cabello de acuerdo con el color de los ojos de las personas estudiadas, se representa en el vector , ste se ilustra en la figura 2.2. Alternamente, se ilustra la distribucin condicional de frecuencias del color de los ojos respecto al color del cabello en la figura 2.3. Los perfiles fila y columna pueden ser comparados con las distribuciones columna y fila con el respectivo peso, para juzgar su apartamiento de la independencia. La grfica del perfil color de ojos respecto al color del cabello muestra una alta similitud entre los perfiles ojos claros y ojos azules, lo mismo, aunque un poco ms baja, la similitud o proximidad entre los perfiles ojos medios y oscuros (figura 2.2). Para el perfil color del cabello, se encuentra una alta semejanza entre los perfiles cabello rubio y rojo y entre los cabellos oscuro y negro; el perfil cabello medio es bastante diferente de los dems, como se muestra en la figura 2.3.

Figura 2.2 Perfiles fila

Tabla 2.4. Perfil Columna Color de Cabello Medio Oscuro (m) (o) 0.2733 0.1352 0.1128 0.4254 0.1885 1.0000 0.0791 0.2961 0.4896 1.0000

Color de ojos Claros (C) Azules (A) Medio (M) Oscuros (O) Centroide columna

Rubio (ru) 0.4729 0.2241 0.2356 0.0674 1.0000

Rojo (r) 0.4056 0.1329 0.2937 0.1678 1.0000

Negro (n) 0.0339 0.0255 0.2203 0.7203 1.0000

Total 0.2932 0.1333 0.3293 0.2442 1.0000

Figura 2.3 Perfiles columna

2.3 Semejanza entre perfiles: distancia ji-cuadrado


Una vez que se han definido las dos nubes de puntos, espacio fila y espacio columna , se debe decidir como medir la distancia entre ellos. En el anlisis de correspondencias, la semejanza entre dos lneas (o entre dos columnas) est dada por la distancia entre sus perfiles (Escofier y Pags, 1990). Esta distancia es conocida con el nombre de distancia ji-cuadrado, se nota . Se define en forma anloga la distancia entre perfiles fila y columna, respectivamente. La distancia entre dos perfiles fila e est dada por

) es )

Similarmente, la distancia entre dos perfiles columna y (

Ntese que (2.8) y (2.9) miden la distancia entre dos distribuciones multinomiales; es decir, permite comparar los histogramas (distribuciones empricas) por cada par de filas o columnas. Las distancias dadas en las igualdades (2.8) y (2.9) difieren de la distancia euclidiana en que cada cuadrado es ponderado por el inverso de la frecuencia para cada modalidad; es decir, se ponderan las distintas coordenadas, de manera que se le da ms importancia a las categoras o modalidades con menor frecuencia y menos importancia a las que tengan alta frecuencia. Las distancias anteriores se traducen en el AC da prioridad a las modalidades raras, por cuanto stas, por su escasez, son ms diferenciadoras que las otras. La distancia ji-cuadrado es equivalente a la distancia euclidiana usual; es decir, tan slo es necesario transformar adecuadamente las coordenadas de los vectores de perfiles para obtener el cuadrado de la distancia euclidiana entre tales puntos. As, para dos perfiles fila e , su distancia est dada por:

))

Un resultado semejante se tiene para la distancia entre dos perfiles columna y , este es:

))

2.3.1 Equivalencia distribucional Esta propiedad permite juntar o agregar dos modalidades, con perfiles idnticos o proporcionales (linealmente dependientes) de una misma variable, en una modalidad

cuya ponderacin es la suma de los pesos asociados a cada modalidad; sin que se alteren las distancias entre las modalidades de esta variable, ni las distancias entre las modalidades de la otra variable. As por ejemplo, considrese que los perfiles fila e con pesos y son idnticos en , stos se unen en un nuevo perfil fila cuyo peso es . De otra manera, do (o ms) perfiles homogneos pueden confundirse en un solo, sin que se modifique la estructura de la nube de puntos. Lo mismo ocurre al juntar modalidades o perfiles columna. Esta propiedad garantiza cierta invarianza de los resultados del AC con relacin a la seleccin de modalidades para una variable; siempre que las modalidades agrupadas tengan perfiles semejantes. En resumen, no hay prdida de informacin al unir o dividir modalidades homogneas de una misma variable. La demostracin de esta propiedad se puede consultar en Lebart, Morineau y Piron (1995), pgs. 81-82.

2.4 Ajuste de las dos nubes de puntos


2.4.1 Ajuste de la nube de puntos fila en El problema consiste en encontrar un subespacio de dimensin menor que el espacio fila , es decir, , que conserve el mximo de la informacin de la nube de puntos original; una medida de la cantidad de informacin es la cantidad de varianza o inercia retenida por el subespacio . De la misma forma que el ACP, el AC procede a buscar una sucesin de ejes ortogonales sobre los cuales la nube de puntos es proyectada. El inters sobre las modalidades de la primera variable consiste en la yuxtaposicin de los perfiles fila. Cada perfil fila es un arreglo de valores numricos, el cual se representa por un punto del espacio , cada una de las dimensiones est asociada a una de las modalidades de la segunda variable. La distancia define la cercana entre los perfiles fila, o como se ha advertido, la distancia entre dos histogramas (distribuciones). Las distancias entre los puntos en el subespacio imagen, deben ser lo ms semejantes a las distancias entre los puntos de la nube inicial. Este objetivo es similar al ajuste de la nube de individuos para el ACP; es decir, que la nube analizada debe centrarse, de tal forma que su baricentro o centroide , sea escogido como el origen del sistema de coordenadas. Respecto al centroide de la nube, la clase definida por la modalidad se representa por un punto cuya coordenada sobre el -simo eje es igual a: . La posicin de este punto representa la diferencia entre la distribucin de la clase y el total

en las modalidades de la segunda variable. De esta manera, la bsqueda de las direcciones de mxima varianza o inercia de la nube centrada, pone en evidencia las clases que ms se apartan en el conjunto de perfiles de la poblacin. Cada perfil est previsto de un peso igual a su frecuencia marginal . Los pesos o ponderaciones intervienen, en primer lugar, en el clculo del baricentro de la nube y en segundo lugar, en el segundo lugar, en el criterio de ajuste de los ejes. Por un procedimiento similar al que se desarroll para componentes principales, se bosqueja el clculo para la determinacin de los ejes principales y las nuevas coordenadas de los puntos proyectados que conforman la nube. Los detalles se pueden consultar en Escofier y Pags (1990), Jobson (1992) y Saporta (1990). Sea la matriz de datos de tamao Sin prdida de generalidad, considrese primero la nube de puntos fila en . El problema consiste en buscar el subespacio de menor dimensin , que conserve la mxima informacin de la nube original. Esto se logra buscando un subespacio, , en el que la inercia de los puntos proyectados sea mxima, lo que equivale a maximizar la expresin: ( )

Donde ( ) es la distancia al cuadrado entre el perfil fila y su respectivo centroide , el cual est contenido en . Mediante el AC se busca primero la recta que est en la direccin de un vector unitario sobre la cual recoja la mxima inercia proyectada. ,

Una vez se ha encontrado esta recta, se busca otra, ortogonal a la primera y en la direccin de un segundo vector unitario , que recoja la mxima inercia restante proyectada. Hecho lo anterior se busca una tercera recta ortogonal a las dos primeras, y en la direccin de un vector unitario , que rena la mxima inercia restante proyectada y as sucesivamente. Una vez se termina este procedimiento constructivo; es decir, en el -simo paso, se obtiene una descomposicin de la inercia total de la nube de puntos fila original, en direccin ortogonal. El subespacio H se genera por los vectores unitarios . Se demuestra que los vectores , que determinan la posicin y direccin de los ejes principales, son generados por los respectivos valores propios de la matriz

en el orden

, los cuales son soluciones del sistema

El trmino general

de la matriz , se escribe en la forma

La inercia recogida en cada eje, igual que en el ACP, corresponde al valor propio asociado al eje; es decir,

Ntese que la matriz no es una matriz simtrica. Este problema se puede resolver como se muestra a continuacin. La matriz Sea en la forma se define, de acuerdo con (2.12), como , la cual es simtrica. Como la matriz . es diagonal se puede expresar

Por tanto La ecuacin (2.13) es equivalente a Multiplicando a la izquierda de cada miembro de la igualdad anterior por llamando , se obtiene De manera que la matriz y

Es simtrica y tiene los mismos valores propios que la matriz . Con esta ltima matriz resulta ms sencillo obtener los valores y vectores propios, los cuales sugieren la cantidad de inercia y la direccin de los ejes principales. Una ltima observacin es que la lnea que une el origen con el centro de gravedad G (fila o columna) es un vector propio de la matriz con relacin al valor propio , el cual tiene la forma en el espacio fila. Mediante la forma general del elemento de (seccin (2.4.1)) se muestra que ; es decir, que 1 es un valor propio de . Por tanto, es suficiente diagonalizar la matriz propio igual a 1 y su correspondiente eje tanto en como en y dejar de lado el valor .

2.4.2 Relacin con el ajuste de la nube de puntos columna en Un papel anlogo juegan los datos dispuestos en columna; es decir, aquellos que estn en correspondencia con los datos fila, de aqu que el anlisis en puede deducirse del desarrollo para mediante el intercambio de los subndices y . Las coordenadas de un punto columna (o vector de . ) tienen la forma , para

A partir de la matriz de datos , de tamao , se trata de buscar un subespacio de dimensin menor que n, tal que recoja la mxima cantidad de informacin de la nube original. Esto se logra, nuevamente, buscando un subespacio, , en el que la inercia de los puntos proyectados sobre ste sea mxima; es decir, maximizar la expresin: donde es la distancia al cuadrado entre el perfil columna centroide de las columnas . Los vectores generan el subespacio y el respectivo

, que determinan la posicin y direccin de los ejes principales y , se obtienen de los respectivos valores propios de la matriz

Retomando la ecuacin (2.13)

Premultiplicando en ambos lados por (

: ) ( )

As, se observa que el vector es proporcional a . Como la norma de respecto a es igual a , y adems, , se tiene entonces la siguiente relacin entre los vectores propios que generan los subespacios y , respectivamente

Las dos relaciones anteriores muestran que las coordenadas de los puntos sobre un determinado eje principal en un espacio, son proporcionales a las componentes del factor del otro espacio correspondientes al mismo valore propio. En general, denominando la proyeccin de la -sima fila sobre el eje , y la proyeccin de la columna -sima sobre el eje , se tienen las siguientes relaciones

Las ecuaciones (2.18), son llamadas ecuaciones de transicin, y pueden reescribirse en trminos de las coordenadas de proyeccin de la siguiente forma:

Estas ltimas ecuaciones ponen en relacin las dos representaciones grficas obtenidas. As, existe una relacin llamada pseudo-baricntrica, la cual especifica que las coordenadas de un punto fila pueden encontrarse como el baricentro de todas las coordenadas de los puntos columna, tomando como ponderaciones los elementos del perfil de la fila en cuestin y multiplicndolas por un factor de expansin. Otra interpretacin, de acuerdo con las dos ltimas ecuaciones, es la siguiente: un punto fila, aparece prximo de aquellas columnas en las cuales su perfil (frecuencia condicional) presenta mximos y aparece alejado de aquellas en las que el perfil tiene mnimos. En

forma simtrica, un punto columna aparece cercano de aquellas filas en las que su perfil presenta valores ms altos y est alejado de las filas en las que su perfil tiene valores ms bajos. Tambin, cuanto ms extremos aparezcan los puntos ms seguridad habr sobre la composicin de su perfil. Las relaciones cuasi-baricntricas (2.19) permiten la representacin simultnea de filas columnas. Aunque no tiene sentido la distancia entre un punto fila y un punto columna, pues stos pertenecen a espacios diferentes, el AC permite ubicar e interpretar un punto de un espacio (fila o columna) con respecto a los puntos del otro espacio. Como ilustracin, admtase que se tienen dos hojas de acetato y en cada una de ellas se han dibujado las proyecciones de los espacio fila y columna, por la propiedad mencionada es posible superponer las dos lminas para ayudarse en la interpretacin y bsqueda de resultados.

2.4.3 Reconstruccin de la tabla de frecuencias En forma semejante al desarrollo hecho en el ACP, se reconstruye la matriz de frecuencia. Esta matriz ( ) se puede obtener aproximadamente mediante De las anteriores relaciones (2.18) y sustituyendo y por sus respectivas proyecciones, despus de algunas simplificaciones se obtiene la frmula de reconstruccin de la matriz , con { 2.4.4 Ubicacin de elementos suplementarios A veces, como una estrategia para la interpretacin, se pueden adicionar a la matriz de datos filas (individuos) o columnas (variables), de los cuales se conoces sus caractersticas. El objetivo es proyectarlos en las respectivas nubes (individuos o variables); la posicin de stos (individuos o variables suplementarios) es til para interpretar los nuevos ejes y los grupos que conforman tanto los individuos como las variables iniciales ( activos). stos se pueden considerar como marcadores, en el sentido de que la ubicacin de los dems respecto a tales elementos ayuda a esclarecer los diferentes perfiles de grupos (de variables u objetos) que se conforman; aqu se aplica el aforismo que reza: dime con }

quien andas y te dir quien eres. Se obtiene as, una tabla ampliada de un cierto nmero de columnas (o filas) suplementarias. Se trata entonces de posicionar los perfiles de estos nuevos puntos-columna respecto a los puntos ya situados en , como se ilustra en la figura 2.4.

Figura 2.4 Elementos suplementarios. Para las columnas suplementarias, sea suplementaria; su perfil est dado por: { } la -sima coordenada de la -sima columna

La proyeccin del punto sobre el eje , de acuerdo con (2.19), es:

Anlogamente, para una lnea suplementaria , se tiene:

El inters de proyectar variables suplementarias est en enriquecer la interpretacin de los grficos factoriales obtenidos. El mismo procedimiento. El mismo procedimiento se sigue para individuos suplementarios.

2.4.5 Interpretacin de los ejes factoriales El problema central, una vez se ha reducido la dimensionalidad del conjunto de datos, es la asignacin de un nombre a los primeros ejes factoriales, para interpretar las proyecciones sobre los planos factoriales, junto con la superposicin, de acuerdo con las relaciones de transicin. La asignacin de un nombre est en relacin con la contribucin absoluta de cada eje a la variabilidad total, la cual expresa la proporcin de la varianza (inercia) con que una modalidad de la variable contribuye a la varianza retenida por el eje. En la asignacin del nombre, tambin se consideran las contribuciones relativas (cosenos cuadrados) o correlaciones entre elementos-factor, que expresan las contribuciones de un factor en la explicacin de la dispersin de un elemento. Mediante las contribuciones absolutas se puede saber qu variables son las responsables de la construccin de un factor, las contribuciones relativas muestran cuales son las caractersticas exclusivas de este factor. Los ejes no aparecen por azar, sino que identifican las direcciones de mayor dispersin (mayor inercia) con respecto a la nube de puntos, siendo la inercia proyectada sobre cada eje igual a su valor propio ; es decir,

La contribucin de cada punto (fila) en la inercia de cada eje

esta dada por:

Este cociente muestra la contribucin del elemento (fila) al eje , permite establecer en cunta proporcin un punto contribuye a la inercia de la nube de puntos proyectada sobre el eje . As, para interpretar un eje se deben identificar los puntos de mayor contribucin, sin perder de vista que la contribucin media de un punto es separando los puntos , separando los puntos de acuerdo con el signo de coordenada respecto al eje. La interpretacin puede hacerse a partir de los puntos fila, como se ha insistido, o tambin por parte de los puntos columna. De esta misma forma, se define la contribucin del elemento (columna) al eje mediante:

Ahora la inquietud es, Qu tan bien queda representado cada punto en los ejes factoriales obtenidos?. Como se tienen los puntos en la base representada por los ejes factoriales, se puede medir la calidad de representacin de un punto sobre un eje (contribucin relativa) mediante el cociente

que es el coseno al cuadrado del ngulo formado por el punto con el eje . De otra manera, se trata de la relacin entre una variable multinomial ( -modalidades) y un eje factorial. sta es la contribucin relativa o coseno cuadrado. Un coseno cuadrado prximo a 1 identifica un ngulo cercano a 0 o a 180. Los cosenos cuadrados son aditivos respecto a los ejes factoriales (pues ), luego permiten medir la calidad de la representacin de los puntos en el espacio definido por los primeros ejes factoriales y la deteccin de puntos mal representados en los ejes seleccionados. Valores de estos cosenos al cuadrado prximos a 1 dan cuenta de puntos que influyen o estn asociados altamente con el respectivo eje. De manera similar se mide la contribucin relativa del eje factorial a la posicin del punto (columna), es decir, mediante el coseno al cuadrado del ngulo formado entre el eje y el vector ; esta expresin es:

Similarmente, valores bajos de posicin del punto .

indican una contribucin pobre del eje

en la

Ejemplo 2.1 Retomando la tabla de contingencia para el color de ojos y cabello en una muestra de 5387 personas (ahora tabla 2.5) La nube de puntos fila queda representada por

)(

Con

, matriz diagonal que contiene las frecuencias marginales por fila Tabla 2.5. Color de ojos vs. Color del cabello Color de Cabello Medio Oscuro (m) (o) 584 188 241 909 403 2137 110 412 681 1391

Color de ojos Claros (C) Azules (A) Medio (M) Oscuros (O) Total

Rubio (ru) 688 326 343 98 1455

Rojo (r) 116 38 84 48 286

Negro (n) 4 3 26 85 118

Total 1580 718 1774 1315 5387

El centroide o baricentro de la nube de punto fila se representa por , y sus coordenadas son iguales a las frecuencias marginales; es decir,

La matriz diagonalizar es dada por la ecuacin (2.15)

( )

Los valores propios de son, en forma decreciente, 1.000, 0.1992, 0.0301, 0.0009 y 0.000. Como se explic anteriormente el valor propio igual a 1.0000 es descartado. En el siguiente cuadro se resumen los valores propios junto con la inercia individual y acumulada retenida por cada valor propio. Valor Propio 0.1992 0.0301 0.0009 0.0000 Porcentaje 86.56 13.07 0.37 0.00 Porc. Acum. 86.56 99.63 100.00 100.00

********* *** * *

La tabla anterior indica que con la primera dimensin se rene el 86.6% de la varianza y que con la segunda dimensin se rene casi toda su variabilidad; es decir, 99.6%. Las coordenadas para la reconstruccin de la matriz se obtienen de acuerdo con la ecuacin (2.18), los resultados para la descomposicin por filas (color de ojos) o columnas (color de cabello) se resumen en la tabla 2.6. La figura 2.5 representa la proyeccin de los puntos fila y columna (tabla 2.6) en el primer plano factorial. La primera dimensin est relacionada con el color del cabello, variando, de izquierda a derecha, desde el color oscuro al claro, respectivamente. Se puede apreciar que los datos referentes a los ojos siguen un patrn similar al del cabello, con colores oscuros a la izquierda y claros a la derecha. Los puntos para azul y rubio estn razonables prximos; aunque algunas veces es difcil determinar si las personas tienen ojos claros o azules por problemas de pigmentacin.

Tabla 2.6 Coordenadas, color de ojos y del cabello Coordenadas fila Color de ojos Dim. 1 Dim. 2 Claros 0.44 0.09 Azules 0.40 0.17 Medios -0.30 -0.25 Oscuros -0.70 0.13 Coordenadas columna Color del cabello Dim. 1 Dim. 2 Rubio 0.54 0.17 Rojo 0.23 0.05 Medio 0.04 -0.21 Oscuro -0.59 0.10 Negro -1.09 0.29

En resumen, la direccin del color es de izquierda a derecha, y va de claro a oscuro; tanto para el cabello como para los ojos. El procedimiento para el anlisis de correspondencias simple o binaria se puede resumir en las siguientes etapas, las cuales se ilustran en la figura 2.6

Figura 2.5. Representacin de los datos color de ojos (

) y del cabello ( ).

1. Se parte de los datos originales, las filas y columnas juegan papeles simtricos; stas son las modalidades de las dos variables, respectivamente. La suma de todos los trminos de la tabla es , el cual es el nmero total de individuos o efectivos. 2. Se construye una tabla de las frecuencias relativas las cuales conforman las probabilidades. Las frecuencias marginales, fila o columna, dadas por los vectores y , son las probabilidades marginales o perfiles fila y/o columna, respectivamente. 3.-4. Para estudiar las lneas de la tabla, se les transforma en perfiles fila. De manera semejante se procede con las columnas. Se dispone entonces de dos tablas, una para los perfiles fila y otra para los perfiles columna. Un perfil se interpreta como una probabilidad condicional. El perfil medio es la distribucin asociada con la que se presenta en el numeral 2. El perfil-fila es una arreglo de p-nmeros y est representado por un punto de . La nube de punto , de los perfiles fila, est en un hiperplano de vectores tales que la suma de sus componentes es igual a 1. Cada perfil fila es afectado por los puntos de manera que la nube esta equilibrada en los perfiles medios o baricentro . En la nube se busca la semejanza entre los perfiles, medida a travs de una distancia . La representacin de los perfiles columna de representacin de los perfiles fila en . se hace de forma anloga a la

5.

6.

7.

El anlisis factorial de la nube consiste en poner en evidencia una sucesin de direcciones ortogonales, tales que la inercia, con relacin al origen O de la proyeccin de la nube de puntos sobre tales direcciones sea mxima. Simtricamente, se desarrolla un procedimiento anlogo para las columnas.

8.

9.-10 Los planos factoriales, determinados por dos factores sobre las filas o sobre las columnas, proporcionan imgenes aproximadas de las nubes y , sobre este plano, la distancia entre dos puntos se interpreta como la semejanza entre los perfiles de esos puntos. El origen de los ejes se considera como el perfil promedio. 11. Las relaciones de transicin expresan los resultados de un anlisis factorial, por ejemplo los del espacio dila en funcin del espacio columna y recprocamente, los del espacio columna en funcin del espacio fila. 12. Una vez que se han realizado las transiciones, las interpretaciones de los planes factoriales que representan a y deben hacerse conjuntamente. sta es la comodidad de las superposiciones, la interpretacin de esta representacin simultnea se facilita por la propiedad del doble baricentro.

Figura 2.6. Esquema del anlisis de correspondencias.

You might also like