Analisis de Datos Multivariados

Resumen Clases Anlisis de Datos Multivariado a Patricio Salas
Departamento de Estad stica Facultad de Ciencias F sicas y Matemticas a Universidad de Concepcin o 19 de junio de 2012
Indice
1. Anlisis Factorial a 1.1. Aplicacin en software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 2. Analisis de Conglomerados (Cluster ) 2.0.1. Mtodos Jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e a 2.0.2. Mtodos no jerrquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e a 2.1. Aplicacin en SPSS o 3. Anlisis discriminante a 3.1. Aplicacin en STATISTICA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . o 4. Anlisis de Correlacin Cannica a o o 5. Anlisis de Correspondencia a 5.1. Tablas de Contingencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 4 7 8 8 10 12 14 14 15
5.2. Test Chi-Cuadrado para independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.
Anlisis Factorial a
El Anlisis Factorial tiene muchos puntos en comn con el anlisis de componentes principales, y busca a u a esencialmente nuevas variables o factores que expliquen los datos. En el anlisis de componentes principales, a en realidad, slo se hacen transformaciones ortogonales de las variables originales, haciendo hincapi en la o e varianza de las nuevas variables. En el anlisis factorial, por el contrario, interesa ms explicar la estructura a a de las covarianzas entre las variables. Al igual que en el mtodo de los componentes principales, para efectuar e el anlisis factorial, es necesario que las variables originales no estn incorreladas porque si lo estuvieran no a e habr nada que explicar de las variables. Existen varios mtodos de extraccin de factores. El ms conocido a e o a es el mtodo de Componentes Principales, el cual considera x observaciones en un espacio n-dimensional, este e mtodo va generando vectores (factores) que explican, en la mayor proporcin posible, la varianza existente en e o los datos. Al contrario que el anlisis de componentes principales, el anlisis factorial no pretende recoger toda a a la varianza observada de los datos, sino la que comparten los factores comunes. De hecho, el anlisis factorial se a centra ms en recoger las covarianzas o correlaciones que aparecen entre las variables originales. Otro mtodo es a e el de mxima verosimilitud, en el cual hay que probar que las variables tienen distribucin normal multivariada, a o con este mtodo se puede probar la hiptesis de que el modelo de k factores es correcto vs. que la hiptesis e o o alternativa de que no tiene restricciones es correcta. Este mtodo se utiliza para datos cuantitativos ya sean discretos o continuos. Al igual que en todos los e anlisis multivariados de datos se deben cumplir ciertos supuestos para poder aplicarlo como por ejemplo: a
1.1.
Aplicacin en software o
Primero se debe probar que las variables estn correlacionadas. Si todas las correlaciones son demasiado a bajas quizs no sea apropiado ocupar este mtodo (habr tantos factores como variables). Del mismo a e a modo, si todas las correlaciones son excesivamente altas es probable que el anlisis no resulte adecuado a (habr slo un factor signicativo). a o Segundo se debe probar el supuesto de normalidad multivariada, ya que en el anlisis factorial se trata de a modelar el conjunto de datos y probar la hiptesis de que el modelo de k factores es correcto. o
Para probar estos supuestos es necesario tener algunos test o criterios apropiados los cuales son presentados a continuacin.Partiremos mencionando los test que se utilizan. o Test de normalidad de Mardia, Henze-Zirkler, etc para probar normalidad multivariada. Prueba de esfericidad de Barlett se ocupa para rechazar la hiptesis nula que dice que las variables no o estn correlacionadas. Un valor alto de este estad a stico favorece el rechazo de la hiptesis nula. o Medida KMO medida que va entre 0 y 1. Un valor bajo de este estad stico indica que estas correlaciones no podrn ser explicadas por medio de otras variables (factores), por lo que se desea un valor que sea al a menos 0.5. Ahora se mencionarn los criterios que se utilizan para la eleccin de factores. a o Determinacin en base a los valores espec o cos slo se conservan los factores con valores propios mayores o que 1. Un valor propio representa la cantidad de varianza relacionada con el factor, y cuando su varianza es menor que 1 no ser mejor que una variable observable. a Determinacin en base al porcentaje de la varianza se eligen factores hasta que acumulen cierto porceno taje de la varianza considerado como satisfactorio (al menos el 60 % de la varianza total de los datos) Determinacin en base al grco de sedimentacin (scree plot) se gracan los valores propios respecto o a o al nmero de factores. El trazo resultante muestra un quiebre distintivo entre factores con valores propios u altos y aquellos con valores propios bajos. En consecuencia, se escoge el nmero de factores previo a la u formacin de ese quiebre (?codo?). o 2
Existen dos tipos de anlisis factoriales, los cuales son : a Anlisis Factorial Explicativo se caracteriza porque no se conocen a priori el nmero de factores y es en la a u aplicacin emp o rica donde se determina este nmero. u Anlisis Factorial Conrmatorio los factores estn jados a priori, utilizndose contrastes de hiptesis para a a a o su corroboracin. o
2.
Analisis de Conglomerados (Cluster )
Esta es una tcnica multivariada primitiva la cual a diferencia del analisis factorial no realiza supuestos acerca e del numero de grupos o la estructura de los grupos.Estos grupos son realizados sobre la base de similaridades o distancias(disimilaridades). Si bien es cierto que el proceso de agrupamiento conlleva inicialmente a una prdida de informacin ya que e o se sitan en una misma clase unidades que no son idnticas (solo semejantes), la s u e ntesis de la informacin o disponible sobre las unidades consideradas puede facilitar considerablemente la visualizacin de relaciones mulo tivariadas de naturaleza compleja. Se recurre a tcnicas de agrupamiento cuando no se conoce una estructura e de agrupamiento de los datos a priori y el objetivo operacional es identicar el agrupamiento natural de las observaciones. Las tcnicas de clasicacin basadas en agrupamientos implican la distribucin de las unidades e o o de estudio en clases o categor de manera tal que cada clase (conglomerado) rene unidades cuya similitud es as u mxima bajo algn criterio. Es decir los objetos en un mismo grupo comparten el mayor nmero permisible de a u u caracter sticas y los objetos en diferentes grupos tienden a ser distintos. Para agrupar objetos (casos o variables) es necesario seguir algn algoritmo.Los algoritmos de clasicacin u o pueden dividirse en no jerrquicos y jerrquicos. En las tcnicas de clasicacin no jerrquicas se desea obtener a a e o a una unica descomposicin o particin del conjunto original de objetos en base a la optimizacin de una funcin o o o o objetivo. Mientras que en las tcnicas de clasicacin jerrquicas, se pretenden encontrar particiones jerarquizae o a das, esto es, consecutivamente ms nas (o menos nas), luego los objetos son unidos (o separados) en grupos a paso por paso. Cuando se disponen de numerosas variables para realizar el agrupamiento, es comn utilizar (antes del u anlisis de conglomerados) tcnicas de reduccin de dimensin tal como Anlisis de Componentes Principales a e o o a para obtener un nmero menor de variables capaces de expresar la variabilidad en los datos. Esta tcnica puede u e facilitar la interpretacin de los agrupamientos obtenidos. o En la prctica, se recomienda aplicar varios algoritmos de agrupamiento y de seleccin o combinacin de a o o variables para cada conjunto de datos. Seleccionando, nalmente, desde los agrupamientos realizados la interpretacin ms apropiada. o a El coeciente de correlacin cofentica el cual puede ser usado para seleccionar uno de varios agrupamientos o e alternativos, este coeciente indica la correlacin de las distancias denidas por la mtrica de rbol binario con o e a las distancias originales entre objetos, luego se espera que el agrupamiento con mayor coeciente sea el que mejor describe el agrupamiento natural de los datos. Es importante remarcar que los procedimientos de agrupamiento producen resultados exitosos cuando la matriz de datos tiene una estructura que es posible interpretar desde el problema que origin la recoleccin de o o la informacin. Por ello, logrados los grupos es importante caracterizar los mismos a travs de diversas medidas o e resumen para favorecer la interpretacin del agrupamiento nal. o
Mtodos de Agrupamiento e 2.0.1. Mtodos Jerrquicos e a
Los mtodos jerrquicos producen agrupamientos de tal manera que un conglomerado puede estar contenido e a completamente dentro de otro, pero no est permitido otro tipo de superposicin entre ellos. Los algoritmos de a o conglomeracin jerrquicos utilizados con nes de agrupamiento pueden ser aglomerativos o divisivos (utilizan o a fusiones o divisiones sucesivas de los objetos a agrupar). Los mtodos aglomerativos realizan grupos por el procedimiento de uniones sucesivas. En el inicio hay tantos e grupos como objetos. Los objetos similares se agrupan primero y esos grupos iniciales son luego unidos de acuerdo a sus similitudes. Los mtodos jerrquicos divisivos comienzan asumiendo que todos los objetos pertenecen a e a un mismo grupo al cual particionan en subdivisiones cada vez ms nas, hasta el punto donde cada objeto es a considerado un conglomerado de tamao unitario. InfoStat trabaja con mtodos aglomerativos ya que estos son n e ms satisfactorios con respecto a los tiempos de clculo. a a Los resultados de agrupamientos jerrquicos se muestran en un dendrograma (diagramas de rboles en dos a a dimensiones), en el que se pueden observar las uniones y/o divisiones que se van realizando en cada nivel del proceso de construccin de conglomerados, lo cual se puede ver en la siguiente gura. o
Figura 1: Dendograma
Las ramas en el rbol representan los conglomerados. Las ramas se unen en un nodo cuya posicin a lo largo a o del eje de distancias indica el nivel en el cual la fusin ocurre. El nodo donde todas las entidades forman un unico o conglomerado, se denomina nodo ra Debido a que en cada nivel se evala la unin de dos observaciones (o dos z. u o conglomerados), estos dendogramas se conocen como rboles binarios. En la prctica, el inters principal suele a a e estar centrado en resultados intermedios donde los objetos se encuentran clasicados en un nmero moderado u de conglomerados. Una de las principales caracter sticas de los procedimientos de agrupamiento jerrquicos aglomerativos es que a la ubicacin de un objeto en un grupo no cambia, o sea, que una vez que un objeto se ubic en un conglomerado, o o no se lo reubica. Este objeto puede ser fusionado con otros pertenecientes a algn otro conglomerado, para u formar un tercero que incluye a ambos. Los algoritmos aglomerativos proceden de la siguiente manera: inicialmente, cada objeto pertenece a un
conglomerado diferente; en la siguiente etapa se fusionan los dos objetos ms cercanos para formar el primer a conglomerado; en la tercera etapa, un nuevo objeto se agrega al conglomerado formado en la primera etapa u otros dos objetos se fusionan formando un segundo conglomerado. El proceso contina de manera similar hasta u que, eventualmente, se forma un solo conglomerado que contiene todos los objetos como integrantes del mismo.
Las tcnicas de agrupamiento jerrquico dieren por la regla de asignacin de objetos a un conglomerado o e a o fusin de conglomerados que utilizan. o
Figura 2: Mtodos de Union para las tcnicas aglomerativas e e
Los tres mtodos presentados en la gura se describen a continuacin: e o Encadenamieto simple(Single Linkage) Los grupos se unen basndose en la distancia entre los dos miema bros ms cercanos. Este mtodo tambin conocido con el nombre de procedimiento del vecino ms cercano a e e a (nearest neighbor) utiliza el concepto de m nima distancia y comienza buscando los dos objetos que la minimizan. Ellos constituyen el primer conglomerado. En las etapas siguientes se procede como se ha explicitado en el punto anterior, pero partiendo de n-1 objetos donde uno de ellos es el conglomerado formado anteriormente. La distancia entre conglomerados est denida como la distancia entre sus miembros ms cercanos. a a Dado que el procedimiento de encadenamiento simple une conglomerados en funcin de la m o nima distancia entre sus elementos, el procedimiento puede tener problemas cuando hay grupos muy cercanos o con cierta superposicin. El procedimiento de encadenamiento simple, es uno de los pocos procedimientos de o clasicacin que tienen un buen desempeo con conguraciones de conglomerados no el o n pticas (datos en cadena). Este mtodo es recomendado para detectar estructuras de agrupamiento irregular y elongadas. e Tiende a separar los extremos de la distribucin antes de separar los grupos principales. Por ello tiende a o producir agrupamientos de grupos en cadena. Encadenamiento completo (Complete Linkage) La distancia entre conglomerados es la del par de objetos ms distantes. Este mtodo tambin conocido con el nombre de vecino ms lejano (farthest neighbor) es a e e a similar al anterior, pero las distancias se denen ahora, como la distancia entre pares de individuos ms a distantes. Puede demostrarse que este mtodo es idntico al mtodo conocido como .m e e e nimo rbol. El algoritmo para a calcular la distancia entre conglomerados corresponde a la divisin del rbol formado mediante la unin, en o a o primera instancia, de los dos objetos con menor separacin, luego aqul con la prxima menor separacin, o e o o etc., y que une nalmente aquellos con la mayor separacin. Tiende a producir grupos con igual dimetro o a y es poco resistente a valores extremos. Encadenamiento promedio (average linkage) En este mtodo la distancia entre dos conglomerados se obe tiene promediando todas las distancias entre pares de objetos, donde un miembro del par pertenece a uno de los conglomerados y el otro miembro al segundo conglomerado. Este es uno de los mtodos ms simple e a y el que se ha encontrado ms exitoso en numerosas aplicaciones. Se han propuesto varias expresiones para a calcular la distancia promedio, una de ellas es:
d(AB)C =
i j dij nAB nc
donde dij es la distancia entre el objeto i, que pertenece al conglomerado AB y el objeto j que pertenece a al conglomerado C, siendo la sumatoria sobre todos los posibles pares de objetos entre dos conglomerados y donde nAB y nC son los nmeros de objetos en los conglomerados AB y C respectivamente. El mtodo u e tiende a producir grupos de igual varianza. Existen otros mtodos tan importantes y utilizados como los presentados anteriormente, se mencionarn dos e a de ellos a continuacin: o
Mtodo del centroide Toma el promedio de todos los objetos en un conglomerado (centroide) para representar e al conglomerado y mide las distancias entre objetos o conglomerados con respecto a dicho centroide. Es el procedimiento aglomerativo ms robusto a valores extremos. a Mtodo de Ward (minima varianza) Es similar al mtodo del centroide, pero cuando une conglomerados e e realiza una ponderacin (por el tamao de cada grupo) de todos los conglomerados participantes, as en o n cada unin la prdida de informacin es minimizada. Dene la distancia entre dos grupos como la suma o e o de las sumas de cuadrados del ANOVA entre los dos grupos sobre todas las variables. El mtodo es e recomendado para datos con distribucin normal y matrices de covarianzas esfricas, homogneas entre o e e grupos. Tiende a producir grupos con igual nmero de observaciones y puede ser muy afectado por valores u extremos.
2.0.2.
Mtodos no jerrquicos e a
El algoritmo agrupa objetos en k grupos haciendo mxima la variacin entre conglomerados y minimizando a o la variacin dentro de cada conglomerado. Este mtodo comienza con un agrupamiento inicial o con un grupo o e de puntos semilla (centroides) que formarn los centros de los grupos (particin inicial del grupo de objetos en a o k tems). Prosigue asignando cada objeto al grupo que tiene el centroide (media) ms cercano. La distancia comnmente a u usada es la Eucl dea, tanto en observaciones estandarizadas como en las no estandarizadas. Se trabaja con la minimizacin de la funcin objetivo (suma de distancias al cuadrado). La particin lograda es aquella tal que la o o o suma de la suma de las distancias al cuadrado de los miembros del grupo respecto a su centroide es m nima. El mtodo se basa as en el principio de los k mejores centroides. Los centroides son modicados cada vez que un e objeto se transere de un grupo al otro. El algoritmo K-means es ptimo en cada paso. Los resultados nales o podr depender de la conguracin inicial, de la secuencia en que son considerados los objetos a agrupar an o y claramente del nmero de grupos. A los nes de alcanzar un ptimo global, es recomendable usar varias u o particiones iniciales y seleccionar aquella particin nal con m o nimo valor de la funcin objetivo. o La aplicacin sucesiva de procedimientos jerrquicos y no-jerrquicos es una estrategia recomendada para o a a determinar el nmero de grupos ms apropiado para el problema en cuestin. Es recomendable aplicar en u a o primera instancia un mtodo jerrquico aglomerativo que sugiera un determinado nmero de grupos (grupos e a u formados al establecer un criterio de corte como por ejemplo el 55 % de la distancia mxima) y luego utilizar a dicha informacin como particin inicial del algoritmo K-means. o o
Distancias
El anlisis de conglomerados requiere medir la similitud entre las entidades a agrupar. La seleccin de una a o medida de distancia apropiada depende de la naturaleza de las variables (cualitativa, cuantitativa), de la escala de medicin (nominal, ordinal, intervalo, cociente) y del conocimiento del objeto de estudio. Todas las funciones o de distancia discutidas en este documento pueden ser usadas con cualquier procedimiento de formacin de o conglomerados. Para datos con propiedades mtricas (continuos, escala por intervalos y/o cocientes) pueden usarse medidas e de distancia como la de Manhattan o la Eucl dea mientras que para datos cualitativos o atributos discretos son ms apropiadas las distancias basadas en medidas de similitud o asociacin. a o Para el agrupamiento de variables son recomendadas medidas de distancia basadas en coecientes de correlacin. o
Las medidas de distancia ms utilizadas para variables continuas son: a
Distancia Euclidea dij = (p (xik xjk )2 ) 2 k=1

1
donde xik es el valor de la k-sima variable para el individuo i. Esta distancia tiene la propiedad de que dij e puede interpretarse como distancia f sica entre dos puntos p-dimensionales xi = (xi1 , ...xip ) y xj = (xj1 , ...xjp ) en espacio euclideano.
Distancia Manhatan o city-block

1 dij = p p |xik xjk | k=1 Esta medida es ms robusta contra observaciones at a picas que la distancia euclideana. Describe distancias en una conguracin rectil o nea.
2.1.
Aplicacin en SPSS o
3.
Anlisis discriminante a
El anlisis discriminante puede considerarse una tcnica multivariante de clasicacin de individuos en la a e o que se presupone la existencia de dos o ms grupos bien denidos con anterioridad y los objetivos que persiguen a son describir las diferencias existentes entre esos grupos en base a los valores que toman ciertas variables sobre los individuos de cada uno de los grupos y clasicar nuevos individuos en alguno de los grupos preexistentes en funcin de los valores que toman ciertas variables para esos individuos. o Para realizar un anlisis discriminante es necesario considerar: a Es necesario que existan al menos dos grupos, y para cada grupo se necesitan dos o ms casos. a El nmero de variables discriminantes debe ser menor que el nmero de objetos menos dos x1 , x2 , . . . , xp , u u donde p < (n 2) y n es el nmero de objetos. u Ninguna variable discriminante puede ser combinacin lineal de otras variables discriminantes. o El nmero mximo de funciones discriminantes es igual al m u a nimo entre el nmero de variables y el nmero u u de grupos menos 1 (con q grupos,(q-1) funciones discriminantes) Las variables no deben estar correlacionadas entre si. La matriz de varianza covarianza deben ser iguales. Las variables deben tener distribucin normal, en cada grupo. o Se tiene que las funciones discriminantes son combinaciones lineales de las variables, estas combinaciones deben maximizar la varianza entre los grupos y minimizarla dentro del grupo.Es por ello que es de inters e determinar si los grupos son diferentes. Cada una de las funciones dicriminante tiene asociado un valor propio (i ), el cual indica el poder discriminante de la funcin.Mientras que el vector propio asociado a cada valor propio ayuda a construir las f. o discriminantes. 8
Para determinar el nmero de funciones discriminantes apropiado existen algunos test y/o criterios: u La prueba de hiptesis asociada es : o H0:k+1 = 2 = . . . = min(p,q1) H1:1 = 0 Si se rechaza la hiptesis nula inmediatamente tendremos una funcin discriminante y grupos que dieren, o o adems si ocurre esto pasamos a lo siguiente. a H0:2 = 3 = . . . = min(p,q1) H1:2 = 0 Este es un contraste de hiptesis secuencial, donde k es el nmero de funciones discriminantes signicativas, este o u proceso comienza con k=0. El estad stico de pueba es:
T = n1
p+q 2
min(p,q1) log (1 j=k+1
+ j ) 2 (pk)(qk1)
A continuacin se presentan criterios para determinar el nmero ptimo de funciones discriminante. o u o
Proporcin de cada valor propio: o i j Este criterio compara entre s las funciones discriminantes cuanticando, en trminos relativos, el poder e discriminatorio de cada una de ellas con respecto al total, es decir, calculando el porcentaje del poder discriminante correspondiente a cada una de ellas sobre el total acumulado por todas las funciones. Lambda de Wilks:
= i=1
min(p,q1)
1 1+i
El estad stico de Wilks es tambin una medida de las diferencias entre los grupos debidas a las fune ciones discriminantes, que se utiliza, no tanto para contrastar la signicacin de una funcin concreta, o o sino para medir de forma secuencial el poder discriminatorio de cada una de las funciones que se van construyendo.Cuanto mas cercano a cero mayor es el poder discriminante de la funcin. o Correlacin cannica: o o
cci =
i 1+i
Mide en trminos relativos, el poder discriminante de la i-sima funcin discriminante, valores cercanos a e e o uno indican mayor potencia discriminante. Finlmente como el objetivo es poder clasicar nuevos individuos dentro de uno de los grupos segn sean los a u valores de las mediciones de las variables, para evaluar si el proceso de clasicacin es correcto debemos ver la o presicin de la tabla de clasicacin cruzada. o o
3.1.
Aplicacin en STATISTICA o
Se utiliz el conjunto de datos Iris visto en clases y se le realizo un analisis discriminante vuyos resultados o sern presentados a continuacin. a o
Figura 3: Salida que representa cuales variables son necesarias en el modelo
Esta salida nos dice que pasar con el modelo si se le fuesen quitando variables, si nos jamos en los valores-p a asociados a cada la podemos decidir cuales son las variables que deben quedarse en el modelo y cuales no. Para este caso ser las cuatro variables. an
Figura 4: Test secuencial.
Esta salida representa el test secuencial,el cual nos dir con cuantas funciones discriminantes debemos quea darnos, se aprecian los valores propios asociados a cada funcin y los de Wilks. Por lo tanto se concluye que o en ambos casos se rechaza la hiptesis nula por lo tanto nos quedamos con las dos funciones discriminantes. o
Figura 5: Coecientes de las funciones discriminantes
Esta salida nos entrega los coecientes de las funciones discriminantes en bruto , esto quiere decir sin estandarizar.Adems aparecen los valores propios. a
10
Figura 6: Coecientes de las funciones discriminantes
Esta salida nos entrega los coecientes de las funciones con las variables estandarizadas. Esta con la anterior nos sirven para construir las funciones discriminantes.
Figura 7: Correlaciones entre las f. disciminantes y las variables
Esta salida nos entrega las correlaciones entre las variables originales y las funciones discriminantes, por lo que se puede concluir al observar los resultados que: Sepal Ancho est fuertemente correlacionada con la segunda funcin discriminante por lo que para altos a o valores de la funcin se tendran altos valores de Sepal Ancho o Petal Largo esta fuertemente correlacionada en sentido inverso con la primera funcin discriminante por o que que para altos valores de la funcin se tendrn bajos valores de Petal Largo o a
Figura 8: Media de las funciones discriminantes dentro de cada grupo
En esta salida se presentan los promedios de cada una de las funciones discriminantes para cada uno de los grupos.
11
Figura 9: Tabla de clasicacin cruzada o Esta salida representa el punto nal de nuestro anlisis discriminante debido a que en esta tabla se presenta la a efectividad con la que se clasicaron cada una de las observaciones.Vemos que obtenemos un 98 % de clasicacin o correcta por lo que validamos nuestro anlisis. a Finalmente se presenta el grco de las dos funciones discriminantes. a
Figura 10: Graca de las funciones disciminantes
4.
Anlisis de Correlacin Cannica a o o
La correlacin cannica estudia la correlacin ente un conjunto Xi de variables aleatorias independiente y un o o o conjunto Yi de variables dependientes.Desde el punto de vista metodolgico el uso de las correlaciones cannicas o o exige varias reexiones: la primera acerca del nmero de variables que componen el grupo X y el grupo Y. Si u son muchas, posiblemente en casa grupo puede suceder que exista altas incorrelaciones, lo cual es igual a decir que se estn incluyendo 2 o ms variables que miden lo mismo. Si son muy pocas, es posible que no se acierte a a a incluir aquellas variables que realmente tienen mayor fuerza explicativa.Por lo tanto se puede tomar como norma orientativa que el nmero mximo de variables sean 5 o 6. u a La segunda reexin hace referencia a que el comportamiento ideal de las variables es aquel que presenta o muy baja incorrelacin dentro de cada grupo, tanto en el de las X como en el de las Y, y mxima entre los dos o a grupos. Esto implica una eleccin anada de aquellas variables, por una parte, ms relevantes y signicativas o a tanto en el grupo de las X como en el grupo de las Y, a la vez que independientes entre s dentro de cada grupo, es decir, aquellas que midan cuestiones distintas y aparentemente desconexas aunque naturalmente referidas al tema que se est investigando. e 12
Las observaciones o datos de los grupos de variables pueden operarse de forma matricial como sigue:
De esta matiz se puede construir otra que ser la matriz de varianzas y covarianzas entre los grupos de a variables 11 12 21 22 11 y 22 son las matrices de varianzas y covarianzas para el prime y segundo grupo de variables respectivamente. 12 = t es la matriz de varianzas de las p variables del primer grupo(X) con las q del segundo(Y). 21 Para determinar las variables cannicas se toman una combinacin lineal con las variables de cada grupo de o o manera tal que tengan correlacin mxima. o a Z = a Xi y W = b Yi Los vectores a y b son los que maximizan la varianza entre Z y W. V ar(Z) = V ar(a Xi ) = a V ar(Xi )a = a 11 a V ar(W ) = V ar(b Yi ) = b V ar(Yi )b = b 22 b Se pone la condicin V ar(W ) = V ar(Z) = 1 . . . (1) o La funcin objetivo es: o
2 =
(a 12 )2 (a 11 a)(b 22 b)
Utilizando las restricciones (1) y mediante el mtodo de multiplicadores de Lagrange, tendremos: e M = (a 12 )2 (a 11 a 1) (b 22 b 1) Derivando M con respecto a los vectores de coecientes y utilizando que 12 = t , se tiene: 21
M a M b
= 212 b 211 a = 0 = 221 a 222 b = 0
Luego, 12 b = 11 a . . . . . . () 21 a = 22 b . . . . . . () Multiplicando () por a y () por b tendremos: a 12 b = a 11 a b 21 a = b 22 b 13
Utilizando la restriccin (1) nos quedar: o a a 12 b = b 21 a = Como = (a 12 b) = b 21 a = el sistema queda: 12 b = 11 a . . . (1) 21 a = 22 b . . . (2) Despejando b de (2) y reemplanzado en (1):
b = 1 1 21 a 1 12 1 21 a = 11 a 1 12 1 21 a = 2 a 22 22 11 22
a es el vector propio asociado al valor propio 2 de la matriz cuadrada de dimension p. Apxp = 1 12 1 21 11 22 Anlogamente para el otro caso se obtiene que b debe ser el vector propio asociado al valor propio 2 de la a matriz Bqxq = 1 21 1 12 22 11 2 es el cuadrado del coeciente de correlacin entre las variables cannicas Z y W, por lo que debe tomar el o o vector propio ligado al mayor valor propio.
5.
Anlisis de Correspondencia a
El anlisis de correspondencia es un procedimiento grco para representar asociaciones en una tabla de a a contingencia.Es por ello que para comenzar esta seccin se har un repaso de las tablas de contingencia. o a
5.1.
Tablas de Contingencia
La tabla de contingencia es una tabla de doble entrada, donde en cada casilla gurar el nmero de casos a u o individuos que poseen un nivel de uno de los factores o caracter sticas analizadas y otro nivel del otro factor analizado. Las tablas de contingencia tienen dos objetivos fundamentales: 1) Organizar la informacin contenida en un experimento cuando sta es de carcter bidimensional, es decir, o e a cuando est referida a dos factores (variables cualitativas). a Hombre 65 43 108 Mujer 58 67 125 Marginal 123 110 233
Si No Marginal
En esta tabla se puede observar en primer lugar que de los 233 individuos de los que se tiene informacin 108 o son hombres y 125 son mujeres. Asimismo se sabe que 123 de ellos fuman y 110 no. La tabla de contingencia nos permite tener informacin cruzada sobre ambas variables: de los 108 hombres, 65 fuman y 43 no, mientras o que en el caso de las mujeres, 58 fuman y 67 no. 14
2) A partir de la tabla de contingencia se puede adems analizar si existe alguna relacin de dependencia o a o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independiente signica que los valores de una de ellas no estn inuidos por la modalidad o nivel que a adopte la otra. Una vez realizado un repaso de tablas de contingencia se continuar explicando el como analizar la dependena cia o independencia de las variables desde un punto de vista estad stico.Es por este motivo que se presentar la a prueba de independencia basada en el estad stico chi-cuadrado,cuyo clculo nos permitir armar con un nivel a a de conanza estad stico determinado si los niveles de una variable cualitativa inuyen en los niveles de la otra variable nominal analizada.
5.2.
Test Chi-Cuadrado para independencia
El estad stico del test esta dado por:
X 2 = r c i=1 j=1
(oij eij )2 eij
oi. o.j donde eij = o corresponde a la frecuencia esperada y las .. que aparecen en la tabla de contingencia). La prueba de hiptesis es: o H0:Las variables son independientes H1:Las variables son dependientes
oij
son las frecuencias observadas(son las
Bajo la hiptesis nula el estad o stico X 2 se distribuye asintticamente X2 o o (r1)(c1) Si la hiptesis nula se rechaza entonces las variables son dependientes. En este caso conviene analizar los perles la y columna as como los residuos del modelo para estudiar el tipo de dependencia que existe entre las variables. El principal cuidado que se debe tener en cuenta de este test es que no nos dice en donde estn las diferencias a si es que existiesen.Para poder utilizar este test la muestra debe ser seleccionada de manera aleatoria de manera tal que cada observacin tenga la misma probabilidad de estar en un nivel de la variable o en otro. o Ahora, suponiendo que se quiere probar que la distribucin de proporciones dentro de cada categor poblao a cional es la misma. Es decir que ahora, se determinan previamente las frecuencias marginales y se quiere probar que las proporciones de la tabla de frecuencias son iguales para cada categor de las variables.Para este caso se a utiliza un test chi-cuadrado para homogeneidad. Existen algunas medidas numer cas que ayudan a interpretar mejor los resultados obtenidos, las cuales son: Inercia Total(IT) Es una medida similar a la variacin total en el caso de las componentes principales y mide o X2 el grado total de dependencia existente entre las variables. Est dada por IT = n . a Contribuciones Totales Miden la importancia de cada una de las modalidades de la variable en el estad stico Chi-Cuadrado La proporcin de inercia explicada estas se calculan a partir del porcentaje de inercia total y sirve para o medir la importancia de cada una de las dimensiones a la hora de explicar las dependencias observadas. Proporciones de inercia acumulada ayudan a decidir el nmero m u nimo de dimensiones necesario para explicar las dependencias observadas. Contribuciones relativas Miden la importancia de cada factor para explicar la posicin, en el diagrama o cartesiano, de cada una de las modalidades de las variables analizadas.
15

Analisis de Datos Multivariados

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analisis de Datos Multivariados

Uploaded by

Copyright:

Available Formats

Resumen Clases Anlisis de Datos Multivariado a Patricio Salas

5.2. Test Chi-Cuadrado para independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Analisis de Conglomerados (Cluster )

Mtodos de Agrupamiento e 2.0.1. Mtodos Jerrquicos e a

Figura 2: Mtodos de Union para las tcnicas aglomerativas e e

Las medidas de distancia ms utilizadas para variables continuas son: a

Distancia Euclidea dij = (p (xik xjk )2 ) 2 k=1

Distancia Manhatan o city-block

min(p,q1) log (1 j=k+1

A continuacin se presentan criterios para determinar el nmero ptimo de funciones discriminante. o u o

Figura 3: Salida que representa cuales variables son necesarias en el modelo

Figura 4: Test secuencial.

Figura 5: Coecientes de las funciones discriminantes

Figura 6: Coecientes de las funciones discriminantes

Figura 7: Correlaciones entre las f. disciminantes y las variables

Figura 8: Media de las funciones discriminantes dentro de cada grupo

Figura 10: Graca de las funciones disciminantes

Anlisis de Correlacin Cannica a o o

= 212 b 211 a = 0 = 221 a 222 b = 0

Luego, 12 b = 11 a . . . . . . () 21 a = 22 b . . . . . . () Multiplicando () por a y () por b tendremos: a 12 b = a 11 a b 21 a = b 22 b 13

Test Chi-Cuadrado para independencia

El estad stico del test esta dado por:

(oij eij )2 eij

son las frecuencias observadas(son las

You might also like