You are on page 1of 25

UNIVERSIDAD DE EL SALVADOR

FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE

DEPARTAMENTO DE MATEMÁTICA

LICENCIATURA EN ESTADÍSTICA

TEMA:

ANALAISIS DE COMPONENTES PRINCIPALES

PRESENTADO POR:

LÓPEZ RIVERA, REBECA ABIGAIL

DOCENTE: LICDA. MERCEDES ESCOBAR

ABRIL 2019

SANTA ANA EL SALVADADOR CENTROAMÉRICA

i
Contenido
INTRODUCCION: ........................................................................................................................... 3
1.MARCO TEORICO ...................................................................................................................... 4
2.DESCRIPCION DE LAS VARIABLES: ..................................................................................... 8
3.ANALISIS DE DATOS ATIPICOS: ............................................................................................ 9
3.1 Datos atípicos utilizando los gráficos Q-Q: ......................................................................... 10
3.2Verificación de datos atípicos con la Distancia de Mahalanobis: ...................................... 15
4.COMPONENTES PRINCIPALES: ........................................................................................... 16
4.1 Usando la matriz de Covarianzas: ....................................................................................... 16
4.2 Usando la matriz de correlaciones:...................................................................................... 20
5.CONCLUSIONES: ...................................................................................................................... 24
6.BIBLIOGRAFIA: ……………………………………………………………………………....25

2
INTRODUCCION:
El problema central de los análisis multivariantes es reducir considerablemente un conjunto

de datos en otras dimensiones con una perdida mínima de información. El análisis de

componentes principales es un método utilizado para reducción de dimensiones; puesto que,

trabajar con conjuntos de datos muy grandes no es factible. Este tiene como objetivo: dadas

n observaciones de p variables, se analiza si es posible representar adecuadamente esta

información con un número menor de variables construidas como combinaciones lineales de

las originales, además, su prioridad radica en descubrir la verdadera dimensionalidad de los

datos.

Por otra parte, el ACP es quizá la técnica más útil para depurar datos multivariados. Suele

usarse como primer paso antes de aplicar cualquier tipo de análisis.

El documento está estructurado en seis partes: la primera parte esta conformada por el marco

teórico que describe la teoría utilizada en el análisis de componentes principales. Posterior,

se tiene la descripción de las variables que permite identificar si las variables son

aproximadamente normales. El tercer apartado describe el análisis de datos atípicos, el cual

se utilizó el grafico Q-Q y la distancia de Mahalanobis para corroborar los resultados.

En el cuarto apartado se tiene el análisis de componentes principales utilizando la matriz de

covarianzas y correlaciones para determinar el numero de componentes a estudiar que

proporcionen una pérdida mínima de información. La quinta parte son las conclusiones y por

ultimo se tiene la bibliografía.

3
1.MARCO TEORICO
Antes de realizar cualquier análisis es indispensable realizar un diagnóstico del conjunto de

datos; puesto que, la presencia de datos atípicos o de datos faltantes; si las variables no son

aproximadamente normales pueden producir distorsiones en los resultados. Joseph (1999)

expresa que:

Los casos atípicos problemáticos pueden distorsionar seriamente los test estadísticos.

Debido a la variabilidad en la evaluación de los casos atípicos, se hace imperativo que

el investigador examine los datos en busca de la presencia de casos atípicos con el fin

de averiguar el tipo de influencia que ejercen. (p.59)

La detección de los casos atípicos se puede determinar a nivel univariante, bivariante o

multivariante.

Para la detección a nivel multivariante se realiza con la distancia de Mahalanobis teniendo

presente que “Dada la naturaleza de los test estadísticos, se sugiere que se use un nivel muy

conservador, quizá 0,001, como valor umbral para la designación como caso atípico”.

(Joseph 1999, p.58)

Trabajar con conjuntos extensos de variables para dar solución a un problema (más de 100

casos) no es tan factible y más si no se utiliza un software especializado; es por ello la

importancia de la aplicación de análisis multivariados que permiten trabajar con una

reducción de variables y con una perdida mínima de información. Uno de los métodos a

implementar es el denominado Análisis de Componentes Principales.

Peña (2002) expresa que “el análisis de componentes principales tiene este objetivo: dadas n

observaciones de p variables, se analiza si es posible representar adecuadamente esta

4
información con un número menor de variables construidas como combinaciones lineales de

las originales”. (p.137)

Para Joseph (1999) “El objetivo es encontrar un modo de condensar la información contenida

en un número de variables originales en un conjunto más pequeño de variables (factores) con

una pérdida mínima de información”. (p.11)

Existen diferentes criterios que indican si el análisis multivariado de reducción de

dimensiones se puede aplicar de acuerdo con Fernández (2011):

Determinante de la matriz de correlaciones: el valor del determinante aparece en una

nota a pie de tabla. Los determinantes próximos a cero están indicando que las

variables utilizadas están linealmente relacionadas, lo que significa que el análisis

factorial, es una técnica pertinente para analizar esas variables.

KMO y prueba de esfericidad de Bartlett: Permite comparar la magnitud de los

coeficientes de correlación observados con la magnitud de los coeficientes de

correlación parcial. EL estadístico KMO varía entre 0 y 1.

0,9 ≤ 𝐾𝑀𝑂 ≤ 1,0 = 𝐸𝑥𝑐𝑒𝑙𝑒𝑛𝑡𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,8 ≤ 𝐾𝑀𝑂 ≤ 0,9 = 𝐵𝑢𝑒𝑛𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,7 ≤ 𝐾𝑀𝑂 ≤ 0,8 = 𝐴𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,6 ≤ 𝐾𝑀𝑂 ≤ 0,7 = 𝑅𝑒𝑔𝑢𝑙𝑎𝑟 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,5 ≤ 𝐾𝑀𝑂 ≤ 0,6 = 𝑀𝑎𝑙𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,0 ≤ 𝐾𝑀𝑂 ≤ 0,5 = 𝐴𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑖𝑛𝑎𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒.

5
La prueba de esfericidad de Bartlett: contrasta la hipótesis nula de que la matriz de

correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones

significativas ente las variables y el modelo factorial no sería pertinente. La

significancia debe ser menor a 0.05 para aplicar el análisis.

Si el análisis cumple con el determinante de la matriz de correlaciones y este da como

resultado diferente de cero y pequeño; la significancia de la prueba de esfericidad de Bartlett

menor a 0.05 y el KMO mayor a 0.7; se prosigue a determinar el número de componentes

utilizando la varianza total explicada que sea mayor a 70% o con el grafico de sedimentación.

Para la varianza total explicada se eligen los componentes con autovalores mayores a uno y

para el grafico de sedimentación se pueden usar el criterio de la raíz latente o el criterio de

contraste de caída. Fernández (2011) describe lo siguiente:

El corte en la tendencia descendente sirve de regla para la determinación del número

de factores óptimo que deben estar presentes en la solución. Siempre se muestra la

representación de los autovalores de la matriz de correlaciones (o de covarianzas)

originales, independientemente del método de extracción seleccionado. (p.12)

Con las comunalidades se determina que variables son relevantes para el estudio.

Comunalidades con valores superiores a 0.5 no pueden eliminarse según Joseph (1999);

puesto que se perdería información de la solución final.

El calculo de los componentes principales se puede realizar con la matriz de covarianzas o

correlaciones a partir de la matriz de correlaciones Fernández expresa que:

Habitualmente, se calculan los componentes sobre variables originales

estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar

6
los componentes principales, no de la matriz de covarianzas sino de la matriz de

correlaciones (en las variables estandarizadas coinciden las covarianzas y las

correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y

son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia

a todas las variables originales. (Fernández 2011, p.5)

7
2.DESCRIPCION DE LAS VARIABLES:
Los datos corresponden a 51 observaciones y 9 variables (Encuesta de Presupuestos

Familiares del año 1990/91). Las observaciones son las provincias españolas más Ceuta y

Melilla, que aparecen unidas como una única provincia, y las variables los nueve epígrafes

en los que se desglosa la Encuesta de Presupuestos Familiares en España.

Las variables son:

• G. 1 = alimentación,

• G. 2 = vestido y calzado,

• G. 3 = vivienda,

• G. 4 = mobiliario doméstico,

• G. 5 = gastos sanitarios,

• G. 6 = transporte,

• G. 7 = enseñanza y cultura,

• G. 8 = turismo y ocio,

• G. 9 = otros gastos.

Tabla 1: Estadísticos Descriptivos de las nueve variables en estudio.

Fuente: Elaboración propia.

8
En la tabla 1 se verifica que las nueve variables son aproximadamente simétricas puesto que,

el valor de asimetría es cercano a cero; además, la medida más representativa de los datos es

la media; puesto que, la diferencia entre la media y la mediana es mínima.

El coeficiente de curtosis debe ser mayor o igual que 1 para determinar el coeficiente de

homogeneidad; es decir, 𝐾𝑗 ≥ 1 donde 𝐻𝑗 = 𝐾𝑗 ≥ 1 ; en consecuencia, se tiene que para las

variables G.1, G.2, G.5, G.6, G.7, G.8 y G.9 no se puede calcular el coeficiente de

homogeneidad. Además, los valores del coeficiente de curtosis son menores a 2; lo que puede

indicar la presencia de dos poblaciones mezcladas. Ninguna variable tiene alta curtosis, por

lo que podemos descartar la presencia de unos pocos valores atípicos grandes.

3.ANALISIS DE DATOS ATIPICOS:


Tabla 2: Datos perdidos.

Fuente: Elaboración propia.

En cuanto a la ausencia de datos se observa que están presentes las 51 observaciones.

9
3.1 Datos atípicos utilizando los gráficos Q-Q:
Gráfico 1: Gráfico Q-Q de la variable G.1.

Fuente: Elaboración propia.

La variable G.1 presenta una distribución aproximadamente normal puesto que, los puntos

se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se

encuentran a una distancia mínima de la recta.

Gráfico 2: Gráfico Q-Q de la variable G.2

Fuente: Elaboración propia.

10
La variable G.2 presenta una distribución aproximadamente normal puesto que, los puntos

se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se

encuentran a una distancia mínima de la recta.

Gráfico 3: Gráfico Q-Q de la variable G.3.

Fuente: Elaboración propia.

La variable G.3 presenta una distribución aproximadamente normal puesto que, los puntos

se ajustan a la diagonal; sin embargo, existe un punto que se encuentra alejado en

comparación con el resto; que podría considerarse como un dato atípico.

11
Gráfico 4: Gráfico Q-Q de la variable G.4.

Fuente: Elaboración propia.

La variable G.4 presenta una distribución aproximadamente normal puesto que, los puntos

se ajustan a la diagonal; sin embargo, existe un punto que se encuentra alejado en

comparación con el resto; que podría considerarse como un dato atípico.

Gráfico 5: Gráfico Q-Q de la variable G.5.

Fuente: Elaboración propia.

12
Se verifica que la variable G.5 presenta una distribución aproximadamente normal puesto

que, los puntos se ajustan a la diagonal; además, se observa la ausencia de datos atípicos;

todos los puntos se encuentran a una distancia mínima de la recta.

Gráfico 6: Gráfico Q-Q de la variable G.6.

Fuente: Elaboración propia.

La variable G.6 presenta una distribución aproximadamente normal puesto que, los puntos

se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se

encuentran a una distancia mínima de la recta.

13
Gráfico 7: Gráfico Q-Q de la variable G.7.

Fuente: Elaboración propia.

La variable G.7 presenta una distribución aproximadamente normal; además, se observa la

ausencia de datos atípicos; todos los puntos se encuentran a una distancia mínima de la recta.

Gráfico 8: Gráfico Q-Q de la variable G.8

Fuente: Elaboración propia.

14
Los puntos están a una distancia mínima de la recta; es decir, la variable es aproximadamente

normal.

Gráfico 9: Gráfico Q-Q de la variable G.9

Fuente: Elaboración propia.

La variable G.9 es aproximadamente normal; debido a que los puntos se ajustan a la recta

con una distancia mínima.

3.2Verificación de datos atípicos con la Distancia de Mahalanobis:


Tabla 3: Significancia o probabilidad de la distancia de Mahalanobis.

Fuente: Elaboración propia.

15
Para que un dato se considere como atípico; la probabilidad o significancia de la distancia de

Mahalanobis debe ser menor a 0.001. En la tabla 3 puede observarse que no existen datos

atípicos; todas las probabilidades son mayores a 0.001 y se descarta que en el gráfico 3 y

gráfico 4; los puntos que se encuentran alejados de la recta sean atípicos.

4.COMPONENTES PRINCIPALES:
4.1 Usando la matriz de Covarianzas:
Tabla 4: Matriz de Covarianzas.

Fuente: Elaboración propia.

El valor del determinante correspondiente a la matriz de covarianza es diferente de cero;

cumple con el supuesto que el determinante de la matriz |𝑆| ≥ 0, lo que indica que es

aplicable el análisis multivariante de reducción de dimensiones.

Tabla 5: KMO y prueba de Bartlett.

Fuente: Elaboración propia.

La prueba de Esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial y así

comprobar si la matriz de correlaciones es una matriz identidad o no. En la tabla 5 se observa

que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que

16
es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)

el valor es 0.910; está muy cercano a uno, lo cual indica que, el análisis factorial es aplicable

al conjunto de datos y existe una excelente adecuación muestral.

Tabla 6: Comunalidades.

Fuente: Elaboración propia.

Según Joseph F. (1999) la comunalidad representa la proporción de varianza explicada que

contribuye a la solución final y se consideran comunalidades carentes de explicación

suficiente a las que presentan puntuaciones menores a 0.5; por lo que, bajo este supuesto se

verifica que solo las variables G.2 (vestido y calzado) y G.9 (otros gastos) tienen

comunalidades con pesos por debajo de 0.5; del resto de variables; todas aportas a la solución

final y de sacar una variable implicaría perder un alto porcentaje de influencia en el análisis

factorial, por lo tanto, las variables G.1, G.3, G.4, G.5, G.6, G.7, y G.8 no deben eliminarse.

17
Tabla 7: Varianza Total Explicada.

Fuente: Elaboración propia.

La tabla 7 de la varianza explicada, muestra que con dos componentes se explica una

proporción alta de variabilidad, el 85.125%, produciéndose la pérdida de un 14.875% de la

información original representada por las 9 variables iniciales, En consecuencia, basta dos

componentes para resumir las variables originales del problema.

18
Gráfico 10: Gráfico de sedimentación.

Fuente: Elaboración propia.

Utilizando el criterio del contraste de caída, se confirma a través del gráfico de sedimentación

que el número de componentes a tomar es de dos; como se presentó en la tabla 7 de la

varianza total explicada.

Tabla 8: Matriz de componentes sin rotar.

Matriz de componentes

Bruta Reescalada

Componente Componente

1 2 1 2

G.3 102651.194 -23960.910 .955

G.7 36530.375 1215.298 .909

G.8 53508.267 -8562.665 .883

G.6 49655.726 8995.766 .827

G.4 21422.821 2431.024 .803

G.5 12799.376 983.023 .766

G.9 15572.614 4660.939 .661

G.2 24464.539 10615.557 .645

G.1 41800.478 48558.142 .736

Fuente: Elaboración propia.

19
El componente 2 está conformado únicamente por la variable G.1 que representa la

alimentación y en el componente uno se agruparon las variables de la dos a la nueve.

4.2 Usando la matriz de correlaciones:


Tabla 9: Matriz de correlaciones.

Fuente: Elaboración propia.

Determinante=0.00040733

El valor del determinante es diferente de cero, lo que indica la dependencia de las variables:

el análisis multivariante de reducción de dimensiones es aplicable.

Tabla 10: KMO y prueba de Bartlett.

Fuente: Elaboración propia.

20
La prueba de Esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial y así

comprobar si la matriz de correlaciones es una matriz identidad o no. En la tabla 11 se observa

que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que

es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)

el valor es 0.910; está muy cercano a uno, lo cual indica que el análisis de reducción de

dimensiones y el análisis factorial es aplicable al conjunto de datos.

Tabla 11: Comunalidades.

Fuente: Elaboración propia.

Se verifica que solo la variable G.1 tiene un peso por debajo de 0.5; el resto de las variables

están por encima del valor; es decir, todas aportas a la solución final y de sacar una variable

implicaría perder un alto porcentaje de influencia en el análisis factorial, por lo tanto, las

variables G.2, G.3, G.4, G.5, G.6, G.7, G.8 y G.9 no deben eliminarse del estudio.

21
Tabla 12: Varianza total explicada.

Fuente: Elaboración propia.

La tabla 12 muestra que solo un autovalor es mayor a uno; que explica un 67.637% de la

variabilidad, produciéndose la pérdida de un 32.363% de la información original

representada por las 9 variables iniciales; sin embargo, no sería conveniente o factible

estudiar solo un componente que englobe las nueves variables; se debe verificar con el

grafico de sedimentación si se pueden escoger otros componentes que explique el 70% o más

de la variabilidad para evitar la pérdida de información relevante.

Gráfico 11: Gráfico de sedimentación.

Fuente: Elaboración propia.

22
Se puede observar en el gráfico 11, que el número de componentes a extraer es 2; sin

embargo, el número de componentes que fueron extraídos en la tabla 12 de varianza

explicada es uno. En consecuencia, podrian utilizarse uno o dos componentes dependiendo

si se toma el porcentaje de variabilidad explicada o el gràfico de sedimentacion; lo

recomendable serìa para este caso tomar el nùmero de componentes que expliquen mas del

70% de la variabilidad como se presenta en el gràfico, con el proposito de no perder un alto

porcentaje de informaciòn.

Tabla 12: Matriz de componentes sin rotar.

Fuente: Elaboración propia.

Se identifica que las variables se agruparon en solo componente puesto que; el número de

componentes extraídos utilizando el porcentaje de variabilidad explicada es uno.

23
5.CONCLUSIONES:
• En la descripción de las variables y en el análisis de datos atípicos se determinó que

las variables son simétricas, aproximadamente normal y no existen datos atípicos. Por

lo tanto, el análisis de componentes principales no se vio afectado por estas; caso

contrario los análisis presentarían sesgo.

• Con respecto al análisis de componentes principales; utilizando la matriz de

covarianza; se tiene que con el porcentaje de variabilidad explicada; el nùmero de

componentes a elegir que expliquen mas del 70%; es dos componentes. Utilizando la

matriz de correlaciones y el porcentaje de variabilidad explicada que toma los

autovalores mayores a uno; se obtuvo solo un componente que explica el 67.637%;

de tal forma, que todas las variables se agruparon en el mismo componente; sin

embargo, observando el grafico de sedimentación el número de componentes a

extraer es de dos; de igual forma utilizando la matriz de covarianza el número de

componentes determinado por el gráfico es dos.

Por lo tanto, si se toma el número de componentes utilizando el porcentaje de

variabilidad explicada; el que mejor se ajusta y es más factible sería el análisis de

componentes principales usando la matriz de covarianza, pero existe un problema con

la covarianza; las unidades de medidas, puesto que no es factible aplicarla si son

diferentes; en este caso todas las variables tienen las mismas unidades (presupuesto

en dólares). Por lo tanto, es conveniente determinar el número de componentes a

través de la matriz de covarianzas.

Si se utiliza el grafico de sedimentación resultaría indiferente elegir los componentes

con la matriz de covarianza o correlaciones.

24
6.BIBLIOGRAFIA

Fernandez. (2011). Componentes Principales.

Joseph. (1999). Anàlisis Multivariante. Madrid.

Peña. (2002). Analisis de Datos Multivariantes.

25

You might also like