Tarea 1 Rebeca Lopez (Seminario)

UNIVERSIDAD DE EL SALVADOR
FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE
DEPARTAMENTO DE MATEMÁTICA
LICENCIATURA EN ESTADÍSTICA
TEMA:
ANALAISIS DE COMPONENTES PRINCIPALES
PRESENTADO POR:
LÓPEZ RIVERA, REBECA ABIGAIL
DOCENTE: LICDA. MERCEDES ESCOBAR
ABRIL 2019
SANTA ANA EL SALVADADOR CENTROAMÉRICA
i
Contenido
INTRODUCCION: ........................................................................................................................... 3
1.MARCO TEORICO ...................................................................................................................... 4
2.DESCRIPCION DE LAS VARIABLES: ..................................................................................... 8
3.ANALISIS DE DATOS ATIPICOS: ............................................................................................ 9
3.1 Datos atípicos utilizando los gráficos Q-Q: ......................................................................... 10
3.2Verificación de datos atípicos con la Distancia de Mahalanobis: ...................................... 15
4.COMPONENTES PRINCIPALES: ........................................................................................... 16
4.1 Usando la matriz de Covarianzas: ....................................................................................... 16
4.2 Usando la matriz de correlaciones:...................................................................................... 20
5.CONCLUSIONES: ...................................................................................................................... 24
6.BIBLIOGRAFIA: ……………………………………………………………………………....25
2
INTRODUCCION:
El problema central de los análisis multivariantes es reducir considerablemente un conjunto
de datos en otras dimensiones con una perdida mínima de información. El análisis de
componentes principales es un método utilizado para reducción de dimensiones; puesto que,
trabajar con conjuntos de datos muy grandes no es factible. Este tiene como objetivo: dadas
n observaciones de p variables, se analiza si es posible representar adecuadamente esta
información con un número menor de variables construidas como combinaciones lineales de
las originales, además, su prioridad radica en descubrir la verdadera dimensionalidad de los
datos.
Por otra parte, el ACP es quizá la técnica más útil para depurar datos multivariados. Suele
usarse como primer paso antes de aplicar cualquier tipo de análisis.
El documento está estructurado en seis partes: la primera parte esta conformada por el marco
teórico que describe la teoría utilizada en el análisis de componentes principales. Posterior,
se tiene la descripción de las variables que permite identificar si las variables son
aproximadamente normales. El tercer apartado describe el análisis de datos atípicos, el cual
se utilizó el grafico Q-Q y la distancia de Mahalanobis para corroborar los resultados.
En el cuarto apartado se tiene el análisis de componentes principales utilizando la matriz de
covarianzas y correlaciones para determinar el numero de componentes a estudiar que
proporcionen una pérdida mínima de información. La quinta parte son las conclusiones y por
ultimo se tiene la bibliografía.
3
1.MARCO TEORICO
Antes de realizar cualquier análisis es indispensable realizar un diagnóstico del conjunto de
datos; puesto que, la presencia de datos atípicos o de datos faltantes; si las variables no son
aproximadamente normales pueden producir distorsiones en los resultados. Joseph (1999)
expresa que:
Los casos atípicos problemáticos pueden distorsionar seriamente los test estadísticos.
Debido a la variabilidad en la evaluación de los casos atípicos, se hace imperativo que
el investigador examine los datos en busca de la presencia de casos atípicos con el fin
de averiguar el tipo de influencia que ejercen. (p.59)
La detección de los casos atípicos se puede determinar a nivel univariante, bivariante o
multivariante.
Para la detección a nivel multivariante se realiza con la distancia de Mahalanobis teniendo
presente que “Dada la naturaleza de los test estadísticos, se sugiere que se use un nivel muy
conservador, quizá 0,001, como valor umbral para la designación como caso atípico”.
(Joseph 1999, p.58)
Trabajar con conjuntos extensos de variables para dar solución a un problema (más de 100
casos) no es tan factible y más si no se utiliza un software especializado; es por ello la
importancia de la aplicación de análisis multivariados que permiten trabajar con una
reducción de variables y con una perdida mínima de información. Uno de los métodos a
implementar es el denominado Análisis de Componentes Principales.
Peña (2002) expresa que “el análisis de componentes principales tiene este objetivo: dadas n
observaciones de p variables, se analiza si es posible representar adecuadamente esta
4
información con un número menor de variables construidas como combinaciones lineales de
las originales”. (p.137)
Para Joseph (1999) “El objetivo es encontrar un modo de condensar la información contenida
en un número de variables originales en un conjunto más pequeño de variables (factores) con
una pérdida mínima de información”. (p.11)
Existen diferentes criterios que indican si el análisis multivariado de reducción de
dimensiones se puede aplicar de acuerdo con Fernández (2011):
Determinante de la matriz de correlaciones: el valor del determinante aparece en una
nota a pie de tabla. Los determinantes próximos a cero están indicando que las
variables utilizadas están linealmente relacionadas, lo que significa que el análisis
factorial, es una técnica pertinente para analizar esas variables.
KMO y prueba de esfericidad de Bartlett: Permite comparar la magnitud de los
coeficientes de correlación observados con la magnitud de los coeficientes de
correlación parcial. EL estadístico KMO varía entre 0 y 1.
0,9 ≤ 𝐾𝑀𝑂 ≤ 1,0 = 𝐸𝑥𝑐𝑒𝑙𝑒𝑛𝑡𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.
0,8 ≤ 𝐾𝑀𝑂 ≤ 0,9 = 𝐵𝑢𝑒𝑛𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.
0,7 ≤ 𝐾𝑀𝑂 ≤ 0,8 = 𝐴𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.
0,6 ≤ 𝐾𝑀𝑂 ≤ 0,7 = 𝑅𝑒𝑔𝑢𝑙𝑎𝑟 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.
0,5 ≤ 𝐾𝑀𝑂 ≤ 0,6 = 𝑀𝑎𝑙𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.
0,0 ≤ 𝐾𝑀𝑂 ≤ 0,5 = 𝐴𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑖𝑛𝑎𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒.
5
La prueba de esfericidad de Bartlett: contrasta la hipótesis nula de que la matriz de
correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones
significativas ente las variables y el modelo factorial no sería pertinente. La
significancia debe ser menor a 0.05 para aplicar el análisis.
Si el análisis cumple con el determinante de la matriz de correlaciones y este da como
resultado diferente de cero y pequeño; la significancia de la prueba de esfericidad de Bartlett
menor a 0.05 y el KMO mayor a 0.7; se prosigue a determinar el número de componentes
utilizando la varianza total explicada que sea mayor a 70% o con el grafico de sedimentación.
Para la varianza total explicada se eligen los componentes con autovalores mayores a uno y
para el grafico de sedimentación se pueden usar el criterio de la raíz latente o el criterio de
contraste de caída. Fernández (2011) describe lo siguiente:
El corte en la tendencia descendente sirve de regla para la determinación del número
de factores óptimo que deben estar presentes en la solución. Siempre se muestra la
representación de los autovalores de la matriz de correlaciones (o de covarianzas)
originales, independientemente del método de extracción seleccionado. (p.12)
Con las comunalidades se determina que variables son relevantes para el estudio.
Comunalidades con valores superiores a 0.5 no pueden eliminarse según Joseph (1999);
puesto que se perdería información de la solución final.
El calculo de los componentes principales se puede realizar con la matriz de covarianzas o
correlaciones a partir de la matriz de correlaciones Fernández expresa que:
Habitualmente, se calculan los componentes sobre variables originales
estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar
6
los componentes principales, no de la matriz de covarianzas sino de la matriz de
correlaciones (en las variables estandarizadas coinciden las covarianzas y las
correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y
son distintos de los de la matriz de covarianzas. Si se actúa así, se da igual importancia
a todas las variables originales. (Fernández 2011, p.5)
7
2.DESCRIPCION DE LAS VARIABLES:
Los datos corresponden a 51 observaciones y 9 variables (Encuesta de Presupuestos
Familiares del año 1990/91). Las observaciones son las provincias españolas más Ceuta y
Melilla, que aparecen unidas como una única provincia, y las variables los nueve epígrafes
en los que se desglosa la Encuesta de Presupuestos Familiares en España.
Las variables son:
• G. 1 = alimentación,
• G. 2 = vestido y calzado,
• G. 3 = vivienda,
• G. 4 = mobiliario doméstico,
• G. 5 = gastos sanitarios,
• G. 6 = transporte,
• G. 7 = enseñanza y cultura,
• G. 8 = turismo y ocio,
• G. 9 = otros gastos.
Tabla 1: Estadísticos Descriptivos de las nueve variables en estudio.
Fuente: Elaboración propia.
8
En la tabla 1 se verifica que las nueve variables son aproximadamente simétricas puesto que,
el valor de asimetría es cercano a cero; además, la medida más representativa de los datos es
la media; puesto que, la diferencia entre la media y la mediana es mínima.
El coeficiente de curtosis debe ser mayor o igual que 1 para determinar el coeficiente de
homogeneidad; es decir, 𝐾𝑗 ≥ 1 donde 𝐻𝑗 = 𝐾𝑗 ≥ 1 ; en consecuencia, se tiene que para las
variables G.1, G.2, G.5, G.6, G.7, G.8 y G.9 no se puede calcular el coeficiente de
homogeneidad. Además, los valores del coeficiente de curtosis son menores a 2; lo que puede
indicar la presencia de dos poblaciones mezcladas. Ninguna variable tiene alta curtosis, por
lo que podemos descartar la presencia de unos pocos valores atípicos grandes.
3.ANALISIS DE DATOS ATIPICOS:

Tabla 2: Datos perdidos.
En cuanto a la ausencia de datos se observa que están presentes las 51 observaciones.
9
3.1 Datos atípicos utilizando los gráficos Q-Q:
Gráfico 1: Gráfico Q-Q de la variable G.1.
La variable G.1 presenta una distribución aproximadamente normal puesto que, los puntos
se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se
encuentran a una distancia mínima de la recta.
Gráfico 2: Gráfico Q-Q de la variable G.2
10
se ajustan a la diagonal; sin embargo, existe un punto que se encuentra alejado en
comparación con el resto; que podría considerarse como un dato atípico.
11
se ajustan a la diagonal; sin embargo, existe un punto que se encuentra alejado en
comparación con el resto; que podría considerarse como un dato atípico.
12
Se verifica que la variable G.5 presenta una distribución aproximadamente normal puesto
que, los puntos se ajustan a la diagonal; además, se observa la ausencia de datos atípicos;
todos los puntos se encuentran a una distancia mínima de la recta.
13
La variable G.7 presenta una distribución aproximadamente normal; además, se observa la
ausencia de datos atípicos; todos los puntos se encuentran a una distancia mínima de la recta.
14
Los puntos están a una distancia mínima de la recta; es decir, la variable es aproximadamente
normal.
La variable G.9 es aproximadamente normal; debido a que los puntos se ajustan a la recta
con una distancia mínima.
3.2Verificación de datos atípicos con la Distancia de Mahalanobis:

Tabla 3: Significancia o probabilidad de la distancia de Mahalanobis.
15
Para que un dato se considere como atípico; la probabilidad o significancia de la distancia de
Mahalanobis debe ser menor a 0.001. En la tabla 3 puede observarse que no existen datos
atípicos; todas las probabilidades son mayores a 0.001 y se descarta que en el gráfico 3 y
gráfico 4; los puntos que se encuentran alejados de la recta sean atípicos.
4.COMPONENTES PRINCIPALES:
4.1 Usando la matriz de Covarianzas:
Tabla 4: Matriz de Covarianzas.
El valor del determinante correspondiente a la matriz de covarianza es diferente de cero;
cumple con el supuesto que el determinante de la matriz |𝑆| ≥ 0, lo que indica que es
aplicable el análisis multivariante de reducción de dimensiones.
Tabla 5: KMO y prueba de Bartlett.
La prueba de Esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial y así
comprobar si la matriz de correlaciones es una matriz identidad o no. En la tabla 5 se observa
que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que
16
es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)
el valor es 0.910; está muy cercano a uno, lo cual indica que, el análisis factorial es aplicable
al conjunto de datos y existe una excelente adecuación muestral.
Tabla 6: Comunalidades.
Según Joseph F. (1999) la comunalidad representa la proporción de varianza explicada que
contribuye a la solución final y se consideran comunalidades carentes de explicación
suficiente a las que presentan puntuaciones menores a 0.5; por lo que, bajo este supuesto se
verifica que solo las variables G.2 (vestido y calzado) y G.9 (otros gastos) tienen
comunalidades con pesos por debajo de 0.5; del resto de variables; todas aportas a la solución
final y de sacar una variable implicaría perder un alto porcentaje de influencia en el análisis
factorial, por lo tanto, las variables G.1, G.3, G.4, G.5, G.6, G.7, y G.8 no deben eliminarse.
17
Tabla 7: Varianza Total Explicada.
La tabla 7 de la varianza explicada, muestra que con dos componentes se explica una
proporción alta de variabilidad, el 85.125%, produciéndose la pérdida de un 14.875% de la
información original representada por las 9 variables iniciales, En consecuencia, basta dos
componentes para resumir las variables originales del problema.
18
Gráfico 10: Gráfico de sedimentación.
Utilizando el criterio del contraste de caída, se confirma a través del gráfico de sedimentación
que el número de componentes a tomar es de dos; como se presentó en la tabla 7 de la
varianza total explicada.
Tabla 8: Matriz de componentes sin rotar.
Matriz de componentes
Bruta Reescalada
Componente Componente
1 2 1 2
G.3 102651.194 -23960.910 .955
G.7 36530.375 1215.298 .909
G.8 53508.267 -8562.665 .883
G.6 49655.726 8995.766 .827
G.4 21422.821 2431.024 .803
G.5 12799.376 983.023 .766
G.9 15572.614 4660.939 .661
G.2 24464.539 10615.557 .645
G.1 41800.478 48558.142 .736
19
El componente 2 está conformado únicamente por la variable G.1 que representa la
alimentación y en el componente uno se agruparon las variables de la dos a la nueve.
4.2 Usando la matriz de correlaciones:

Tabla 9: Matriz de correlaciones.
Determinante=0.00040733
El valor del determinante es diferente de cero, lo que indica la dependencia de las variables:
el análisis multivariante de reducción de dimensiones es aplicable.
Tabla 10: KMO y prueba de Bartlett.
20
La prueba de Esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial y así
comprobar si la matriz de correlaciones es una matriz identidad o no. En la tabla 11 se observa
que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que
es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)
el valor es 0.910; está muy cercano a uno, lo cual indica que el análisis de reducción de
dimensiones y el análisis factorial es aplicable al conjunto de datos.
Tabla 11: Comunalidades.
Se verifica que solo la variable G.1 tiene un peso por debajo de 0.5; el resto de las variables
están por encima del valor; es decir, todas aportas a la solución final y de sacar una variable
implicaría perder un alto porcentaje de influencia en el análisis factorial, por lo tanto, las
variables G.2, G.3, G.4, G.5, G.6, G.7, G.8 y G.9 no deben eliminarse del estudio.
21
Tabla 12: Varianza total explicada.
La tabla 12 muestra que solo un autovalor es mayor a uno; que explica un 67.637% de la
variabilidad, produciéndose la pérdida de un 32.363% de la información original
representada por las 9 variables iniciales; sin embargo, no sería conveniente o factible
estudiar solo un componente que englobe las nueves variables; se debe verificar con el
grafico de sedimentación si se pueden escoger otros componentes que explique el 70% o más
de la variabilidad para evitar la pérdida de información relevante.
Gráfico 11: Gráfico de sedimentación.
22
Se puede observar en el gráfico 11, que el número de componentes a extraer es 2; sin
embargo, el número de componentes que fueron extraídos en la tabla 12 de varianza
explicada es uno. En consecuencia, podrian utilizarse uno o dos componentes dependiendo
si se toma el porcentaje de variabilidad explicada o el gràfico de sedimentacion; lo
recomendable serìa para este caso tomar el nùmero de componentes que expliquen mas del
70% de la variabilidad como se presenta en el gràfico, con el proposito de no perder un alto
porcentaje de informaciòn.
Tabla 12: Matriz de componentes sin rotar.
Se identifica que las variables se agruparon en solo componente puesto que; el número de
componentes extraídos utilizando el porcentaje de variabilidad explicada es uno.
23
5.CONCLUSIONES:
• En la descripción de las variables y en el análisis de datos atípicos se determinó que
las variables son simétricas, aproximadamente normal y no existen datos atípicos. Por
lo tanto, el análisis de componentes principales no se vio afectado por estas; caso
contrario los análisis presentarían sesgo.
• Con respecto al análisis de componentes principales; utilizando la matriz de
covarianza; se tiene que con el porcentaje de variabilidad explicada; el nùmero de
componentes a elegir que expliquen mas del 70%; es dos componentes. Utilizando la
matriz de correlaciones y el porcentaje de variabilidad explicada que toma los
autovalores mayores a uno; se obtuvo solo un componente que explica el 67.637%;
de tal forma, que todas las variables se agruparon en el mismo componente; sin
embargo, observando el grafico de sedimentación el número de componentes a
extraer es de dos; de igual forma utilizando la matriz de covarianza el número de
componentes determinado por el gráfico es dos.
Por lo tanto, si se toma el número de componentes utilizando el porcentaje de
variabilidad explicada; el que mejor se ajusta y es más factible sería el análisis de
componentes principales usando la matriz de covarianza, pero existe un problema con
la covarianza; las unidades de medidas, puesto que no es factible aplicarla si son
diferentes; en este caso todas las variables tienen las mismas unidades (presupuesto
en dólares). Por lo tanto, es conveniente determinar el número de componentes a
través de la matriz de covarianzas.
Si se utiliza el grafico de sedimentación resultaría indiferente elegir los componentes
con la matriz de covarianza o correlaciones.
24
6.BIBLIOGRAFIA
Fernandez. (2011). Componentes Principales.
Joseph. (1999). Anàlisis Multivariante. Madrid.
Peña. (2002). Analisis de Datos Multivariantes.
25

Tarea 1 Rebeca Lopez (Seminario)

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Tarea 1 Rebeca Lopez (Seminario)

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD DE EL SALVADOR

FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE

ANALAISIS DE COMPONENTES PRINCIPALES

LÓPEZ RIVERA, REBECA ABIGAIL

DOCENTE: LICDA. MERCEDES ESCOBAR

SANTA ANA EL SALVADADOR CENTROAMÉRICA

de datos en otras dimensiones con una perdida mínima de información. El análisis de

componentes principales es un método utilizado para reducción de dimensiones; puesto que,

n observaciones de p variables, se analiza si es posible representar adecuadamente esta

información con un número menor de variables construidas como combinaciones lineales de

las originales, además, su prioridad radica en descubrir la verdadera dimensionalidad de los

usarse como primer paso antes de aplicar cualquier tipo de análisis.

teórico que describe la teoría utilizada en el análisis de componentes principales. Posterior,

aproximadamente normales. El tercer apartado describe el análisis de datos atípicos, el cual

se utilizó el grafico Q-Q y la distancia de Mahalanobis para corroborar los resultados.

En el cuarto apartado se tiene el análisis de componentes principales utilizando la matriz de

covarianzas y correlaciones para determinar el numero de componentes a estudiar que

ultimo se tiene la bibliografía.

aproximadamente normales pueden producir distorsiones en los resultados. Joseph (1999)

Debido a la variabilidad en la evaluación de los casos atípicos, se hace imperativo que

de averiguar el tipo de influencia que ejercen. (p.59)

La detección de los casos atípicos se puede determinar a nivel univariante, bivariante o

Para la detección a nivel multivariante se realiza con la distancia de Mahalanobis teniendo

(Joseph 1999, p.58)

casos) no es tan factible y más si no se utiliza un software especializado; es por ello la

importancia de la aplicación de análisis multivariados que permiten trabajar con una

implementar es el denominado Análisis de Componentes Principales.

observaciones de p variables, se analiza si es posible representar adecuadamente esta

las originales”. (p.137)

en un número de variables originales en un conjunto más pequeño de variables (factores) con

una pérdida mínima de información”. (p.11)

Existen diferentes criterios que indican si el análisis multivariado de reducción de

dimensiones se puede aplicar de acuerdo con Fernández (2011):

Determinante de la matriz de correlaciones: el valor del determinante aparece en una

variables utilizadas están linealmente relacionadas, lo que significa que el análisis

factorial, es una técnica pertinente para analizar esas variables.

KMO y prueba de esfericidad de Bartlett: Permite comparar la magnitud de los

coeficientes de correlación observados con la magnitud de los coeficientes de

correlación parcial. EL estadístico KMO varía entre 0 y 1.

0,9 ≤ 𝐾𝑀𝑂 ≤ 1,0 = 𝐸𝑥𝑐𝑒𝑙𝑒𝑛𝑡𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,8 ≤ 𝐾𝑀𝑂 ≤ 0,9 = 𝐵𝑢𝑒𝑛𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,7 ≤ 𝐾𝑀𝑂 ≤ 0,8 = 𝐴𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,6 ≤ 𝐾𝑀𝑂 ≤ 0,7 = 𝑅𝑒𝑔𝑢𝑙𝑎𝑟 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,5 ≤ 𝐾𝑀𝑂 ≤ 0,6 = 𝑀𝑎𝑙𝑎 𝑎𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙.

0,0 ≤ 𝐾𝑀𝑂 ≤ 0,5 = 𝐴𝑑𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑖𝑛𝑎𝑐𝑒𝑝𝑡𝑎𝑏𝑙𝑒.

correlaciones es una matriz identidad, en cuyo caso no existirían correlaciones

significativas ente las variables y el modelo factorial no sería pertinente. La

significancia debe ser menor a 0.05 para aplicar el análisis.

Si el análisis cumple con el determinante de la matriz de correlaciones y este da como

resultado diferente de cero y pequeño; la significancia de la prueba de esfericidad de Bartlett

menor a 0.05 y el KMO mayor a 0.7; se prosigue a determinar el número de componentes

para el grafico de sedimentación se pueden usar el criterio de la raíz latente o el criterio de

contraste de caída. Fernández (2011) describe lo siguiente:

El corte en la tendencia descendente sirve de regla para la determinación del número

de factores óptimo que deben estar presentes en la solución. Siempre se muestra la

representación de los autovalores de la matriz de correlaciones (o de covarianzas)

originales, independientemente del método de extracción seleccionado. (p.12)

puesto que se perdería información de la solución final.

El calculo de los componentes principales se puede realizar con la matriz de covarianzas o

correlaciones a partir de la matriz de correlaciones Fernández expresa que:

Habitualmente, se calculan los componentes sobre variables originales

estandarizadas, es decir, variables con media 0 y varianza 1. Esto equivale a tomar

correlaciones (en las variables estandarizadas coinciden las covarianzas y las

correlaciones). Así, los componentes son autovectores de la matriz de correlaciones y