Professional Documents
Culture Documents
DEPARTAMENTO DE MATEMÁTICA
LICENCIATURA EN ESTADÍSTICA
TEMA:
PRESENTADO POR:
ABRIL 2019
i
Contenido
INTRODUCCION: ........................................................................................................................... 3
1.MARCO TEORICO ...................................................................................................................... 4
2.DESCRIPCION DE LAS VARIABLES: ..................................................................................... 8
3.ANALISIS DE DATOS ATIPICOS: ............................................................................................ 9
3.1 Datos atípicos utilizando los gráficos Q-Q: ......................................................................... 10
3.2Verificación de datos atípicos con la Distancia de Mahalanobis: ...................................... 15
4.COMPONENTES PRINCIPALES: ........................................................................................... 16
4.1 Usando la matriz de Covarianzas: ....................................................................................... 16
4.2 Usando la matriz de correlaciones:...................................................................................... 20
5.CONCLUSIONES: ...................................................................................................................... 24
6.BIBLIOGRAFIA: ……………………………………………………………………………....25
2
INTRODUCCION:
El problema central de los análisis multivariantes es reducir considerablemente un conjunto
trabajar con conjuntos de datos muy grandes no es factible. Este tiene como objetivo: dadas
datos.
Por otra parte, el ACP es quizá la técnica más útil para depurar datos multivariados. Suele
El documento está estructurado en seis partes: la primera parte esta conformada por el marco
se tiene la descripción de las variables que permite identificar si las variables son
proporcionen una pérdida mínima de información. La quinta parte son las conclusiones y por
3
1.MARCO TEORICO
Antes de realizar cualquier análisis es indispensable realizar un diagnóstico del conjunto de
datos; puesto que, la presencia de datos atípicos o de datos faltantes; si las variables no son
expresa que:
Los casos atípicos problemáticos pueden distorsionar seriamente los test estadísticos.
el investigador examine los datos en busca de la presencia de casos atípicos con el fin
multivariante.
presente que “Dada la naturaleza de los test estadísticos, se sugiere que se use un nivel muy
conservador, quizá 0,001, como valor umbral para la designación como caso atípico”.
Trabajar con conjuntos extensos de variables para dar solución a un problema (más de 100
reducción de variables y con una perdida mínima de información. Uno de los métodos a
Peña (2002) expresa que “el análisis de componentes principales tiene este objetivo: dadas n
4
información con un número menor de variables construidas como combinaciones lineales de
Para Joseph (1999) “El objetivo es encontrar un modo de condensar la información contenida
nota a pie de tabla. Los determinantes próximos a cero están indicando que las
5
La prueba de esfericidad de Bartlett: contrasta la hipótesis nula de que la matriz de
utilizando la varianza total explicada que sea mayor a 70% o con el grafico de sedimentación.
Para la varianza total explicada se eligen los componentes con autovalores mayores a uno y
Con las comunalidades se determina que variables son relevantes para el estudio.
Comunalidades con valores superiores a 0.5 no pueden eliminarse según Joseph (1999);
6
los componentes principales, no de la matriz de covarianzas sino de la matriz de
7
2.DESCRIPCION DE LAS VARIABLES:
Los datos corresponden a 51 observaciones y 9 variables (Encuesta de Presupuestos
Familiares del año 1990/91). Las observaciones son las provincias españolas más Ceuta y
Melilla, que aparecen unidas como una única provincia, y las variables los nueve epígrafes
• G. 1 = alimentación,
• G. 2 = vestido y calzado,
• G. 3 = vivienda,
• G. 4 = mobiliario doméstico,
• G. 5 = gastos sanitarios,
• G. 6 = transporte,
• G. 7 = enseñanza y cultura,
• G. 8 = turismo y ocio,
• G. 9 = otros gastos.
8
En la tabla 1 se verifica que las nueve variables son aproximadamente simétricas puesto que,
el valor de asimetría es cercano a cero; además, la medida más representativa de los datos es
El coeficiente de curtosis debe ser mayor o igual que 1 para determinar el coeficiente de
variables G.1, G.2, G.5, G.6, G.7, G.8 y G.9 no se puede calcular el coeficiente de
homogeneidad. Además, los valores del coeficiente de curtosis son menores a 2; lo que puede
indicar la presencia de dos poblaciones mezcladas. Ninguna variable tiene alta curtosis, por
9
3.1 Datos atípicos utilizando los gráficos Q-Q:
Gráfico 1: Gráfico Q-Q de la variable G.1.
La variable G.1 presenta una distribución aproximadamente normal puesto que, los puntos
se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se
10
La variable G.2 presenta una distribución aproximadamente normal puesto que, los puntos
se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se
La variable G.3 presenta una distribución aproximadamente normal puesto que, los puntos
11
Gráfico 4: Gráfico Q-Q de la variable G.4.
La variable G.4 presenta una distribución aproximadamente normal puesto que, los puntos
12
Se verifica que la variable G.5 presenta una distribución aproximadamente normal puesto
que, los puntos se ajustan a la diagonal; además, se observa la ausencia de datos atípicos;
La variable G.6 presenta una distribución aproximadamente normal puesto que, los puntos
se ajustan a la diagonal; además, se observa la ausencia de datos atípicos; todos los puntos se
13
Gráfico 7: Gráfico Q-Q de la variable G.7.
ausencia de datos atípicos; todos los puntos se encuentran a una distancia mínima de la recta.
14
Los puntos están a una distancia mínima de la recta; es decir, la variable es aproximadamente
normal.
La variable G.9 es aproximadamente normal; debido a que los puntos se ajustan a la recta
15
Para que un dato se considere como atípico; la probabilidad o significancia de la distancia de
Mahalanobis debe ser menor a 0.001. En la tabla 3 puede observarse que no existen datos
atípicos; todas las probabilidades son mayores a 0.001 y se descarta que en el gráfico 3 y
4.COMPONENTES PRINCIPALES:
4.1 Usando la matriz de Covarianzas:
Tabla 4: Matriz de Covarianzas.
cumple con el supuesto que el determinante de la matriz |𝑆| ≥ 0, lo que indica que es
que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que
16
es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)
el valor es 0.910; está muy cercano a uno, lo cual indica que, el análisis factorial es aplicable
Tabla 6: Comunalidades.
suficiente a las que presentan puntuaciones menores a 0.5; por lo que, bajo este supuesto se
verifica que solo las variables G.2 (vestido y calzado) y G.9 (otros gastos) tienen
comunalidades con pesos por debajo de 0.5; del resto de variables; todas aportas a la solución
final y de sacar una variable implicaría perder un alto porcentaje de influencia en el análisis
factorial, por lo tanto, las variables G.1, G.3, G.4, G.5, G.6, G.7, y G.8 no deben eliminarse.
17
Tabla 7: Varianza Total Explicada.
La tabla 7 de la varianza explicada, muestra que con dos componentes se explica una
información original representada por las 9 variables iniciales, En consecuencia, basta dos
18
Gráfico 10: Gráfico de sedimentación.
Utilizando el criterio del contraste de caída, se confirma a través del gráfico de sedimentación
Matriz de componentes
Bruta Reescalada
Componente Componente
1 2 1 2
19
El componente 2 está conformado únicamente por la variable G.1 que representa la
Determinante=0.00040733
El valor del determinante es diferente de cero, lo que indica la dependencia de las variables:
20
La prueba de Esfericidad de Bartlett evalúa la aplicabilidad del análisis factorial y así
que el valor es 0.000 por lo tanto, el nivel de significancia es menor a 0.05; se confirma que
es aplicable el análisis; además, se tiene que para la prueba de Kaiser- Meyer-Olkin (KMO)
el valor es 0.910; está muy cercano a uno, lo cual indica que el análisis de reducción de
Se verifica que solo la variable G.1 tiene un peso por debajo de 0.5; el resto de las variables
están por encima del valor; es decir, todas aportas a la solución final y de sacar una variable
implicaría perder un alto porcentaje de influencia en el análisis factorial, por lo tanto, las
variables G.2, G.3, G.4, G.5, G.6, G.7, G.8 y G.9 no deben eliminarse del estudio.
21
Tabla 12: Varianza total explicada.
La tabla 12 muestra que solo un autovalor es mayor a uno; que explica un 67.637% de la
representada por las 9 variables iniciales; sin embargo, no sería conveniente o factible
estudiar solo un componente que englobe las nueves variables; se debe verificar con el
grafico de sedimentación si se pueden escoger otros componentes que explique el 70% o más
22
Se puede observar en el gráfico 11, que el número de componentes a extraer es 2; sin
recomendable serìa para este caso tomar el nùmero de componentes que expliquen mas del
porcentaje de informaciòn.
Se identifica que las variables se agruparon en solo componente puesto que; el número de
23
5.CONCLUSIONES:
• En la descripción de las variables y en el análisis de datos atípicos se determinó que
las variables son simétricas, aproximadamente normal y no existen datos atípicos. Por
componentes a elegir que expliquen mas del 70%; es dos componentes. Utilizando la
de tal forma, que todas las variables se agruparon en el mismo componente; sin
diferentes; en este caso todas las variables tienen las mismas unidades (presupuesto
24
6.BIBLIOGRAFIA
25