Professional Documents
Culture Documents
REGRESION
INDICE DE DESARROLLO
HUMANO EN FUNCION
DE LAS VARIABLES
ESPERANZA DE VIDA,
AFABETIZACION,
POBLACION CON
EDUCACION SECUNDARIA
COMPLETA Y INGRESO
FAMILIAR
Tabla de contenido
INTRODUCCION ................................................................................................................................................. 3
OBJETIVOS ............................................................................................................................................................. 3
1.
INDIVIDUOS Y VARIABLES................................................................................................................... 4
2.
CORRELACIN ........................................................................................................................................... 7
3.
4.
MULTICOLINEALIDAD ........................................................................................................................... 9
5.
6.
7.
8.
9.
CONCLUSIN: ...........................................................................................................................................19
INTRODUCCION
El ndice de desarrollo humano (IDH) es un indicador del desarrollo humano por pas, elaborado por el
Programa de las Naciones Unidas para el Desarrollo (PNUD). Se basa en un indicador social estadstico
compuesto por tres parmetros: vida larga y saludable, educacin y nivel de vida digno.
Parmetros del ndice de desarrollo humano[editar]
1 - Salud: medida segn la esperanza de vida al nacer.
2 - Educacin: medida por la tasa de alfabetizacin de adultos y la tasa bruta combinada de
matriculacin en educacin primaria, secundaria y superior, as como los aos de duracin de la
educacin obligatoria.
3 - Riqueza: medida por el PIB per cpita PPA en dlares internacionales.
OBJETIVOS
Estimar el IDH(Indice de Desarroollo Humano ) por distrito cada distrito de lima en funcin
de la esperanza de vida, Alfabetizacin, ingreso familiar, poblacin con educacin secundaria
completa.
Dar otra alternativa de clculo al considerar Ingreso familiar en lugar del PBI.
2. INDIVIDUOS Y VARIABLES
Contamos con una base de datos extrada del Informe DESARROLLO HUMANO PER 2013.
CAMBIO CLIMTICO Y TERRITORIO: DESAFOS Y RESPUESTAS PARA UN FUTURO
SOSTENIBLE, este informe tiene en su anexos la base de datos del re-clculo del Programa Naciones
Unidas para el Desarrollo (PNDU) del ndice de desarrollo humano departamental, provincial y
distrital en el Per en los aos 2012, 2011, 2007 y el 2003.
Por otro lado contamos con un el informe Aproximaciones al IDH , lo que hemos hecho es
empalmar ambas bases, de tal manera que coincidan los datos de ambas bases de datos.
Para no trabajar con todos los distritos y provincias segmentamos la base de datos en un ao especific
que es el 2007 e hicimos la regresin con los datos de Lima metropolitana y sus distritos, esta base de
datos cuenta con las siguientes variables:
Poblacin
Poblacin
EV
Esperanza de Vida
ALFA
Alfabetizacin
ESCOLA
Escolaridad
LOGROEDU :
Logro educativo
indicedesarrolla:
poblacin.1
DIC
Ingreso familiar
Primero abrimos la base de datos con la que vamos a trabajar que est guardado con el nombre de
regresionIDH.txt en la carpeta regresin y lo mostramos.
basedatos<read.table("C:/Users/usuario/Desktop/regresion/regresionIDH.txt",sep="\t",header=TRUE)
basedatos
Ahora veremos que variables estn involucradas en el anlisis y cuantas unidades de anlisis (Distritos
de Lima) son.
dimnames(basedatos)
Observamos en la sexta lnea como la variable indicedesarrolla (ndice de Desarrollo Humano) tiene
una relacin lineal creciente con las variables explicativas ( EV, ALFA, ESCOLA, LOGROEDU,
poblacin.1, ingreso) y en menos grado con la variables poblacin.
Podemos hacer un resumen descriptivo de cada variable.
cor(basedatos)
3. CORRELACIN
cor(basedatos)
Aqu podemos confirmar lo visto en el grafico anterior si observamos en la sexta lnea poblacin y
ndicedesarrolla tienen una baja correlacin, en cambio con las otras variables tiene una alta
correlacin.
4. CORRELACIONES PARCIALES
Para calcular las correlaciones parciales necesitamos descargar el paquete de R llamado Rcmdr. Para ello
debemos ir al men Paquetes Instalar paquete(s).
Se abrir entonces una ventana.
En ella busca y selecciona Spain (Madrid) OK. Luego se abrir una nueva ventana en ella
aparecen, por orden alfabtico, todos los paquetes que existen actualmente. Busca el que se llama
Rcmdr (encontrars otros paquetes que comenzarn de la misma forma, pero SLO nos interesa el
que se llama exactamente Rcmdr). Lo seleccionas y hacemos click sobre OK. Tardar unos segundos en
instalarse todo. Despus escrbimos en R:
library(Rcmdr)
Al darle al Intro se abrir una nueva VENTANA. Debes cerrarla y seguir trabajando en R como
habitualmente hacemos. As que sigue escribiendo lo siguiente:
partial.cor(basedatos)
En el resumen de la regresin podemos observar que el p-valor del contrate general es menor a 0.05
eso quiere decir que existe al menos un coeficiente que es distinto de cero. Por otro lado si nos fijamos
en los p_valores de los contrastes individuales, observamos que son solo 4 coeficientes significativos (el
intercepto, EV, poblacin.1, DICO), y el resto no significativos.
Tambin podemos ver a travs del coeficiente de determinacin mltiple que el ajuste es bueno con un
R^2=0.9512 y un R^2 ajustado de 0.9217.
Pero estos resultados pueden estar distorsionados debido a problemas de multicolinealidad, vistos en el
anlisis de correlacin.
5. MULTICOLINEALIDAD
La multicolinealidad provoca una serie de problemas en el ajuste del modelo, como por ejemplo que las
estimaciones de los parmetros no sean correctas o que los errores de estimacin sean elevados.
Podemos hacernos una idea de la posible existencia de asociacin entre cada par de las 7 variables
ayudndonos de la matriz de correlaciones ya mostrados, como vimos en clase se puede sospechar de la
multicolinealidad cuando el R^2 es mayor a 90 y la correlacin entre dos variables es casi 1, teniendo en
cuenta esto podemos decir que solo tres variables (ALFA, ESCOLA y LOGROEDU) son mayores al
90% lo cual nos esta indicando que hay un problema de dependencia entre as variables regresoras
Podemos concretar estos problemas analizando los factores de incremento de la varianza (VIF).
vif(model1)
Encontramos problemas de multicolinealidad en aquellas variables cuyo VIF sea mayor que 1/(1-R^2).
Vemos en la tabla que superan este valor los VIFs de las variables ALFA, ESCOLA y LOGROEDU,
por lo tanto podemos concluir que el resto no estarn implicadas en la existencia de multicolinealidad.
6. SELECCIN DE VARIABLES
Probada la existencia de multicolinealidad vamos a seleccionar las variables ms adecuadas para realizar
el ajuste final.
Teniendo en cuenta que LOGROEDU en la tabla de resmenes del modelo su coeficiente no fue
significativo y por tener una correlacin muy alta con ALFA y ESCOLA la eliminamos del modelo.
model2 = update(model1, .~.-LOGROEDU)
summary(model2)
Ahora podemos ver que ya casi todos los coeficientes de las variables son significativos con excepcin
del coeficiente de la variable poblacin, entonces determinamos eliminar poblacin, primero por tener
una baja correlacin con la variable respuesta y segundo porque lo ya antes mencionado.
La variable ALFA tena problemas de multicolinealidad con otras variables pero esto se solucion
gracias que se elimin las variables ESCOLA Y LOGROEDU que estaban causando estos problemas.
vif(model3)
Este mismo anlisis se puede hacer con R con los siguientes comandos:
step(model1, direction="backward")
El algoritmo forward funciona de forma opuesta al backward. Empieza seleccionando la variable con
mayor coeficiente de correlacin simple para posteriormente ir aadiendo variables eligiendo primero
las que ms mejoran el ajuste, es decir, en orden de mayor a menor coeficiente de correlacin parcial.
Obteniendo los mismos resultados que los que obtuvimos sin usar el comando de R.
hy<-fitted(modelo)
hy2<-signif(hy,digits=4)
res1<-residuals(modelo)
res2<-rstandard(modelo)
library(MASS)
res3<-studres(modelo)
res.xy<-data.frame(basedatos$indicedesarrolla,hy,res1,res2,res3)
names(res.xy)<-c("Y","HY","Resid","Res Estand","Res Estud")
res.xy
Y
HY
8. BONDAD DE AJUSTE
Observemos tres criterios:
PRIMERO:
Observemos el CV (Coeficiente de Variacin)
El error estndar residual (estimacin de sigma), de la tabla de summary
Residual standard error : 0.01547
Es grande o pequea? Calculemos el coeficiente de variacin:
Como es inferior al 10% entonces el error estndar residual es pequeo, eso quiere decir que estamos
ante un buen modelo segn este criterio.
SEGUNDO:
Tabla de ANOVA
Como el 0.000=p_valor<0.05 de la prueba F, entonces es significativo la prueba, eso quiere decir que el
modelo es bueno segn este criterio.
TERCER:
Coeficiente de determinacin
R^2=0.9456, es decir el modelo de regresin consigue explicar casi el 95% de la variabilidad total de los
datos. Es muy bueno segn este criterio.
NORMALIDAD
Segn el grafico NORMAL Q-Q , la mayora de los puntos esta alrededor de la recta, esto nos podra
hacer creer que el supuesto de normalidad se cumple, esto lo verificaremos con el test de Normalidad
de Kolmogorov.
Ho: e~Normal
H1:Lo contrario
e<-model4$residuals
lillie.test(e)
HOMOCEDASTICIDAD
El grafico de residuos vs valores predichos deja dudas sobre el cumplimiento de la hiptesis,
salgamos de dudas con un contraste de hiptesis, para ello utilizaremos el test de Breusch-Pagan:
Ho: Homocedasticidad
H1: Heterocedaticidad
bptest(model4)
Entonces como p_valor<0.05 se rechaza Ho, esto nos lleva transformar alguna variable para
cumplir con los supuestos que se necesitan en el anlisis de regresin mltiple.
Para ello transformamos la variable ALFA en (ALFA)^(4) :
ALFA2=(basedatos$ALFA)^(4)
modelo = lm(indicedesarrolla ~ EV + ALFA2 + poblacion.1+ DICO, data=basedatos)
Probemos ahora la normalidad y la homocedasticidad
e<-modelo$residuals
lillie.test(e)
Observamos que el p_valor>0.05 , esto nos quiere decir que los residuos provienen de una
distribucin normal.
bptest(modelo)
PRUEBA DE INCORRELACION
Ho: Los errores son independientes
H1: Lo contrario
10. CONCLUSIN:
Tal y como hemos podido apreciar en el anlisis realizado con respecto al estudio del ndice
de desarrollo humano considerando para ello una serie de variables que en suma explicaban
el resultado de su evaluacin y desarrollo, hemos podido detectar gracias al anlisis de
regresin, y poniendo nfasis en el anlisis de los residuos, que el modelo ajustado es bueno
y con este se puede estimar el IDH.
Por tanto, concluimos que luego de los ajustes realizados, estamos en condiciones de
proponer como vlido este anlisis desarrollado utilizando la ciencia matemtica y
estadstica acorde a la naturaleza de los datos y los propsitos previamente acordados, bajo
los informes referenciados anteriormente en el presente trabajo.