Trabajo de Regresion

Integrantes
Casas Aquije Csar

Ramn Hinostroza Juan
Caballero Rodriguez Kenny
REGRESION
INDICE DE DESARROLLO
HUMANO EN FUNCION
DE LAS VARIABLES
ESPERANZA DE VIDA,
AFABETIZACION,
POBLACION CON
EDUCACION SECUNDARIA
COMPLETA Y INGRESO
FAMILIAR
Tabla de contenido
INTRODUCCION ................................................................................................................................................. 3
OBJETIVOS ............................................................................................................................................................. 3
1.
INDIVIDUOS Y VARIABLES................................................................................................................... 4
2.
CORRELACIN ........................................................................................................................................... 7
3.
CORRELACIONES PARCIALES ............................................................................................................. 7
4.
MULTICOLINEALIDAD ........................................................................................................................... 9
5.
SELECCIN DE VARIABLES ................................................................................................................. 9
6.
PROBLEMAS CON LAS OBSERVACIONES ....................................................................................12
7.
BONDAD DE AJUSTE .............................................................................................................................14
8.
DIAGNOSTICO DEL MODELO ..........................................................................................................15

NORMALIDAD ...............................................................................................................................................15
HOMOCEDASTICIDAD ..............................................................................................................................16
PRUEBA DE INCORRELACION ..............................................................................................................17
9.
CONCLUSIN: ...........................................................................................................................................19
INTRODUCCION
El ndice de desarrollo humano (IDH) es un indicador del desarrollo humano por pas, elaborado por el
Programa de las Naciones Unidas para el Desarrollo (PNUD). Se basa en un indicador social estadstico
compuesto por tres parmetros: vida larga y saludable, educacin y nivel de vida digno.
Parmetros del ndice de desarrollo humano[editar]
1 - Salud: medida segn la esperanza de vida al nacer.
2 - Educacin: medida por la tasa de alfabetizacin de adultos y la tasa bruta combinada de
matriculacin en educacin primaria, secundaria y superior, as como los aos de duracin de la
educacin obligatoria.
3 - Riqueza: medida por el PIB per cpita PPA en dlares internacionales.
OBJETIVOS
Estimar el IDH(Indice de Desarroollo Humano ) por distrito cada distrito de lima en funcin
de la esperanza de vida, Alfabetizacin, ingreso familiar, poblacin con educacin secundaria
completa.
Dar otra alternativa de clculo al considerar Ingreso familiar en lugar del PBI.
Aplicar todo el conocimiento adquirido en clase.

1. Utilizar el R estadistica como plataforma para el anlisis re regresin mltiple.
2. INDIVIDUOS Y VARIABLES
Contamos con una base de datos extrada del Informe DESARROLLO HUMANO PER 2013.
CAMBIO CLIMTICO Y TERRITORIO: DESAFOS Y RESPUESTAS PARA UN FUTURO
SOSTENIBLE, este informe tiene en su anexos la base de datos del re-clculo del Programa Naciones
Unidas para el Desarrollo (PNDU) del ndice de desarrollo humano departamental, provincial y
distrital en el Per en los aos 2012, 2011, 2007 y el 2003.
Por otro lado contamos con un el informe Aproximaciones al IDH , lo que hemos hecho es
empalmar ambas bases, de tal manera que coincidan los datos de ambas bases de datos.
Para no trabajar con todos los distritos y provincias segmentamos la base de datos en un ao especific
que es el 2007 e hicimos la regresin con los datos de Lima metropolitana y sus distritos, esta base de
datos cuenta con las siguientes variables:
Poblacin
Poblacin
EV
Esperanza de Vida
ALFA
Alfabetizacin
ESCOLA
Escolaridad
LOGROEDU :
Logro educativo
indicedesarrolla:
ndice de Desarrollo Humano
poblacin.1
Poblacin con Educacin secundaria completa
DIC
Ingreso familiar
Primero abrimos la base de datos con la que vamos a trabajar que est guardado con el nombre de
regresionIDH.txt en la carpeta regresin y lo mostramos.
basedatos<read.table("C:/Users/usuario/Desktop/regresion/regresionIDH.txt",sep="\t",header=TRUE)
basedatos
Ahora veremos que variables estn involucradas en el anlisis y cuantas unidades de anlisis (Distritos
de Lima) son.
dimnames(basedatos)
Podemos hacer un grfico de todas las variables.

plot(basedatos)
Observamos en la sexta lnea como la variable indicedesarrolla (ndice de Desarrollo Humano) tiene
una relacin lineal creciente con las variables explicativas ( EV, ALFA, ESCOLA, LOGROEDU,
poblacin.1, ingreso) y en menos grado con la variables poblacin.
Podemos hacer un resumen descriptivo de cada variable.
cor(basedatos)
Si hacemos la siguiente operacin en el R:

Inf=Q1-1.5*(Q3-Q1)
Sup=Q3+1.5*(Q3-Q1)
Donde Q1 y Q3 son los cuartiles 25% y 75% respectivamente.

Remplazando los valores de cada variable en lo mostrado se puede apreciar que solo la variable
poblacin el max>sup y eso nos da un indicio para pensar que posee datos extremos.
3. CORRELACIN
cor(basedatos)
Aqu podemos confirmar lo visto en el grafico anterior si observamos en la sexta lnea poblacin y
ndicedesarrolla tienen una baja correlacin, en cambio con las otras variables tiene una alta
correlacin.
4. CORRELACIONES PARCIALES
Para calcular las correlaciones parciales necesitamos descargar el paquete de R llamado Rcmdr. Para ello
debemos ir al men Paquetes Instalar paquete(s).
Se abrir entonces una ventana.
En ella busca y selecciona Spain (Madrid) OK. Luego se abrir una nueva ventana en ella
aparecen, por orden alfabtico, todos los paquetes que existen actualmente. Busca el que se llama
Rcmdr (encontrars otros paquetes que comenzarn de la misma forma, pero SLO nos interesa el
que se llama exactamente Rcmdr). Lo seleccionas y hacemos click sobre OK. Tardar unos segundos en
instalarse todo. Despus escrbimos en R:
library(Rcmdr)
Al darle al Intro se abrir una nueva VENTANA. Debes cerrarla y seguir trabajando en R como
habitualmente hacemos. As que sigue escribiendo lo siguiente:
partial.cor(basedatos)
Detectamos entonces que las variables ms importantes a la hora de explicar indicedesarrolla es

DICO, seguida de poblacin.1, EV, poblacin, ALFA, LOGRO y ESCOLA. Aqu podemos
observar que el orden en que mostraba la correlacin simple no era cierto.
Tambin nos podemos dar cuenta que la variable ingreso ya no est presente en el anlisis, lo que
sucede es que lo hemos recodificado en otra variable llamada DICO que tiene dos caractersticas,
ingreso medio y alto.
Ahora vamos a ajustar un modelo de regresin lineal con todas las variables disponibles y analizar los
resultados obtenidos.
model1 = lm(indicedesarrolla ~ poblacion + EV + ALFA + poblacion.1+ ESCOLA + LOGROEDU
+ DICO, data=basedatos
summary(model1)
En el resumen de la regresin podemos observar que el p-valor del contrate general es menor a 0.05
eso quiere decir que existe al menos un coeficiente que es distinto de cero. Por otro lado si nos fijamos
en los p_valores de los contrastes individuales, observamos que son solo 4 coeficientes significativos (el
intercepto, EV, poblacin.1, DICO), y el resto no significativos.
Tambin podemos ver a travs del coeficiente de determinacin mltiple que el ajuste es bueno con un
R^2=0.9512 y un R^2 ajustado de 0.9217.
Pero estos resultados pueden estar distorsionados debido a problemas de multicolinealidad, vistos en el
anlisis de correlacin.
5. MULTICOLINEALIDAD
La multicolinealidad provoca una serie de problemas en el ajuste del modelo, como por ejemplo que las
estimaciones de los parmetros no sean correctas o que los errores de estimacin sean elevados.
Podemos hacernos una idea de la posible existencia de asociacin entre cada par de las 7 variables
ayudndonos de la matriz de correlaciones ya mostrados, como vimos en clase se puede sospechar de la
multicolinealidad cuando el R^2 es mayor a 90 y la correlacin entre dos variables es casi 1, teniendo en
cuenta esto podemos decir que solo tres variables (ALFA, ESCOLA y LOGROEDU) son mayores al
90% lo cual nos esta indicando que hay un problema de dependencia entre as variables regresoras
Podemos concretar estos problemas analizando los factores de incremento de la varianza (VIF).
vif(model1)
Encontramos problemas de multicolinealidad en aquellas variables cuyo VIF sea mayor que 1/(1-R^2).
Vemos en la tabla que superan este valor los VIFs de las variables ALFA, ESCOLA y LOGROEDU,
por lo tanto podemos concluir que el resto no estarn implicadas en la existencia de multicolinealidad.
6. SELECCIN DE VARIABLES
Probada la existencia de multicolinealidad vamos a seleccionar las variables ms adecuadas para realizar
el ajuste final.
Teniendo en cuenta que LOGROEDU en la tabla de resmenes del modelo su coeficiente no fue
significativo y por tener una correlacin muy alta con ALFA y ESCOLA la eliminamos del modelo.
model2 = update(model1, .~.-LOGROEDU)
summary(model2)
Podemos observar que el coeficiente de ALFA ahora ya es significativo.

Por las mismas razones por las que eliminamos a LOGROEDU eliminamos a ESCOLA.
model3 = update(model2, .~.-ESCOLA)
summary(model3)
Ahora podemos ver que ya casi todos los coeficientes de las variables son significativos con excepcin
del coeficiente de la variable poblacin, entonces determinamos eliminar poblacin, primero por tener
una baja correlacin con la variable respuesta y segundo porque lo ya antes mencionado.
La variable ALFA tena problemas de multicolinealidad con otras variables pero esto se solucion
gracias que se elimin las variables ESCOLA Y LOGROEDU que estaban causando estos problemas.
vif(model3)
Eliminamos la variable poblacin:

model4 = update(model3, .~.-poblacion)
summary(model4)
Este mismo anlisis se puede hacer con R con los siguientes comandos:
step(model1, direction="backward")
El algoritmo forward funciona de forma opuesta al backward. Empieza seleccionando la variable con
mayor coeficiente de correlacin simple para posteriormente ir aadiendo variables eligiendo primero
las que ms mejoran el ajuste, es decir, en orden de mayor a menor coeficiente de correlacin parcial.
Obteniendo los mismos resultados que los que obtuvimos sin usar el comando de R.
7. PROBLEMAS CON LAS OBSERVACIONES
Outliers, desde el punto de vista de la respuesta (residuos studentizados).

Ahora vamos a localizar los outliers, desde el punto de vista de la respuesta, fijndonos en los
residuos studentizados. Valores superiores a 3 de los residuos studentizados en valor absoluto de
cada individuo nos indican que este es un outlier.
hy<-fitted(modelo)
hy2<-signif(hy,digits=4)
res1<-residuals(modelo)
res2<-rstandard(modelo)
library(MASS)
res3<-studres(modelo)
res.xy<-data.frame(basedatos$indicedesarrolla,hy,res1,res2,res3)
names(res.xy)<-c("Y","HY","Resid","Res Estand","Res Estud")
res.xy
Y
HY
Resid Res Estand Res Estud
1 0.52 0.5170660 0.0029339979 0.19918694 0.19665127

2 0.47 0.4633224 0.0066776325 0.46739566 0.46253617
3 0.49 0.4704519 0.0195481306 1.29732796 1.30947139
4 0.58 0.5959922 -0.0159921888 -1.09485413 -1.09780594
5 0.54 0.5446474 -0.0046474465 -0.33806352 -0.33408843
6 0.46 0.4580504 0.0019496012 0.13064785 0.12894630
7 0.51 0.4952087 0.0147913278 1.00545991 1.00560872
8 0.49 0.4889544 0.0010455915 0.06963532 0.06871735
9 0.47 0.4432341 0.0267659016 1.99539741 2.08100629
10 0.48 0.4985575 -0.0185575114 -1.24141162 -1.25058986

11 0.47 0.4479142 0.0220857774 1.50984505 1.53665113
12 0.51 0.4861499 0.0238500743 1.59677822 1.63130629
13 0.62 0.6106935 0.0093065435 0.63815387 0.63310270
14 0.59 0.6018083 -0.0118082782 -0.79999352 -0.79612972
15 0.52 0.5031469 0.0168530810 1.13448259 1.13890910
16 0.60 0.6085372 -0.0085371550 -0.58143080 -0.57629859
17 0.51 0.5179573 -0.0079573430 -0.54110881 -0.53601053
18 0.47 0.4595579 0.0104421163 0.71272856 0.70803645
19 0.45 0.4523883 -0.0023883352 -0.16150766 -0.15942312
20 0.60 0.5991038 0.0008961980 0.06157213 0.06075960
21 0.61 0.6103097 -0.0003097071 -0.02100831 -0.02073016
22 0.65 0.6229453 0.0270546858 1.84423893 1.90716223
23 0.43 0.4352039 -0.0052039005 -0.38458653 -0.38023315
24 0.42 0.4298437 -0.0098437266 -0.79926893 -0.79539630
25 0.44 0.4622262 -0.0222261601 -1.48843699 -1.51350376
26 0.48 0.4834062 -0.0034062228 -0.22745179 -0.22459198
27 0.47 0.4832638 -0.0132637931 -0.91034649 -0.90824682
28 0.51 0.4950608 0.0149391560 0.99751523 0.99744833
29 0.48 0.5106450 -0.0306449846 -2.60280138 -2.83326836
30 0.61 0.6137804 -0.0037804135 -0.25787696 -0.25468417
31 0.65 0.6208018 0.0291982127 1.98848270 2.07295578
32 0.47 0.4826286 -0.0126285678 -0.83606416 -0.83268406
33 0.49 0.4906392 -0.0006391635 -0.04276074 -0.04219536
34 0.55 0.5297883 0.0202116569 1.40727250 1.42629617
35 0.51 0.5258679 -0.0158679030 -1.09416064 -1.09708796
36 0.60 0.6008867 -0.0008866531 -0.06022070 -0.05942588
37 0.49 0.4887767 0.0012233240 0.08136674 0.08029598

38 0.57 0.5803645 -0.0103645151 -1.03523421 -1.03623887
39 0.48 0.4890141 -0.0090140747 -0.64939374 -0.64437765
40 0.60 0.6052792 -0.0052791879 -0.35740675 -0.35326694
41 0.58 0.5894975 -0.0094975413 -0.64872684 -0.64370848
42 0.47 0.4758565 -0.0058564857 -0.38874681 -0.38436268
43 0.45 0.4711718 -0.0211717507 -1.40637490 -1.42533647
Con una simple inspeccin podemos ver que los errores studentizados no superan a 3, entonces segn
este criterio no habra problemas de outliers.
8. BONDAD DE AJUSTE
Observemos tres criterios:
PRIMERO:
Observemos el CV (Coeficiente de Variacin)
El error estndar residual (estimacin de sigma), de la tabla de summary
Residual standard error : 0.01547
Es grande o pequea? Calculemos el coeficiente de variacin:
Como es inferior al 10% entonces el error estndar residual es pequeo, eso quiere decir que estamos
ante un buen modelo segn este criterio.
SEGUNDO:
Tabla de ANOVA
Como el 0.000=p_valor<0.05 de la prueba F, entonces es significativo la prueba, eso quiere decir que el
modelo es bueno segn este criterio.
TERCER:
Coeficiente de determinacin
R^2=0.9456, es decir el modelo de regresin consigue explicar casi el 95% de la variabilidad total de los
datos. Es muy bueno segn este criterio.
9. DIAGNOSTICO DEL MODELO

Hagamos la grfica de los residuos.
NORMALIDAD
Segn el grafico NORMAL Q-Q , la mayora de los puntos esta alrededor de la recta, esto nos podra
hacer creer que el supuesto de normalidad se cumple, esto lo verificaremos con el test de Normalidad
de Kolmogorov.
Ho: e~Normal
H1:Lo contrario
e<-model4$residuals
lillie.test(e)
Entonces como p_valor>0.05 los errores provienen de una distribucin normal.
HOMOCEDASTICIDAD
El grafico de residuos vs valores predichos deja dudas sobre el cumplimiento de la hiptesis,
salgamos de dudas con un contraste de hiptesis, para ello utilizaremos el test de Breusch-Pagan:
Ho: Homocedasticidad
H1: Heterocedaticidad
bptest(model4)
Entonces como p_valor<0.05 se rechaza Ho, esto nos lleva transformar alguna variable para
cumplir con los supuestos que se necesitan en el anlisis de regresin mltiple.
Para ello transformamos la variable ALFA en (ALFA)^(4) :
ALFA2=(basedatos$ALFA)^(4)
modelo = lm(indicedesarrolla ~ EV + ALFA2 + poblacion.1+ DICO, data=basedatos)
Probemos ahora la normalidad y la homocedasticidad
e<-modelo$residuals
lillie.test(e)
Observamos que el p_valor>0.05 , esto nos quiere decir que los residuos provienen de una
distribucin normal.
bptest(modelo)
Observamos que el p_valor>0.05 , esto prueba el supuesto de homocedasticidad.
PRUEBA DE INCORRELACION
Ho: Los errores son independientes
H1: Lo contrario
El grfico de residuos versus el anterior sera:

su=summary(modelo)
d<-e/su$sigma
d
n<-length(d)
plot(d[1:(n-1)],d[2:n],xlab="Residuo i",ylab="Residuo i-1")
y capturamos con una curva suavizada la tendencia:
lines(lowess(d[1:(n-1)],d[2:n]),col="red")
Grficamente no se ve ninguna tendencia clara creciente o decreciente. Por lo que la hiptesis

parecera que se cumple. Salgamos de dudas con un contraste:
library(lmtest)
dwtest(modelo,alternative="two.sided")
Como el p_valor>0.05 no se rechaza Ho por tanto, los errores son independientes.

En definitiva, estamos ante un buen modelo donde al parecer se cumplen todos los supuestos.
10. CONCLUSIN:
Tal y como hemos podido apreciar en el anlisis realizado con respecto al estudio del ndice
de desarrollo humano considerando para ello una serie de variables que en suma explicaban
el resultado de su evaluacin y desarrollo, hemos podido detectar gracias al anlisis de
regresin, y poniendo nfasis en el anlisis de los residuos, que el modelo ajustado es bueno
y con este se puede estimar el IDH.
Hemos observado que no todas las variables consideradas en un inicio resultaban

importantes ni necesarias para el modelo lineal debidamente planteado y sustentado.
Por tanto, concluimos que luego de los ajustes realizados, estamos en condiciones de
proponer como vlido este anlisis desarrollado utilizando la ciencia matemtica y
estadstica acorde a la naturaleza de los datos y los propsitos previamente acordados, bajo
los informes referenciados anteriormente en el presente trabajo.

Trabajo de Regresion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Trabajo de Regresion

Uploaded by

Copyright:

Available Formats

Integrantes

Casas Aquije Csar

CORRELACIONES PARCIALES ............................................................................................................. 7

SELECCIN DE VARIABLES ................................................................................................................. 9

PROBLEMAS CON LAS OBSERVACIONES ....................................................................................12

BONDAD DE AJUSTE .............................................................................................................................14

DIAGNOSTICO DEL MODELO ..........................................................................................................15

Aplicar todo el conocimiento adquirido en clase.

ndice de Desarrollo Humano

Poblacin con Educacin secundaria completa

Podemos hacer un grfico de todas las variables.

Si hacemos la siguiente operacin en el R:

Donde Q1 y Q3 son los cuartiles 25% y 75% respectivamente.

Detectamos entonces que las variables ms importantes a la hora de explicar indicedesarrolla es

Podemos observar que el coeficiente de ALFA ahora ya es significativo.

Eliminamos la variable poblacin:

7. PROBLEMAS CON LAS OBSERVACIONES

Outliers, desde el punto de vista de la respuesta (residuos studentizados).

Resid Res Estand Res Estud

1 0.52 0.5170660 0.0029339979 0.19918694 0.19665127

10 0.48 0.4985575 -0.0185575114 -1.24141162 -1.25058986

37 0.49 0.4887767 0.0012233240 0.08136674 0.08029598

9. DIAGNOSTICO DEL MODELO

Entonces como p_valor>0.05 los errores provienen de una distribucin normal.

Observamos que el p_valor>0.05 , esto prueba el supuesto de homocedasticidad.

El grfico de residuos versus el anterior sera:

Grficamente no se ve ninguna tendencia clara creciente o decreciente. Por lo que la hiptesis

Como el p_valor>0.05 no se rechaza Ho por tanto, los errores son independientes.

Hemos observado que no todas las variables consideradas en un inicio resultaban

You might also like