You are on page 1of 19

ndi

1. Introdu in

2. Nota in y formula in del modelo lineal general

2.1.

Modelo lineal general . . . . . . . . . . . . . . . . . . . . . . . . .

2.2.

Hiptesis bsi as del Modelo

2.3.

. . . . . . . . . . . . . . . . . . . .

Mtodos de sele in de variables . . . . . . . . . . . . . . . . . .

2.3.1.

Criterios de signi an ia . . . . . . . . . . . . . . . . . . .

3. Anlisis exploratorio

4. Modelo de regresin lineal simple: ajuste, valida in y diagnosis


9
4.1.

Ajuste y pruebas de signi an ia del modelo . . . . . . . . . . . .

4.2.

Anlisis de la varianza (ANOVA) . . . . . . . . . . . . . . . . . .

11

4.3.

Intervalos de onanza para los oe ientes del modelo, media


ondi ionada y predi iones . . . . . . . . . . . . . . . . . . . . .

4.4.

11

Valida in del modelo y omproba in de las hiptesis bsi as


del modelo de regresin lineal, as omo identi a in de observa iones atpi as y/o inuyentes
4.4.1.

. . . . . . . . . . . . . . . . . .

12

Transforma iones . . . . . . . . . . . . . . . . . . . . . . .

13

5. Con lusiones

13

1.

Introdu in
Mediante el ajuste de un modelo lineal mltiple, se analiza la base de datos

teengamb de la librera FARAWAY de R, uyos datos tratan de un estudio de


los juegos de azar en la adoles en ia en Gran Bretaa. Esta onsta de 47 las
(adoles ente en uestados) y 5 olumnas (variables-preguntas) que se des riben
a ontinua in:

sex=

sexo (0 = hombre, 1 = mujer)

status=

puntua in de estado so ioe onmi o basado en la o upa in de

los padres

income=
verbal=

renta disponible en libras por semana

ali a in verbal, es de ir de un total de 12 on eptos uantos

se han denido orre tamente

gamble=

el gasto en juegos de azar en libras por ao

El objetivo general de esta a tividad, onsiste en onstruir un modelo de regresin lineal mltiple del gasto en juegos de azar sobre las dems variables de la
base de datos, apli ando un mtodo de sele in de variables.
Un modelo de regresin lineal mltiple, permite representar la dependen ia
de una variable
variables

(variable dependiente, variable respuesta) on respe to a otras

(variables independientes, variables expli ativas). Por lo tanto, se

intenta prede ir y des ribir la rela in del gasto en juegos de azar en fun in de la
puntua in so ioe onmi o, la renta, y la ali a in verbal, adems determinar
si esta rela in es similar para hombres y mujeres. En este aso, la variable

sera el gasto en juegos de azar; mientras que el resto de variables estaran


representadas por

X1 , X2 , X3 , X4

respe tivamente.

La utilidad de disponer de un modelo de regresin lineal mltiple que represente la variable de respuesta segn las variables expli ativas, es permitir
prede ir el gasto en juegos de azar uando se ono e la puntua in so ioe onmi o, la renta, y la ali a in verbal, y el sexo del jugador. Adems permite
determinar la rela in entre la variable de respuesta gasto y las variables expli ativas.
Despus de la introdu in al do umento, se presenta la formaliza in del
problema a estudiar y su nota in, seguido se realiza una primera explora in
del problema, mediante t ni as estadsti as univariadas y bivariadas, despus
se apli a una t ni a de sele in de variables y se estiman los parmetros del
modelo de regresin lineal mltiple para tratar de ajustar y des ribir los gastos
en juegos de azar segn las variables re omendadas por el mtodo de sele in.
Adems, se analiza la bondad del modelo para prede ir y tambin las rela iones
que des ribe el modelo entre las variables expli ativas y la variable de respuesta.
Posteriormente, se estiman intervalos de onanza, se realiza un estudio de
la des omposi in de la varianza y se plantean y veri an las hiptesis que

debe umplir el modelo, adi ionalmente se estudia la existen ia de observa iones


atpi as e inuyentes. Finalmente se presentan las on lusiones sobre el estudio.
Con respe to a la presenta in de los resultados, en general, para las se iones tres y uatro, primero se plantea la a tividad a realizar, seguido del s ript
utilizado para eje utar di ha a tividad para despus realizar on lusiones sobre
lo obtenido.
El software que se utiliza es R (Desarrollo del Equipo Central (2010). R: Un
lenguaje y un entorno de omputa in estadsti a. Funda in R para la Computa in Estadsti a, Viena, Austria. ISBN 3-900051-07-0, URL http://www.Rproje t.org/.), que permite realizar todos los pro edimientos y t ni as estadsti as a utilizar. Se advierte al le tor que se ha asumido que ono e perfe tamente
las instru iones ne esarias para realizar los l ulos en R por lo tanto no se realizar una expli a in sobre los omandos.

2.

Nota in y formula in del modelo lineal general

2.1. Modelo lineal general


Un modelo de regresin lineal es una ombina in lineal de las variables
expli ativas de la siguiente forma:

Y = 0 + 1 X1 + 2 X2 + ......... + p1 Xp1 +
donde

Y,

es la variable expli ativa y las variables

pli ativas, adems

0 , ...., p1 son

X1 , ....., Xp1 son las ex el error que

los parmetros del modelo y

umple las hiptesis de homo edasti idad, normalidad e independen ia . Por lo


tanto, se tiene un modelo on

parmetros a estimar y adems a veri ar los

supuestos del error.


Se onsidera en el aso de la regresin lineal mltiple un diseo jo o un
diseo aleatorio de las variables expli ativas. As, una muestra de tamao

bajo diseo jo de este modelo se puede expresar:

Yi = 0 + 1 xi,1 + 2 xi,2 + ......... + p1 xi,p1 + i


Ahora el modelo de regresin lineal se puede representar para ada individuo en la muestra, siendo
su vez

xi,1 , xi,2 , ..., xi,p1

Yi

la variable respuesta del

i-simo

individuo, y a

las variables expli ativas del mismo individuo y

el

error aso iado a di ho individuo. Utilizando la nota in ve torial para des ribir
la muestra y los parmetros del modelo, nos fa ilitara expresar el modelo de
regresin lineal mltiple de forma matri ial. Sea
ve tor la (de la matriz

X)

xi = (1, xi,1 , xi,2 , ..., xi,p1 )

el

aso iado a las observa iones de las variables expli-

ativas para el i-simo individuo. Si denotamos por

= (0 , ...., p1 ) el ve tor
de oe ientes, la fun in de regresin se puede expresar para el i-simo indivi-

m(xi ) = 0 + 1 xi,1 + 2 xi,2 + ......... + p1 xi,p1 .


Apli ando la nota in matri ial el modelo de regresin lineal mltiple es:

duo de la siguiente manera

Y = XB+
donde

que ontiene

es el ve tor de respuestas, la matriz

np

olumna a ierta ara tersti a,


y

es una matriz no aleatoria

nmeros, donde ada la representa a un individuo y ada

B es el ve tor de parmetros que hay que estimar

es un ve tor que ontiene los errores y veri a que tiene una distribu in

normal multivariada on ve tor de medias igual a ero y matriz de varianza y


ovarianza que slo tienes valores diferentes de ero en la diagonal y que son
2
iguales a v .
Para el estudio de la base de datos teengamb, omo ya se ha men ionado, se
onsidera omo variable de respuesta aY
a

= gamble y a las variables expli ativas


X1 = status, X2 = income,X3 = verbal ,X4 = sex.

2.2. Hiptesis bsi as del Modelo


Linealidad: La fun in de regresin es una lnea re ta. En onse uen ia,
el modelo se suele es ribir as:

Y = 0 + 1 X1 + 2 X2 + ......... + p1 Xp1 +
donde se veri a la linealidad en los parmetros del modelo.
Homo edasti idad: La varianza del error es la misma ualquiera que sea el
2
valor de la variable expli ativa: V ar(/xi,1 , xi,2 , ..., xi,p1 ) = v para todo

i = 1, ...., n.
Normalidad: El error tiene distribu in normal on media igual a ero y
2

varianza igual a

v .

Independen ia: Las variables aleatorias que representan los errores 1 , ..., n
son mutuamente independientes.
Las variables expli ativas

x1 , x2 , ..., xp1

son linealmente independientes,

es de ir no existe el problema de olinealidad.

2.3. Mtodos de sele in de variables


El anlisis de regresin lineal mltiple onsiste en ajustar los datos mediante
un modelo lineal (e ua in de regresin), para esto se sele ionan las variables
una a una,  paso a paso . La nalidad perseguida es bus ar de entre todas las
posibles variables expli ativas aquellas que ms y mejor expliquen a la variable
dependiente sin que ninguna de ellas sea ombina in lineal de las restantes.
Los mtodos de sele in de variables son los siguientes:
Mtodo Forward: El pro eso se ini ia sin ninguna variable independiente
en la e ua in de regresin y el pro eso on luye uando no queda ninguna
variable fuera de la e ua in que satisfaga el riterio de sele in (garantiza
que las variables sele ionadas son signi ativas).

Mtodo Ba kward. El pro eso es inverso al anterior, ahora se parte de un


modelo muy omplejo, que in orpora todos los efe tos que razonablemente
pueden llegar a inuir en la variable respuesta, y se van eliminando (el
riterio debe garantizar que una variable sele ionada no es redundante).
Combina in entre los mtodos de Forward y Ba kward.

2.3.1. Criterios de signi an ia


Es usual onsiderar omo riterio la signi a in del oe iente, es de ir,
observar si la variable aporta o no informa in a la expli a in de la variable de
respuesta. Para el aso del pro edimiento ba kward se detiene uando todos los
oe ientes son signi ativos, y en el aso del pro edimiento forward se detiene
uando todos los elementos fuera del modelo son no signi ativos.
Existen otros riterios de signi an ia que no onsidera solamente el aporte
de la variable que ingresa o sale segn el mtodo de sele in, sino que onsidera
la informa in de todo el modelo. Este tipo de riterio es una medida global de
ada modelo, esta medida tiene en uenta el ajuste y a la vez ompense el
ex eso de parmetros. El objetivo sera es oger el modelo uya medida global
sea mejor, y se apli a a ualquier mtodo de sele in de variables. Los riterios
ms utilizados son:

=2 ln(verosimilitud) + 2p
El Criterio de Informa in de Bayes (BIC):=2 ln(verosimilitud) + p ln(n)
El Criterio de Informa in de Akaike (AIC):

Para la realiza in de nuestra a tividad se utilizara la fun in step de R. y las


op iones por defe to, donde onsidera un riterio AIC (para un modelo lineal
es:

3.

AIC = n ln(RSS/n) + 2p),

y emplea un pro edimiento ba kward.

Anlisis exploratorio
Para ini iar el anlisis exploratorio en R, primero argamos la librera en la

que se en uentran estos registros, proseguimos a denir las variables segn la


nota in expli ada en la se in anterior, y obtenemos un resumen estadsti o.
En la Figura 1 se des ribe el digo utilizado en R y se presentan los resultados.

Figura 1: Prepara in de las variables y resumen estadsti o de la base

A partir del resumen estadsti o, se tiene que hay ms hombres en la base


que mujeres. Tambin se observa que la media de gastos en juego de azar es
mu ho mayor que la mediana, lo que sugiere que la distribu in es sesgada a
la dere ha o puede tener valores atpi os grandes, lo ual es probable, ya que
el valor mximo es mu ho ms grande que el ter er uartil, tambin se puede
on luir en la variable renta la posible existen ia de valores atpi os. Por otro
lado, al observar que el valor mnimo de la variable gasto es ero se ha indagado
en la base de datos y se ha onstatado que existen uatro registros on este
valor, esto suponemos que es debido a que se dan asos donde se ha realizado
el estudio a personas que no juegan (estos asos son mujeres). Por lo tanto, se
onsidera pertinente antes de proseguir en el estudio no onsiderar estos datos
ya que pertene en a la pobla in de no jugadores.
Para onrmar lo men ionado sobre las distribu iones del gasto y la renta
de un jugador (sin onsiderar los valores extrados), se presenta en la Figura 2,
los histogramas orrespondientes para ada variable.

Figura 2: Histogramas y diagramas de ajas de las variables

Y (gastos)

X2 (rentas)
Observando la Figura2, se puede rearmar lo antes expuesto sobre las distribu iones de las dos variables, estas son asimtri as on sesgo a la dere ha y para
el aso de la variable de respuesta
expli ativa

X2

tiene 4 valores atpi os y para la variable

tiene un valor atpi o.

Para orregir la asimetra de los datos, se apli a una transforma in logartmi a tanto a la variable

omo a la variable

X2 ,

on esto se logra adems que

ya no existan datos atpi os (Ver Figura 3). Por onsiguiente, se onsiderara ya


no a las variables renta y gastos sino a las variables logaritmo de la renta y logaritmo del gasto. De aqu en adelante se seguir ha iendo referen ia en el texto a
la variable de respuesta omo

y a la expli ativa omo

X2

pero onsiderando

que estas son el logaritmo del gasto y la renta respe tivamente.


En el Algoritmo 1, se des ribe el digo utilizado en R para realizar los histo-

gramas, diagrama de ajas y gr os de dispersin para el anlisis exploratorio.

Figura 3: Histogramas y diagramas de ajas de las variables

lg(Y )(gastos)

lg(X2 )(rentas)
Una vez estudiada las variables mediante t ni as y gr os estadsti os univariados, ontinuaremos el estudio exploratorio apli ando ahora t ni as bivariadas tales omo gr os de dispersin y el anlisis de orrela in entre parejas
de variables.
En la Figura 4, se presenta el gr o de dispersin para todas las variables.
Al pare er, en este estudio se tiene que los hombres tienden a gastar ms en
juego que las mujeres. Adems, las variables verbal (X3 ) y el estado(X1 ) pare e
que puede tener una orrela in positiva, on respe to a los gasto en el juego y
los ingresos se observa que pueden tambin estar orrela ionadas.

Figura 4: Gr o de dispersin


Finalmente, se al ulan los oe ientes de orrela in de las variables en
estudio(ver Figura 5), y se puede onrmar las rela iones entre la variable estado

y variable verbal (0 56), as tambin la rela in entre las variables gasto y renta

Algoritmo 1 Cdigo para el anlisis exploratorio


#******************tratamiento sin los valores de gasto ero
y<-teengamb$gamble[teengamb$gamble>0
x1<-teengamb$status[teengamb$gamble>0
x2<-teengamb$in ome[teengamb$gamble>0
x3<-teengamb$verbal[teengamb$gamble>0
x4<-as.fa tor(teengamb$sex)[teengamb$gamble>0
levels(x4)= ("Hombre","Mujer")
#Histogramas y diagramas de ajas
par(mfrow= (2,2))
hist(x2,main="Renta

de

los

jugadores",

xlab="(libras

por

sema-

na)",ylab="Cantidad de Jugadores")
hist(y,main="Gasto de los jugadores", xlab="(libras por ao)",ylab="Cantidad
de Jugadores")
boxplot(x2) title("Variable X2 (Renta)")
boxplot(y) title("Variable Y (Gastos)")
par(mfrow= (2,2))
hist(log(x2),main="Logaritmo

de

la

Renta",

xlab="(libras

por

sema-

na)",ylab="Cantidad de Jugadores")
hist(log(y),main="Logaritmo

del

Gasto",

xlab="(libras

por

ao)",ylab="Cantidad de Jugadores")
y=log(y)
x2=log(x2)
boxplot(x2)
title("Variable log (X2) (Renta)")
boxplot(y) title("Variable log (Y) (Gastos)")
#Gr os de dispersin por parejas
base<- bind(y,x1,x2,x3,x4)
pairs(base, ol=as.numeri (x4)+2)
#gr o de dispersin de las variables Gasto vs. Renta
plot(x2,y, ol=ifelse(x4=="Mujer","blue","green"),
main="Digrama de dispersi n Gasto(y) vs. Renta(x2)",
xlab="Renta(libras por semana)",ylab="Gasto (Libras por ao)" )

legend(-.5,5, ("Mujer","Hombres"),lty= (0,0),lwd= (0,0), ol= ("blue","green"),box.lty=0,pt.bg="white",p h


#gr o de dispersin de las variables Gasto vs. Renta por gnero
library(latti e) levels(x4)= ("Hombre","Mujer")
xyplot( y~ x2|x4 , data =teengamb , type = ("p" , "r "),
main="Digrama de dispersi n de las variables Gasto y Renta por gnero",
xlab="Renta (x2)",ylab="Gasto (y)")
# oe iente de orrela in
or(base[,-5)

(0'31).
La orrela in entre el gasto y el ingreso tiene sentido, porque las personas
que ganan ms dinero tienen ms para gastar en el juego. En la Figura 6 y 7, se
presentan los gr os de dispersin de las variables gasto y la renta y adems
se muestra esta misma rela in por sexo.
Se observa laramente que los hombres tienen un omportamiento de gasto diferente que el de las mujeres y que posiblemente exista un fenmeno de
onfusin entre ellos. Con esto on luimos el anlisis preliminar de estos datos.

4.

Modelo de regresin lineal simple: ajuste, valida in y diagnosis


Una vez realizado el estudio exploratorio, pro edemos al ajuste de un modelo

lineal mltiple, donde la variable de respuesta aY


expli ativas a

= lg(gamble) y a las variables


X1 = status, X2 = lg(income),X3 = verbal ,X4 = sex. La

metodologa a utilizar ser la siguiente:


Primero realizamos el ajuste mediante el mtodo de sele in de variables
ba kward y observamos la signi a in de los oe ientes del modelo, as
omo el oe iente de determina in para determinar el por entaje de
expli a in del ajuste.
El siguiente paso es realizar la prueba de signi an ia del modelo o anlisis
ANOVA para determinar si el modelo es signi ativo.
Posteriormente se realiza una estima in de un intervalo de onanza para
ada estimador ( oe ientes del modelo), adems se onstruye una rejilla
de valores de la variable expli ativa y representa los intervalos de onanza
para la estima in de la media ondi ionada y para la predi in.
Finalmente se realiza la valida in y diagnosis del modelo, as omo la
identi a in de observa iones atpi as y/o inuyentes, si existieran.

4.1. Ajuste y pruebas de signi an ia del modelo


Apli ando el mtodo de sele in de variables Ba kward al, Y = 0 + 1 X1 +
2 X2 + 3 X3 + 4 X4 + 5 X2 X4 + , se obtiene un modelo Y = 0 74 + 1 27X2 +
0 32X4 1 66X2 X4 , on AIC = 49 52 (ver Figura 8) que representa un
modelo lineal on una variable expli ativa dis reta(X4 ) y otra ontinua (X2 ),
on intera in. Llegar a este modelo mediante el mtodo de sele in, nos
indi a que el omportamiento de los hombres y las mujeres son diferentes y que
de manera impl ita se ha realizado un ajuste lineal para ada aso de manera
independiente, donde las re tas de regresin son obtenidas a partir del modelo

anterior, estas son:Yh = 0 74 + 1 27X2 (modelo lineal simple para hombres) y

Ym = 1 06 0, 39X2(modelo lineal simple para mujeres).

Considerando el grupo de referen ia a los hombres, se tiene que el inter epto


de su re ta de regresin es el mismo inter epto de la re ta general, y que la su
pendiente es la misma que la pendiente del oe iente

X2

en el modelo general.

Para obtener los oe ientes del inter epto y la pendiente de la re ta de regresin
para las mujeres, solo se suma a los oe ientes de la re ta de regresin de los
hombres los oe ientes de la variable

X4

X2 X4

respe tivamente para el

inter epto y la pendiente.


Podemos on luir hasta el momento que el omportamiento de los hombres
esta delineado por gastar ms en juegos uando tienen ms renta, mientras que
el omportamiento de las mujeres es inverso, es de ir mientras ms renta tienen
menos gastan en juegos de azar.
En la Figura 9, se presenta el resumen del modelo. En base a los resultados
obtenidos se puede ver que el oe iente de la variable renta (X2 ) es signi ativo (p-valor < 0'0025) por lo tanto es distinto de ero y en el aso de los
otros oe ientes no son signi ativos, en el aso del nivel de signi an ia del
oe iente de la intera in este tiene un valor muy er ano a 0'05. Por lo tanto
se tiene que la hiptesis nula de que el oe iente de la variable renta es igual a
ero se re haza, on las signi a iones usuales (10 %, 5 % y 1 %). El oe iente
de determina in ajustado para este modelo es de 32 %, on un error estndar
de 1'685.
Por lo tanto un mejor ajuste lineal es el que onsidera una sola variable de
expli a in (la renta). Pero debido a que los datos demuestran que el sexo si
inuye en la a titud de gasto en el juego de azar y que el nivel de signi an ia del
oe iente de la intera in es er ano al 5 %, se veri ar el siguiente modelo,

Y = 0 + 1 X2 + 2 X2 X4 + .
En la Figura 10, se presenta el resumen del nuevo modelo. Se puede observar
que se ha ganado signi an ia para la variable de la intera in (0'000181) y se
ha mejorado un po o para la variable renta (0'001255), por otro lado se tiene
que el inter epto no es signi ativo. Adi ionalmente podemos observar un mejor
oe iente de determina in y error estndar on respe to a modelo anterior de
1'665 y 34 % respe tivamente.
Finalmente, en la Figura 11 se presenta el resumen del modelo donde no se
onsidera el inter epto. Se veri a que el error estndar ha aumentado a 1'695
y que el oe iente de determina in ajustado ha aumentado tambin a 58 %.
El modelo ajustado es Y = 1 X2 + 2 X2 X4 + que representa el ajuste
lineal de una re ta para ada sexo uyo inter epto es ero. Para tener una mejor
interpreta in de los resultados se realizar un ajuste lineal simple para ada sexo
(ver Figura 12) y se ontrasta on el resultado obtenido en la Figura 11.
Los ajustes lineales para el aso de hombres y mujeres es respe tivamente:Yh

1 67X2

Ym = 0, 27X2,

donde para el modelo de regresin de los hombres es

signi ativa su pendiente (p<6.47e-09) y tiene un oe iente de determina in


de 72 % y una error estndar de 1'578. Para el aso del modelo de las mujeres
el oe iente no es signi ativo y por lo tanto no se pueden ajustar los datos a
un modelo lineal simple.
Volviendo a la Figura 11, podemos interpretar los resultados en base a los
modelos lineales simples. Como no existe inter epto en el modelo que onsidera

10

omo variables expli ativas la renta y la intera in, ya no se puede omparar


dire tamente on el grupo de referen ia que son los hombres. Por lo tanto ahora se estudia la intera in por ada sexo. El oe iente de la variable renta,
sigue representando la pendiente del ajuste lineal simple para los hombres pero adi ionalmente se suma el oe iente de la intera in representada por los
hombres. Para el aso de la pendiente del modelo lineal simple para las mujeres
se obtiene sumando omo antes, el oe iente de la renta ms el oe iente de
la intera in representada por las mujeres.
Podemos on luir que un modelo de regresin lineal simple sin inter epto
donde onsidere la variable de respuesta el gasto y la variable de expli a in
la renta omo se re omienda una vez observado los niveles de signi an ia de
los oe ientes y apli ado el mtodo Ba kward de sele in de variables (Ver
Figura 9) a travs de la fun in step en R, es bajo. Ya que se tiene un oe iente
de determina in de 44 % (ver Figura 13), pero esto es debido a los problema
de onfusin y de no ajustarse la muestra de mujeres a un modelo lineal. Por
otro lado, onsiderar un modelo de regresin lineal simple solo para los hombres
mejora onsiderablemente el oe iente de determina in a 72 %.
Para las se iones de la estima in de los intervalos de onanza para los
oe ientes del modelo, media ondi ionada y predi iones se onsidera el modelo lineal simple para lo hombres y en la se in de veri a in de los supuestos.
Se tratara de en ontrar un transforma in que permita obtener un ajuste lineal
para los datos de las mujeres en la misma se in.

4.2. Anlisis de la varianza (ANOVA)


En esta se in veri aremos mediante el anlisis de la varianza (modelo
Anova) la signi an ia de los modelos generados en la se in anterior. A ontinua in se presenta la lista de los modelos estudiados.
Modelo Step:

Y = 0 + 1 X2 + 2 X2 X4 +

Modelo A:Y

= 0 +1 X2 + 2 X2 X4 +

Modelo B:Y

= 1 X2 + 2 X2 X4 +

En la Figura 14, se puede apre iar en primer lugar la ompara in del modelo
Step on el modelo A, y se on luye que la variable

X4 no es signi ativa (0'7971)

en el modelo Step. Para el aso de la ompara in del modelo A on el modelo


B, se on luye que el inter epto no es signi ativo (0'1233) en el modelo A.

4.3. Intervalos de onanza para los oe ientes del modelo, media ondi ionada y predi iones
Una vez en ontrado el mejor modelo que este aso es un modelo de regresin
lineal simple on inter epto igual a ero para los hombres y haber ontrastado
todas pruebas de hiptesis sobre los oe ientes del modelo, ahora pro edemos a
realizar la estima in de un intervalo de onanza para la pendiente de la re ta,

11

adems se onstruye una rejilla de valores de la variable expli ativa y se representan los intervalos de onanza para la estima in de la media ondi ionada
y para la predi in. Las expresiones utilizadas para los intervalos de onanza
respe tivamente son:



b + t(n2,a/2) bsv
;

1 : b1 =t(n,2,a/2) Sxbsv
1
n
Sx n



c0 =t(n,2,a/2) bsv; Yc0 + t(n2,a/2) bsv , donde n0 =
E(Y /X = x0 ) : Y
n0
n0

q
c0 =t(n,2,a/2)
c0 )= Y
E(Y
bv 1 +
n

1+

(x0
x)2
2
Sx

1 c
n0 ; Y 0

q
+ t(n2,a/2)
bv 1 +

1
n0

, donde

1+

(x0
x)2
2
Sx

n0 =

El intervalo de onanza para la pendiente de la re ta es: (1'263304 ; 2'077500),


para el aso de los intervalos de onanza para la media ondi ionada y para la
predi in se utilizan los siguientes valores de la variable

X2

de uno a tres punto

in o. En la Figura 15,se presentan los gr os de los intervalos de onanza


tanto para la media ondi ionada omo la predi in. Tanto la estima in de la
media ondi ionada, omo la predi in del valor de
en la re ta de regresin el valor de

X2 ,

se obtienen sustituyendo

por lo tanto sus valores son iguales,

pero se observa que los intervalos de onanza para la media ondi iona son
ms pequeos que para la predi in y esto se debe a la pre isin de estas
estima iones que es distinta.

4.4. Valida in del modelo y omproba in de las hiptesis bsi as del modelo de regresin lineal, as omo
identi a in de observa iones atpi as y/o inuyentes
Una vez ajustado el modelo de regresin lineal, el siguiente paso es veri ar
las siguientes hiptesis bsi as:
Linealidad
Homo edasti idad
Normalidad
Independen ia
Para realizar la diagnosis del modelo lineal se utilizara los residuos studentizados, esto debido a que estos tienen varianza ms pare ida entre ellos que los
residuos originales que no tienen la misma varianza.
Para omprobar las hiptesis bsi as del modelo as omo la identi a in
de observa iones atpi as y/o inuyentes podemos re urrir a la Figura 16, y
adems podemos usar el ontraste de normalidad de Shapiro-Wilk y para la
independen ia de los errores el test de Durbin-Watson. Como se se puede observa

12

en la Figura 16, tenemos problemas on todas las hiptesis bsi as del modelo,
en base al primer gr o y el ter er gr o de los residuos y los raz uadrada
de los residuos estandarizados versus los valores estimados podemos de ir que
se umple par ialmente la hiptesis de linealidad y de homo edasti idad en el
modelo, el segundo gr o Normal Q-Q nos indi a una tenden ia par ial de los
puntos sobre los re ta, lo ual indi a que no existe normalidad en los errores,
mientras el ltimo gr o sobre las distan ias de Cook, veri a que no existen
observa iones atpi os y/o inuyentes. Para veri ar lo men ionado, se apli an
las orrespondientes pruebas de hiptesis para el modelo.
Apli ando el ontraste de Shapiro-Wilk se tiene un nivel de signi an ia de
la prueba de 0'01086 y para el ontraste de Durbin-Watson se tiene un nivel de
signi an ia de 0'4094, por lo que podemos on luir que los errores no siguen
una distribu in normal para un nivel de signi an ia de 5 % y en el aso de la
independen ia de los errores se a epta que no existe rela in lineal.

4.4.1. Transforma iones


al realizar el anlisis exploratorio se identi o la asimetra de las variables
gasto y renta, la ual se trato de orregir mediante una transforma in lineal,
esta permiti tener una distribu iones ms simtri as pero no ha ontribuido a
mejorar los datos para que umplan los supuestos bsi os del modelo. En esta
se in se realizar las transforma iones de raz uadrada, las de Box-Cox para
mejorar los datos y ver si umplen las hiptesis del modelo.
Para veri ar la idoneidad de las transforma iones solo se realizara el gr o
de resumen del modelo (Ver Figura 16). La bsqueda de una transforma in se
ha e en paralelo para ada sexo.
Realizando la transforma in raz uadrada para los datos de renta y gasto
por sexo, se obtuvo ya la veri a in ompleta del modelo(Ver Figura 17) en todos sus supuesto y adems se mejoro el oe iente de determina in del modelo
lineal para los hombres a 83 % y por otro lado, el modelo lineal para las mujeres
ya es signi ativo on un oe iente de determina in de 61 %. y tambin se veri an todas las hiptesis bsi as del modelo (ver Figura 18). Dado el resultado
on la transforma in de la raz uadrada ya no se presenta la transforma in
Box-Cox, pero en el digo que se entregara on este do umento se ha realizado
esta transforma in para la variable gasto en juegos de azar para los hombres.

5.

Con lusiones
Se observa laramente que los hombres tienen un omportamiento de gasto
diferente que el de las mujeres y que existe un fenmeno de onfusin entre
ellos.
Podemos on luir que un modelo de regresin lineal simple sin inter epto
donde onsidere la variable de respuesta el gasto y la variable de expli a in la renta omo se re omienda una vez observado los niveles de signi an ia de los oe ientes y apli ado el mtodo Ba kward de sele in

13

de variables (Ver Figura 9) a travs de la fun in step en R, es bajo. Ya


que se tiene un oe iente de determina in de 44 % (ver Figura 13), pero
esto es debido a los problema de onfusin y de no ajustarse la muestra
de mujeres a un modelo lineal. Por otro lado, onsiderar un modelo de
regresin lineal simple solo para los hombres mejora onsiderablemente el
oe iente de determina in a 72 %.
Realizando la transforma in raz uadrada para los datos de renta y gasto
por sexo, se obtuvo ya la veri a in ompleta del modelo(Ver Figura 17)
en todos sus supuesto y adems se mejoro el oe iente de determina in
del modelo lineal para los hombres a 83 % y por otro lado, el modelo lineal
para las mujeres ya es signi ativo on un oe iente de determina in de
61 %. y tambin se veri an todas las hiptesis bsi as del modelo (Ver
Figura 18).

14

Figura 5: Correla iones de las variables de estudio

Figura 6: Gr o de dispersin entre las variables gasto

15

(Y )

y renta

(X2 )

Figura 7: Gr o de dispersin entre las variables gasto

(Y )

sexo

Figura 8: Salida del mtodo Ba kward

Figura 9: Resumen del modelo step

16

y renta

(X2 )

por

Figura 10: Resumen del modelo sin onsiderar la variable

X4

Figura 11: Resumen del modelo solo onsiderando la variable renta y la intera in

Figura 12: Resumen de los modelos de regresin lineal simple

Figura 13: Resumen del modelo de regresin lineal simple

17

Figura 14: Anlisis de la varianza de los modelos

Figura 15: Intervalos de onanza para la media ondi ionada y la predi in

Figura 16: Veri a in de los supuestos para el modelo de los hombres

Figura 17: Veri a in de los supuestos para el modelo de los hombres onsiderando una transforma in de raz uadrada

18

Figura 18: Veri a in de los supuestos para el modelo de las mujeres onsiderando una transforma in de raz uadrada

19

You might also like