You are on page 1of 16

REGRESION LINEAL MULTIPLE

En la regresin lineal mltiple tratamos de determinar la relacin existente entre la variable dependiente
(Y) y dos o ms variables independientes ( X1, X2, X3, ..., XK ) tambin llamadas variables regresoras.
En este caso la variable dependiente se ve afectada por los cambios que se le agan a las variables
independientes en con!unto.
"a relacin entre las variables regresoras y la variable dependiente se establece mediante el modelo
general de regresin lineal mltiple#
k k
X X X X Y + + + + +
3 3 2 2 1 1 0
donde
$
,
%
,
&
, ...,
'
son los parmetros del modelo ( se tienen k variables independientes y p
parmetros ).
En este caso 0 representa la ordenada en el origen, es decir, el punto donde el iperplano corta al a!e (
(al aber ms de dos variables independientes la relacin queda representada por medio de un
iperplano).
En general i representa el cambio esperado en ( por cada incremento unitario en )i, siempre y cuando
las dems variables independientes permane*can constantes.
+or comodidad en la simplicidad de las operaciones, emplearemos en esta ocasin slo dos variables
independientes. ,uedar al lector utili*ar ms de dos variables independientes para futuras aplicaciones.
-l utili*ar dos variables independientes, el modelo general de regresin lineal mltiple queda representado
por#
2 2 1 1 0
X X Y + +
donde#
$ representa el punto donde el plano corta al e!e ( (aora la relacin entre las dos variables
independientes y ( est representada por un plano).
% representa el cambio esperado en ( por cada incremento unitario en )%, siempre y cuando )&
permane*ca constante.
& representa el cambio esperado en ( por cada incremento unitario en )&, siempre y cuando )%
permane*ca constante.
Ing. Armando Jimnez Lizcano
1
"a figura siguiente muestra la relacin entre las variables independientes y (.
ESTIMACION DE PARAMETROS
+ara encontrar los estimadores de los parmetros del modelo, partiremos de una muestra aleatoria de
tama.o n para valores de )%, )& y (#
X1i X2i Yi
)%% )&% (%
)%& )&& (&
)%/ )&/ (/
.
.
.
.
.
.
.
.
.
)%n )&n (n
-l utili*ar una muestra aleatoria para estimar los parmetros, incurriremos en un error en la estimacin.
0ebemos agregar dico error al modelo de regresin lineal mltiple#
+ + +
2 2 1 1 0
X X Y
donde es un error aleatorio con media $ y varian*a
&
.
1ada una de las observaciones de ( se puede representar mediante el modelo anterior#
i i i i
X X Y + + +
2 2 1 1 0
Ing. Armando Jimnez Lizcano
)
%
)
&
(
2 2 1 1 0
X X Y + +
2
2i utili*amos el enfoque de vectores y matrices, las observaciones de ( quedarn representadas
mediante#
+ X Y
donde#
1
1
1
1
1
1
1
]
1

n
(
(
(
.
.
.
2
1
Y
1
1
1
1
1
1
1
]
1

n n
) )
) )
) )
2 1
22 12
21 11
1
1
1
.
.
.
.
.
.
.
.
.
X
1
1
1
]
1

2
1
0

1
1
1
1
1
1
1
]
1

n
.
.
.
2
1

El mtodo a utili*ar en la estimacin de los parmetros del modelo es el mtodo de m3nimos cuadrados.
0ico mtodo consiste en minimi*ar la funcin de m3nimos cuadrados.
"a funcin de m3nimos cuadrados est dada por la letra " y es igual a la suma de todos los errores
elevados al cuadrado#


n
i
i
"
1
2
2i multiplicamos la transpuesta del vector por el mismo vector obtendremos la suma de los errores
elevados al cuadrado#


n
i
i
1
2

la funcin de m3nimos cuadrados quedar como#
"
aora bien, si de la ecuacin vectorial del modelo de regresin anterior despe!amos el error#
X Y
sustituyndolo en "#
( ) ( ) X Y X Y

"
-l reali*ar las operaciones anteriores y simplificando se llega a lo siguiente#
2
2 X X Y X Y Y + "
Ing. Armando Jimnez Lizcano
3
0erivando la funcin anterior con respecto de

, evaluando para

e igualando a cero#
0 +

X X Y X

"
despe!ando

#
( ) Y X X X
1

donde#
1
1
1
]
1

2
1
0

1
1
1
1
1
1
1
]
1








n
i
i
n
i
i i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
) ) ) )
) ) ) )
) ) n
1
2
2
1
2 1
1
2
1
2 1
1
2
1
1
1
1
2
1
1
X X
1
1
1
1
1
1
1
]
1

n
i
i i
n
i
i i
n
i
i
( )
( )
(
1
2
1
1
1
Y X
0e esta manera, el modelo de regresin lineal mltiple a!ustado queda definido por#
2 2 1 1 0
) ) ( + +

PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL MULTIPLE
Ing. Armando Jimnez Lizcano
4
PRUEBA DE SIGNIFICANCIA
"a prueba de significancia del modelo nos permite determinar estad3sticamente si las variables
independientes (en con!unto) tienen efecto o no sobre la variable dependiente.
+ara reali*ar esta prueba se requiere descomponer la suma total de cuadrados, representada por 2yy, en
dos componentes# 224 y 22E
2yy 5 224 6 22E
0onde#
2yy es la suma total de cuadrados
224 es la suma de cuadrados de la regresin
22E es la suma de cuadrados del error
"as ecuaciones apropiadas para calcular las expresiones anteriores son#
n
(
( 2yy
n
i
i
n
i
i
2
1
1
2

,
_

n
(
224
n
i
i
2
1

,
_

Y X
224 2yy 22E
+artimos de las iptesis#
0
0
2 1 0


i a
7
7
:
:
8tili*amos la tabla de anlisis de varian*a#
Fuene !e
"#$i#%i&n
Su'# !e
%u#!$#!()
G$#!()
!e *i+e$#!
Me!i# !e
%u#!$#!()
E)#!,)i%( !e
-$ue+#
4egresin 224 '
'
224
924
92E
924
:
0
Error 22E n ; p
p n
22E
92E

<otal 2yy n ; %
El estad3stico de prueba :$ tiene una distribucin : (:iser) con v% 5 ' y v& 5 n ; p grados de libertad en el
numerador y el denominador, respectivamente.
Ing. Armando Jimnez Lizcano
5
En este caso, si el estad3stico de prueba es mayor que el valor de tablas :
, ', n ; p, se reca*a la iptesis
nula= concluiremos que la variable independiente est relacionada con al menos una de las variables
independientes.
PRUEBAS SOBRE COEFICIENTES INDI"IDUALES
En la prueba de significancia determinamos si existe o no relacin entre la variable dependiente y las
variables independientes en con!unto, es decir, no se puede determinar la relacin entre ( y cada una de
las variables independientes.
2e pueden reali*ar pruebas individuales para anali*ar la relacin entre la variable dependiente y cada una
de las variables independientes.
+artimos de las iptesis siguientes#
0
0
0


! a
!
7
7
:
:
para ! 5 %, &, ..., '
el estad3stico de prueba apropiado es#
!!
!
1 92E
t


0
donde !!
1
es el valor de la diagonal principal de la matri* inversa ( (X.X)
>%
)#
( )
1
1
1
]
1

1
1
1
1
1
1
1
]
1




22 21 20
12 11 10
02 01 00
1
1
2
2
1
2 1
1
2
1
2 1
1
2
1
1
1
1
2
1
1
1
1 1 1
1 1 1
1 1 1
) ) ) )
) ) ) )
) ) n
n
i
i
n
i
i i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
X X
El estad3stico de prueba t$ anterior sigue una distribucin t>student con v 5 n ; p grados de libertad.
Entonces, si el valor absoluto del estad3stico de prueba es mayor que el valor de tablas t
?&, n ; p, se reca*a
la iptesis nula. 1omo conclusin diremos que la variable independiente ( s3 est relacionada con la
variable independiente )!.
Ing. Armando Jimnez Lizcano
6
INTER"ALOS DE CONFIAN/A EN LA REGRESION LINEAL MULTIPLE
INTER"ALOS DE CONFIAN/A PARA LOS PARAMETROS DEL MODELO
2e pueden tambin estimar los parmetros del modelo mediante intervalos de confian*a.
+ara cualquier parmetro, el intervalo de confian*a de (% ; ) %$$@ est dado por la siguiente expresin#
!!
p n
! ! !!
p n
!
1 92E t 1 92E t +

, ,

2 2
para ! 5 $, %, &, ..., '
En cuanto a las conclusiones de los resultados obtenidos en los intervalos de confian*a se aplica un
criterio seme!ante al empleado en la regresin lineal simple.
1omo $ indica un punto donde el plano cortar al e!e (, la conclusin del intervalo correspondiente no
debe presentar problema alguno a la ora del planteamiento.
-lgo diferente resulta a la ora de concluir los intervalos de confian*a para los dems parmetros#
2iempre y cuando ! A $, las conclusiones para cualquier intervalo de confian*a, de acuerdo al resultado
obtenido, sern las siguientes#
2i el intervalo de confian*a para ! resulta
b a
!

, concluiremos que por cada incremento en )! la
variable dependiente disminuir, en promedio, por lo menos + y a lo muco # veces= siempre y cuando las
dems variables independientes permane*can constantes.
2i el intervalo de confian*a para ! resulta
b a
!

, concluiremos que por cada incremento en )! la
variable dependiente aumentar, en promedio, por lo menos # y a lo muco + veces= siempre y cuando las
dems variables independientes permane*can constantes.
-ora bien, 2i el intervalo de confian*a para ! resulta
b a
!

, no se puede afirmar que )! tenga
efecto sobre la variable dependiente.
Ing. Armando Jimnez Lizcano
7
INTER"ALOS DE CONFIAN/A PARA LA RESPUESTA MEDIA Y PARA UNA OBSER"ACION
FUTURA0
1omo vimos anteriormente, el modelo de regresin lineal mltiple nos permite establecer la relacin entre
la variable dependiente (() con ms de una variables independientes ()%, )&, ..., )').
<ambin podemos utili*ar el modelo de regresin para encontrar el valor estimado de ( cuando )% 5 )%, $ y
)& 5 )&,$ (cuando ay dos variables independientes en el modelo). Basta introducir los valores
correspondientes de las variables independientes en el modelo#
( ) ( )
0 2 2 0 1 1 0 0 , ,

) ) ( + +
En forma matricial#
X

!
0 0
(
donde
1
1
1
]
1

0 2
0 1 0
1
,
,
)
) X
Entonces, el intervalo de confian*a de (% ; ) %$$@ para el valor esperado de ( est dado por la
expresin#
( ) [ ] ( ) [ ]
0
1
0
2
0 0
1
0
2
0
X X X X X X X X

+
!
,
!
,

92E t ( 92E t (
p n
(
p n
El intervalo de confian*a de (% ; a) %$$@ para una observacin futura de ( est dado por#
( ) [ ] ( ) [ ]
0
1
0
2
0 0 0
1
0
2
0
1 1 X X X X X X X X

+ + +
!
,
!
,

92E t ( ( 92E t (
p n p n
Ing. Armando Jimnez Lizcano
8
COEFICIENTE DE DETERMINACION MULTIPLE
El coeficiente de determinacin mltiple nos permite expresar la cantidad de la variabilidad presente en
las observaciones de ( que se explica mediante el modelo de regresin lineal mltiple, cuando se utili*an
la variables independientes, en con!unto, como variables regresoras.
El coeficiente de determinacin mltiple se representa mediante 4
&
. <oma valores entre $ y %. Entre ms
se acerque a % el modelo es adecuado, ya que la mayor cantidad en la variabilidad de los datos se explica
mediante el modelo. - medida que el coeficiente se aproxime a cero el modelo de!a de ser adecuado, ya
que cantidad de la variabilidad explicada mediante el modelo es pobre.
El coeficiente de determinacin mltiple se expresa como un porcenta!e y se calcula mediante la siguiente
expresin#
2yy
224
4
2
Ing. Armando Jimnez Lizcano
9
E1ERCICIO
- fin de e!emplificar los temas anteriormente vistos, anali*aremos el siguiente problema#
El dueo de un restaurante de hamburguesas en la ciudad de Mxico desea determinar la interrelacin
entre la introduccin de aderezos importados y las utilidades que recibe.
8tilidades C$ D$ %$$ E$ /$ %$$
0emanda de catsup nacional & % / & % /
0emanda de catsup importada F$ GF CF /$ DF /F
Con esta inormacin determinaremos lo siguiente!
".# $a ecuacin de regresin lineal m%ltiple.
&.# $a prueba de signiicancia del modelo. ' 0.0(
).# *nter+alos de conianza del ,( - para los par.metros del modelo.
/.# *nter+alos de conianza del ,0 - para la utilidad esperada y la utura cuando la demanda de catsup
nacional sea de / y la de catsup importada de (0.
(.# El coeiciente de determinacin m%ltiple.
0e acuerdo al enunciado del e!ercicio, ( representa a las utilidades, )% representa a la demanda de catsup
nacional y )& representa a la demanda de catsup importada.
El ob!etivo principal es establecer si las dos variables independientes tienen efecto o no sobre las
utilidades del restaurante, a fin de establecer diferencias entre las dos. Es decir, si es indiferente cual de
las dos variables utili*ar en el proceso.
- fin de solucionar cada uno de los incisos del e!ercicio, empe*aremos calculando las sumatorias de los
valores de )%, )& y (.
n 5 G )%)& 5 G$$
)% 5 %& ( 5 D&$
)%
&
5 &E (
&
5 //E$$
)& 5 /$$ )%( 5 HC$
)&
&
5 %GF$$ 2)&( 5 &$EF$
Ing. Armando Jimnez Lizcano
10
+uesto que ( ) Y X X X
1

entonces#
1
1
1
]
1

1
1
1
]
1

1
1
1
]
1

1
1
1
]
1

1
1
1
]
1

1 0
5 32
10
20850
970
420
0006666 0 033333 0
0 25 0 5 0
033333 0 5 0 833333 2
20850
970
420
16500 600 300
600 28 12
300 12 6
1
.
.
. .
. .
. . .

de aqu3, entonces, el modelo de regresin lineal mltiple solicitado en el in%i)( 1 es#


2 1
1 0 5 32 10 ) ) ( . .

+
a partir del modelo anterior, podemos concluir lo siguiente#
El plano de regresin cortar al e!e ( en y 5 %$.
+or cada incremento en la demanda de catsup nacional, las utilidades se incrementarn /&.F
veces, en promedio= siempre y cuando la demanda de catsup importada permane*ca constante.
+or cada incremento en la demanda de catsup importada, las utilidades disminuirn $.% veces, en
promedio= siempre y cuando la demanda de catsup nacional permane*ca constante.
+ara reali*ar la prueba de significancia en el in%i)( 2, calcularemos primero los valores de 2yy, 224 y
22E#
( )
( )
4400
6
420
33800
2
2
2


2yy
2yy
n
(
( 2yy
( )
[ ]
( )
4240
6
420
20850
970
420
1 0 5 32 10
2
2

1
1
1
]
1




224
224
n
(
224
. .
Y X
160
4240 4400



22E
22E
224 2yy 22E
+lanteamos las iptesis#
Ing. Armando Jimnez Lizcano
11
0
0
2 1 0


i a
7
7
:
:
el nivel de significancia de la prueba es de $.$F.
4eali*ando la tabla de anlisis de varian*a#
Fuene !e
"#$i#%i&n
Su'# !e
%u#!$#!()
G$#!()
!e *i+e$#!
Me!i# !e %u#!$#!() E)#!,)i%( !e -$ue+#
4egresin D&D$ & 2120
2
4240
924
75 39
3333 53
2120
0
.
.
:
Error %G$ / 3333 53
3
160
. 92E
<otal DD$$ F
El valor de tablas de la distribucin : con 5 $.$F, v% 5 & y v& 5 / grados de libertad en el numerador y el
denominador, respectivamente, es H.FF.
-l comparar el estad3stico de prueba contra el valor de tablas vemos que :$ es '#2($ que :
0.05, &, /=
reca*amos la iptesis nula. +or lo tanto, -(!e'() #3i$'#$ 4ue *#) ui*i!#!e) !e* $e)#u$#ne e)5n
)i6ni3i%#i7#'ene $e*#%i(n#!#) %(n *# !e'#n!# !e %#)u- n#%i(n#* & %(n *# !e'#n!# !e %#)u-
i'-($#!# & %(n #'+#).
- fin de determinar exactamente con cuales variables se relaciona la variable (, reali*aremos pruebas de
iptesis sobre coeficientes individuales.
+ara determinar si la demanda de catsup nacional tiene efecto o no sobre las utilidades, planteamos los
siguiente.
0
0
1
1 0


:
:
a
7
7
el estad3stico de prueba es#
9 8
25 0 3333 53
5 32
0
0
11
1
0
.
. .
.

t
t
1 92E
t
El valor de tablas de la distribucin t>student con 5 $.$&F y v 5 / grados de libertad es /.%E&.
1omparando el valor absoluto del estad3stico de prueba con el valor de las tablas, notamos que t$ es
'#2($ que t
0.025, / por lo que reca*amos la iptesis nula. 1oncluiremos entonces que *# !e'#n!# !e
%#)u- n#%i(n#* ), iene e3e%( )i6ni3i%#i7( )(+$e *#) ui*i!#!e) !e* $e)#u$#ne.
Ing. Armando Jimnez Lizcano
12
"a siguiente prueba de iptesis nos permitir determinar si la demanda de catsup importada tiene o no
efecto sobre las utilidades#
0
0
2
2 0


:
:
a
7
7
el estad3stico de prueba es#
53 0
0006666 0 3333 53
1 0
0
0
22
2
0
.
. .
.

t
t
1 92E
t
El valor de tablas de la distribucin t>student con 5 $.$&F y v 5 / grados de libertad es /.%E&.
-l comparar el valor absoluto del estad3stico de prueba con el valor de las tablas, vemos que t$ es 'en($
que t
0.025, / por lo que no se puede reca*ar la iptesis nula. "o anterior nos lleva a concluir que n(
e8i)en *() e*e'en() )u3i%iene) -#$# #3i$'#$ 4ue *# !e'#n!# !e %#)u- i'-($#!# en6# e3e%(
)(+$e *#) ui*i!#!e) !e* $e)#u$#ne.
En el in%i)( 3 se pide calcular intervalos de confian*a del HF @ para los parmetros del modelo ($, % y
&)
1omo el intervalo de confian*a es del HF @, el valor de es igual a $.$F.
El valor de tablas de la distribucin t>student con $.$&F y / grados de libertad es de /.%E&
El intervalo de confian*a del HF@ para $ queda de la siguiente manera#
9:011;9 2:011;9
<

+
+

833333 2 3333 53 182 3 10 833333 2 3333 53 182 3 10


0
00
2
0 0 00
2
0
. . . . . .

, ,
1 92E t 1 92E t
p n p n
1omo conclusin, )e #3i$'#$ %(n un :;= !e %e$e># 4ue *# ($!en#!# en e* ($i6en )e$5 -($ *() 'en()
?2:011;9 2 # *( 'u%@( 9:011;90 Este es el rango de valores por donde cortar el plano al e!e (.
El intervalo de confian*a del HF@ para % lo calculamos de la siguiente manera#
Ing. Armando Jimnez Lizcano
13
99011:< 2<0AA<:
1

+
+

25 0 3333 53 182 3 5 32 25 0 3333 53 182 3 5 32


1
11
2
1 1 11
2
1
. . . . . . . .

, ,
1 92E t 1 92E t
p n p n
1omo los dos valores del intervalo resultaron positivos, )e -ue!e #3i$'#$ %(n un :;= !e %e$e># 4ue
-($ %#!# in%$e'en( en *# !e'#n!# !e %#)u- n#%i(n#*B *#) ui*i!#!e) )e in%$e'en#$5n -($ *(
'en() 2<0AA<: 2 # *( 'u%@( 99011:< 7e%e)B en -$('e!i(C )ie'-$e 2 %u#n!( *# !e'#n!# !e %#)u-
i'-($#!# -e$'#ne>%# %(n)#ne.
+or ltimo, para calcular el intervalo de confian*a del HF @ para &#
09::D 0E::D
2

+
+

000666 0 3333 53 182 3 1 0 000666 3333 53 182 3 1 0


2
22
2
2 2 22
2
2
. . . . . . . .

, ,
1 92E t 1 92E t
p n p n
En el resultado anterior se tienen un valor negativo y uno positivo a la i*quierda y a la dereca,
respectivamente= simplemente n( )e -ue!e #3i$'#$ 4ue *# !e'#n!# !e %#)u- i'-($#!# en6# e3e%(
)(+$e *#) ui*i!#!e).
En el in%i)( 9 se requiere calcular intervalos de confian*a del H$@ para la respuesta media y para una
observacin futura de la utilidad del restaurante cuando la demanda de castup nacional es de D y la de
catsup importada sea de F$.
-qu3 el intervalo de confian*a solicitado es de H$@, por lo que el valor de ser igual a $.%$
El valor de tablas de la distribucin t>student con $.$F y / grados de libertad es# &./F/.
+rimero se tiene que calcular la utilidad estimada cuando )% 5 D y )& 5 F$.
En forma matricial#
[ ]
135
1 0
5 32
10
50 4 1
0
0
0

1
1
1
]
1

(
(
(

.
.


X
F
<
Cu#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 2 *# !e'#n!# !e %#)u- i'-($#!# )e# !e ;<B *#)
ui*i!#!e) e)-e$#!#) !e* $e)#u$#ne )e$5n !e 13; uni!#!e).
El intervalo de confian*a del H$@ para la utilidad esperada est dado por#
Ing. Armando Jimnez Lizcano
14
( ) [ ]
[ ]
1;30;; G 11E09;
X X X X
Y
<
1 F
<

1
1
1
]
1

1
1
1
]
1


t
t

50
4
1
000666 0 0 03333 0
0 25 0 5 0
03333 0 5 0 83333 2
50 4 1 3333 53 353 2 135
2
0
. .
. .
. . .
. .

,
(
p n
(
92E t (
Se -ue!e #3i$'#$ %(n un :<= !e %e$e># 4ue %u#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 2 *#
!e %#)u- i'-($#!# )e# !e ;<B *# ui*i!#! e)-e$#!# !e* $e)#u$#ne )e$5 -($ *( 'en() 11E09; 2 # *(
'u%@( 1;30;; uni!#!e).
El intervalo de confian*a del H$ @ para la observacin futura de la utilidad del restaurante ba!o las mismas
condiciones de )% y )& est dado por#
( ) [ ]
[ ]
1E<02AE1 Y 1<:0D13:
X X X X
<
<
1 F
<

'

1
1
1
]
1

1
1
1
]
1


+ t
+ t

50
4
1
000666 0 0 03333 0
0 25 0 5 0
03333 0 5 0 83333 2
50 4 1 1 3333 53 353 2 135
1
0
2
0 0
. .
. .
. . .
. .

,
(
92E t ( (
p n
Se -ue!e A3i$'#$ %(n un :<= !e %e$e># 4ue %u#n!( *# !e'#n!# !e %#)u- n#%i(n#* )e# !e 9 2 *#
!e %#)u- i'-($#!# !e ;<B *# ui*i!#! !e* $e)#u$#ne )e$5 -($ *( 'en() 1<:0D13: 2 # *( 'u%@(
1E<02AE1 uni!#!e).
+or ltimo, en el in%i)( ; se pide calcular e interpretar el coeficiente de determinacin mltiple#
9636
4400
4240
2
2
2
.

4
4
2yy
224
4
e)( in!i%# 4ue e* :E03E = !e *# 7#$i#+i*i!#! !e *# ui*i!#! !e* $e)#u$#ne )e e8-*i%# 'e!i#ne e*
'(!e*( !e $e6$e)i&n *ine#* 'H*i-*eI
2 1
1 0 5 32 10 ) ) ( . .

+
%u#n!( )e ui*i>#n *# !e'#n!# !e %#)u- n#%i(n#* 2 *# !e'#n!# !e %#)u- i'-($#!# %('(
7#$i#+*e) $e6$e)($#).
- continuacin se muestran los resultados del e!ercicio anterior calculados en una o!a de clculo
dise.ada para resolver los problemas de regresin lineal mltiple (con & variables independientes).
Ing. Armando Jimnez Lizcano
15
Ing. Armando Jimnez Lizcano
16

You might also like