Regresión Múltiple

Regresión múltiple
Muchos problemas de regresión involucran más de una variable regresiva. Tales modelos se
denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas mas
ampliamente utilizadas. Este capítulo presenta las técnicas básicas de la estimación de parámetros,
de la estimación del intervalo de confianza y de la verificación de la suficiencia del modelo para la
regresión múltiple. Presentamos también algunos problemas encontrados con frecuencia en el uso
práctico de la regresión múltiple, incluyendo la construcción del modelo y la selección de variables,
la autocorrelación en los errores, y la multicolinearidad y la dependencia casi lineal entre los
regresores.
Variable independiente (regresiva o
regresora)
Variable dependiente (Respuesta)
15-1 Modelos de regresión múltiple
(Independient
El modelo de regresión que involucra más de un variable regresadora se llama modelo de regresión
múltiple. Como un ejemplo, supóngase la vida eficaz de una herramienta de corte depende de la
velocidad y del ángulo de corte. Un modelo de regresión múltiple que podrá describir esta relación
es
Y= vida de la
herramienta
X1= rapidez de corte (15-1)
Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ángulo de corte. Este
es un modelo de regresión lineal múltiple con dos regresores. El término “lineal” se emplea debido
a que la ecuación 15-1 es la función lineal de los parámetros desconocidos β0, β1 y β2. Nótese que
el modelo describe un plano en el espacio bidimensional x1, x2. Parámetro β0 define la ordenada al
origen del plano. Unas veces llamados a β1 y β2 coeficientes de regresión parciales,
Porque β1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene
constante, y β2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante.
En General la variable dependiente o respuesta y puede relacionarse con k variables independientes.
El modelo de regresión múltiple (lineal)
Coeficientes de
regresión (15-2)
Se denomina modelos de regresión lineal múltiple con k variables independientes. Los parámetros
βj, j= 0, 1, . . . , k, se llaman coeficientes de regresión . Este modelo describe un hiperplano en el
espacio k-dimensional de las variables regresoras {xj}. El parámetro βj representa el cambio
esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj
(i≠j) se mantienen constantes. Los parámetros βj, j = 1, 2, . . . , k, se denominan algunas veces
coeficientes de regresión parciales, porque ellos describen el efecto parcial de una variable
independiente cuando las otras variables independientes en el modelo se mantienen constantes.
Los modelos de regresión lineal múltiple se utilizan a menudo como funciones de aproximación.
Esto es, la verdadera relación funcional entre y y x1, x2,…. Se desconoce, aunque sobre ciertos
intervalos de las variablwes independientes ………..
En general, cualquier modelo de regresión que es lineal en los parámetros (los parámetros β) es un
modelo de regresión lineal, sin importar la forma de la superficie que genera.
15-2 Estimación de parámetros

El método de mínimos cuadrados puede utilizarse para estimar los coeficientes de regresión en la
ecuación 15-2. Supóngase que se disponen n > k observaciones, y dejese que xij denoten la
observación iésima o el nivel de la variable xj. Los datos aparecn en la tabla 15.1 suponemos que el
termino del error en el modelo tiene E(ε)= 0, V(ε)=δ² y que las { ε j} son variable aleatorias no
correlacionadas
E(e)= valor esperado del error= 0
Podemos describir el modelo, ecuación 15-2, en términos de las observaciones como
V(E)= varianza del error= δ²
(15-7)
La función de mínimos cuadrados es
(15.8)
La función L se minimizara con respecto a β0, β1, . . . , βk. los estimadores de mínimos cuadrados
de β0, β1, . . . , βk debe satisfacerse
(15-10)
Ecuaciones normales de mínimos cuadrados

Nótese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresión
desconocidos. Las solución para las ecuaciones normales serán los estimadores de mínimos
cuadrados de los coeficientes de regresión, β0, β1, . . . , βk.
Es más simple resolver las ecuaciones normales si ellas se expresan en notación de matriz. Daremos
ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuación 15-
10. El modelo en términos de las observaciones, ecuaciones 15-7, puede expresarse en notación
matricial como
K= numero de variables
Donde
Y= vector (n X 1)
obs.
X=matriz (x X p) de
los niveles de las
Filas
B= vector ( p x 1)
E= vector ( n x 1 )
E= errores aleatorios
En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las

variables independientes, β es un vector (p X 1) de los coeficientes de regresión, y ε es un vector (n
X 1) de los errores aleatorios.
Deseamos encontrar el vector de los estimadores de mínimos cuadrados, β, que minimice
Nótese que L puede expresarse como
(15-11)
Puesto β’X’y es una matriz de (1 X 1), o un escalar, y su transpuesta (β’X’y )’= y ‘X β es el mismo
escalar. Los estimadores de mínimos cuadrados deben satisfacer
Que se simplifica a
Estas ec. Son las ec.
Normales de mínimos
cuadrados y son (15-12)
Las ecuaciones 15-12 son las ecuaciones normales de mínimos cuadrados. Ellas son idénticas a las
ecuaciones 15-10. Para resolver las ecuaciones normales, multiplíquense ambos lados de la
ecuación 15-12 por la inversa de X’X. De tal modo, el estimador de mínimos cuadrados de β es
β’= Estimador de
mínimos cuadrados
Es fácil ver que la forma matricial de las ecuaciones normales es idéntica a la de la forma escalar.
Al escribir completa loa ecuación 15-12 obtenemos
Si se efectúa la multiplicación matricial indicada, resultara la forma escalar de las ecuaciones

normales (esto es, la ecuación 15-10). En esta forma es fácil ver que X’X es una matriz simétrica
(p X p) y X’y es un vector columna (p X 1). Adviértase la estructura especial de la matriz X’X. los
elementos de la diagonal X’X son las sumas de cuadrados de los elementos en las columnas de X’y
son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}.
El modelo de regresión ajustado es
En notación escalar, el modelo ajustado es
La diferencia entre la observación yi y el valor ajustado yi es un residuo, digamos εi=yi-yi. El

vector (n X 1) de los residuos se denota mediante
(15-15)
La diferencia entre las observaciones y1 y el valor ajustado ЎI es un residuo digamos eI= y1-ЎI . El
vector (nx1) de los residuos se denota mediante
Nuestro problema consiste en decidir cuál de los planos posibles que podemos
dibujar será el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el
criterio de mínimos cuadrados y localizaremos el plano que minimice la suma de los
cuadrados de los errores, es decir las distancias desde los puntos alrededor del
plano a los puntos correspondientes sobre el plano.
Ejemplo. A partir de un estudio experimental acerca de la estabilización de arcilla

muy plástica se observo que el contenido de agua para moldeo con densidad
optima dependía linealmente de los porcentajes de cal y puzolana mezclados con la
arcilla. Se tuvieron así los resultados de la siguiente tabla. Ajuste una ecuación de
la forma Ў= β0+β1X1+β2X2 a los datos de dicha tabla
Estas Forma Contenido de Porcentaje de porcentaje de

tridimensional con ejes % de agua (y) cal (X1) puzolana (X2)
Y, x1, x2 (plano) 27.5 2.0 18.0
28.0 3.5 16.5
Grafica de 10 puntos de una 28.8 4.5 10.5
muestra y el plano alrededor 29.1 2.5 2.5
del cual estos puntos parecen 30.0 8.5 9.0
ocuparse 31.0 10.5 4.5
32.0 13.5 1.5
Y x1 x2 Y=y- Ў X1= x1-x1 X2= x2-x2 YX1 YX2 X21 X22 X1 X2

27.5 2 18 -1.985 -4.428 9.072 8.789 -18.01 19.6 82.3 -40.17
28 3.5 16.5 -1.486 -2.929 7.572 4.352 -11.25 8.579 57.33 -22.178
28.8 4.5 10.5 -0.686 -1.929 1.571 1.323 -1.077 3.721 2.468 -3.03
29.1 2.5 2.5 -0.386 -3.928 -6.429 1.516 2.481 15.42 41.33 25.253
30 8.5 9 0.514 2.071 0.071 1.064 0.0364 4.289 0.005 0.147
31 10.5 4.5 1.514 4.071 -4.429 6.163 -6.705 16.57 19.61 -18.03
32 13.5 1.5 2.515 7.072 -7.428 17.186 -18.68 50.01 55.17 -52.53
206.4 45 62.5 0 0 0 40.996 -53.21 118.2 258.3 -110.54
Esta ecuación se puede obtener por medio de la tabla con la sig. Formula
Σ x 1 y=β 1 Σ x 2+ β 2 Σ x 1 x 2
Σ x 2 y=β 1 Σ x 1 x 2+ β 2 x 2 2
40.99563=118.2117 β 1−110.54078 β 2
−53.20647=−110.54078 β 1+258.23270 β 2
por eliminación se tiene: β1=0.257004

β2=-0.096026
Ў =β 0+ β 1 X 1+ β 2 X 2 29.486=β 0+(0.257004)(6.429)+(−0.096026)(8.929)
β 0=28.691
ỹ =Σy/n=206.4/7=29.486 x 1=Σ x 1/n=45/7=6.429

x 2=Σ x 2/ n=62.5 /7=8.929
De este modo
Ў =β 0+ β 1 X 1+ β 2 X 2 Ў =28.691+ 0.257 X 1+ 0.0960 X 2
Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el
porcentaje de agua
Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para
relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una
maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del
vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseño de la ruta,
el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de
entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una
expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero
de latas almacenadas como regresor.)
Ajustaremos el modelo de regresión lineal múltiple:

Ў =β 0+ β 1 X 1+ β 2 X 2+ ε
Tabla 15-2 Datos del tiempo de entrega para el ejemplo

Numero de Tiempo de entrega Numero de latas Distancias (pies)
observaciones (min.)(y) X1 X2
1 9.95 2 50
2 24.45 8 110
3 31.75 11 120
4 35.00 10 550
5 25.02 8 295
6 16.86 4 200
7 14.38 2 375
8 9.60 2 52
9 24.35 9 100
10 27.50 8 300
11 17.08 4 412
12 37.00 11 400
13 41.95 12 500
14 11.66 2 360
15 21.65 4 205
16 17.89 4 400
17 69.00 20 600
18 10.30 1 585
19 34.93 10 540
20 46.59 15 250
21 44.88 15 290
22 54.12 16 510
23 56.63 17 590
24 22.13 6 100
25 21.15 5 400
Los estimadores de minimos cuadrados se encuentra de la ecuacion
Β=(X´X)-1XÝ
A estos datos. La matriz X y el vector y para este modelo son
1 2 50 9.95
1 8 110 24.95
1 11 120 31.75
1 10 550 35.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
X= 1 11 400 y= 37.00
1 12 500 31.95
1 2 360 11.66
1 4 205 26.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15
La matriz X´X es 1 2 50
1 8 110
1 1 ….. 1 . . .
X´X= 2 8 ….. 5 . . .
50 110 ….. 400 . . .
1 5 400
25 206 8294
= 206 2396 77177
8294 77177 3531848
y el vector Xý es 9.95

24.45
1 1 … 1 . 725.82
Xý= 2 8 … 5 . = 8008.37
50 110 … 400 . 274811.31
21.15
-1
β0 25 206 8294 752.82
β1 = 206 2396 77177 8008.37
β2 8294 77177 3531848 274811.31
.214653 -0.0007491 -0.000.340 752.82
= -0.00749 0.001671 -0.000019 8008.37
-0.00340 -0.000019 0.0000015 274811.31
2.26379143 β0
= 2.74426964 β1
0.01252781 β2
Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo

Numero de Y1 Valores ajustados Residuales
observaciones de y1 ε = y1 - Ŷ 1
1 9.95 8.38 1.57

2 24.45 25.60 -1.15
3 31.75 33.95 -2.20
4 35.00 36.60 -1.60
5 25.02 27.91 -2.89
6 16.86 15.75 1.11
7 14.38 12.45 1.93
8 9.60 8.40 1.20
9 24.35 28.21 -3.86
10 27.50 27.98 -0.48
11 17.08 18.40 -1.32
12 37.00 37.46 -0.46
13 41.95 41.46 0.49
14 11.66 12.26 -0.60
15 21.65 15.81 5.84
16 17.89 18.25 -0.36
17 69.00 64.67 4.33
18 10.30 12.34 -2.04
19 34.93 36.47 -1.54
20 46.59 46.56 0.03
21 44.88 47.06 -2.18
22 54.12 52.56 1.56
23 56.63 56.31 0.32
24 22.13 19.98 2.15
25 21.15 21.00 0.15
Por lo tanto el modelo de regresión ajustado es
Ŷ = 2.26379+2.74427 X1+0.01253 X2+ ε
Notese que hemos redondeado los coeficientes de regresión hasta cinco lugares. La tabla
15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los
residuales se calculan con la misma precision que los datos originales. Calcular los
valores ajustado de Ŷ y los residuales
b) Estimaremos la varianza del error (σ2) para el problema de la regresión múltiple en el ejemplo
15-3
MS E=SSE/n−p MSE= Media cuadratica para el error

SSE= Suma de cuadrados de los errores o residuos
Puede mostrarse que n-p= Grados de libertad asociados
σ 2=MSE n= No. de elementos
p= No. de tratamientos (variables)
SSE= y ´ y−β ´ ( X ´ Y )
y ´ y=25 Σ i=1 y i2=27.1779510
725.82
β´(XÝ)= 2.26379143 2.74426964 0.01252781 80008.37 = 27062.7775
274811.31
Por consiguiente la suma de cuadrados del error es
SSE= y ´ y−β ´ ( X ´ Y )=27177.9510−27062.7775
SSE=115.1735
La estimación de σ2 (la varianza del error) es:
σ 2=SSE /n− p=115.1735 /25−3=5.2352
Puede mostrarse que el valor esperado de MSE es σ2
MSE=SSE/n− p
σ 2=MSE
Intervalos de confianza en regresión lineal múltiple
Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes
de regresión { β j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e
independiente con media cero y varianza σ²
En consecuencia, un intervalo de confianza del 100(1-α) % por ciento para el coeficiente de
regresión β j= o, 1,. . . k es.
β jˆ −t α 2
C jj ≤ β j ≤ β jˆ +t α 2
, n−p
√σ ,n− p
√σ C jj
2 2
Ejemplo c)
Construir un intervalo de confianza del 95% respecto al parámetro β1, para nuestro ejemplo, nótese
−1
que la estimación puntual es β1 es β1=2.14427, y que el elementó de la diagonal de ( X T X )
corresponde a β1 es cii=0.001671
2.74727−t 0.025,22 √( 5.2351 ) (0.001671)≤ β 1 ≤ 2.74727−t 0.025,22 √( 5.2351 ) (0.001671)

2.55029 ≤ β 1 ≤2.93825
Conclusión: el intervalo de confianza de 95% para el coeficiente de regresión de β1se encuentre

entre:2.55029 y 2.93825
Estimación del intervalo de confianza de la respuesta media
Se puede establecer un intervalo de confianza para la respuesta media en determinado punto

particular, digamos X0, X01, . . . Xok
1
X01
Xo
X02
X03
La respuesta media estimada en ese punto es
y ô =X To β ˆ
La varianza de Yo (variable de respuesta)
−1
V ( y ô ) =σ ˆ 2 X T0 ( X T X ) X 0
Por lo tanto, un intervalo de confianza del 100(1-α)% respecto a la respuesta media en el punto X0,
X01, . . . Xok es
y ô −t α
,n −p
√σ ˆ2 −1
X T0 ( X T X ) X 0 ≤ E ( y 0 ) ≤ y ô +t α
,n− p
√σ ˆ2 −1
X T0 ( X T X ) X 0
2 2
Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustaría construir un intervalo de

confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y
donde la distancia X2=275 pies.
1
X01 1
Xo
X02 Xo 8
X03 275
Respuesta media esperada:
2.26379
'
y =[ 1 8 275 ] 2.74427 =27.66
o
ˆ
0.01253 [ ]
La varianza de y o se estima mediante:
−1
V ( y ô ) =σ ˆ 2 X T0 ( X T X ) X 0
0.214653 −0.007491 −0.00034
[
V ( y ô ) =5.23521 [ 1 8 275 ] −0.007491 0.001671 −0.000019 =0.23266
−0.000340 0.000019 0.0000015 ]
Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.
27.66−t 0.025,22 √0.232666 ≤ E ( y 0 ) ≤27.66+ t 0.025,22 √ 0.232666

26.66 ≤ E ( y 0 ) ≤ 28.66
Conclusión: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y
28.66 min. Con un nivel de confianza del 95%
Predicción de nuevas observaciones

El modelo de regresión puede utilizar para predecir observaciones futuras respecto y que
corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una
estimación puntual de la observación futura Yo en el punto X0, X01, . . . Xok es
y ô =X To β ˆ
Un intervalo de predicción del 100(1-α) % para esta observación futura es
y ô −t α
2
,n −p
√σ ˆ2
(1+ X T0 ( X T X )−1 X 0 ) ≤ y 0 ≤ y ô +t α ,n− p √ σ ˆ 2 ( 1+ X T0 ( X T X )−1 X 0 )
2
Ejemplo:
Supóngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de
predicción del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies
Conclusión.-
El intervalo de predicción en el tiempo con un nivel de confianza del 95% está entre 22.51 y
32.51min este intervalo es más ancho ya que toma en cuenta tanto el error estándar del estimador
mas el error muestra.
Pruebas de hipótesis en la regresión lineal múltiple

En regresión lineal múltiple , ciertos tipos de hipótesis respecto a los parámetros del modelo son o
tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposición normalidad en los
errores prueba de significación de regresión, esta prueba es para determinar si hay una relación
lineal entre la variable dependiente y un subconjunto de las variables dependientes X 1 , X 2 , X 3
……… X n las hipótesis apropiadas son:
H 0 :Bi =B 2=… Bk =0
Hi: B j≠ 0 Al menos de las siguientes variables independientes el rechazo de H 0 :B j=0 implica

que el menos una de las variables independientes
Análisis de la varianza para la significación de la regresión en la regresión múltiple

Grados
fuente de Suma de Media
de Fo
variabilidad cuadrados cuadrática
libertad

regresión SSR= K=
MSR
MSR=
MSE
Error SSE= n-k-1=

MSE=

Total SYY= n-1=

SYY (suma total de los cuadrados)

SYY= SSR+SSE
SRR
K M SR
El procedimiento prueba para H 0 :B j=0 es calcular Fo= =
SSE MSE
(n−k −1)
Se rechaza si H 0 si Fo> F α , n−k−1
SSE=Y ' Y − ^B X ' Y
n 2 n 2
'
SSE=Y Y −
(∑ )
J =i
n
yi
⟦
− B '
^ x y−
(∑ )
J =i
n
yi
⟧
SSE=SYY-SSR
n 2
SYY= Y ' Y - (∑ )
J =i
yi
n
Ejemplo:
Probaremos la significancia de la regresión de nuestro problema 15.1
H 0 :Bi =B 2=0
Hi: B j≠ 0 Al menos para una de las variables independientes
( 725.82 )2
SYY=27177.9515- =6105.9447
n 25
( 725.82 )2
SSR=27062.7775- =5990.7712
n 25
SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Región de
Región rechazo
2995.3956 aceptada
Fo= =572.17
5.2352
Puesto que si H 0 Fo> F α 0.05 , 2,22=3.44
Conclusión.- se rechaza H 0 ya que Fo> F α 0.05 , 2,22=3.44

Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la
distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la
relación encontrada, es apropiada para predecir. El tiempo de entrega con o con la
función del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del
modelo
Pruebas de coeficientes individuales de regresión.

Con frecuencia estamos interesados en probar hipótesis respecto a los coeficientes
individuales de regresión, tales pruebas serian útiles en la determinación del valor de cada
una de las variables independientes en el modelo de regresión. Por ejemplo, el modelo
podría ser más eficaz con la inclusión de variables adicionales, o quizás con la omisión de
una o mas variables ya en el modelo.
La adición de una variable al modelo de regresión siempre ocasiona que SSR aumente y
que SSE disminuya, además, añadir una variable sin importancia al modelo puede
incrementar el error de MSE aminorando de este la utilidad del modelo.
La hipótesis para probar la significación de cualquier coeficiente de regresión individual,
Bj, son Ho: Bj = 0 si Ho: Bj = 0 no se rechaza (se acepta), entonces esto indica que Xj puede ser
eliminada del modelo.
Hi: Bj≠0
La estadística de prueba para esta hipótesis es to= Bj/√Б2 Cjj
La hipótesis nula Ho: Bj = 0 se rechaza si l to l> t α/2, n-k-1
Ejemplo. Probar el coeficiente individual de regresión B2 con un nivel de confianza del 95%
Ho: B2= 0 to= Bj/√Б2 C33 = 0.01253/√(5.2352)(.000015) =4.4767
Hi: B2≠0 si t .25, 22 = 2.074
Entonces 4.4767>2.074
Conclusión: concluimos que la variable X2 (distancia) contribuye de manera significativa al
modelo. Nótese que esta prueba mide la contribución parcial de X2 dado que X1 esta en el
modelo.
15.6 MEDIDAS DE ADECUACION DEL MODELO

Es posible utilizar diversas técnicas para medir la adecuación del modelo de regresión
múltiple. Esta sección presentara varias de estas técnicas. La validación del modelo es
una parte importante del proceso de construcción del modelo de regresión múltiple. Un
buen artículo respecto a este tema es Snee (1977). Véase también en Montgomery and
Peck (1982, capitulo 10).
15.6.1 coeficiente de determinación múltiple

El coeficiente de determinación múltiple R2 se define como
R 2=SSR/ SYY =1−SSE/ SYY
R2 es una medida del grado de reducción en la variabilidad de y obtenida mediante el
empleo de las variables regresivas X1, X2…. Xk. Como en el caso de la regresión lineal
simple, debemos tener 0≤ R2 ≤ 1. Sin embargo un valor grande de R2,
independientemente si la variable adicional es o no estadísticamente significativa. De tal
modo, es posible en modelos que tienen grandes valores de R2 producir predicciones
pobres de nuevas observaciones o estimaciones de la respuesta media.
La raíz cuadrada positiva de R2 es el coeficiente de correlación múltiple entre Y y el
conjunto de variables regresoras X1, X2…. Xk. esto es R es una medida de la asociación
lineal entre Y y X1, X2…. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x.
Ejemplo el coeficiente de determinación múltiple para el modelo de regresión estimado en
el ejemplo 15.1 es
R 2=SSR/ SYY =5990.7712/6105.9447=.981137
Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido
explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega
(x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El
valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razón
para descartar o modificar estos dos. Por tanto al añadir la variable x2 al modelo se
incremento R2 de .963954 a puntos.
15.6.2 ANALISIS RESIDUAL

Los residuos del modelo de regresión múltiple estimado. Definidos por yi - Yi, desempeñan
un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en
regresión lineal simple. Como se noto en la sección 14.5.1. Hay varias graficas residuales
que son a menudo útiles. Estas se ilustran en el ejemplo 15.9. También resulta útil graficar
los residuos contra variables que no están presentes en el
k e Fk=(k-.5)/ % modelo pero que son posibles candidatas para incluirlas. Los
n patrones de estas graficas, similares a los de la figura 14.5,
1 -3.9 0.02 2 indican que el modelo puede mejorarse agregando la variable
2 -2.9 0.06 6 candidata
3 -2.2 0.1 10 Ejemplo 15.9 los residuos para el modelo estimado en el
4 -2.2 0.14 14 ejemplo 15.1 se muestran en la tabla 15.3 estos residuos se
grafican en papel de probabilidad normal en la figura 15.2.
5 -2 0.18 18
6 -1.6 0.22 22 No se manifiestan de manera evidente, desviaciones
importantes con respecto a la normalidad, aunque los dos
7 -1.5 0.26 26 residuos mas grandes
8 -1.3 0.3 30
9 -1.2 0.34 34
1 -0.6 0.38 38
0
1 -0.5 0.42 42 Los residuos se grafican contra y en la figura 15-3 y
1 contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los
1 -0.5 0.46 46 dos residuos mas grandes e15 y e17 son evidentes. En la fiugra
2 15-4 hay cierta indicacion de que el modelo subpredice el
1 -0.4 0.5 50 tiempo en las salidas con volumenes de entrega pequeños
3 (X1≤6 latas) y volumenes de entrega grandes (X2≥15 latas), y
1 0.03 0.54 54 sobre predice el tiempo en salidas con volumenes de entrega
4 intermedios (7≤x1≤14 latas). La misma impresion se obtiene de
1 0.15 0.58 58 la figura 15-3. Es posible que la reacción entre el tiempo y el
5 volumen de entrega no sea lineal (lo que requiere que un
1 0.32 0.62 62 término que involucra a x12 por ejemplo se agregue al modelo),
6 o que otras variables regresoras no presentes en el modelo
1 0.49 0.66 66 afecten la respuesta. Veremos mas adelante que una tercera
7 variable regresora se requiere para modelar en forma adecuada
1 1.11 0.7 70 estos datos.
8
1 1.2 0.74 74
9 15-3 Grafica residual contra y
2 1.56 0.78 78
0
2 1.57 0.82 82
1
2 1.93 0.86 86
2
2 2.15 0.9 90
3
2 4.33 0.94 94
4
2 5.82 0.98 98
5
Figura 15-4 Grafica residual contra x1
Figura 15-2 Grafica residual contra x2

Regresión Múltiple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresión Múltiple

Uploaded by

Copyright:

Available Formats

Regresión múltiple

15-2 Estimación de parámetros

V(E)= varianza del error= δ²

Ecuaciones normales de mínimos cuadrados

En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las

Nótese que L puede expresarse como

Si se efectúa la multiplicación matricial indicada, resultara la forma escalar de las ecuaciones

En notación escalar, el modelo ajustado es

La diferencia entre la observación yi y el valor ajustado yi es un residuo, digamos εi=yi-yi. El

Ejemplo. A partir de un estudio experimental acerca de la estabilización de arcilla

Estas Forma Contenido de Porcentaje de porcentaje de

Y x1 x2 Y=y- Ў X1= x1-x1 X2= x2-x2 YX1 YX2 X21 X22 X1 X2

por eliminación se tiene: β1=0.257004

ỹ =Σy/n=206.4/7=29.486 x 1=Σ x 1/n=45/7=6.429

Ajustaremos el modelo de regresión lineal múltiple:

Tabla 15-2 Datos del tiempo de entrega para el ejemplo

Los estimadores de minimos cuadrados se encuentra de la ecuacion

A estos datos. La matriz X y el vector y para este modelo son

y el vector X´y es 9.95

Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo

1 9.95 8.38 1.57

Por lo tanto el modelo de regresión ajustado es

Ŷ = 2.26379+2.74427 X1+0.01253 X2+ ε

MS E=SSE/n−p MSE= Media cuadratica para el error

y ´ y=25 Σ i=1 y i2=27.1779510

Por consiguiente la suma de cuadrados del error es

SSE= y ´ y−β ´ ( X ´ Y )=27177.9510−27062.7775

La estimación de σ2 (la varianza del error) es:

σ 2=SSE /n− p=115.1735 /25−3=5.2352

Puede mostrarse que el valor esperado de MSE es σ2

Intervalos de confianza en regresión lineal múltiple

2.74727−t 0.025,22 √( 5.2351 ) (0.001671)≤ β 1 ≤ 2.74727−t 0.025,22 √( 5.2351 ) (0.001671)

Conclusión: el intervalo de confianza de 95% para el coeficiente de regresión de β1se encuentre

Estimación del intervalo de confianza de la respuesta media

Se puede establecer un intervalo de confianza para la respuesta media en determinado punto

La respuesta media estimada en ese punto es

Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustaría construir un intervalo de

0.214653 −0.007491 −0.00034

27.66−t 0.025,22 √0.232666 ≤ E ( y 0 ) ≤27.66+ t 0.025,22 √ 0.232666

Predicción de nuevas observaciones

Pruebas de hipótesis en la regresión lineal múltiple

Hi: B j≠ 0 Al menos de las siguientes variables independientes el rechazo de H 0 :B j=0 implica

Análisis de la varianza para la significación de la regresión en la regresión múltiple

SYY (suma total de los cuadrados)

SSE=Y ' Y − ^B X ' Y

Hi: B j≠ 0 Al menos para una de las variables independientes

Puesto que si H 0 Fo> F α 0.05 , 2,22=3.44

Conclusión.- se rechaza H 0 ya que Fo> F α 0.05 , 2,22=3.44

Pruebas de coeficientes individuales de regresión.

15.6 MEDIDAS DE ADECUACION DEL MODELO

15.6.1 coeficiente de determinación múltiple

15.6.2 ANALISIS RESIDUAL

Figura 15-2 Grafica residual contra x2

You might also like