Professional Documents
Culture Documents
Muchos problemas de regresión involucran más de una variable regresiva. Tales modelos se
denominan de regresión múltiple. La regresión múltiple es una de las técnicas estadísticas mas
ampliamente utilizadas. Este capítulo presenta las técnicas básicas de la estimación de parámetros,
de la estimación del intervalo de confianza y de la verificación de la suficiencia del modelo para la
regresión múltiple. Presentamos también algunos problemas encontrados con frecuencia en el uso
práctico de la regresión múltiple, incluyendo la construcción del modelo y la selección de variables,
la autocorrelación en los errores, y la multicolinearidad y la dependencia casi lineal entre los
regresores.
Variable independiente (regresiva o
regresora)
Variable dependiente (Respuesta)
15-1 Modelos de regresión múltiple
(Independient
El modelo de regresión que involucra más de un variable regresadora se llama modelo de regresión
múltiple. Como un ejemplo, supóngase la vida eficaz de una herramienta de corte depende de la
velocidad y del ángulo de corte. Un modelo de regresión múltiple que podrá describir esta relación
es
Y= vida de la
herramienta
X1= rapidez de corte (15-1)
Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ángulo de corte. Este
es un modelo de regresión lineal múltiple con dos regresores. El término “lineal” se emplea debido
a que la ecuación 15-1 es la función lineal de los parámetros desconocidos β0, β1 y β2. Nótese que
el modelo describe un plano en el espacio bidimensional x1, x2. Parámetro β0 define la ordenada al
origen del plano. Unas veces llamados a β1 y β2 coeficientes de regresión parciales,
Porque β1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene
constante, y β2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante.
En General la variable dependiente o respuesta y puede relacionarse con k variables independientes.
El modelo de regresión múltiple (lineal)
Coeficientes de
regresión (15-2)
Se denomina modelos de regresión lineal múltiple con k variables independientes. Los parámetros
βj, j= 0, 1, . . . , k, se llaman coeficientes de regresión . Este modelo describe un hiperplano en el
espacio k-dimensional de las variables regresoras {xj}. El parámetro βj representa el cambio
esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj
(i≠j) se mantienen constantes. Los parámetros βj, j = 1, 2, . . . , k, se denominan algunas veces
coeficientes de regresión parciales, porque ellos describen el efecto parcial de una variable
independiente cuando las otras variables independientes en el modelo se mantienen constantes.
Los modelos de regresión lineal múltiple se utilizan a menudo como funciones de aproximación.
Esto es, la verdadera relación funcional entre y y x1, x2,…. Se desconoce, aunque sobre ciertos
intervalos de las variablwes independientes ………..
En general, cualquier modelo de regresión que es lineal en los parámetros (los parámetros β) es un
modelo de regresión lineal, sin importar la forma de la superficie que genera.
(15-7)
La función de mínimos cuadrados es
(15.8)
La función L se minimizara con respecto a β0, β1, . . . , βk. los estimadores de mínimos cuadrados
de β0, β1, . . . , βk debe satisfacerse
(15-10)
Donde
Y= vector (n X 1)
obs.
X=matriz (x X p) de
los niveles de las
Filas
B= vector ( p x 1)
E= vector ( n x 1 )
E= errores aleatorios
(15-11)
Puesto β’X’y es una matriz de (1 X 1), o un escalar, y su transpuesta (β’X’y )’= y ‘X β es el mismo
escalar. Los estimadores de mínimos cuadrados deben satisfacer
Que se simplifica a
Estas ec. Son las ec.
Normales de mínimos
cuadrados y son (15-12)
Las ecuaciones 15-12 son las ecuaciones normales de mínimos cuadrados. Ellas son idénticas a las
ecuaciones 15-10. Para resolver las ecuaciones normales, multiplíquense ambos lados de la
ecuación 15-12 por la inversa de X’X. De tal modo, el estimador de mínimos cuadrados de β es
β’= Estimador de
mínimos cuadrados
Es fácil ver que la forma matricial de las ecuaciones normales es idéntica a la de la forma escalar.
Al escribir completa loa ecuación 15-12 obtenemos
(15-15)
La diferencia entre las observaciones y1 y el valor ajustado ЎI es un residuo digamos eI= y1-ЎI . El
vector (nx1) de los residuos se denota mediante
Nuestro problema consiste en decidir cuál de los planos posibles que podemos
dibujar será el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el
criterio de mínimos cuadrados y localizaremos el plano que minimice la suma de los
cuadrados de los errores, es decir las distancias desde los puntos alrededor del
plano a los puntos correspondientes sobre el plano.
Σ x 1 y=β 1 Σ x 2+ β 2 Σ x 1 x 2
Σ x 2 y=β 1 Σ x 1 x 2+ β 2 x 2 2
40.99563=118.2117 β 1−110.54078 β 2
−53.20647=−110.54078 β 1+258.23270 β 2
Ў =β 0+ β 1 X 1+ β 2 X 2 29.486=β 0+(0.257004)(6.429)+(−0.096026)(8.929)
β 0=28.691
De este modo
Ў =β 0+ β 1 X 1+ β 2 X 2 Ў =28.691+ 0.257 X 1+ 0.0960 X 2
Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el
porcentaje de agua
Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para
relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una
maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del
vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseño de la ruta,
el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de
entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una
expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero
de latas almacenadas como regresor.)
Β=(X´X)-1X´Y
1 2 50 9.95
1 8 110 24.95
1 11 120 31.75
1 10 550 35.00
1 8 295 25.02
1 4 200 16.86
1 2 375 14.38
1 2 52 9.60
1 9 100 24.35
1 8 300 27.50
1 4 412 17.08
X= 1 11 400 y= 37.00
1 12 500 31.95
1 2 360 11.66
1 4 205 26.65
1 4 400 17.89
1 20 600 69.00
1 1 585 10.30
1 10 540 34.93
1 15 250 46.59
1 15 290 44.88
1 16 510 54.12
1 17 590 56.63
1 6 100 22.13
1 5 400 21.15
La matriz X´X es 1 2 50
1 8 110
1 1 ….. 1 . . .
X´X= 2 8 ….. 5 . . .
50 110 ….. 400 . . .
1 5 400
25 206 8294
= 206 2396 77177
8294 77177 3531848
-1
β0 25 206 8294 752.82
β1 = 206 2396 77177 8008.37
β2 8294 77177 3531848 274811.31
.214653 -0.0007491 -0.000.340 752.82
= -0.00749 0.001671 -0.000019 8008.37
-0.00340 -0.000019 0.0000015 274811.31
2.26379143 β0
= 2.74426964 β1
0.01252781 β2
Notese que hemos redondeado los coeficientes de regresión hasta cinco lugares. La tabla
15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los
residuales se calculan con la misma precision que los datos originales. Calcular los
valores ajustado de Ŷ y los residuales
b) Estimaremos la varianza del error (σ2) para el problema de la regresión múltiple en el ejemplo
15-3
SSE= y ´ y−β ´ ( X ´ Y )
725.82
β´(X´Y)= 2.26379143 2.74426964 0.01252781 80008.37 = 27062.7775
274811.31
SSE=115.1735
MSE=SSE/n− p
σ 2=MSE
Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes
de regresión { β j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e
independiente con media cero y varianza σ²
En consecuencia, un intervalo de confianza del 100(1-α) % por ciento para el coeficiente de
regresión β j= o, 1,. . . k es.
β jˆ −t α 2
C jj ≤ β j ≤ β jˆ +t α 2
, n−p
√σ ,n− p
√σ C jj
2 2
Ejemplo c)
Construir un intervalo de confianza del 95% respecto al parámetro β1, para nuestro ejemplo, nótese
−1
que la estimación puntual es β1 es β1=2.14427, y que el elementó de la diagonal de ( X T X )
corresponde a β1 es cii=0.001671
1
X01
Xo
X02
X03
y ˆo =X To β ˆ
La varianza de Yo (variable de respuesta)
−1
V ( y ˆo ) =σ ˆ 2 X T0 ( X T X ) X 0
Por lo tanto, un intervalo de confianza del 100(1-α)% respecto a la respuesta media en el punto X0,
X01, . . . Xok es
y ˆo −t α
,n −p
√σ ˆ2 −1
X T0 ( X T X ) X 0 ≤ E ( y 0 ) ≤ y ˆo +t α
,n− p
√σ ˆ2 −1
X T0 ( X T X ) X 0
2 2
ˆ
0.01253 [ ]
La varianza de y o se estima mediante:
−1
V ( y ˆo ) =σ ˆ 2 X T0 ( X T X ) X 0
[
V ( y ˆo ) =5.23521 [ 1 8 275 ] −0.007491 0.001671 −0.000019 =0.23266
−0.000340 0.000019 0.0000015 ]
Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.
Conclusión: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y
28.66 min. Con un nivel de confianza del 95%
Ejemplo:
Supóngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de
predicción del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies
Conclusión.-
El intervalo de predicción en el tiempo con un nivel de confianza del 95% está entre 22.51 y
32.51min este intervalo es más ancho ya que toma en cuenta tanto el error estándar del estimador
mas el error muestra.
H 0 :Bi =B 2=… Bk =0
SRR
K M SR
El procedimiento prueba para H 0 :B j=0 es calcular Fo= =
SSE MSE
(n−k −1)
Se rechaza si H 0 si Fo> F α , n−k−1
n 2 n 2
'
SSE=Y Y −
(∑ )
J =i
n
yi
⟦
− B '
^ x y−
(∑ )
J =i
n
yi
⟧
SSE=SYY-SSR
n 2
SYY= Y ' Y - (∑ )
J =i
yi
n
Ejemplo:
Probaremos la significancia de la regresión de nuestro problema 15.1
H 0 :Bi =B 2=0
( 725.82 )2
SYY=27177.9515- =6105.9447
n 25
( 725.82 )2
SSR=27062.7775- =5990.7712
n 25
SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Región de
Región rechazo
2995.3956 aceptada
Fo= =572.17
5.2352