You are on page 1of 40

UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN

LINEAL MLTIPLE

NDICE

Presentacin 2

Dedicatoria 3

Modelo de regresin lineal mltiple 4

Pruebas de significacin de los coeficientes de regresin.

Anlisis de varianza 9

Prueba t 13

Coeficiente de determinacin mltiple 17

Modelo de regresin lineal mediante matrices 20

Prueba de Durban Watson. 23

Modelo de correlacin polinomial 28

PRESENTACIN

El origen de la estadstica est ligado a Pdos ramas del inters

humano muy diferentes: los juegos de azar y la ciencia poltica.

FACULTAD DE INGENIERIA CIVIL Pgina 1


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Los estudios hechos sobre probabilidades condujeron a la teora

matemtica de los errores en las medidas y las leyes de los errores

derivadas de ella fueron la base de lo que hoy es la estadstica

matemtica. En el mismo ciclo, el anlisis de las unidades polticas

fue el punto de partida de la estadstica descriptiva. Al principio este

se limitaba simplemente a la presentacin de datos a la introduccin

de datos posteriormente amplio sus objetivos al considerar

descripciones numricas.

Hay pocas actividades en que el impacto del reciente progreso

de la estadstica se haya dejado sentir con ms fuerza que en la

ingeniera y la direccin industrial.la estadstica se ha convertido en

una herramienta vital para el ingeniero.

FACULTAD DE INGENIERIA CIVIL Pgina 2


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

DEDICATORIA

Este trabajo est dedicado a


nuestros padres por el esfuerzo
que hacen al
Ayudar que nuestra educacin
sea posible.

FACULTAD DE INGENIERIA CIVIL Pgina 3


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

REGRESIN LINEAL MLTIPLE.

1.-MODELO DE REGRESIN LINEAL MLTIPLE


El anlisis de regresin mltiple es una tcnica estadstica que
consiste en la extensin del anlisis de regresin simple a
aplicaciones que implican dos o ms variables independientes
Xl,X2,...,Xk (k>2) para pronosticar el valor de la variable
dependiente Y. Es una tcnica muy til empleada en diversas
disciplinas, como por ejemplo, en economa y finanzas. Con la
aplicacin de paquetes de cmputo se hace posible la solucin de
problemas en las que intervienen un gran nmero de variables.
En el modelo de la regresin lineal mltiple para k variables
independientes Xx,X2,..., Xk la media de Y se expresa por la ecuacin :
y/X1,X2.,Xk = o + 1 X1 + 2 X2 + + k Xk

En donde: 0, 1, k son los coeficientes de regresin


poblacional.
La estimacin de la ecuacin de regresin poblacional es la ecuacin
de regresin lineal mltiple muestral cuya expresin es:

Y bo b1 X 1 b2 X 2 ... bk X k

En donde: bo, b1, , bk son los coeficientes de regresin


muestral.
Cada coeficiente de regresin poblacional i se estima mediante el
respectivo coeficiente de regresin muestral bi, utilizando el mtodo
de mnimos cuadrados.
Para k - 2 la grfica de la ecuacin de regresin es un plano que
intercepta a Y en 0. Los dems coeficientes de regresin parcial 0,
son las pendientes de la lnea de regresin de Y con la variable X i
mientras las otras variables independientes se mantienen constantes.

FACULTAD DE INGENIERIA CIVIL Pgina 4


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Estas pendientes indican el cambio promedio de Y correspondiente a


un incremento unitario en Xi cuando las dems X permanecen
constantes.
Para k variables independientes (k > 2), la grfica de la
ecuacin de regresin poblacional es un hiperplano en el espacio de k
+ 1 dimensiones.
Los supuestos en el anlisis de regresin mltiple son similares
a las del caso de regresin lineal simple.

Determinacin de la ecuacin de regresin muestral


Los coeficientes de regresin muestral b0,b1 ,...,bk se calculan a partir
de los datos de una muestra aleatoria. Los datos de la muestra
aleatoria de tamao n se pueden recopilar en la forma:
(x1.x2i,...,xki, yi), i = 1,2,...,n y n>k
En donde yi es la respuesta observada (valor de la variable
dependiente Y) para los valores x 1. x2i,...,xki de las k variables
independientes respectivas Xl, X2,...,Xk.
Para cada i = l, 2,...,n los datos de la muestra satisfacen la ecuacin
de regresin poblacional:
yi = o + 1 X1i + 2 X2i + + k Xki + i

Donde, ei, el trmino error, es una variable aleatoria que se


supone tiene media 0 y varianza 2.
Los datos de la muestra satisfacen tambin, la ecuacin de
regresin
muestral:
yi = b0 + b1x2i + b2 x2i +... + bk xki + ei

ei = yi yi es el trmino residual.

Los coeficientes de regresin muestral b0, bx, b2,..., bk se


calculan por el mtodo de mnimos cuadrados. Este mtodo consiste

FACULTAD DE INGENIERIA CIVIL Pgina 5


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

en determinar los coeficientes de manera que hagan mnima la suma


de los cuadrados de los residuales (SCE) expresada por:
n n n
SCE e ( yi y ) yi b0 b1 X 2i ... bk X ki ) 2
2
i
2

i 1 i 1 i 1

Derivando SCE cada vez con respecto a b 0 , b 1 , b 2 ,...,b k e


igualando a cero, se obtienen las siguientes k +1 ecuaciones
normales:

nb0 b1 x1 b2 x2 bk xk y

b0 x1 b2 x12 b2 x1 x2 .... bk x1 xk x1 y

b0 x2 b1 x1 x2 b2 x22 .... bk x2 xk x 2 y

b0 xk b1 xk x1 b2 xk x2 .... bk xk2 x
k y
n
Donde, x j x ji , para j = 1,2, , k.
i 1

Estas ecuaciones pueden ser resueltas para b0, bx, b2, ..., bk por
cualquier mtodo apropiado para resolver sistemas de ecuaciones
lineales. Sin embargo hay muchos paquetes de cmputo disponibles
para llevar a cabo estos clculos, como por ejemplo el paquete
estadstico didctico MCEST elaborado por el autor de este texto.

NOTA. En el modelo de regresin lineal mltiple, las variables


independientes pueden incluir variables cualitativas (o categricas),
como por ejemplo, sexo. En este caso, los valores de la variable
llamada tambin variable indicadora, deben ser codificados. La
codificacin de la variable sexo por ejemplo, puede ser 0 = mujer, l =
hombre (o viceversa).

EJEMPLO

FACULTAD DE INGENIERIA CIVIL Pgina 6


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Se realiza un estudio de asociacin entre las siguientes variables:


Y: Gastos mensuales expresados en cientos de dlares
X1: Ingreso mensual familiar en miles de dlares
X2: Tamao de la familia.
En una muestra de 10 familias escogidas al azar se han encontrado los
datos que presentan en la tabla que sigue:

Y X1 X2
45 10 8
40 9 8
38 8 6
35 7 6
32 7 5
30 6 4
28 6 3
27 4 2
25 3 2
22 2 1

a) Determine la ecuacin de regresin muestral de los gastos


mensuales con respecto a las dos variables: Ingreso mensual y
nmero de hijos.
b) Estime el gasto mensual para una familia de 8 hijos y cuyo ingreso
mensual es $7,000.

SOLUCIN.
a) La ecuacin de regresin mltiple muestral a determinar es:
Y = b0 + b1 X1 + b2 X2.
De los datos de la muestra, resultan:

n = 10, x1 = 62, x2 = 45, x1 x2 = 335, x21 = 444, x22 =


259, y = 322, x1y = 2158, x2y = 1608.

El sistema de ecuaciones normales de mnimos cuadrados es:


10b0 + 62b1 + 45b2 = 322
62b0 + 444b1 + 335b2 = 2158
45b0 + 335b1 + 259b2 = 1608

FACULTAD DE INGENIERIA CIVIL Pgina 7


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Las soluciones nicas de este sistema son:


b0 = 17.8, b1 = 0.978, b2 = 1.844
Por tanto, la ecuacin de regresin mltiple muestral es:
Y = 17.8 + 0.978 X1 + 1.844 X2
b) Si una familia tiene 8 hijos y si su ingreso mensual es $ 7,000,
esto es, si X1 = 7, X2 = 8, entonces, sus gasto mensual estimado es:
y = 17.8 + 0.978 (7) + 1.844 (8) = 39.4 o $ 3,940.
Nota
Un mtodo prctico para convertir el sistema de 3 ecuaciones aun
sistema de dos ecuaciones. Consiste en escribir:

b1 Sx1x1 + b Sx2x2 = Sxiy


b1 Sx1x2 + b2 Sx2x2 = Sx2y

En donde:

x n x1 , x n x 2 ,
2 2
Sx1x1 = 2
1 Sx2x2 = 2
2

Sx1x2 = x x 1 2 n x1 x 2 , Sx1x2 = x y n x y ,
1 2

Sx2y = x 2 y n x 2 y ,

Del sistema reducido se obtienen b1 y b2 y luego se obtiene,


bo y b1 x1 b2 x 2

FACULTAD DE INGENIERIA CIVIL Pgina 8


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

2.-PRUEBAS DE SIGNIFICACIN DE LOS COEFICIENTES


DE REGRESIN

Una vez determinada la ecuacin de regresin muestral


debemos de terminar si los coeficientes de esa ecuacin de regresin
son significativos o no. Es decir, se debe determinar si los
coeficientes de regresin calculados a partir de la muestra implican
que los correspondientes coeficientes de regresin poblacional son o
no son distintos de cero.
Si todos los coeficientes de regresin poblacional son iguales a
cero no podremos predecir Y, es decir no habra regresin lineal. Si
slo uno de ellos igual a cero, por ejemplo, 2 = 0 ; podemos concluir
que no hay regresin de Y en X2.

El anlisis de la regresin debera comenzar con una prueba de


lignificacin global de los coeficientes de regresin muestral mediante
un Anlisis de varianza. Si se acepta que no todos los coeficientes de
regresin poblacional son iguales a cero, entonces, se debe analizar la
significacin di los coeficientes de regresin muestral
individualmente.

El proceso es el siguiente:

i) Anlisis de varianza

El anlisis de varianza se utiliza en este caso para determinar si


existe o no regresin lineal en la poblacin de la variable dependiente
Y con todas las variables independientes en conjunto (anlisis de
regresin lineal global de los coeficientes de regresin). La hiptesis
nula y alternativa de la prueba es respectivamente:

H0 = 1 = 2 = = k = 0

FACULTAD DE INGENIERIA CIVIL Pgina 9


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

H1: al menos una de las 1 es distinto de cero

La estadstica F de la prueba de la hiptesis nula H0 contra H0 se


obtiene de la particin de varianza de Y en varianza residual (no
explicada) y varianza explicada por la regresin lineal, cuyas sumas
de cuadrados respectivos son:
n n n
(y
i 1
i y i ) 2 ( y1 y ) 2 y i y ) 2
i 1 i 1

SCT = SCE + SCR

Donde, SCT es la suma de cuadrados total, SCE es la suma de


cuadrados de errores o residuales (varianza no explicada) y SCR es la
suma de cuadrados de la regresin (varianza explicada por la
regresin).
Los grados de libertad respectivos de las sumas de cuadrados son:

n- 1 = (n k - l) + k

Por otro lado, la estadstica SCR/2, se distribuye segn una chi-


cuadrado con k grados de libertad, esto es:

SCR/ 2 ~X2 (K)


Tambin, la estadstica

SCR/ 2 ~X2 (n k 1) + k

Estas estadsticas son independientes. Por tanto, el cociente de


las dos chi2 divididos entre sus respectivos grados de libertad, tiene
distribucin F con grados de libertad k y n k 1, esto es:

( SCR / 2 ) / K SCR / K CMR


F ~ F ( K , n k 1)
( SCE / )(n k 1) SCE ( n k 1) CME
2

En donde:

FACULTAD DE INGENIERIA CIVIL Pgina 10


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

CMR = SCR/k y CME = (n k 1)


Son los cuadros medios de regresin y de error
respectivamente.
Dado el nivel de significacin , para los grados de libertad k y
n k 1, en la tabla F se encuentra el valor crtico c = F1-,k,n-k-1 .
La regin de decisin es: rechazar H0 : 1 = 2 = = k = 0, si el
valor calculado de F es mayor que el valor crtico c. No rechazar H 0 en
caso contrario.

La prueba de hiptesis de anlisis global se resume en la siguiente


tabla anlisis de varianza (ANVA):

Fuente de Suma de Grados Cuadrados medios F calculada


variacin cuadrado de
s libertad

Regresin SCR k CMR = SCR/k CMR


F
CME
Error SCE nk1 CME = SCE/(n k 1)

Total SCT n-1

Las sumas de cuadrados SCT, SCR y SCE se calculan utilizando


las siguientes expresiones:
n n
SCT ( y1 y ) 2 y12 n( y ) 2
i 1 i 1

n
SCT ( y1 y ) 2 b1 Sx1 y b2 Sx2 y
i 1

n n
Donde Sx1y = x y n( x)( y ), y Sx
i 1
1 2 y x2 y n( x 2 )( y )
i 1

SCE = SCT SCR

FACULTAD DE INGENIERIA CIVIL Pgina 11


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

EJEMPLO
Con los datos mustrales del ejemplo 13.10 y utilizando el
nivel de Dignificacin = 0.05, analice la existencia de regresin
mltiple global en la poblacin:
SOLUCIN.
La hiptesis nula y alternativa de esta prueba son:
H0:1=2=0
H1 : al menos una de las i es distinto de cero
De los datos del ejemplo 13.10, resultan:

n
SCT = y
i 0
2
1 n ( y ) 2 = 10,840 -10(32.2)2 = 471.6

n
SX1Y = x y n (x
i 0
1 1 ) ( y ) = 2158 -10 (6.2) (32.2) = 161.6

n
SX2Y = x
i 0
2 y n ( x 2 ) ( y ) = 1.068 10 (4.5) (32.2) = 159

SCR = b1Sx1y + b2Sx2y = 0.978 (161.6) + 1.844 (159) = 451.342


SCE = SCT SCR = 471.6 451.342 = 20.258

Los grados de libertad de SCT, SCE y SCR son respectivamente, 9, 2 y


7

FACULTAD DE INGENIERIA CIVIL Pgina 12


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

451.342
CMR 225.671
2

20.258
CME 2.894,
7

225.671
F 77.979
2.894

Las sumas de cuadrados, los grados de libertad, los cuadrados


medios y la estadstica F se resumen en la siguiente tabla de anlisis
de varianza.

ANVA para H0: 1 = 2 = 0


Fuente de Suma de Grados de Cuadrados F
variacin cuadrado libertad medios Calculada
Regresin s451.342 2 225.671 F
Error 20.258 7 2.894 =77.979
Total 471.600 9

Al nivel de significacin 5%, y con los grados de libertad 2 y 7,


en la tabla de probabilidades de la F se encuentra el valor crtico F095, 2,
7 = 4.74. Dado que el valor calculado F = 77.53 > 4.74, no se debe
aceptar H0: 1 = 2 = 0. En consecuencia se puede afirmar que existe
regresin lineal poblacional global de Y con X1 y X2.

NOTA. Si se decide aceptar la hiptesis nula H0, se concluye que no


hay regresin de Y globalmente con X1 y X2 y el anlisis termina. Pero
si se rechaza H0 y aceptamos H1 (al menos una de las i es distinto

FACULTAD DE INGENIERIA CIVIL Pgina 13


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

de cero) se debe continuar con el anlisis, determinando las variables


independientes que influyen en la regresin.

ii) Prueba t.

Hiptesis de contraste o nula Ho: u1-u2 = 0

Nivel de significacin del contraste: = 0,05

Muestra estadstica N1 que son los controles con los cuales se


obtuvieron los distintos estadsticos para el intervalo de
aceptacin, grfico de control:

N fech UREA
a [g/l]
1 20/1 0,22
2 21/1 0,21
3 22/1 0,23
4 23/1 0,22
5 24/1 0,21
6 28/1 0,22
7 30/1 0,20
8 31/1 0,21
9 3/2 0,18
10 4/2 0,18
11 5/2 0,21
12 6/2 0,24
13 7/2 0,22
14 10/2 0,18
15 11/2 0,23
16 12/2 0,21

FACULTAD DE INGENIERIA CIVIL Pgina 14


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

17 13/2 0,23
18 14/2 0,27
19 17/2 0,22
20 18/2 0,21

Muestra estadstica N2, que corresponden a los valores de los


controles graficados y que estn desplazados:

N de fech UREA [g/l]


control a
1 19/2 0,24
2 20/2 0,25
3 21/2 0,22
4 24/2 0,34
5 25/2 0,27
6 25/2 0,25
7 27/2 0,30
8 28/2 0,26
9 28/2 0,24
10 4/3 0,25
11 5/3 0,24
12 6/3 0,25
13 7/3 0,27
14 7/3 0,24

FACULTAD DE INGENIERIA CIVIL Pgina 15


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Prueba t:

test t student
Estadsticos valores muestra muestra 2
1
Media 0,22 0,26
Varianza 0,00045 0,00091
Observaciones 20 14
Estadstico t -4,67
P(T<=t) 0,0001
Valor crtico de t -2,07

Como el valor t = -4,67 est fuera del rango +/-2,07, entonces


RECHAZAMOS LA HIPTESIS u1=u2 a un nivel de significacin =
0,05 ya que la diferencia entre las medias es estadsticamente
significativa.

Continuamos con la fase de bsqueda y deteccin de la


fuente de error:

1) Estado del instrumental: ANALIZADOR CLNICO, Bao Mara,


micropipetas: Ok.

2) Limpieza y estado del material de vidrio involucrado, es decir


tubos de Kahn, pipetas, etc.: Ok.

3) Estado de los reactivos: revisando la tabla de ingreso de los


controles, se encontr la anotacin que justo el da 19 de febrero
se reemplaz la UREASA por un frasco nuevo. Deducimos que no
es la ureasa nueva la fuente de error, sino lo que ocurri es que la
ureasa anterior tena una actividad menor a la debida por
envejecimiento, entonces al reemplazar sta por una nueva con
mayor actividad es lgico que todos los valores de concentracin
de urea fueran un poco mas elevados.

FACULTAD DE INGENIERIA CIVIL Pgina 16


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

4) Factores externos tales como la temp. ambiente, humedad


excesiva, problemas con el personal tcnico, molestias de diversos
tipos hacia el operador que realizo la corrida, etc., Ok.

5) Operador: Ok.

Es por esta razn que hubo un desplazamiento en los controles


y el test de student confirma este cambio estadsticamente
significativo.

Adicionalmente hacemos la Prueba T, contrastando el t obtenido,


de 6.9647 con el valor crtico para n=18 (porque restamos 2 grados
de libertad), con una significacin de 5% e incluso de 1%.

El valor crtico arrojado es 2.101 y 2.878 respectivamente, ambos


mejores que el t obtenido. Por ende, rechazamos nuevamente la H 0 y
adoptamos el modelo de regresin planteado.

iii) Anlisis del Coeficiente de Determinacin (R2)

Como podemos apreciar en los datos mostrados arriba, el R 2


tiene un valor de 0.7294, por ende, consideramos que el modelo es
de buena calidad, ya que la variable independiente "Fertilizante" tiene
una capacidad explicativa de 72% del fenmeno.

Anlisis de los Residuos

Ahora procederemos al anlisis de los Residuos, para evaluar la


presencia de observaciones inusuales en la muestra y para
comprobar la validez de las hiptesis fundamentales del modelo,
como son: independencia, normalidad de las observaciones e
igualdad de varianzas de los errores ei (Homoescedasticidad).

Coeficiente De Determinacin Mltiple

Una vez hallada la ecuacin de regresin muestral debera


interesarnos conocer la bondad de ajuste a los datos de la muestra.
Para k = 2 variables independientes el plano ajustado a los puntos de

FACULTAD DE INGENIERIA CIVIL Pgina 17


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

la muestra que sea horizontal y pase por la media y, x1 , x2 puede


considerarse como un plano bsico con respecto al cual se mide la
mejora introducida por la regresin.


y = b0 +b1 Xl + b2 X2

De la particin de la suma total de cuadrados en suma de


cuadrados no explicada y suma de cuadrados explicada por la
regresin, se obtiene el c o e fi c i e n t e de determinacin mltiple que
2
se denota por R2 o R y ,12... k ...k donde k es el nmero de variables
independientes.
El coeficiente de determinacin mltiple se define en forma
similar al
Coeficiente de determinacin simple, por ejemplo, para k = 2
variables independientes, se define por:

SCE
RY2.12 1
SCT

La suma total de cuadrados contienen las desviaciones de los


puntos Observados Y de un plano que se ajusta a estos puntos y que

es horizontal Y Miando por el punto y, x1 , x2 y a partir del cual se


mide el mejoramiento producido por la regresin.
Al igual que el coeficiente de determinacin R2, el coeficiente
de determinacin mltiple mide el porcentaje de la varianza de Y que
queda explicada al conocer dos o ms variables independientes.

Cuanto mayor es el valor de RY2.12 menor es la dispersin y mayor el


ajuste del plano de regresin a los datos.
Por ejemplo, para los datos del ejemplo 13.10 el coeficiente de
determinacin mltiple es:

FACULTAD DE INGENIERIA CIVIL Pgina 18


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

SCE 20.6
RY2.12 1 1 0.96
SCT 471.6

Esto indica que el 96% de la varianza de los gastos mensuales


(Y) queda estadsticamente explicado por los ingresos familiares (X1) y
por el nmero de hijos de las familias (X2).
Cuando el tamao n de la muestra es pequeo, el ndice de

determinacin mltiple RY2.12 tiende a estar positivamente sesgada.


Para corregir este sesgo se utiliza el coeficiente o ndice de
determinacin mltiple corregido (o ajustado) que se denota por R2 o

por RY2.12 y se define por:


CME
RY2.12 1
CMT

Aplicando a los datos del ejemplo 13.10 el coeficiente de


determinacin mltiple corregido es:

CME 2.91
RY2.12 1 1 1 0.056 0.944
CMT 52.4

La raz cuadrada positiva del coeficiente de determinacin


mltiple se denomina coeficiente de correlacin mltiple que
denotamos por R o RY.12. Este nmero mide la relacin entre las
variables independientes consideradas como grupo y la variable
dependiente Y.

La prueba de la significacin del coeficiente correlacin


mltiple poblacional es la misma prueba F que se utiliza para
determinar si existe regresin global de Y con respecto a todas las
variables independientes en conjunto.

Es decir, si se acepta H0 : 1 = 2 =... = k = 0, entonces, se


concluye que no existe correlacin mltiple de Y con todas las
variables independientes Xl, X2,..., Xk.

FACULTAD DE INGENIERIA CIVIL Pgina 19


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Por ejemplo, el coeficiente de correlacin mltiple de Y con Xx y X2


para los datos del ejemplo 13.10 es:
RY ,12 0.96 0.98

Dado que el anlisis de varianza se encuentra que es


significativa la regresin global de Y con X 1 y X2, se concluye que
existe correlacin lineal mltiple en la poblacin.

3.-MATRIZ DE REGRESIN LINEAL MEDIANTE


MATRICES
Supngase que se tiene k variables independientes X 1, X2,, XK
y una variable dependiente Y, y que adems la muestra aleatoria de
tamao n: (X1i, X2i,, XKi, yi), i = 1, 2, . . . , n y n > k, satisface la
ecuacin de regresin poblacional:

yi: 0 + 1x1i + 2x2i + + xki + i

Con la notacin matricial estas n ecuaciones se pueden escribir


como el modelo poblacional.
Y = X +
Donde,

FACULTAD DE INGENIERIA CIVIL Pgina 20


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

y1 1 1 21. xxx k1 0 1
y 1 . xxx
2 12 2 k2 1 2

. .... . .
Y , X , , ,
. .... . .
. .... .

yn 1 1n 2n. xxx kn k n
FACULTAD DE INGENIERIA CIVIL Pgina 21
UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

0 b0
b
1 1
. .
El vector de parmetros , se estima por b , el
. .
. .

k bk
valor de coeficiente de regresin muestral.
El vector b se encuentra por el mtodo de mnimos cuadrados,
para lo cual se minimiza la suma de cuadrados de errores:
SCE = (Y Xb) (Y - Xb)
El sistema de ecuaciones normales se obtiene de la ecuacin de
derivadas en vectores:

( SCE ) 0
b

No se presentaran aqu los detalles del mtodo de mnimo


cuadrados para llegar a la ecuacin normal en forma vectorial. En las
aplicaciones nos interesa saber que el vector b es la solucin de la
ecuacin en matrices:
(XX) b = XY

FACULTAD DE INGENIERIA CIVIL Pgina 22


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

n n n
n
n x1i x2i . . xki y1
i1 i1 i1 i1
n n 2 n n n
x1i x1i x1i x2i. . x1i xki x1i y1
i1 i1 i1 i1 i1
X ' X . . . . , X 'Y .

. . . . .
. . . . .
n n n n n
x x x x x . . x2 x y
i1 ki i1 ki 1i i1 ki 2i i1 ko i1 ki i
Si la matriz XX es no singular, se puede escribir la solucin para
los coeficientes de regresin como:
b = (XX)-1 XY
Las tcnicas para invertir la matriz XX de orden k + 1 por k +
1 se explican en la mayor parte de los libros textos sobre
determinantes y matrices elementales. Hay muchos paquetes de
computadora para problemas de regresin mltiple entre ellos el
MCEST, paquete que no slo proporcionan los coeficientes de
regresin muestral sino que proporciona abundante informacin sobre
inferencias relativas a la ecuacin de regresin poblacional.

FACULTAD DE INGENIERIA CIVIL Pgina 23


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

EJEMPLO
Se realiz un estudio de las relaciones entre las notas obtenidas en 4
materias por 10 estudiantes de administracin de empresas
seleccionados aleatoriamente. Las 3 variables independientes X 1, X2,
X3 y la variable dependiente Y son:
Y = notas en estadsticas aplicada
X1 = nota de matemtica bsica
X2 = nota en lgica
X3 = nota en economa general
Los datos son los siguientes
Y X1 X2 X3
13 12 10 18
15 14 12 15
17 16 10 18
16 15 11 20
13 11 13 15
17 15 16 18
16 16 10 19
14 14 14 16
18 17 13 15
11 11 11 13

a) Determine las ecuaciones normales (XX) b = XY


b) Determine b = (XX)-1 XY
c) Estime el modelo de regresin lineal mltiple
Solucin
Utilizando el paquete estadstico didctico MCEST se tiene:
a) Las ecuaciones normales (XX)b = XY cuya expresin es:

FACULTAD DE INGENIERIA CIVIL Pgina 24


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

10 141 120 167 b0 153


141 2029 1694 2375 b 2 03
1
120 1694 1476 19 5 b2 1838

167 2375 19 5 283 b3 2584

b) La solucin de la ecuacin vectorial es b = (XX)-1 XY, donde,

FACULTAD DE INGENIERIA CIVIL Pgina 25


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

1
b0 3.1 809 0.120 0.430 0.41 153 2.91069
b 0.120 0. 3 0. 06 0. 16 2 03 1.01726
1

b2 0.430 0. 06 0. 30 0. 09 183 0. 4826

b 3 0.41 0. 16 0. 09 0. 32 2584 0.196 0
De donde resulta
b0 = -2.91069, b1 = 1.01726, b2 = 0.04826, b3=0.19690,
La ecuacin de regresin muestral es:

y 2.91069 1.01726 X 1 0.04826 X 2 0.1969 X 3

4.-PRUEBA DE DURBIN WATSON


En el modelo de regresin mltiple:
k
yi j x ji i , i 1,2,..., n,
j 0

FACULTAD DE INGENIERIA CIVIL Pgina 26


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Se ha supuesto que los i son variables aleatorias


independientes. En esta variable se incluye todos los efectos ajenos a
Xi que estn presentes en la funcin de regresin.
La prueba de Durbin y Watson nos proporciona un
procedimiento para determinar si los i estn correlacionados en serie.
El mtodo consiste en calcular a partir de los datos de la muestra, la
estadstica d definida por:
n

(e i ei 1 ) 2
d i 2
n

(e )
i 1
i
2

Donde ei = Yi Yi, luego comparar el valor de d con valores


crticos dL y dU que se pueden encontrar en las tablas preparadas por
Durbin y Watson para los niveles de confianza del 5%, 2.5% y 1% .
Las hiptesis nula y alternativa son respectivamente:
H0 : No existe correlacin positiva en serie
H1 : Existe correlacin positiva en serie
La regla de decisin es:
Rechazar H0 si d < dL
No rechazar H0 si d > dU
Si dL < d < dU la prueba no es concluyente
Aplicando a los datos del ejemplo 13.12 la estadstica de Durbin
Watson es d = 2.488. De la tabla de Durbin Watson para n = 15
observaciones, K = 2 variables independiente y un nivel de confianza
del 5%, se encuentran los valores crticos dL = 0.95 y dU = 1.54.
Dado que d = 2.5 > dU = 1.54., concluimos que no hay
autocorrelacin en serie.
Matriz de correlaciones
La matriz de correlacin de k variables X1, X2,, Xk es:

FACULTAD DE INGENIERIA CIVIL Pgina 27


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

r11 r12 . . r1k 1 r12 ... r1k


r r .. r2k r21 1 ... r2k
R 21 22
. . . . . . . . ... ... ... ...

r k1 rk 2 . . rkk rk1 rk 2 ... 1
Donde rij son los coeficientes de correlacin simple o de orden
cero que se definen:

Cov ( X i , X j ) (x ik x i )( x jk x j )
rij k 1
Si S j n n

( xik x) 2
k 1
(x
k 1
ik x j )2

Adems, para probar la significacin de los coeficientes de correlacin


rij se utiliza la estadstica:
nk 2
t rij
1 rij2

Que tiene t-Student con n k 2 grados de libertad. Donde k es


el nmero de variables, y n el nmero de casos.

Para ejecutar esta prueba objetiva sobre la independencia de


los errores se asume que las observaciones y as los residuales tienen
un orden natural tal como el tiempo o espacio. La prueba de Durbin-
Watson tiene como estadstica de prueba

Se puede demostrar que:

FACULTAD DE INGENIERIA CIVIL Pgina 28


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

1. El valor de esta siempre en el intervalo

2. Si los residuales son positivamente correlacionados, entonces

ser cercano a y los residuales tienden a ser parecidos.

3. Si los residuales son negativamente correlacionados, entonces

ser cercano a y as ser cercano a . Adems los residuales


tienden a ser muy diferentes.

4. La distribucin de es simtrica alrededor de .

Cmo aplicar la prueba?

. Obtenga el valor calculado con los residuales.

2. Aplique la regla de decisin comparando el valor de con los


valores crticos dados en la tabla 1. Esta regla depende del tipo de
hiptesis a plantear asi:

Hiptesis Regla de Decisin Conclusin


decisin
vs Si o Rechace al Hay correlacin

FACULTAD DE INGENIERIA CIVIL Pgina 29


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

nivel entre errores


No rechace No existe indicio de
Si o
una correlacin
al nivel
serial
S No se
.
concluye

vs Si Rechace al Es posible una

Si correlacin serial
nivel
S positiva
No rechace

al nivel
No se
concluye

vs Si Rechace al Es posible una

Si correlacin serial
nivel
S negativa
No rechace
No existe indicio de
al nivel una correlacin
No se
serial
concluye No se puede
concluir nada

Para evitar los casos inconclusos, se hace una prueba mdificada,


aunque con ello se pierde potencia

Prueba simplificada de una cola:

s rechace al nivel en otro caso no rechace

Prueba simplificada de una cola:

si rechace al nivel en otro caso no rechace

FACULTAD DE INGENIERIA CIVIL Pgina 30


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Prueba simplificada de dos colas :

s rechace al nivel en otro caso no rechace

Tabla 1. Puntos significativos de y

1% 2.5% 5%

15 0.8 1.0 0.9 1.2 1.0 1.3


1 7 5 3 8 6
20 0.9 1.1 1.0 1.2 1.2 1.4
5 5 8 8 0 1
25 1.0 1.2 1.1 1.3 1.2 1.4
5 1 8 4 9 5
30 1.1 1.2 1.2 1.3 1.3 1.4
3 6 5 8 5 9
40 1.2 1.3 1.3 1.4 1.4 1.5
5 4 5 5 4 4
50 1.3 1.4 1.4 1.5 1.5 1.5
2 0 2 0 0 9
70 1.4 1.4 1.5 1.5 1.5 1.6
3 9 1 7 8 4
10 1.5 1.5 1.5 1.6 1.6 1.6
0 2 6 9 3 5 9
15 1.6 1.6 ___ ___ 1.7 1.7
0 1 4 2 5
20 1.6 1.6 ___ ___ 1.7 1.7
0 6 8 6 8

5.-MODELO DE CORRELACIN POLINOMIAL


Modelo poblacional:
y / x 0 1 x 2 X 2 ... r X r

FACULTAD DE INGENIERIA CIVIL Pgina 31


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

Modelo muestral:

y = b0 + b1 X2 + br Xr
EJEMPLO
Se llevo a cabo un experimento para determinar la distancia de
frenado a diferentes velocidades de un modelo nuevo de automvil, se
registraron los siguientes datos:

Velocidad X (Km./h) 30 40 50 60 70 80
Distancia de frenado y 15 25 35 65 10 15
(metros) 0 0

a) Estime la ecuacin de regresin cuadrtica.



Y 0 1 x 2 X 2

b) Estimar la distancia de frenado cuando el vehculo viaja a la


velocidad de 80 Km/h Y/80.

c) Solucin si el modelo propuesto es el adecuado.


Solucin
a) Se va a determinar la ecuacin muestral:

Y 0 1 x 2 X 2

De los daros, utilizando el paquete MCEST, se obtiene las ecuaciones


normales:

6b0 + 33b1 + 199000b2 = 390


330b0 + 19900b1 + 1287000b2 = 26100
19900b0 + 1287000b1 + 87550000b2 = 1825000

Las soluciones nicas de este sistema son:


b0 = 65.28434, b1 = -3.23570, b2 = 0.05357
Luego, el polinomio es:

FACULTAD DE INGENIERIA CIVIL Pgina 32


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE


Y 65.28434 3.23570 X 0.05357 X 2

b) si X = 90, entonces y/80 = 207.99 metros

c) Utilizando la prueba t para la significacin de coeficientes se


tiene:
Pruebas t de ka hiptesis: 1 = 0, 2 = 0

Modelo Coeficient Error t Significaci


es estndar n
bilateral
b0 65.284
b1 -3.236 0.516 -6.276 0.011
b2 0.054 0.005 11.530 0.001

Se concluye que el modelo es adecuado.


Regresin polinomial
Supongamos que se conocen los datos

(xo, yo),(x1, y1),..(xn, yn) con x0, x1, .., xn

nmeros reales distintos, y se desea encontrar un polinomio

Pm(x) = a0 + a1x + a2x2 + .. + am xm, con m<n

Tal que:

Sea mnima.
P1) El grado m del polinomio p m(x) se puede escoger previamente
con base en algn resultado terico, alguna expectativa o por la
aplicacin que se le pretenda dar al polinomio. En cualquier caso

FACULTAD DE INGENIERIA CIVIL Pgina 33


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

estamos libres de elegir el grado que parezca mejor. En muchos


casos el grado ser uno y el polinomio obtenido se llamar la recta
que mejor se ajusta o la recta de mnimos cuadrados para la tabla de
datos.

P2) Volviendo a la funcin S(a0, a1, .., am), una condicin necesaria
para la existencia de un mnimo relativo de esta funcin es que las
derivadas parciales de S(a0, a1, .., am) con respecto a aj, j = 0, 1, 2,
,m sean cero.
Resultan entonces las siguientes m+1 ecuaciones lineales en las
incgnitas a0, a1, .., am :

P3) Si en las ecuaciones anteriores cancelamos el 2, desarrollamos


los parntesis y usamos que

, obtenemos:

FACULTAD DE INGENIERIA CIVIL Pgina 34


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

P4) Este es un SEL de m+1 ecuaciones lineales en las m+1


incgnitas a0, a1, .., am, que se llama Sistema de Ecuaciones
Normales. Este sistema de ecuaciones normales se puede escribir en
forma simplificada como sigue:

P5) Estas ecuaciones se pueden reproducir a partir de:

P6) Multiplicando a ambos lados por , j = 0, 1, , m,

P7) Sumando sobre k

Regresin Polinomial Utilizando las IMSL

Las rutinas de las IMSL de Fortran proveen de varias funciones


de aproximacin polinomial. Con respecto a la aproximacin
utilizando el mtodo de los mnimos cuadrados, dicha librera tiene las
funciones RCURVE y DRCURV (tanto para precisin sencilla como

FACULTAD DE INGENIERIA CIVIL Pgina 35


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

doble) para obtener los coeficientes del polinomio que se pretende


evaluar. Para este caso, slo nos limitaremos al caso de datos de
precisin sencilla.
La forma de llamar a dicha funcin es la siguiente:

CALL RCURV (NOBS, XDATA, YDATA, NDEG, B, SSPOLY, STAT)

Los argumentos que dicha funcin requiere son los siguientes:


NOBS Nmero de observaciones. (Dato de entrada)
XDATA Vector de longitud NOBS que contiene los valores de X (Dato
de entrada).
YDATA - Vector de longitud NOBS que contiene los valores de Y (Dato
de entrada).
NDEG Grado del polinomio que se requiere probar. (Dato de
entrada)
B - Vector de longitud NDEG + 1 que contiene los coeficientes del
polinomio (Dato de salida)
SSPOLY - Vector de longitud NDEG + 1 que contiene las sumas
secuenciales de los cuadrados de los datos (Dato de salida).
SSPOLY (1)- contiene la suma de los cuadrados atribuidos a la media.
Desde i = 1, 2, , NDEG,
SSPOLY (i + 1) -contiene la suma de los cuadrados atribuidos a xi
ajustados a la media,
x, x2, y xi-1.
STAT - Vector de longitud 10 que contiene los resultados estadsticos
siguientes (Dato de salida):

STAT (1) = La media de los datos X


STAT (2) = La media de los datos Y
STAT (3) =Varianza muestral de X
STAT (4) = Varianza muestral de Y
STAT (5) = R-cuadrada (en porcentaje)

FACULTAD DE INGENIERIA CIVIL Pgina 36


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

STAT (6) = Grados de libertad de la regresin


STAT (7) = Suma de los cuadrados de la regresin
STAT (8) = Grados de libertad del error de la regresin
STAT (9) = Suma de los cuadrados del error de la regresin
STAT (10) = Nmero de puntos (x, y) que contienen valores NaN (not
a number) para x e y
Si al programa se le alimentan los datos del ejemplo de la

aproximacin spiline ( ) y pidindole que lo aproxime a un


polinomio de grado 3, estos seran los coeficientes de dicho
polinomio:

COEFICIENTES DEL POLINOMIO:


1) 2.3264945E-02
2) 1.922223
3) -1.065270
4) 0.2241328

El polinomio resultante sera el siguiente:

F(X) = 0.2241328X3 -1.065270X2 +1.922223X +0.0232649

FACULTAD DE INGENIERIA CIVIL Pgina 37


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

La siguiente tabla muestra cmo se comporta el programa,


comparado con los resultados arrojados por una hoja de clculo:

PROGRAMA (Excel)
X YAPRO YREAL DIFEREN
X CIA
0.000 0.023 0.000 0.0233
0 3 0
0.062 0.139 0.250 0.1107
5 3 0
0.125 0.247 0.353 0.1062
0 3 6
0.187 0.347 0.433 0.0853
5 7 0
0.250 0.440 0.500 0.0593
0 7 0
0.312 0.526 0.559 0.0322
5 8 0
0.375 0.606 0.612 0.0063
0 1 4
0.437 0.679 0.661 0.0177
5 1 4
0.500 0.746 0.707 0.0390
0 1 1
1.750 1.326 1.322 0.0031
0 0 9
1.812 1.342 1.346 0.0040
5 3 3
1.875 1.359 1.369 0.0095
0 8 3
1.937 1.378 1.391 0.0131
5 8 9
2.000 1.399 1.414 0.0145
0 7 2

FACULTAD DE INGENIERIA CIVIL Pgina 38


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

2.062 1.422 1.436 0.0134


5 8 1
2.125 1.448 1.457 0.0094
0 3 7
2.187 1.476 1.479 0.0023
5 8 0
2.250 1.508 1.500 0.0083
0 3 0

La siguiente grfica muestra como se aproximan los datos


predichos por el polinomio de 3er grado a los datos a interpolar del
ejemplo usado en el caso de la aproximacin spline:

Figura: Representacin de la funcin . Los cuadros con la lnea


continua representan los valores tabulados utilizando el polinomio
obtenido por el programa y las cruces son los datos interpolados
mediante una funcin del ejemplo

FACULTAD DE INGENIERIA CIVIL Pgina 39


UNIVERSIDAD NACIONAL SAN LUIS GONZAGA REGRESIN
LINEAL MLTIPLE

BIBLIOGRAFA

Taro yamane estadstica

Spiegel Murcay Probabilidad y estadstica Mc. Graw Hill

Estadstica inferencial Manual Cordova Zamora

Manual de estadstica

http://www.monografias.com/trabajos21/regresion-

lineal/regresion-lineal.shtml#prueba

www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_htm

l/capitulo_2/leccion4/indepen.html-32k

http://www.ingenieria.uady.mx/weblioteca/CompApp/aproximaci

on/poli/Regresionpolinomial.htm.

FACULTAD DE INGENIERIA CIVIL Pgina 40

You might also like