You are on page 1of 16

*

REGRESION SIMPLE Y MULTIPLE

*TEMARIO
*
Estimacin mediante la lnea de regresin

3.1.1 Diagrama de dispersin 3.1.2 Mtodo de mnimos cuadrados 3.1.3 Interpretacin del error estndar de la estimacin 3.1.4 Intervalos de prediccin aproximados 3.1.5 Anlisis de correlacin 3.1.6 Paquete computacional para la solucin de problemas 3.1.7 Regresin mltiple y anlisis de correlacin 3.1.8 Usos de variables ficticias 3.1.9 Residuales y grficas de residuales 3.1.10 Interpretacin del intervalo de confianza. 3.1.11 Uso del coeficiente de determinacin mltiple 3.1.12 Paquete computacional para la solucin de problemas.

Regresin Lineal Simple


La metodologa de la regresin lineal simple tiene como objetivo ajustar una lnea recta (una ecuacin de una recta) a un conjunto de puntos en el plano. EL conjunto de puntos en el plano es la grfica de dispersin de los datos de una muestra aleatoria. Suponer que un investigador sospecha de que hay una relacin lineal entre dos variables (X,Y) donde el valor de Y depende o es funcin del valor de X, es decir y = f(x). A la variable X se le llama variable independiente o variable predictora y a la variable Y se le llama variable dependiente o variable de respuesta. Suponer que se toma una muestra aleatoria (de tamao n) de pares (x1, y1) , (x2 , y2 ) , (x3 , y3 ) ,..., (xn , yn ) y al construir su diagrama de dispersin se desea obtener la ecuacin de la recta que mejor se ajusta a los puntos, como se muestra en la figura.

dimetro esfuerzo de al corte soldadura 370 400 1550 1600 3530 3600 1960 2000 3840 4000 580 800 2920 2500 3200 4000 910 1250 920 700 2670 3100 1700 2200

DIAGRAMA DE DISPERSION
4500

4000
3500 ESFUERZO AL CORTE 3000 2500 2000 1500 1000

500
0 0 500 1000 1500 2000 2500 3000 DIAMETRO DE SOLDADURA 3500 4000 4500

La diferencia principal entre un anlisis de correlacin y una regresin lineal simple es que en el anlisis de correlacin se tiene que ambas variables (X, Y) son variables aleatorias y al tomar la muestra el investigador no tiene control sobre los valores que observar de X ni de Y. Por otra parte, en la regresin lineal se tiene que Y si es una variable aleatoria mientras que X puede o no puede ser una variable aleatoria, es decir, puede darse el caso en que los valores de X son controlados por el investigador (esto es tpico en un diseo de experimentos) mientras que los valores de Y definitivamente no son controlados por el investigador.

Entonces, para un valor fijo de X se supone que Y es una variable aleatoria con distribucin normal con media y|x y varianza 2 (la varianza es constante para todo valor de x). Luego se supone que hay una relacin lineal entre las variables (X, Y) cuya ecuacin es desconocida y relaciona y|x con x, esta ecuacin se denota como:

y|x = 0 + 1x Para un valor particular y observado en cierto valor x se tiene que su ecuacin queda;

y = 0 + 1x +

donde es el error (la desviacin o distancia de y a la media y ) el cual es una variable aleatoria con distribucin normal con media cero y varianza 2 (la misma mencionada antes) la cual es constante para todo valor de x.
Como los valores de 0 y 1 son desconocidos, se deben estimar a partir de los valores de la muestra ( x1 , yi ). El estimador de 1 es:

tambin se recomienda calcular SYY que ser necesario para hacer inferencia estadstica y se define como;

Ejercicio: Se tienen los datos correspondientes a la tasa de cambio del peso mexicano por un dlar referente al precio a la compra y a la venta como se muestra en la tabla

DIAGRAMA DE DISPERSION
10.7
10.6 10.5 VENTA 10.4 10.3 10.2 10.1 10 9.9 y = 1.0699x - 0.4474 R = 0.9674

9.8

9.9

10

10.1 COMPRA

10.2

10.3

10.4

Entonces, aplicando se tiene 1 = 0.4268/0.399 = 1.07 y 0 = 10.294(1.07)(10.04) = 0.449, quedando la ecuacin lineal estimada; ECUACION DE REGRESION:

y|x = 0.449 +1.07x

COEFICIENTE DE DETERMINACION:
La calidad del ajuste se evala mediante el coeficiente de determinacin que se denota por R2 que toma valores entre cero y uno [0 R2 1], o entre cero y 100 si se expresa como porcentaje. Solo para el caso de una regresin lineal simple se tiene que R2 = r 2 . Mientras el valor de R2 ms se aproxima a 1 ( o a 100) ms evidencia hay de un buen ajuste, y mientras el valor de R2 ms se aproxima al cero ms evidencia hay de un mal ajuste. Por buen ajuste se entiende que la recta pasa muy cerca de todos los puntos.

La prueba de hiptesis para 1 se desarrolla de la siguiente manera: H0 : 1 = 0 vs H1 : 1 0 El estadstico de prueba es:


donde al denominador se le llama error estndar del estimador B1

Regla de decisin: Se rechaza H0 con nivel de significancia si: | t |> t /2,n2 .

El intervalo de confianza para 1 El valor de 1 se puede estimar mediante un intervalo de confianza. El intervalo de confianza para 1 con un nivel de confianza 1 se obtiene mediante;

* En un anlisis de regresin lineal, tambin es importante evaluar


el cumplimiento de los supuestos que principalmente son:

* 1) Los valores de Y siguen una distribucin normal. * 2) Los valores de Y tienen una varianza constante. * o equivalentemente: * 1) Los valores del error tienen una distribucin normal con
media cero.

* 2) Los valores del error tienen una varianza constante. * Los valores de se estiman mediante los residuales (denotado

por e). El residual del par de valores ( xi , yi ) se define como;

Se espera que los residuales se comporten con las caractersticas ideales de los errores aleatorios .

Calculo de residuos

Grafica de residuos

Regresin mltiple
MODELO GENERAL DE REGRESION MULTIPLE EN TERMINOS MATRICIALES: Ecuacin de regresin: = + 1 + 2 + + Estimacin de parmetros (notacin matricial): = + . . . = = . . . . . , ,

= , Nota: en la matriz x lleva una columna artificial de nmeros uno llamada termino independiente. El estimador de mnimos cuadrados para es: =

Bajo la premisa de que exista y por tanto, que las variables regresoras sean linealmente independientes.

POR DETERMINANTES:
Ecuacin de regresin: = + + + + Estimacin de coeficientes:

=
=

Coeficiente de determinacin mltiple 2 = 1 : =


2

Coeficiente de correlacin

Es la raz cuadrada positiva del coeficiente de determinacin.


Prueba de utilidad del modelo. 0 = 1 = 2 = = = 0 1 : 0 ( = 1,2, , ) Valor del estadstico de prueba: =
(+1)

DONDE: SSR= suma de cuadrados de la regresin = SST-SSE


La regin de rechazo para una prueba de nivel : ,,(+1)

You might also like