You are on page 1of 7

Estadstica Aplicada a la Psicologa-2011

Regresin Lineal Simple

REGRESIN LINEAL SIMPLE

1_ Introduccin

El anlisis de regresin permite evaluar la relacin entre una variable respuesta y una o
ms variables explicativas.
En este curso solo vamos a estudiar el modelo de regresin lineal simple, es decir
cuando solo tenemos una variable explicativa.
Este es el caso ms simple, que consiste en describir la relacin entre dos variables
continuas mediante una recta.

Veamos un ejemplo: supongamos que nos interesa estudiar si existe relacin entre el
puntaje obtenido en un test de adaptatividad tomado en el pre-escolar (variable PUNTAJE)
y la edad en que un nio dijo su primera palabra (variable EDAD), es decir si podemos
predecir el puntaje del test a partir de la edad de la primera palabra.

Llamamos a la primera variable respuesta o variable dependiente y a la segunda variable


explicativa o predictora o variable independiente.

Para analizar descriptivamente esta relacin, hacemos un diagrama o grfico de


dispersin con los datos correspondientes a las dos variables correspondientes a una
muestra de tamao 20.
La variable dependiente se grafica en el eje vertical, o eje Y, y la variable independiente
en el eje horizontal, o eje X, como muestra el siguiente diagrama de dispersin.

2- Modelo lineal
Como la idea es ajustar una recta al conjunto de datos, para representar la relacin entre
los valores observados de las dos variables, X e Y, podemos utilizar la expresin
matemtica de la ecuacin de una recta.
Recordemos que la ecuacin de la recta es y = a + bx.
donde :
a es la ordenada al origen (donde la recta corta al eje Y)
b es la pendiente (indica cuantas unidades cambia Y cuando X aumenta en una unidad)
1
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
Pero en realidad lo que se plantea es que la media poblacional de Y, ms que los valores
individuales de Y, cambia linealmente con X:

Entonces la expresin para el modelo planteado es

yi = a + bxi + i .
donde i es un trmino de error.

En nuestro ejemplo podramos decir que el PUNTAJE no solo est explicado por la variable
EDAD, sino tambin por otros factores. En otras palabras, adems de la EDAD, otros
factores causan que los valores individuales de PUNTAJE varen alrededor de su media
poblacional, por ejemplo el grupo familiar del nio, la relacin con sus padres, etc. Dentro
de ese trmino de error estaran esos otros factores.

3- Mtodo de Cuadrados Mnimos


El problema consiste en ajustar una recta que represente al conjunto de datos de la mejor
manera posible, para poder obtener la prediccin de Y para cualquier valor de X.(dentro de
los posibles valores que pueda tomar X) .El mtodo que suele usarse es el mtodo de
Cuadrados Mnimos que consiste en hallar la recta que en promedio tenga la menor
distancia vertical al cuadrado a cada uno de los puntos. Esa distancia vertical se
denomina residuo.

Si llamamos a y b a nuestros estimadores, la ecuacin de la recta estimada es:

y i a bx i

donde y i indica el valor predicho de la variable Y para el caso i. ( y i es el valor observado)

Los residuos ei, son el equivalente muestral de los errores i .


Los residuos son como dijimos antes las diferencias entre el valor observado y el valor
predicho:
2
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
ei = yi - yi = yi - (a + b xi).

Los residuos miden el error de prediccin. Si el valor observado es mayor que el valor
predicho (yi > y i ) el residuo es positivo; en caso contrario es negativo. Con una prediccin
perfecta (yi = y i ) resulta un residuo nulo. La suma de los cuadrados de los residuos (SCR)
refleja la precisin y exactitud global de nuestras predicciones:

SCR e i2 y i y i .
n n
2

i 1 i 1

Cuanto ms cerca estn los valores observados de los predichos menor ser SCR. En
esta idea se basa el mtodo de cuadrados mnimos para elegir a y b .Hacer que la suma
de cuadrados de los residuos sea lo ms pequea posible.

Los coeficientes de la recta estimada por cuadrados mnimos se calculan, a partir de los
datos, mediante las siguientes ecuaciones:

n n n n
(x i x )( y i y .. ) n x i y i x i y i
i 1 i 1 i 1 i 1
b n
2
y a y .. bx
(x i x) 2 n

n
n x i2 x i
i 1
i 1 i1

La deduccin de estas frmulas resulta de propiedades matemticas fuera del alcance de


este curso.

Pero si podemos deducir a partir de ellas lo siguiente:


1-La recta de cuadrados mnimos pasa por ( x, y ) , ya que y a b x .
2-La suma de los residuos es 0.

En nuestro ejemplo la recta ajustada es:

y 114 1.36x

Ninguna otra recta tendr, para el mismo conjunto de datos, una SCR menor que la
obtenida por cuadrados mnimos..

Cmo interpretamos el resultado obtenido?

Como la pendiente es negativa e igual a -1.36, esperaramos que al aumentar en un mes la


edad en la que un nio dijo su primera palabra, el puntaje en promedio disminuye (porque
la pendiente es negativa) en 1.36 puntos.

En la mayora de las aplicaciones el valor de la ordenada al origen, no tendr un significado


prctico. La variable X no podr tomar valores cercanos a 0, como ocurre, en nuestro
ejemplo, ningn nio empieza a hablar a los pocos das de nacer.

3
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
Como dijimos anteriormente, en general no pueden realizarse predicciones fuera del
rango de valores observados de la variable independiente.
En nuestro ejemplo, el mnimo valor de x es 7 y el mximo es 26. Luego solo podemos
predecir para valores comprendidos entre 7 y 26 meses.

A partir de la recta ajustada podemos por ejemplo predecir que puntaje obtendra un nio
que dijo su primera palabra a los 11.5 meses.
Hacemos y 114 1.36 11.5 98.36
El puntaje predicho es 98.36 .

4 Bondad del Ajuste


Para ver la bondad del ajuste, es decir para decidir si la regresin es significativa, ( o en
otras palabras si la recta explica), vamos a plantear un anlisis de varianza. La
justificacin terica escapa a los alcances de este curso.

4-1 Supuestos
Para poder aplicar un ANOVA deben cumplirse los siguientes supuestos
1-Normalidad de los errores.
Para cada valor de la variable predictora X, la variable respuesta Y debe tener
distribucin Normal.
Por ejemplo, si se cumple este supuesto, el conjunto de todos los valores del Puntaje
(Y) de los nios que dijeron su primera palabra a los 11.5 meses (X), tendr una
distribucin Normal con una media 98.36 igual al promedio de los valores del
puntaje de todos los nios que dijeron su primera palabra a los 11.5 meses y una
variabilidad determinada por los mismos. Si X = 12 la variable Y seguir teniendo
distribucin Normal, pero con otra media 97.68 y tal vez otra varianza.

2-Linealidad
La media de la variable Y vara linealmente con X.

3 Homocedasticidad
La variabilidad de Y, que es medida por su varianza (2), o por su desvo estndar ( ),
debe ser la misma para cada valor de la variable X.

4- Independencia de los errores


Los errores no estn relacionados con la variable X ni con los errores de otros casos.

En este curso no vamos a chequear que se cumplen los supuestos, vamos a asumir que
se cumplen. Pero en la prctica ningn anlisis estadstico es vlido si no se chequean los
supuestos del modelo planteado.

4.2 Hiptesis
Las hiptesis que se plantean son:

H0 : b 0 vs. H1 : b 0

4.3 Anova

Para armar la tabla, necesitamos calcular :


2
n n 1 n
Suma de cuadrados total=SCT= ( y i y ) 2 y i2 yi
i 1 i 1 n i1

4
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple

e i2 y i y i .
n n
Suma de cuadrados de la regresin= SCR
2

i 1 i 1

Suma de cuadrados explicada =SCE = SCT-SCR

F.V Suma de Grados de Cuadrados Medios


Cuadrados Libertad
Regresin SCReg 1 CMReg=SCReg/1
Residuos SCR n-2 CMR=SCR/n-2 F=CMReg/CMR
Total SCT n-1 ------

Si H 0 es verdadera F~ F1,n2 , es decir el estadstico F tiene distribucin de Fisher con 1


grado de libertad para el numerador y (n-2) grados de libertad para el denominador.

Luego para un test de nivel de significacin , rechazamos H 0 si F> F1,n2,

En nuestro ejemplo:

F.V Suma de Grados de Cuadrados


Cuadrados Libertad Medios
Regresin 6.02 1 6.02
Residuos 8.01 17 0.47 F=12.78
Total 14.03 18 ------

Para un test de nivel de significacin =0.05, F1,17,0.05 4.45

Como 12.78>4.45, rechazamos H 0 , luego la recta explica

5- Medidas de Asociacin

Los siguientes grficos corresponden a asociacin positiva y asociacin negativa


respectivamente.

5
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
En ambos grficos la recta vertical corresponde a X y la recta horizontal a Y .
Observando los grficos podemos notar que cuando la asociacin es positiva en su
mayora a valores mayores al promedio de las x s ( X ), corresponden valores mayores al
promedio de las ys ( Y ). Y a valores menores al promedio de las x s ( X ), corresponden
valores menores al promedio de las ys ( Y ).
Al revs ocurre cuando la asociacin es negativa, en su mayora a valores mayores al
promedio de las x s ( X ), corresponden valores menores al promedio de las ys ( Y ). Y a
valores menores al promedio de las x s ( X ), corresponden valores mayores al promedio
de las ys ( Y ).

El signo de la pendiente de la recta ajustada nos indica si la asociacin es positiva o


negativa, pero no mide directamente la fuerza (o grado) de la asociacin, porque su valor
depende de las unidades en que fueron medidas las variables.

Necesitamos entonces definir otras medidas de asociacin que no dependan de la escala


de medicin.

5.1 Coeficiente de correlacin de Pearson


Dado un conjunto de datos de tamao n, correspondiente a observaciones de dos variables
continuas X e Y,
(x1, y1), . . . , (xn, yn),

su grado de asociacin lineal est expresado por el coeficiente de correlacin de


Pearson:
n
( xi - x)( yi - y)
i=1
r= .
n n
( xi - x ) ( yi - y )
2 2

i=1 i 1
o
sx
r b
sy
donde sx y sy son las dispersiones muestrales de X e Y respectivamente.

Recordemos la frmula de la muestrales

2
n 1 n
x i2 x i
i1 n i1
S 2x entonces S x S 2x
n 1

Cuando las dispersiones muestrales son iguales (sx = sy), la correlacin es igual a la
pendiente.

En nuestro ejemplo r=-0.66. El signo al igual que la pendiente nos dice que la asociacin
entre las dos variables es negativa.

Propiedades del Coeficiente de correlacin

1 El valor del coeficiente de correlacin muestral r , no depende de las unidades en que se


miden las variables y su valor est siempre entre -1 y 1.
6
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
2-A mayor valor absoluto de r, mayor el grado de asociacin lineal.
3-r tiene el mismo signo que b
4-Cuando r = 0 tambin b = 0, es decir no hay una tendencia lineal creciente ni
decreciente en la relacin entre los valores de las variables X e Y.
5-Los valores extremos, r = 1 y r = -1, ocurren nicamente cuando los puntos en un
diagrama de dispersin estn sobre una recta. Esto corresponde a asociaciones positivas o
negativas perfectas. En este caso, el error de prediccin es cero.
6-Valores de r positivos indican que hay una asociacin positiva entre las variables.
7-Valores de r negativos indican que hay una asociacin negativa entre las variables.

5.2 Coeficiente de determinacin.

Mide el porcentaje de la variabilidad en la respuesta Y explicada por la recta ajustada.


La frmula de clculo es:

SCT SCR SCR


R2 1
SCT SCT

Donde:
SCT es la suma de cuadrados total

SCR es la suma de cuadrados de los residuos:

Tambin puede expresarse como:


Y
2
Y

i
R2
Y Y
2
i

El numerador se denomina suma de cuadrados explicada por el modelo.

La correlacin al cuadrado coincide con el coeficiente de determinacin:

r2 = R2

En nuestro ejemplo r2 = 0.43 decimos entonces que la recta de regresin explica el 43% de
la variacin total observada en el puntaje..

Propiedades del coeficiente de determinacin.


1-No depende de las unidades en que se miden las variables y toma valores entre cero y
uno.
2-Vale 0 cuando la regresin no explica nada; en ese caso, la suma de cuadrados total es
igual a la suma de cuadrados de los residuos.
3-Vale 1 cuando la regresin explica todo, en ese caso, la suma de los cuadrados de los
residuos es cero (la recta ajusta a todos los puntos)

You might also like