Professional Documents
Culture Documents
1_ Introduccin
El anlisis de regresin permite evaluar la relacin entre una variable respuesta y una o
ms variables explicativas.
En este curso solo vamos a estudiar el modelo de regresin lineal simple, es decir
cuando solo tenemos una variable explicativa.
Este es el caso ms simple, que consiste en describir la relacin entre dos variables
continuas mediante una recta.
Veamos un ejemplo: supongamos que nos interesa estudiar si existe relacin entre el
puntaje obtenido en un test de adaptatividad tomado en el pre-escolar (variable PUNTAJE)
y la edad en que un nio dijo su primera palabra (variable EDAD), es decir si podemos
predecir el puntaje del test a partir de la edad de la primera palabra.
2- Modelo lineal
Como la idea es ajustar una recta al conjunto de datos, para representar la relacin entre
los valores observados de las dos variables, X e Y, podemos utilizar la expresin
matemtica de la ecuacin de una recta.
Recordemos que la ecuacin de la recta es y = a + bx.
donde :
a es la ordenada al origen (donde la recta corta al eje Y)
b es la pendiente (indica cuantas unidades cambia Y cuando X aumenta en una unidad)
1
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
Pero en realidad lo que se plantea es que la media poblacional de Y, ms que los valores
individuales de Y, cambia linealmente con X:
yi = a + bxi + i .
donde i es un trmino de error.
En nuestro ejemplo podramos decir que el PUNTAJE no solo est explicado por la variable
EDAD, sino tambin por otros factores. En otras palabras, adems de la EDAD, otros
factores causan que los valores individuales de PUNTAJE varen alrededor de su media
poblacional, por ejemplo el grupo familiar del nio, la relacin con sus padres, etc. Dentro
de ese trmino de error estaran esos otros factores.
y i a bx i
Los residuos miden el error de prediccin. Si el valor observado es mayor que el valor
predicho (yi > y i ) el residuo es positivo; en caso contrario es negativo. Con una prediccin
perfecta (yi = y i ) resulta un residuo nulo. La suma de los cuadrados de los residuos (SCR)
refleja la precisin y exactitud global de nuestras predicciones:
SCR e i2 y i y i .
n n
2
i 1 i 1
Cuanto ms cerca estn los valores observados de los predichos menor ser SCR. En
esta idea se basa el mtodo de cuadrados mnimos para elegir a y b .Hacer que la suma
de cuadrados de los residuos sea lo ms pequea posible.
Los coeficientes de la recta estimada por cuadrados mnimos se calculan, a partir de los
datos, mediante las siguientes ecuaciones:
n n n n
(x i x )( y i y .. ) n x i y i x i y i
i 1 i 1 i 1 i 1
b n
2
y a y .. bx
(x i x) 2 n
n
n x i2 x i
i 1
i 1 i1
y 114 1.36x
Ninguna otra recta tendr, para el mismo conjunto de datos, una SCR menor que la
obtenida por cuadrados mnimos..
3
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
Como dijimos anteriormente, en general no pueden realizarse predicciones fuera del
rango de valores observados de la variable independiente.
En nuestro ejemplo, el mnimo valor de x es 7 y el mximo es 26. Luego solo podemos
predecir para valores comprendidos entre 7 y 26 meses.
A partir de la recta ajustada podemos por ejemplo predecir que puntaje obtendra un nio
que dijo su primera palabra a los 11.5 meses.
Hacemos y 114 1.36 11.5 98.36
El puntaje predicho es 98.36 .
4-1 Supuestos
Para poder aplicar un ANOVA deben cumplirse los siguientes supuestos
1-Normalidad de los errores.
Para cada valor de la variable predictora X, la variable respuesta Y debe tener
distribucin Normal.
Por ejemplo, si se cumple este supuesto, el conjunto de todos los valores del Puntaje
(Y) de los nios que dijeron su primera palabra a los 11.5 meses (X), tendr una
distribucin Normal con una media 98.36 igual al promedio de los valores del
puntaje de todos los nios que dijeron su primera palabra a los 11.5 meses y una
variabilidad determinada por los mismos. Si X = 12 la variable Y seguir teniendo
distribucin Normal, pero con otra media 97.68 y tal vez otra varianza.
2-Linealidad
La media de la variable Y vara linealmente con X.
3 Homocedasticidad
La variabilidad de Y, que es medida por su varianza (2), o por su desvo estndar ( ),
debe ser la misma para cada valor de la variable X.
En este curso no vamos a chequear que se cumplen los supuestos, vamos a asumir que
se cumplen. Pero en la prctica ningn anlisis estadstico es vlido si no se chequean los
supuestos del modelo planteado.
4.2 Hiptesis
Las hiptesis que se plantean son:
H0 : b 0 vs. H1 : b 0
4.3 Anova
4
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
e i2 y i y i .
n n
Suma de cuadrados de la regresin= SCR
2
i 1 i 1
En nuestro ejemplo:
5- Medidas de Asociacin
5
Estadstica Aplicada a la Psicologa-2011
Regresin Lineal Simple
En ambos grficos la recta vertical corresponde a X y la recta horizontal a Y .
Observando los grficos podemos notar que cuando la asociacin es positiva en su
mayora a valores mayores al promedio de las x s ( X ), corresponden valores mayores al
promedio de las ys ( Y ). Y a valores menores al promedio de las x s ( X ), corresponden
valores menores al promedio de las ys ( Y ).
Al revs ocurre cuando la asociacin es negativa, en su mayora a valores mayores al
promedio de las x s ( X ), corresponden valores menores al promedio de las ys ( Y ). Y a
valores menores al promedio de las x s ( X ), corresponden valores mayores al promedio
de las ys ( Y ).
i=1 i 1
o
sx
r b
sy
donde sx y sy son las dispersiones muestrales de X e Y respectivamente.
2
n 1 n
x i2 x i
i1 n i1
S 2x entonces S x S 2x
n 1
Cuando las dispersiones muestrales son iguales (sx = sy), la correlacin es igual a la
pendiente.
En nuestro ejemplo r=-0.66. El signo al igual que la pendiente nos dice que la asociacin
entre las dos variables es negativa.
Donde:
SCT es la suma de cuadrados total
r2 = R2
En nuestro ejemplo r2 = 0.43 decimos entonces que la recta de regresin explica el 43% de
la variacin total observada en el puntaje..