You are on page 1of 24

SEMINARIO DE POSGRADO

ESTRATEGIAS Y DISEOS AVANZADOS DE INVESTIGACIN SOCIAL Titular: Agustn Salvia


MDULO 3 B

ANLISIS DE MODELOS DE REGRESION LINEAL

Modelos de Regresin Lineal


Problemas de Causalidad
El investigador suele tener razones tericas o prcticas para creer que determinada variable es causalmente dependiente de una o ms variables distintas. Si hay suficientes observaciones empricas sobre estas variables, el anlisis de regresin es un mtodo apropiado para describir la estructura, fuerza y sentido exacto de esta asociacin.

Modelos de Regresin Lineal


Problemas de Causalidad
El modelo permite diferenciar variables explicativas o independientes (mtricas o variables dummy) y variables a explicar o dependientes (mtricas). La distincin entre variables dependientes e independientes debe efectuarse con arreglo a fundamentos tericos, por conocimiento o experiencia y estudios anteriores. Mtodo de tipo: Y : f (X) en donde se busca determinar una relacin del tipo y = bx + U

Modelos de Regresin Lineal


Funcin Lineal de Regresin
Una pregunta importante que se plantea en el anlisis de regresin es la siguiente: Qu porcentaje de la variacin total en Y se debe a la variacin en X? Cunto de la variacin de Y no explica X? El estadstico que mide esta proporcin o porcentaje se denomina coeficiente de determinacin (R2). Si por ejemplo, al hacer los clculos respectivos se obtiene un valor de 0.846. Esto significa que el modelo explica el 84.6 % de la variacin de la variable dependiente.

Modelos de Regresin Lineal


Funcin Lineal de Regresin
El objetivo de la tcnica de regresin es establecer la relacin estadstica que existe entre la variable dependiente (Y) y una o ms variables independientes (X1, X2, Xn). Para poder realizar esto, se postula una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma que ms se utiliza en la prctica es la relacin lineal:

= b0 + b1x1 +

bn xn

donde los coeficientes b0 y b1, bn, son los parmetros que definen la variacin promedio de y, para cada valor de x. Estimada esta funcin terica a partir de los datos, cabe preguntarse qu tan bien se ajusta a la distribucin real.

Modelos de Regresin Lineal


Funcin Lineal de Regresin
- El parmetro b0, conocido como la ordenada en el origen, nos indica cunto es Y cuando X = 0. El parmetro b1, conocido como la pendiente, nos indica cunto aumenta Y por cada aumento en X. - La tcnica consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X. - En el anlisis de regresin, estas estimaciones se obtienen por medio del mtodo de mnimos cuadrados. Logradas estas se evala la bondad de ajuste y significancia estadstica de los resultados.

Modelos de Regresin Lineal


Respuestas Metodolgicas
Estima la fuerza o bondad explicativa del modelo terico no importando la fuerza, sentido u calidad de las variables independientes introducidas en el modelo. Predice el valor medio que puede asumir la variable Y dado un valor de X (regresin a la media) para un intervalo de confianza. Estima el sentido y la fuerza del efecto de cada una de las variables intervinientes sobre la variable dependiente (control sobre los dems efectos).

Modelos de Regresin Lineal


Requisitos Estadsticos del Mtodo
Se supone que la forma funcional que relaciona la variable DEPENDIENTE con la/las variables explicativas es de tipo LINEAL. Las variables explicativas deben ser entre s INDEPENDIENTES, la varianza de los errores constante, con distribucin normal y los errores no deben estar correlacionados. La CONSTANTE (b0) no slo expresa el valor estimado de y en la ordenada al origen, sino tambin el conjunto de los errores no lineales y desconocidos del modelo.

Modelos de Regresin Lineal


Supuestos del Mtodo de Regresin
La variable aleatoria (error) es estadsticamente independiente de los valores de X y tiene distribucin normal (supuestos 1 y 2). La variable aleatoria a cero (supuesto 3) (error) tiene una media igual

Cualquier par de errores, y son i j estadsticamente independientes entre s, es decir que su covarianza es igual a 0 (supuesto 4) Las variables aleatorias j tiene una varianza finita 2 que es constante para todos los valores de x j . (Supuesto 5 o de homocedasticidad)

Modelos de Regresin Lineal


Salidas Estadsticas del Mtodo
Se evala la bondad de ajuste del modelo terico a a travs del coeficiente de determinacin R2 (% de la variacin de X que explica el modelo). La capacidad explicativa del modelo tambin se evala a partir del ANOVA, cuyo resultado es sometido al estadstico de prueba F de Fisher Mide la fuerza, sentido y significancia estadstica de las variables del modelo sobre la variable dependiente a travs de coeficiente de regresin (B), el coeficiente de regresin parcial estandarizado (BETA) y la prueba t de Student que considera el error estndar del coeficiente b.

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
80

Ingreso horario de la ocupacin ppal

El ingreso horario de los ocupados (entre 25 y 45 aos) no se ve afectados por el sexo sino que depende de la cantidad de aos de instruccin

60

40

20

Sexo
Mujer 0 0 10 20 Varn

Aos de estudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
BONDAD DE AJUSTE DEL MODELO (R2)
b Variables Entered/Removed

Model 1 2

Variables Entered a Sexo (dummy: 0=Varn) a Aos de estudio (aprox.)

Variables Removed , ,

Method Enter Enter

a. All requested variables entered. b. Dependent Variable: Ingreso horario de la ocupacin ppal

Model Summary

Model R R Square 1 ,01 a ,000 2 ,359b ,129 a. Predictors: (Constant), Sexo (dummy: 0=Varn)

Ad usted R Square ,000 ,129

Std. Error of the Estimate 3,3032 3,0 32

b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.)

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
ANLISIS DE VARIANZA DE LOS MODELOS
c ANOVA

Model 1

Regression Residual Total Regression Residual Total

Sum of Squares 22,486 112779,9 112802,4 14557,248 98245,112 112802,4

df 1 10336 10337 2 10335 10337

Mean Square 22,486 10,911 7278,624 9,506

F 2,061

Sig. ,151a

765,683

,000b

a. Predictors: (Constant), Sexo (dummy: 0=Varn) b. Predictors: (Constant), Sexo (dummy: 0=Varn), Aos de estudio (aprox.) c. Dependent Variable: Ingreso horario de la ocupacin ppal

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
COEFICIENTES B Y PRUEBAS T DE SIGNIFICANCIA
Coefficient

l 1 2 ( ( t t) ( mm : 0=Var ) tant) ( mm : 0=Var n) t i (apr .)

Standardi zed Unstandardiz d Coeffi ien Coeffi ients ts B St . rr r Beta 3, 7 , 3 -,0941 ,066 -,014 , 71 ,091 -,426 ,062 -,064 ,306 ,008 ,362

t 80, -1,436 2,964 -6,898 39,102

Si . ,000 ,151 ,003 ,000 ,000

a. ependent Variable: Ingreso orario de la ocupaci n ppal

Modelos de Regresin Lineal


Control de Supuestos
MULTICOLINEALIDAD: a travs de matrices de correlacin simple entre las variables independientes. Solucin: Seleccionar variables independiente con baja correlacin entre s y/o transformar en variables dummy no colineales. NORMALIDAD DE LOS RESIDUOS: a travs de un grfico de de distribucin de los residuos. Solucin: eliminacin de datos outliers. HETEROSCEDASTICIDAD: a travs de grficos de residuos para cada valor de . Solucin: Eliminacin de casos outliers, tranformacin de las variables independientes y/o estandarizacin de la variable dependiente Y. AUTOCORRELACIN DE ERRORES: a travs de la prueba Durbin-Watson / el valor 2 indica no autocorrelacin. Solucin: Correccin de observaciones o eliminacin de datos.

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
CORRELACIN SIMPLE
Correlations Ingreso horario de la Sexo Aos de ocupacin (dummy: estudio ppal 0=Varn) (aprox.) 1,000 -,014 ,354** , ,149 ,000 10339 10339 10338 -,014 1,000 ,137** ,149 , ,000 10339 10339 10338 ,354** ,137** 1,000 ,000 ,000 , 10338 10338 10338

Ingreso horario de la ocupacin ppal Sexo (dummy: 0=Varn)

Aos de estudio (aprox.)

Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N

**. Correlation is significant at the 0.01 level (2-tailed).

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
GRAFICAS DE DISPERSIN DE RESIDUOS
Histogram Dep. Var.: Ingreso orario de la ocupaci n ppal
7 6000 5000 4000 3000 2000 Std. Dev = 1, 1000 0 ean = , N = 10338,

Frequency

Regression Standardized Residual

, , ,

4,

6,

8,

, 12 , 10

, 14

, 18 , 16

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
PRUEBAS DE HETEROSCEDASTICIDAD
Scatterplot Dependent Variable: Ingreso horario de la ocupacin ppal
0 1,00

Normal -P Plot of Regression Standardi ed Res. Dep. Var.: Ingreso horario de la ocupacin ppal

Regression Standardi ed Residual

20

Expected um Prob

10

, 0

,2

-10 -

-2

-1

0,00 0,00

,2

, 0

1,00

Regression Standardi ed Predicted Value

Observed um Prob

Modelos de Regresin Lineal


ANLISIS DE UN EJEMPLO
DURBIN WATSON: EVALUACIN DE AUTOCORRELACIN

l Su st

ry t . rr r ft sti t 3, 3 r l c ), ci s l r i -W ts , st i

l ,359 . Pr ict rs: (C ( r .) . t ri st , t), l :I

r 9 ( r s r ri ,

r 9 :

Modelos de Regresin Lineal


QU HACER FRENTE A LOS SESGOS

DE ESTIMACIN?

Eliminar los residuos OUTLIERS que afectan la distribucin. Recodificacin de las variables independientes y/o transformacin LOGSTICA de la variable dependiente. Estratificacin del anlisis a partir de usar un factor independiente como CRITERIO PARA DIVIDIR a la poblacin en grupos comparables (p.e. poblacin con ingresos ><.

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Cmo ajustar modelos de regresin lineal cuando la funcin no es lineal? La regresin lineal no siempre da buenos resultados, porque a veces la relacin entre Y y X no es lineal sino que exhibe algn grado de curvatura. La estimacin directa de los parmetros de funciones no-lineales es un proceso complicado. No obstante, a veces se pueden aplicar las tcnicas de regresin lineal por medio de transformaciones de las variables originales.

Modelos de Regresin No Lineal


Ajustes Estadsticos del Mtodo
Una funcin no-lineal que tiene aplicaciones es la funcin exponencial: Y = Xb muchas

Si aplicamos logaritmos, esta funcin tambin puede ser expresada como: log(Y) = b.log(X). En lugar de calcular la regresin de Y contra X, calculamos la regresin del logaritmo de Y contra el logaritmo de X. Este modelo es interesante, porque el exponente b en una funcin exponencial que mide la elasticidad de Y respecto de X.

Modelos de Regresin Lineal


Distribucin F de Fisher-Snedecor
- Nunca adopta valores menores de 0 y es asimtrica positiva. En el modelo de regresin mide la relacin entre el total de la varianza de la variable dependiente y la parte explicada de dicha varianza. - Es una familia de curvas, en funcin de los llamados grados de libertad del numerador y del denominador. Se puede demostrar que la distribucin F equivale a una razn entre dos chi-cuadrados (de ah que se hable en el caso de F de grados de libertad en el numerador y en el denominador)

Modelos de Regresin Lineal


Distribucin t de Student
Es simtrica y unimodal, con media en 0. Es una familia de curvas, en funcin de los llamados grados de libertad . Es decir, hay una distribucin t de Student con 1 gl, una distribucin t de Student con 2 gl, etc. -A medida que aumentan los grados de libertad, la distribucin tiende ms y ms a una distribucin normal estandarizada.

You might also like