Professional Documents
Culture Documents
MANUAL DE APLICACIN DEL MODELO DE REGRESIN LINEAL MULTIPLE CON CORRECIONES DE ESPECIFICACIN, USOS DE STATA 9.0,STATA 10.0, EVIEWS 5.0, SSPS 11.0
Autores: Rafael David Escalante Cortina Wilson Mayorga Mogollon Juan Carlos Vergara Schmalbach
1
Contenido
MODELO DE REGRESION LINEAL MULTIPLE..................................................... 3 Etapas para realizar una regresin Lineal Mltiple.................................................. 4 SUPESTOS DE MINIMOS CUADRADOS ORDINARIOS....................................... 5 PRUEBAS ESTADISTICAS PARA MEDIR LA SIGNIFICANCIA DEL MODELO Y DE LOS PARAMETROS. ........................................................................................ 7 Propiedades de los estimadores .......................................................................... 7 Regresin con Variables Dummy .......................................................................... 10 PROBLEMAS DE ESPECIFICACIN DEL MODELO DE REGRESIN MULTIPLE............................................................................................................. 33 MULTICOLINEALIDAD ...................................................................................... 33 HETEROCEDASTICIDAD ................................................................................. 42 AUTOCORRELACION....................................................................................... 45 APLICACIN DE MODELO LOGISTICOS EN SPSS 11.0 .................................. 57 BIBLIOGRAFIA ..................................................................................................... 67
Y = X +U
Esta funcin va ser llamada la regresin poblacional Esta funcin va ser llamada la regresin muestral
Existen dos razones para aplicar la regresin mltiple: Explicativa: A travs de este modelo la variable explicada y se pueden medir los impactos que tienen sus variables explicativas, es decir que los betas que acompaan la regresin pueden ser positivos o negativos los cuales no dicen si una variable explicativa ayuda a crecer o disminuir la variable dependiente. Prediccin: por medio de la regresin y reemplazando las variables explicativas X por valores numricos, la variable dependiente Y puede tomar diferentes valores.
Y = X +U
1 x 21 y1 u1 1 M , u = M , = M , x = M M ,y = M M y n n1 u k nx1 k kx1 1 x 2 n L x k1 L M L M L x kn nk
2 2 2 MinSCE = u ' u = y ' y y ' y = Min u i = y i y i = 0 U 'U = (Y X )' (Y X ) = Y ' Y Y ' X + ' X ' Y + ' X ' X = Y ' Y Y ' X = = Y 'Y ' ( X ' X ) = Y 'Y Y 'Y
Combinaciones datos seccin Cruzada: Se refiere cuando los datos tienen unidades diferentes y en diferentes momentos en el tiempo.
5. Estimacin del modelo: Se calcula el modelo en el paquete estadsticos, entre los ms usados se encuentran, Excel, Stata, SPSS windows, Stata, SAS, R, etc. 6. Prueba de hiptesis: se verifican si los betas de la regresin, son adecuados. 7. Pronstico o prediccin: Con la ecuacin ajustada a los betas consistentes y confiables se reemplazan los valores a las variables explicativas y se obtiene el pronstico de la variable explicada. 8. Uso de modelos para recomendacin: se hacen los ajustes dados por los investigadores.
=0
4. No hay autocorrelaciones en los errores, es decir que la esperanza de la covarianzas entre los errores es nula. E (u i u j ) = 0 para todo i j 5. Homocedasticidad:, que significa que la varianza de los errores es constante.
7. No hay relacin lineal perfecta entre las variables explicativas. 8. El nmero de observaciones es mayor que los parmetros estimados. 9. Los errores U siguen distribucin normal. (0, 2I). Es decir media cero y varianza constante. 10. Las Variables explicativas X son exogenas. Variabilidad de los errores en la regresin lineal: 1.- Variabilidad total: SCT =
(y
2 i
En el caso en el que el modelo hay una constante la SCT = SCE + SCR. La bondad de ajuste muestra qu tan bien se ajusta la lnea de regresin a los datos. El coeficiente de determinacin r para la regresin lineal simple y el R para la regresin mltiple, es una medida que nos dice qu tan bien se ajusta la lnea de regresin muestral a los datos.
2 2
R2 = 1
(Y
U
i
2 i 2
Y )
= 1
2
Una propiedad importante del R es que es una funcin no decreciente del nmero de variables explicativas o de regresores presentes en el modelo; a medida que aumenta el nmero de regresores, el R aumenta. Es por esto que al comparar dos modelos de regresin con la misma variable dependiente pero con un nmero diferente de variables
2 X, se debe tener mucho cuidado al escoger el modelo con el R ms alto. Para comparar 2 dos trminos R , se debe tener en cuenta el nmero de variables presentes en el modelo. 2
Esto puede hacerse con el coeficiente de determinacin ajustado R , el cual est ajustado por los grados de libertad asociados con las suma de los cuadrados.
U /(n k ) = 1 (Y Y ) /(n 1)
2 i 2 i
permite
contrastar la hiptesis de que el coeficiente es igual a cero (H0 : = 0 frente a Ha: 0) y por lo tanto la variable en cuestin no es individualmente significativa para explicar el comportamiento de la variable endgeno. Para que la variable La prueba estadstica F de Fisher puede medir la significancia global del modelo es decir que el modelo de regresin mltiple es estadsticamente significativo.
Ambos caso se busca un nivel de confianza del 95%, con un p-valor entre cero y 0,05 para que el modelo y los parmetros sean estadsticamente significativos.
] [
1
3. Adems de estimadores lineales e insesgados, tambien son los de mnima varianza (de Gauss-Markov) que son los mnimo cuadrticos. El nuevo estimador sera Var ( ) = 2 ( X ' X )
].
A continuacin se presentan la forma de la lectura de los estimadores con respecto a los resultados obtenidos en la variable independiente.
Modelo Lineal
Ecuacin
Caractersticas
Pendiente constante. Elasticidad variable (depende del valor de X y Y). Interpretacin 2 : un cambio en una unidad de X genera un cambio en 2 unidades de Y. Es decir cambio absoluto genera cambio absoluto.
Log - log
Log - lin
Pendiente variable (depende del valor de X y Y). Elasticidad constante. Interpretacin 2 : un cambio en un 1% de X genera un cambio en 2 por ciento de Y (Ojo: no se multiplica por 100). Este es un cambio porcentual genera cambio porcentual. Pendiente variable (depende del valor de X y Y). Elasticidad variable (depende del valor de X y Y). Interpretacin 2 : un cambio en una unidad de X genera un cambio en 100* 2 por ciento de Y. Este es un cambio absoluto genera cambio porcentual. Tambin se interpreta como una tasa de crecimiento.
EJEMPLO (paquete estadstico EVIEWS): Modelo regresin lineal Mltiple Se desea estimar el efecto de la tasa de desempleo X1(%), y la tasa de inflacin esperada X2 (%), sobre la tasa de inflacin observada Y(%).
Dependent Variable: Y Method: Least Squares Included observations: 13 Variable C X1 X2 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Coefficient 7.193357 -1.392472 1.470032 0.876590 0.851907 1.170605 13.70316 -18.78860 2.225465 Std. Error 1.594789 0.305018 0.175786 t-Statistic 4.510538 -4.565214 8.362633 Prob. 0.0011 0.0010 0.0000 7.756923 3.041892 3.352092 3.482465 35.51521 0.000029
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)
En este modelo, se puede observar que la tasa de inflacin esperada X2 (%), los signos de los coeficientes de las variables explicativas son los esperados (Curva de Phillips ampliada). El intercepto muestra que si X2 y X3 hubiese sido cero durante el periodo muestral, la tasa promedio de inflacin observada habra estado cercana al 7.19%. El coeficiente de regresin parcial de -1.392472 significa que al mantener constante la tasa de inflacin esperada, la tasa de inflacin observada en promedio se redujo en cerca del 1.4% por cada aumento del 1% de la tasa de desempleo. De igual manera, al mantener la tasa de desempleo constante, el valor del coeficiente de 1.470032 implica que la tasa de inflacin observada en promedio, aument en cerca de 1.5% por cada aumento del 1% en la tasa de inflacin esperada. El R 2 es alto, e indica que las dos variables explicativas, en su conjunto, son la causa de cerca del 88% de la variacin en la tasa de inflacin observada.
Ejercicios:
1. Modelo de regresin simple con una sola variable dummy
Yi = 1+ 2 Di +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy.
Estimamos en stata el siguiente modelo:
WAGE = 1+ 2 female + u
Donde:
2
Los modelos de regresin con variable dependiente dummy, presentan comnmente 4 enfoques de estimacin: El modelo Lineal de Probabilidad (MLP), El modelo Logit, El modelo Probit, y el Modelo Tobit. Sin embargo, para esta clase trabajaremos con modelos de regresin con variables independientes de esta clase.
10
2 , es el parmetro que define la diferencia entre el salario/hora de las mujeres y hombres. Si el coeficiente 2 < 0 , las mujeres ganan (dado que la categora base es
hombre), en promedio, menos que los hombres. NOTA: Si una variable dummy tiene m categoras, se debe introducir en el modelo a estimar, m 1 variables cualitativas. Lo anterior, con el fin de evitar la trampa de la variable dictoma, es decir, la situacin de multicolinealidad perfecta. En el ejemplo a realizar, la variable female tiene dos categoras (hombre mujer) y, por lo tanto, se introducir solamente una variable dummy. Teniendo en cuenta lo anterior, siempre se deber tomar una categora como base, con el fin de comparar las estimaciones realizadas con respecto a esa categora. Salida en stata: reg wage female
Source |
SS
df
MS
-------------+---------------------------------------------------------------female | _cons | -2.51183 7.099489 .3034092 .2100082 -8.28 33.81 0.000 0.000 -3.107878 6.686928 -1.915782 7.51205
------------------------------------------------------------------------------
11
Primero:
Ho : 2 = 0 H a : 2 0
tc =
i
Var i
= tc =
12
-8.3
-1,96
1,96
Ahora, dado que el t tabla con un nivel de significancia de 5% ( = 0.05, / 2 = 0.025) y 526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (-8.3) cae en la regin de rechazo, por lo tanto hay evidencia suficiente para rechazar la hiptesis nula, es decir, el 2 es estadsticamente diferente a cero y la variable es significativa, luego se puede decir que las mujeres, en promedio, ganan 2.5 dlares por hora menos que los hombres. De igual forma, en la salida en stata se puede evidenciar que el p-valor de la variable female es 0.0000, lo cual indica que la variable es estadsticamente significativa al 1%. NOTA: En general, la regresin simple con una constante y una variable dummy es una forma directa de comparar las medidas de dos grupos; para este ejemplo, entre el salario de las mujeres y los hombres. Geomtricamente, se podra dar que:
13
Para el caso de este modelo, se observa un cambio en intercepto. Como el beta que acompaa la variable female es negativo ( 2 < 0 ), se tiene un menor nivel de salario por hora de las mujeres con respecto a los hombres. Al correr el modelo anterior, tomando como la categora base a las mujeres, es decir, dando el valor de 1 a los hombres y 0 a las mujeres se obtiene: Salida en stata: reg wage hombre
Source |
SS
df
MS
-------------+---------------------------------------------------------------hombre | _cons | 2.51183 4.587659 .3034092 .2189834 8.28 20.95 0.000 0.000 1.915782 4.157466 3.107878 5.017852
------------------------------------------------------------------------------
Se puede observar, que el coeficiente estimado para la variable hom bre , presenta signo contrario al modelo anterior estimado con la variable female . De igual forma, se evidencia que el intercepto ha cambiado, ahora el intercepto representa el salario/hora de las mujeres (cuando hom bre = 0 ). Retomando el concepto de la trampa de variable dictoma, existe una forma de evitarla diferente a incluir m 1 categoras dentro del modelo. Para esto, consideremos el siguiente modelo de regresin a travs del origen:
14
Source |
SS
df
MS
-------------+---------------------------------------------------------------female | hombre | exper | 4.145462 6.626882 .0269163 .2845875 .2862475 .0111369 14.57 23.15 2.42 0.000 0.000 0.016 3.586387 6.064546 .0050379 4.704537 7.189218 .0487948
------------------------------------------------------------------------------
diferencial entre el salario de las mujeres y hombres. Los valores de los coeficientes estimados, son el salario promedio/hora de las mujeres y hombres respectivamente. Sin embargo, es importante tener en cuenta que la practica comn es asignar las variables dictomas de tal manera que si una variable tiene m categoras, se introducen solamente ( m 1 ) variables dicotmicas (Gujarati, 2001). Lo anterior, teniendo en cuenta que al utilizar dicho enfoque se obtiene un valor usual del R 2 , mientras que con el modelo
15
sin intercepto3, se tendra que calcular lo que se conoce como el R 2 simple. Asimismo, cuando se considera a priori un modelo sin intercepto, se puede estar cometiendo un error de especificacin, violando as uno de los supuestos del modelo clsico de regresin lineal. 2. Modelo de regresin mltiple con una sola variable dummy y una variable cuantitativa. La expresin general de este modelo, esta dada por:
Yi = 1+ 2 Di + 3 X i +u i
Donde:
Y , es la variable dependiente.
Di , es la variable explicativa dummy. X i , es la variable explicativa cuantitativa.
Para realizar un ejemplo, trabajaremos con la base de datos WAGE1.RAW. Estimamos en stata el siguiente modelo:
Cuando se estima un modelo de regresin con intercepto cero, se habla de un modelo de regresin a travs del origen.
16
-------------+---------------------------------------------------------------female | exper | _cons | -2.48142 .0269163 6.626882 .3022793 .0111369 .2862475 -8.21 2.42 23.15 0.000 0.016 0.000 -3.07525 .0050379 6.064546 -1.887589 .0487948 7.189218
------------------------------------------------------------------------------
Primero:
17
El coeficiente de female , es la diferencia en el salario promedio entre hombres y mujeres manteniendo un mismo nivel de experiencia, es decir la mujeres, en promedio, ganan 2.51 dlares menos que los hombres. Sin embargo, para saber si el 2 y 3 son estadsticamente significativos, y as poder concluir con certeza que un ao de experiencia de trabajo en los hombres aporta mas a su salario, que un ao de experiencia de las mujeres, tenemos que realizar la prueba de significancia individual de las variables female y exp er .
Ho : 2 = 0 H a : 2 0
tc =
i
Var i
= tc =
-8.21
-1,96
1,96
Ahora, dado que el t tabla con un nivel de significancia de 5% ( = 0.05, / 2 = 0.025) y 526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (-8.21) cae en la regin de rechazo, por lo tanto hay evidencia suficiente para rechazar la hiptesis nula, es decir, el 2 es estadsticamente diferente a cero y la variable es significativa. De igual forma, en la salida en stata se puede evidenciar que el p-valor de la variable female es 0.0000, lo cual indica que la variable es estadsticamente significativa al 1%. Ahora:
H o : 3 = 0 H a : 3 0
tc =
i
Var i
= tc =
18
-1,96
1,96
2.42
Ahora, dado que el t tabla con un nivel de significancia de 5% ( = 0.05, / 2 = 0.025) y 526 grados de libertad es 1.96, se puede apreciar en el grfico, que el tc (2.42) cae en la regin de rechazo, por lo tanto hay evidencia suficiente para rechazar la hiptesis nula, es decir, el 3 es estadsticamente diferente a cero y la variable es significativa. De igual forma, en la salida en stata se puede evidenciar que el p-valor de la variable exp er es 0.016, lo cual indica que la variable es estadsticamente significativa al 1%. Al igual que en el ejemplo anterior, se puede estimar un modelo de regresin sin intercepto con el fin de enviar la trampa de la variable dicotmica. Considrese el siguiente modelo:
Source |
SS
df
MS
------------------------------------------------------------------------------
19
wage |
Coef.
Std. Err.
P>|t|
-------------+---------------------------------------------------------------female | hombre | exper | 4.145462 6.626882 .0269163 .2845875 .2862475 .0111369 14.57 23.15 2.42 0.000 0.000 0.016 3.586387 6.064546 .0050379 4.704537 7.189218 .0487948
------------------------------------------------------------------------------
Se puede observar que los coeficientes estimados representan el salario promedio de las mujeres y los hombres, dado un nivel de experiencia. 3. Modelo de regresin mltiple con una sola variable dummy y dos o ms variables cuantitativas Al modelo del ejemplo anterior, le agregaremos una variable explicativa cuantitativa.
female = 1 cuando la persona es mujer. female = 0 cuando la persona es hombre. exp er , es la variable que representa los aos de experiencia de la persona. tenure , es la variable que representa la antigedad de la persona en el trabajo. exp er 2 , es la variable que representa los aos de experiencia de la persona al cuadrado.
Source |
SS
df
MS
Number of obs =
526
20
F(
5,
520) = = =
-------------+---------------------------------------------------------------female | exper | tenure | expersq | tenursq | _cons | -1.998933 .2003255 .2521445 -.0049574 -.0037726 4.79956 .2837282 .039522 .0542485 .0008445 .0018635 .347897 -7.05 5.07 4.65 -5.87 -2.02 13.80 0.000 0.000 0.000 0.000 0.043 0.000 -2.556328 .1226832 .1455714 -.0066166 -.0074335 4.116104 -1.441539 .2779678 .3587176 -.0032983 -.0001117 5.483017
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las variables explicativas, son estadsticamente significativos. Se observa, que los t calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y / 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede decir que los betas son estadsticamente diferentes de cero. En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las mujeres ganan en promedio menos que los hombres manteniendo constantes las dems variables; un ao de experiencia y/o antigedad, proporciona mayor salario/hora a los hombres y las mujeres, manteniendo constantes el resto de variables. La interpretacin de las variables estimadas al cuadrado, permite establecer que la experiencia y la antigedad presentan rendimientos marginales decrecientes, es decir, que a medida que aumenta la experiencia y antigedad de las personas, aumenta el salario/hora, hasta un punto en el cual despus disminuye. 4. Modelo de regresin mltiple con dos variables dummy y una variable cuantitativa. Continuando con la base de datos WAGE.RAW, estimaremos el siguiente modelo:
21
Source |
SS
df
MS
-------------+---------------------------------------------------------------female | tenure | married | _cons | -1.976333 .1354407 .9131324 5.596056 .2953181 .0207625 .3051762 .2989656 -6.69 6.52 2.99 18.72 0.000 0.000 0.003 0.000 -2.556491 .0946523 .313608 5.008732 -1.396176 .1762291 1.512657 6.183379
22
------------------------------------------------------------------------------
Teniendo en cuenta lo anterior, tenemos que: El salario promedio de un hombre soltero dado un nivel de antigedad en el trabajo, esta dado por:
23
5. Modelo de regresin mltiple con varias variables dummy (con una variable cualitativa de tres o cuatro categoras) Considrese el siguiente modelo:
northcen = 1 cuando la persona vive en el norte. northcen = 0 cuando la persona no vive en el norte. south , es la variable dummy que representa si la persona vive en el sur, y toma los
valores de:
south = 1 cuando la persona vive en el sur. south = 0 cuando la persona no vive en el sur.
west , es la variable dummy que representa si la persona vive en el occidente, y toma los valores de:
west = 1 cuando la persona vive en el occidente. west = 0 cuando la persona no vive en el occidente.
NOTA: La categora base para el sector donde viven las personas son las personas que viven en el oriente. 24
Source |
SS
df
MS
-------------+---------------------------------------------------------------female | married | northcen | south | west | _cons | -2.337965 1.417395 -.6532592 -1.161885 .3794599 6.666695 .2994471 .3068326 .4281555 .398185 .4747887 .3917518 -7.81 4.62 -1.53 -2.92 0.80 17.02 0.000 0.000 0.128 0.004 0.425 0.000 -2.92624 .8146113 -1.494386 -1.944134 -.5532799 5.897084 -1.74969 2.020179 .1878678 -.379636 1.3122 7.436305
------------------------------------------------------------------------------
De la salida anterior se puede observar varias cosas: Dado que el intercepto representa la categora base, se incluyen variables dummys solo para 3 de las 4 categoras del sector donde viven las personas, con el fin de no caer en la trampa de la variable dictoma (multicolinealidad perfecta). Las variables northcen y west no son significativas al 10%; por lo tanto, se puede decir que no existe diferencia en el salario promedio, entre las personas que viven en estos sectores y los que viven en el oriente (la categora base). Teniendo en cuenta que la variable south es estadsticamente significativa (pvalor 0.004), se puede decir que las personas que viven en el sur, ganan en promedio, 1.16 dlares menos que los que viven en el oriente, manteniendo constantes las dems variables.
25
6.
Source |
SS
df
MS
26
------------------------------------------------------------------------------
De acuerdo con la salida en Stata, todos los betas estimados que acompaan a las variables explicativas, son estadsticamente significativos. Se observa, que los t calculados son caen en la regin de rechazo comparado con un t tabla con 526 g.l. y / 2 = 0.025 igual a 1.96, es decir, se rechaza la hiptesis nula, por tanto se puede decir que los betas son estadsticamente diferentes de cero. En cuanto a la interpretacin de los coeficientes estimados, se puede decir que las mujeres ganan en promedio menos que los hombres manteniendo constantes las dems variables; un ao de experiencia, educacin y/o antigedad en el trabajo, proporciona mayor salario/hora tanto a los hombres como las mujeres, manteniendo constantes el resto de variables.
De otro lado, en este modelo esta implcito el supuesto de que el efecto diferencial de la variable dummy female es constante a travs del posible estado civil de las personas (casado y no casado). Por ejemplo, en la salida anterior se observa que las mujeres ganan en promedio menos que los hombres, esto se da ya sea casada o no. En muchas aplicaciones, este supuesto puede ser imposible de mantener, una mujer puede ganar mas cuando es casada que cuando es soltera. Con el fin de observar este efecto dentro del modelo, se adiciona la variable femalemarr ied , que representa la interaccin entre las variables female y married . Por lo tanto, se estima ahora el siguiente modelo:
femalemarr ied , es la variable dummy que representa la interaccin entre las variables
sexo y estado civil de las personas, y toma los valores de:
27
Source |
SS
df
MS
-------------+---------------------------------------------------------------female | educ | exper | tenure | femalemarr~d | _cons | -1.447194 .5808792 .0297398 .1398767 -.6826192 -1.756788 .3335762 .0495127 .0117984 .0211268 .3820906 .7307182 -4.34 11.73 2.52 6.62 -1.79 -2.40 0.000 0.000 0.012 0.000 0.075 0.017 -2.102517 .4836097 .0065613 .0983724 -1.43325 -3.19231 -.7918717 .6781487 .0529182 .181381 .0680118 -.3212652
------------------------------------------------------------------------------
De la salida anterior, ahora se tiene una interpretacin adicional, la de la variable con efecto interaccin:
E [WAGE / female = 1, married = 1, educ, exp er , tenure] = (1.75 1.44 + 0.58educ + 0.029 exp er + 0.13tenure 1.75)
La expresin anterior, perite establecer el salario/hora promedio de las mujeres casadas, manteniendo constante el resto de variables. Cambios en intercepto y cambios en pendientes Considrese en siguiente modelo:
Y = 1 + 2 X 1 + 3D1 + 4 D1 X 1 + u
Donde:
X1 D1
4 < 0
4 > 0 significativos, y 3 = 0 .
29
En la grfica (a), la intercepcin de las mujeres es menor a la de los hombres, pero la pendiente es mayor para las mujeres. Esto significa que las mujeres ganan menos que los hombres en los niveles inferiores de educacin, pero la brecha se cierra a medida que aumenta el grado de escolaridad. En algn, punto los hombres y las mujeres ganan igual, y despus las mujeres ganan mas que los hombres, dados los mimos niveles de educacin. La grfica (b), muestra el caso en el que la intercepcin de las mujeres es menor que la de los hombres, y la pendiente de la lnea de las mujeres es menor que la de los hombres. Esto significa que las mujerees ganan menos que los hombres en cualquier nivel de escolaridad Regresiones coincidentes: igual intercepto y pendiente: 3 = 0 , 4 = 0 .
30
WAGE = 1+ 2 exp er + u
Si queremos graficar los puntos de esta regresin en el plano cartesiano, donde exp er esta representado en el eje X y WAGE en el eje Y, se utiliza el siguiente comando: scatter wage exper
25 0 0 5 average hourly earnings 10 15 20
10
40
50
Ahora, si se quiere adicionar a la grfica titulo a la grfica y los nombres a cada uno de los ejes, se utiliza el comando title: scatter wage expe, title(Salario Vs. Experiencia) xtitle(A. Experiencia) ytitle(WAGE)
31
10
20 30 A. Experiencia
40
50
Por ltimo, si se quiere adicionar la lnea de tendencia, se utiliza el comando: twoway (scatter wage exper) (lfit wage exper), title(Salario Vs. Experiencia) xtitle(A. Experiencia) ytitle(WAGE)
10
20 30 A. Experiencia
40 Fitted values
50
32
El dcimo supuesto del modelo clsico de regresin lineal (MCRL), plantea que no existe multicolinealidad entre las variables explicativas del modelo, es decir, que no debe existir relacin perfecta o exacta entre algunas o todas las variables explicativas de un modelo de regresin4. Existen otros supuestos que son complementarios a no la multicolinealidad, ellos son el supuesto 7, que indica que el nmero de regresores debe ser menor al nmero de observaciones, y el supuesto 8, que especifica que debe existir variabilidad en los valores de los regresores. Para entender un poco este concepto, se puede representar grficamente:
Es importante resaltar que la multicolinealidad, como se ha definido, se refiere solamente a relaciones lineales entre las variables explicativas, no elimina las relaciones no lineales existentes entre ellas. Por lo tanto modelos como:
Yi = 1 + 2 X i + 3 X i2 + 4 X i3 + u i
No violan el supuesto de no multicolinealidad. Sin embargo, se encontraran coeficientes de correlacin altos para variables X i , X i2 , X i3 .
4
Se habla de multicolinealidad cuando hay existencia de ms de una relacin lineal exacta, y colinealidad se refiere a la existencia de una sola relacin lineal.
33
NOTA: Los estimadores de MCO en presencia de multicolinealidad, satisfacen la condicin de ser el Mejor estimador lineal e insesgado (MELI) MEI (en el caso de aadir el supuesto de normalidad). Consecuencias Prcticas de la Multicolinealidad 1. 2. 3. 4. 5. Varianzas de los coeficientes estimados sobredimensionados. Pruebas de hiptesis no validas. Se podra dar error tipo II (Aceptar la hiptesis nula, dado que es falsa) Intervalos de Confianzas ms amplios. No se podran separar los efectos de una variable explicativa sobre la variable dependiente. Por ejemplo, se tiene Y = 1 + 2 X 1 + 3 X 2 + u , y X 1 esta relacionado con X 2 , no se puede determinar con certeza cual es el efecto de
6. 7.
Contradicciones en las estimaciones realizadas al modelo, se encuentran pruebas t bajas y estadsticos F y R 2 altos. Sensibilidad del modelo, los estimadores y sus errores estndar se tornan muy sensibles. Por ejemplo, estimo un modelo de regresin con 90 observaciones, elimino algunas observaciones y al realizar las estimaciones nuevamente, encuentro signos de los betas distintos.
Como detectar la Multicolinealidad Teniendo en cuenta que la multicolinealidad es un fenmeno esencialmente de tipo muestral5 , no se tiene un mtodo nico para detectarla. Lo que se tienen, son ciertas pruebas formales e informales que permiten determinar su presencia. Algunas de ellas son: 1. Observar los estadsticos estimados: Cuando se tiene un R 2 alto, y la prueba F muestra que el modelo es globalmente significativo, es decir, los coeficientes estimados del modelo son estadsticamente diferentes de cero, pero se encuentran unos t calculados bajos, que demuestran que los coeficientes no son significativos ( i = 0 ). 2. Observar la matriz de correlacin entre parejas de regresores: Si este coeficiente es mayor a 0.8, entonces la multicolinealidad es un problema grave. Sin embargo, esta condicin se puede considerar suficiente pero no necesaria, debido a que la multicolinealidad puede existir, a pesar de que las correlaciones sean comparativamente bajas (es decir, inferiores a 0.5). Si el coeficiente de correlacin es -1, existe correlacin negativa, a medida que una variable aumenta, la otra disminuye. Cuando el coeficiente es 1, hay correlacin positiva, cuando aumenta una variable, tambin aumenta la otra.
Aun cuando las variables X no estn linealmente relacionadas en la poblacin, pueden estarlo en la muestra que se ha tomado, en dicho caso, nuestra muestra puede no ser lo suficiente rica para acomodar todas las variables X en el anlisis.
34
3.
Regresiones auxiliares: Dado que la multicolinealidad surge por la relacin lineal entre variables explicativas, se pueden estimar regresiones entre las variables explicativas. Posteriormente, se puede adoptar la regla practica de Klien, quien sugiere que si el R 2 obtenido en la regresin auxiliar es mayor que el R 2 global, es decir, aquel obtenido en la regresin de Y sobre todos los regresores, hay un serio problema de multicolinealidad. Estimar el Factor de Inflacin de Varianza (FIV). El cual esta dado por;
4.
FIV =
Si el FIV es superior a 10, se dice que esa variable es altamente colineal. Algunos autores, hacen referencia a la medida de tolerancia para determinar la multicolinealidad. Esta se define como:
Tolerancia = (1 R 2 ) j
Si la tolerancia tiende a 1, entonces no hay multicolinealidad. Si la tolerancia tiende a 0, entonces hay multicolinealidad.
Ejemplo Prctico: Dadas las observaciones de la base de datos Gastoconsumo.dta, estmese el siguiente modelo:
ingreso , es la variable independiente que representa el ingreso semanal familiar. riqueza , es la variable independiente que representa la riqueza de la familia.
35
Source |
SS
df
MS
Number of obs = F( 2, 7) = = =
-------------+---------------------------------------------------------------ingreso | riqueza | _cons | .9415373 -.0424345 24.77473 .8228983 .0806645 6.7525 1.14 -0.53 3.67 0.290 0.615 0.008 -1.004308 -.2331757 8.807609 2.887383 .1483067 40.74186
------------------------------------------------------------------------------
Teniendo en cuenta las estimaciones anteriores, procedemos a identificar si existe en este caso colinealidad entre las variables ingreso y riqueza . Para ello, tendremos en cuenta cada uno de los puntos mencionados para detectar la multicolinealidad. 1. De la regresin anterior se observa que las variables ingreso y riqueza explican
en un 96% los gastos en consumo semanal familiar (puesto que el R 2 = 0.9635 ). Tambin se evidencia que el valor del estadstico F = 92.40 , es alto, lo cual indica que cae en la zona de rechazo, indicando que el modelo es globalmente significativo. Sin embargo, ninguno de los coeficientes de las pendientes es estadsticamente significativo, lo cual indica que dichas variables estn altamente correlacionadas y es imposible aislar el impacto individual del ingreso o la riqueza sobre el consumo. Asimismo, el signo de la variable riqueza no es el esperado (se espera que la relacin sea positiva). 2. Al obtener la matriz de correlacin de las variables: Matriz de correlacin: cor gastoconsumo ingreso riqueza
36
| gastoc~o
ingreso
riqueza
Se muestra que el coeficiente de correlacin entre la variable ingreso y riqueza es bastante alto (0.9990) cercano al 1. Como se haba mencionado antes, si el coeficiente era mayor a 0.8, se evidencia un problema de colinealidad entre dichas variables. La correlacin es positiva, a medida que aumenta el ingreso, aumenta la riqueza. 3. Realicemos la siguiente regresin auxiliar:
ingreso = 1 + 2 riqueza + u
Salidad en Stata: reg ingreso riqueza
Source |
SS
df
MS
Number of obs = F( 1,
10
-------------+---------------------------------------------------------------riqueza | _cons | .0979231 -.3862708 .0015784 2.897956 62.04 -0.13 0.000 0.897 .0942834 -7.068968 .1015629 6.296427
------------------------------------------------------------------------------
La salida muestra que existe colinealidad casi perfecta entre las variables
ingreso y
37
4.
FIV =
1 1 = = 333,33 2 1 R j 1 0.9970
38
Source |
SS
df
MS
Number of obs = F( 1, 8) = = =
-------------+---------------------------------------------------------------ingreso | _cons | .5090909 24.45455 .0357428 6.413817 14.24 3.81 0.000 0.005 .4266678 9.664256 .591514 39.24483
------------------------------------------------------------------------------
Se observa que ahora la variable ingreso es estadsticamente significativa. Ahora, estimaremos el gasto del consumo familiar en funcin de la riqueza , es decir, eliminamos la variable ingreso . Salida en Stata: reg gastoconsumo riqueza
Source |
SS
df
MS
Number of obs = F( 1, 8) = = =
-------------+---------------------------------------------------------------riqueza | _cons | .0497638 24.41104 .003744 6.874097 13.29 3.55 0.000 0.007 .0411301 8.559349 .0583974 40.26274
------------------------------------------------------------------------------
39
Se evidencia que la variable riqueza ahora es altamente significativa. Sin embargo, como se menciono anteriormente, es importante tener claro lo que dice la teora econmica, con el fin de no caer en el sesgo de especificacin del modelo. 2. Informacin a priori: La informacin a priori puede provenir de trabajo emprico que se haya realizado con anterioridad. Continuando con el ejemplo del gasto en el consumo familiar, se podra tener informacin a priori que 3 = 0.1 2 , es decir, que la tasa de consumo con respecto a la riqueza es una dcima parte de la correspondiente con respecto al ingreso. Teniendo en cuenta lo anterior se tiene que:
Source |
SS
df
MS
Number of obs = F( 1, 8) = = =
-------------+---------------------------------------------------------------X _cons | | .2517807 24.38745 .0182086 6.610424 13.83 3.69 0.000 0.006 .2097915 9.14378 .2937699 39.63111
------------------------------------------------------------------------------
40
Se observa que el beta que acompaa la variable X , es altamente significativo. Como sabemos el valor de 2 , se puede estimar 3 , a partir de la relacin postulada a priori. Por tanto, 3 = 0.1(0.25) = 0,02517 3. Transformacin de las variables: En ocasiones, se pueden realizar transformacin de las variables, con el fin de evitar la colinealidad. Por ejemplo, se podra estimar un modelo donde una de las variables que causan la colinealidad este en logaritmo. 4. Datos nuevos o adicionales: Teniendo en cuenta que la multicolinealidad es de la muestra, se puede pensar que tomando una nueva muestra de las mismas variables, o ampliando el tamao de la misma, se puede atenuar el problema de la colinealidad.
41
HETEROCEDASTICIDAD
El modelo de regresin lineal mltiple exige que la varianza condicional de las perturbaciones aleatorias a los valores de la variable explicativas X sea constante: Homocedasticidad: E ( Ui 2 ) = 2 Heterocedasticidad: E ( Ui 2 ) 2 Las fuentes de la Heterocedasticidad se puede atribuir a:
Factores exclusivos de la regresin. Errores de explicacin del modelo. Irregularidad en la distribucin de las variables. Errnea transformacin de la forma funcional del modelo
Las propiedades que tienen los estimadores se enumeran a continuacin. 1. Los estimadores siguen siendo INSESGADOSE () = Insesgamiento. 2. Los estimadores siguen siendo CONSISTENTES. 3. La propiedad de Consistencia es de las muestras grandes y consiste en que la Varianza de tiende a cero cuando n tiende a . Bajo el supuesto de heterocedasticidad se sigue cumpliendo. 4. Los estimadores dejan de ser EFICIENTES ya que no son los de minina varianza. 5. Las varianzas y covarianzas de los estimadores de MCO son SESGADAS e INCONSISTENTES. Por este motivo los test de hiptesis ya no son vlidos. Como detectar la Heterocedasticidad: Es imposible encontrar la presencia de heterocedasticidad ya que, en la mayora de los anlisis regresiones mltiples, slo dispondremos de un valor de Y para cada valor de X por lo que se obtiene que resulta imposible observar si la varianza de las U para cada valor de X es la misma. Condicin de
Existe un comando en el paquete STATA, en cual colocamos el comando hettest, por medio de este comando se prentende aceptar la hiptesis nula.
42
H0 = 2 = 2
No rechazo o acepto la hiptesis nula y rechazo la hiptesis alternativa. Lo que quiero es que pase.
Existe una metodologa a travs de los grficos, la cual consiste en hacer una regresin bajo el supuesto de la homocedasticidad y luego examinar los errores u con la variables regresoras y observamos comportamiento de los grficos.
TEST DE GOLDFELD-QUANT: Se basa en la idea que si la varianza de los errores es igual a travs de todas las observaciones, entonces la varianza para una parte de la muestra ser la misma que la calculada con otra parte de la misma.
1. Se identifica una variable Z relacionada con la varianza de los errores. Si suponemos que la relacin es POSITIVA, ordenamos de manera creciente los datos de la muestra. 2. Dividimos la muestra en 2 partes omitiendo los valores centrales. 3. Estimamos las regresiones por separado. 4. Obtenemos SEC de cada una de las regresiones y calculamos las estimaciones de la varianza como SEC1/n1-k y SEC2/n2-k. 5. Calculamos Fcalc = SEC1/n-k SEC2/n-k 5. Comparamos Fcalc con el valor F tabla con (n1-K) GL numerador y (n2-K) GL denominador. 6. Si Fcalc > Ftabla rechazo Ho de Homocedasticidad. El xito depende de este Test es seleccionando correctamente la X.
43
TEST DE WHITE: Tambin es un test para muestras grandes no necesita ningn supuesto previo acerca de las causas de la heterocedasticidad.
1. Estimamos el modelo por MCO. 2. Calculamos U2i (estimado). 3. Estimamos un modelo de regresin utilizando U2i (estimado) como variable dependiente sobre las X originales , las X y los productos cruzados. 4. Calculamos R2 para la regresin y n.R2. 5. Ho 2 = 3 =. ... = 0 H1: al menos una # 0 Si n R2 > 2 (k-1), Rechazo Ho y tengo Heterocedasticidad.
Soluciones a la Heterocedasticidad
Mnimos Cuadrados Generalizados : Consiste en dividir cada trmino por i. Modelo transformado Y1/i. = 1X1/i. + 2X2/i. + .... Este modelo satisface los supuestos de MCO, pero se puede presentar el inconveniente de no conocer i. Mnimos Cuadrados Ponderados: es una extensin del MCG. Definimos w1= 1/ i. Y transformando el modelo nos queda Y1W1. = 1(X1W1). + 2(X2W1). + .. (UiW1) En este modelo transformado cada observacin de la variable est ponderada por W1 (inversamente proporcional a i) Conocemos la estructura de la Heterocedasticidad. Suponemos Var(Ui) = 2. Z2 ( se denomina Heterocedasticidad Multiplicativa) W = 1/Z .... Nos queda el modelo transformado. La Var (Ui transformado) = 2.(porque se nos elimina Z2) , de esta manera nos queda un modelo Homocedastico.
44
AUTOCORRELACION
La autocorrelacin se puede definir como la correlacin entre miembros de series de observaciones ordenadas en el tiempo (informacin de series de tiempo) o en el espacio (informacin de corte de transversal). El modelo de regresin lineal supone que no debe existir autocorrelacin en los errores (u i ) , es decir, el trmino de perturbacin relacionado con una observacin cualquiera no debera estar influenciado por el trmino de perturbacin relacionado con cualquier otra observacin.
E (u i u j ) = 0 para todo i j
Causas de la Autocorrelacin Algunas de las causas son las siguientes6: Trabajo con datos de serie temporal: cuando se trabaja con datos de corte longitudinal (p.e.: una variable explicativa cuyas observaciones correspondan a valores obtenidos en instantes temporales sucesivos), resulta bastante frecuente que el trmino de perturbacin en un instante dado siga una tendencia marcada por los trminos de perturbacin asociados a instantes anteriores. Este hecho da lugar a la aparicin de autocorrelacin en el modelo. Especificacin errnea en la parte determinista del modelo (autocorrelacin espuria): 1. Omisin de variables relevantes: en tal caso, las variables omitidas pasan a formar parte del trmino de error y, por tanto, si hay correlacin entre distintas observaciones de las variables omitidas, tambin la habr entre distintos valores de los trminos de perturbacin. 2. Especificacin incorrecta de la forma funcional del modelo: si usamos un modelo inadecuado para describir las observaciones (p.e.: un modelo lineal cuando en realidad se debera usar un modelo cuadrtico), notaremos que los residuos muestran comportamientos no aleatorios (i.e.: estn correlacionados). Transformaciones de los datos: determinadas transformaciones del modelo original podran causar la aparicin de autocorrelacin en el trmino de perturbacin del modelo transformado (incluso cuando el modelo original no presentase problemas de autocorrelacin). Trabajo con modelos dinmicos: cuando se trabaja con series temporales suele ser habitual considerar modelos de regresin que incluyan no slo los valores actuales sino tambin los valores retardados (pasados) de las variables explicativas. Es el caso de un modelo de retardos distribuidos de orden s o RD(s):
Yt = + 0 X t + 1 X t 1 + 2 X t 2 + ... + s X t s + u t
6
45
Otro tipo de modelo dinmico que presentara problemas de autocorrelacin sera aquel que incluyese entre sus variables explicativas uno o ms valores retardados de la variable dependiente. Este otro tipo de modelo dinmico se conoce como modelo autorregresivo de orden s o AR(s):
2.
3.
4.
5.
6.
Deteccin de la Autocorrelacin: Para analizar la posible presencia de autocorrelacin en el modelo se suele recurrir a dos tcnicas complementarias: (1) el anlisis grfico de los residuos (obtenidos al realizar la
46
regresin por MCO), y (2) los contrastes de hiptesis especficos (test de Durbin-Watson, test h de Durbin, test de Breusch-Godfrey, test Q de Box-Pierce, etc.). Anlisis Grfico: Al realizar la regresin por MCO, se pueden graficar los residuos (o, alternativamente, los residuos estandarizados, es simplemente dividir u t por el error estandar de la estimacin
) frente al tiempo. Dado que los residuos MCO son estimadores consistentes de los
trminos de perturbacin, si se aprecian en el grfico anterior patrones de comportamiento sistemtico (no aleatorio) podremos afirmar que los trminos de perturbacin presentan algn tipo de autocorrelacin. Contrastes: Test de Durbin-Watson Es la prueba mas conocida para detectar correlacin serial; permite contrastar si el trmino de perturbacin est autocorrelacionado. Dicha prueba presenta algunos supuestos: Es vlido para autocorrelacin serial de 1 orden en los residuos, no aplica para modelos con variable dependiente rezagada como variable explicativa, las variables explicativas son no estocsticas (son fijas en muestreo repetido), el modelo de regresin lineal debe incluir el intercepto, y no hay observaciones faltantes en los datos.
d=
(u u u
t
t 1
)2
2 t
2(1 )
Una vez hallado DW, es posible usar su valor para estimar el coeficiente de autocorrelacin simple mediante la expresin:
d 2
El estadstico DW es un valor comprendido entre 0 y 4. Como se observa en el siguiente grfico, para valores de DW cercanos a 2 no rechazaremos la hiptesis nula, por el contrario, para valores de DW alejados de 2, s rechazaremos la hiptesis nula
Tabla de decisin: 47
0 < d < d L , se rechaza H 0 , existe autocorrelacin positiva. 4 d L < d < 4 , se rechaza H 0 , existe autocorrelacin negativa.
d u < d < 4 d u , no se rechaza H 0 , no existe autocorrelacin. d L < d < d u o 4 d u < d < 4 d L , el contraste no es concluyente.
Los pasos a seguir de este contraste son: 1. Estimacin por mnimos cuadrados ordinarios (MCO) del modelo de regresin. 2. Clculo de los residuos MCO. 3. Obtencin del estadstico d (experimental) de Durbin-Watson. 4. Bsqueda de los niveles crticos del contraste. 5. Aplicacin de la regla de decisin. Un inconveniente que presenta este contraste es que a veces puede no ser concluyente, por lo que hay que considerar, utilizando otros criterios, si existe o no autocorrelacin. Ejemplo en Stata: Se trabajara con la base de datos PHILLIPS.DTA, la cual contiene las siguientes variables:
48
Source |
SS
df
MS
-------------+---------------------------------------------------------------unem | _cons | .4676257 1.42361 .2891262 1.719015 1.62 0.83 0.112 0.412 -.1140213 -2.034602 1.049273 4.881822
------------------------------------------------------------------------------
Una vez estimada la regresin, se procede a ejecutar el siguiente comando con el cual se obtiene el estadstico Durbin-Watson:
Si se quiere estimar el Durbin-Watson por las ventanas en Stata 9, la ruta a seguir es: Statistics/time-series/tests/time series epecification tests after regress Automticamente se despliega el siguiente recuadro, en donde se muestra la opcin a seleccionar, y le damos OK.
49
La ruta a seguir en Stata 8.2 es: Statistics/time-series/tests/Durbin-Watson d statistics after regress Automticamente se despliega el siguiente recuadro, en donde se muestra la opcin a seleccionar, y le damos OK.
50
Por tanto se rechaza la hiptesis nula, hay autocorrelacin. Prueba de Breusch Godfrey (BG) sobre autocorrelacin de orden superior Este estadstico es muy sencillo de calcular y resuelve los problemas del contraste de Durbin-Watson; por ejemplo, los regresores incluidos en el modelo pueden contener valores rezagados de la variable dependiente, es decir, Yt 1 , Yt 2 , etc. Pueden aparecer como variables explicativas. Supngase que el termino de perturbacin u t es generado por el siguiente esquema autorregresivo de orden p :
u t = 1u t 1 + 2 u t 2 + ... + p u t p + t
Donde t es un trmino de perturbacin puramente aleatorio con media cero y varianza constante.
Dicha hiptesis puede ser probada de la siguiente manera: 1. Estimacin por MCO del modelo de regresin y obtencin de los residuos MCO
(u t ) . 2. Estimacin de una regresin auxiliar de los residuos ut sobre p retardos de los mismos, u t 1 , u t 2 ,..., u t p .
2 3. Obtencin del coeficiente de determinacin ( R 2 ) de la regresin auxiliar ( Raux ).
51
5. Si el valor calculado excede el valor critico de 2 al nivel de significancia seleccionado, se puede rechazar la hiptesis nula, en cuyo caso, por lo menos un es significativamente diferente de cero (se admite que hay autocorrelacin), en caso contrario no habra autocorrelacin.
Ejemplo en Stata:
De acuerdo a la salida anterior, se puede observar que el p-valor asociado al 2 es 0.000, lo cual confirma la presencia de autocorrelacin. Si se quiere estimar la prueba Breusch Godfrey por las ventanas en Stata 9, la ruta a seguir es: Statistics/time-series/tests/time series epecification tests after regress utomticamente se despliega el siguiente recuadro, en donde se muestra la opcin a seleccionar, y le damos OK.
52
Statistics/time-series/tests/Breusch-Godfrey LM test for autocorrelation Automticamente se despliega el siguiente recuadro, en donde se muestra la opcin a seleccionar, y le damos OK.
53
Cuando 1
1. se tiene:
d es conocido: 2
(a) (b)
Yt = 1 + 2 X t + u t Yt 1 = 1 + 2 X t 1 + u t 1
Yt 1 = 1 + 2 X t 1 + u t 1
4. Se resta (a)-(c): 5. Yt Yt 1 = 1 1 + 2 X t 2 X t 1 + u t u t 1
(c)
Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + (u t u t 1 ) Yt Yt 1 = 1 (1 ) + 2 ( X t X t 1 ) + t
Donde t = (u t u t 1 ) 6. Estimo (d) por MCO. (d)
Cuando desconocida:
Se utiliza en algoritmo de Cochrane Orcutt: Considrese el siguiente modelo:
Yt = 1 + 2 X t + u t
Y supngase que u t , es generado por el esquema AR(1):
(e)
u t = u t 1 + t
Cochrane Orcutt recomienda realizar los siguientes pasos: 1. 2.
Estimar (e) por MCO y se obtener u t . Utilizando los residuos estimados u t , realizo las siguiente regresin: u t = u t 1 + t
(f)
3. 4. 5.
Utilizando obtenido en la regresin anterior, efectese la ecuacin en diferencia planteada en (d) por MCO. Obtengo los i y los sustituyo en (a). Se estima nuevamente:
54
Ejemplo en Stata: Para ejecutar el algoritmo de Cochrane Orcutt en Stat por comando, se escribe: prais inf unem, corc
Iteration 0: Iteration 1: Iteration 2: Iteration 3: Iteration 4: Iteration 5: Iteration 6: Iteration 7: Iteration 8: Iteration 9: Iteration 10: rho = 0.0000 rho = 0.5727 rho = 0.7160 rho = 0.7611 rho = 0.7715 rho = 0.7735 rho = 0.7740 rho = 0.7740 rho = 0.7740 rho = 0.7741 rho = 0.7741
Source |
SS
df
MS
-------------+----------------------------------------------------------------
55
unem | _cons |
-.6653356 7.583458
.3196035 2.38053
-2.08 3.19
0.043 0.003
-1.308664 2.7917
-.0220071 12.37522
-------------+---------------------------------------------------------------rho | .7740512
En la salida anterior, se puede observar el numero de iteraciones que realiz el algoritmo (en este caso fueron 10), la regresin transformada, y el DW del modelo original y el DW del modelo corregido. Se puede concluir, con el nuevo DW=1.59, que ya no existe autocorrelacin, pues dicho valor se encuentra muy cerca de 2.
Grficamente se tiene:
Si se quiere ejecutar el algoritmo por las ventanas en Stata, la ruta a seguir es: Statistics/time-series/tests/prais-winsten regression Automticamente se despliega el siguiente recuadro, en donde se selecciona la variable dependiente y las independientes, seleccionamos Corchrane-Orcutt transformation, y le damos OK.
56
57
b. Verificacin del cargue de la informacin del archivo plano a SPSS. El usuario debe verificar que la informacin cargada esta completa; para esto se debe entrar a la hoja de SPSS vista de variables y revisar que en la columna tipo, todos los datos aparezcan como numrico. Si algn dato aparece con otro nombre, es porque hay errores en el archivo de Excel, por tanto hay que corregirlos y cargar el archivo nuevamente.
58
c. Generacin del STEWISE o proceso Paso a Paso El siguiente paso al cargue de informacin, es entrar a validar cuales variables, de todas las seleccionadas en la base de datos, son significativas. Para esto se va a utilizar la metodologa STEPWISE, bajo la cual el sistema toma variable por variable y evala si es significativa, de no serlo la saca del modelo. Para generar el Stepwise en SPSS el usuario debe entrar por el men de la parte superior Analizar a la opcin Regresin logstica binaria, la cual corresponde a los modelos tipo LOGIT
59
Generacin STEPWISE
60
Automticamente el sistema muestra una pantalla donde aparecen al lado derecho el listado de las variables del modelo definidas en el archivo de excel que se cargo en el sistema. Al lado izquierdo aparecen unos campos en blanco, en donde el usuario debe definirle al sistema cuales variables son independientes (covariables) y cual es la variable dependiente. Las variables independientes son: Los indicadores financieros, las variables dummies y las variables combinadas. La variable dependiente es el indicador de Default. Se seleccionan las variables independientes y con la tecla con le signo flecha a la derecha las paso al campo de las variables covariables y luego se selecciona la variable Default y se pasa al otro lado l item dependiente. El mtodo que se debe utilizar para la seleccin de variables es Adelante condicional. Stepwise A continuacin se muestra la pantalla de registro de informacin, la cual incluye las opciones anteriormente descritas.
El indicador de desempeo de los modelos que se va a utilizar es la Prueba de HosmerLemeshow. El usuario debe entrar por el men opciones y seleccionar la prueba de Hosmer Lemeshow. Adicionalmente, en la seccin probabilidad para pasos se debe digitar en el campo entrada: 0.25 y en el campo salida 0.10, y pulsar continuar. Posteriormente, se debe pulsar aceptar.
61
Automticamente el SPSS genera el reporte de Stepwise, el cual incluye los mejores modelos calculados por el sistema, los cuales estn basados en los parmetros predefinidos por el usuario. El parmetro utilizado para la seleccin del modelo de medicin de riesgo de crdito es el indicador de HOSMER LEMESHOW. Se debe elegir el modelo (Paso) con mayor Hosmer Lemeshow. La siguiente tabla muestra la prueba de Hosmer Lemeshow para cada paso o modelo generado por el sistema.
Prueba de Hosmer y Lemeshow
PASO 2 3 4
gl 1 6 7
De acuerdo con la tabla, el mejor modelo corresponde al paso 2, donde el HosmerLemeshow es de 0,87.
62
Ahora que se tiene el paso o modelo se debe ver que variables lo definieron Se debe buscar la siguiente tabla:
g Variables en la ecuacin
Paso a 1 Paso b 2
D5ROTACT Constante D5ROTACT D11MGNET Constante C1PACID D5ROTACT D11MGNET Constante VTAS_ACT C1PACID D5ROTACT D11MGNET Constante
B 1,416 -1,194 1,551 ,659 -1,576 ,779 1,540 ,630 -1,750 ,003 ,802 1,652 ,616 -1,866
E.T. ,375 ,361 ,383 ,209 ,387 ,323 ,386 ,211 ,398 ,004 ,324 ,401 ,211 ,413
Wald 14,222 10,939 16,409 9,952 16,586 5,818 15,945 8,928 19,346 ,471 6,122 17,001 8,513 20,373
gl 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Sig. ,000 ,001 ,000 ,002 ,000 ,016 ,000 ,003 ,000 ,492 ,013 ,000 ,004 ,000
Exp(B) 4,120 ,303 4,717 1,934 ,207 2,180 4,665 1,877 ,174 1,003 2,229 5,217 1,852 ,155
Paso c 3
Paso d 4
Para elegir el mejor modelo, es necesario SELECCIONAR LOS DOS MEJORES MODELOS ARROJADOS POR EL STEPWISE Y correr cada modelo en SPSS bajo la metodologa de regresin logstica binaria por el mtodo de introducir. El paso 2 o modelo 2 esta dado por las variables: D5ROTACT y D11MGNET. Seleccin del modelo y calculo de las Probabilidades de Incumplimiento Ahora que se conoce el modelo, se debe correr nicamente este, bajo la metodologa Logit por el mtodo Introducir como se muestra a continuacin. Se deben seguir los siguientes pasos: a. Entrar por el men analizar a la opcin Regresin logstica, que corresponde a los modelos tipo LOGIT b. Seleccionar el mtodo introducir c. En el men Guardarse debe seleccionar Probabilidades y luego pulsar Continuar
63
d. En el men opciones se debe seleccionar Prueba de Hosmer y Lemeshow. Adicionalmente, en la seccin Probabilidades en datos en entrada se debe digitar 0.05 y en salida 1.00. Las dems opciones se deben dejar como aparecen inicialmente en el sistema. e.
64
f.
De esta forma el sistema procesa la informacin, genera el reporte del modelo. Con los resultados se debe evaluar la significancia individual de las variables, es decir, si las variables son significativas.
Calculo de la Probabilidad de incumplimiento El calculo de la probabilidad de incumplimiento de un modelo de tipo LOGIT esta dada por la siguiente ecuacin:
eZ F (Z ) = 1+ eZ
Donde: F(z) es la variable dependiente en funcin de la Z. F(z) es la Probabilidad de incumplimiento. Z: Es la ecuacin que representa la combinacin de variables independientes que permiten explicar la probabilidad de incumplimiento. Z esta dado por Z = Bo + B1X1 + B2X2.......+ BnXn.
Los betas Bo, B1.Bn, representan la ponderacin de cada variable dentro del modelo. SPSS calcula las probabilidades de incumplimiento (PI) de los clientes que pertenecen a la muestra del modelo. Para los dems clientes , que no pertenecen a la base de datos, es necesario aplicar la formula de F(Z) o probabilidad de incumplimiento de forma manual o a travs de un archivo de excel.
65
Calculo de la probabilidad de incumplimiento en SPSS. En el momento en que se corre la regresin logstica bajo la metodologa de introducir, el sistema calcula las probabilidades de incumplimiento y las reporta en la columna final de la plantilla de captura de informacin. En la ventana Editor de datos SPSS aparecen las variables, la ultima columna pre_1 hace referencia a las probabilidades de incumplimiento calculadas con base en el modelo seleccionado. A continuacin se muestra un ejemplo:
66
BIBLIOGRAFIA
MADDALA, G. S. (1996) Introduccin a la econometra. Ed. Prentice-Hall Hispano Americana S.A. Mexico.
JUDGE, G. G., R. C. HILL, W. E. GRIFFITHS, H. LTKEPOHL y T. C. LEE (1988) Introduction to the Theory and Practice of Econometrics. New York: John Wiley & Sons.
PENA, B., J. ESTAVILLO, M. E. GALINDO, M. J. LECETA y M. M. ZAMORA (1999) Cien ejercicios de econometra. Madrid: Pirmide.
67