Professional Documents
Culture Documents
3. Una vez recolectados los datos sobre las variables relevantes, se emplean los
mtodos economtricos.
4. Una vez precisado el modelo econmico, es necesario transformarlo en lo que
se llama un modelo economtrico.
5. Una vez se ha especificado el modelo economtrico pueden plantearse
diversas hiptesis en relacin con los parmetros. Se formulan pruebas de
hiptesis de inters.
6. Se realizan predicciones ya sea para probar una teora o al estudiar el impacto
de alguna poltica.
Estructura de los datos econmicos
Qu es el anlisis de regresin?
Es una tcnica estadstica til para investigar y modelar la relacin entre
variables.
El anlisis de regresin simple tiene por objeto estimar la relacin
funcional entre dos variables.
El anlisis de regresin mltiple tiene por objeto estimar el efecto que
tienen mltiples variables (variables independientes), sobre la variable
de inters (variable dependiente).
Ejemplo 1
Lo que se pretende es estimar el precio de una vivienda, Y.
El precio de la vivienda depende de ciertas variables X.
:
Estrato.
m2 construidos de casa o apartamento
Calidad de los acabados.
Nmero de habitaciones.
Nmero de baos.
= , , , #, #
= + + + # + #
En esta ecuacin se suman trminos que no tienen las mismas unidades, es
necesario los coeficientes para que la ecuacin quede en las mismas unidades
que en esta caso es $.
= 0 + 1 + 2 + 3 + 4 # + 5 # +
= trmino aleatorio, error aleatorio
Ejemplo 2
Ejemplo: en la siguiente tabla se presentan los datos de la demanda mensual
de televisores y su precio unitario (en miles de pesos) para los ltimos 20
meses. Se pretende es determinar si los precios de los televisores pueden
ayudar a determinar la demanda que la empresa tendr en el futuro.
Mes X Y
1 60000 5124 Diagrama de dispersin X vs Y
2 64000 5045
6000
3 65000 4905
4 63000 5030
5 66000 4612 5000
6 70000 4531
7 80000 3273 4000
8 76000 4227 y = -0,0947x + 11086
Demanda
9 70000 4608
10 74000 4490 3000 R = 0,8214
11 75000 4386
12 76000 4213 2000
13 78000 4040
14 82000 3875
83000 3124 1000
15
16 83500 2890
17 86000 2757 0
18 80000 2220 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
19 90000 2780 Precio
20 91000 2364
Ejemplo 2
Ejemplo: en la siguiente tabla se presentan los datos de la demanda mensual
de televisores y su precio unitario (en miles de pesos) para los ltimos 20
meses. Se pretende es determinar si los precios de los televisores pueden
ayudar a determinar la demanda que la empresa tendr en el futuro.
Mes X Y
1 60000 5124
2 64000 5045
3 65000 4905
4 63000 5030
5 66000 4612
6 70000 4531
7 80000 3273
8 76000 4227
9 70000 4608
10 74000 4490
11 75000 4386
12 76000 4213
13 78000 4040
14 82000 3875
15 83000 3124
16 83500 2890
17 86000 2757
18 80000 2220
19 90000 2780
20 91000 2364
Ejemplo 2
Se observa que la relacin entre las dos variables no es una lnea recta
exacta. Existen varias causas para ello, se citan algunas:
1. En el ejercicio, se supone que la demanda slo depende del precio. Sin
embargo, existen otras variables que inciden en la demanda, como los
ingresos, la inversin en publicidad, los precios de otras marcas, entre
otras. En general, sobre una variable Y inciden mltiples factores X, que
no son tenidos en cuenta en la formulacin.
2. Los errores de medida en la variable:
El modelo parece bastante limitado.
Una forma de resolver el problema anterior es incorporando una variable
aleatoria al modelo que recoja variables omitidas, errores de medida, entre
otras. De esta forma, el modelo pasa a ser estocstico y adquiere la forma:
= 0 + 1 1 +
Y = 1 + 2 X2 +. . +k Xk + i
Muestra pequea:
1. Insesgamiento
2. Eficiencia
Asinttica n
3. Consistencia
4. Convergencia en distribucin
Propiedades de los estimadores
lim =
Propiedades de la convergencia en probabilidad:
plim a=a
plim (x+y)=plim x + plim y
plim (xy)= plim x plim y
Teorema de Slutsky: si plim Xn =c entonces plim g(Xn)= g(c) donde g(.) es una funcin
continua.
Propiedades de los estimadores
= 0 + 1 2 2 + Modelo no lineal
ln = 0 + 1 + Modelo lineal
1
= 0 + + Modelo no lineal
2
1
= 0 + 1 ln + Modelo lineal
Supuestos del modelo clsico de regresin
lineal
2. Las variables regresoras X son variables consideradas no estocsticas
(no son variables aleatorias). Las X toman valores fijos en el modelo.
3. El valor medio de la perturbacin estocstica es igual a cero. Es decir:
( = ) = 0
Supuestos del modelo clsico de regresin
lineal
El valor medio de la perturbacin estocstica es igual a cero. Es decir:
( = ) = 0
Demostracin:
Supuestos del modelo clsico de regresin
lineal
\ =
f 0 , 1 = 2i = (Yi 0 1 Xi )2
i=1 i=1
Para minimizar f se debe derivar parcialmente con respecto a 0 y 1 e igualar a
cero las derivadas.
= 2 (Yi 0 1 Xi ) = 0 1)
0 =1
= 2 Yi 0 1 Xi Xi = 0 2)
1 =1
De 1)
n n
Yi n0 1 Xi = 0
i=1 i=1
De 2)
n n
Xi Yi 0 Xi 1 Xi 2 = 0
=1 i=1 i=1
Obtencin de los estimadores
De 1)
n n
Yi n0 1 Xi = 0
i=1 i=1
Dividiendo por n
n
i=1 Yi
=
n
Y = 0 + 1
X de la 1) ecuacin
0 = 1
Obtencin de los estimadores
n n
f 0 , 1 = 2i = (Yi 0 1 Xi )2
i=1 i=1
= 2 Yi 0 1 Xi Xi = 0
1 =1
= 0 + 1 2
=1 =1 =1
= 0 + 1 2
=1 =1
= 1 + 1 2
=1 =1
= 1 2 + 1 2
=1 =1
1 2 2 =
=1 =1
=1
1 =
=1 2 2
Obtencin de los estimadores
= 0 + 1
Donde 0 y 1 son estimadores puntuales de 0 y 1 respectivamente.
=1
Ahora como el denominador en la ecuacin 1 = 2 2
es la suma corregida de
=1
cuadrados de las , denotada es decir:
1
= =2 2
=1 2
= =1 2
Y el numerador es la suma corregida de los productos cruzados de y denotada
1
= =1 =1 = =1
=1
Entonces
=1
1 = = > 0
=1 2
Obtencin de los estimadores
Entonces 1 = =1 = > 0
=1 2
=1 =1
=1
1 = =
Ahora como
= 0
=1
Entonces
=1
1 = = =1
donde
=
Obtencin de los estimadores
Obtencin de los estimadores
Una vez se han determinado las estimaciones por MCO del intercepto y de la pendiente, se obtiene la lnea de
regresin de MCO:
= 0 + 1
Donde se entiende que 0 y 1 han sido obtenidas empleado las ecuaciones
0 = 1
=1
1 =
=1 2 2
que se lee y gorro indican que los valores predichos por la ecuacin = 0 + 1 son
La notacin ,
estimaciones.
La ecuacin
= 0 + 1
Tambin es llamada funcin de regresin muestral (FRM) debido a que es la versin estimada de la funcin de
regresin poblacional \X = 0 + 1 .
Dado que la FRM se obtiene a partir de una muestra de datos, con una muestra se obtendrn una pendiente e
intercepto.
Obtencin de los estimadores
En la mayora de los casos, la pendiente estimada, se puede expresar como:
1 =
Es de primordial inters, pues indica la cantidad en la que cambia cuando X se
incrementa en una unidad.
De manera equivalente,
= 1
De manera que dado cualquier cambio en X ( ya sea positivo o negativo), se puede
calcular el cambio en Y.
Ejemplo 1
Volviendo al ejemplo de las viviendas:
Poblacin: Calimuestra de T viviendas
Estima los verdaderos parmetros poblacionales
Estimar 1 ,
Estimadores 1 , . son variables aleatorias porque los datos van a cambiar cada
vez que se toma otra muestra diferente.
e inobservables
Estimando por medio de M.C.O, o por el mtodo de mxima verosimilitud o por
momentos:
= 0 + 1 + 2 + 3 + 4 + 5
Se realizan pruebas de hiptesis sobre los estimadores poblacionales.
0 : 1 = 0
1 : 1 0
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Los estimadores por MCO tienen las siguientes propiedades que son muy importantes en el anlisis
de regresin lineal:
1. 1 es un estimador insesgado de 1 . Es decir, E 1 = 1
Demostracin:
n
Y Xi X
1 = i=1 Si = ni=1 Ci Yi
xx
n n
E 1 = E Ci Yi = Ci E Yi
i=1 i=1
E 1 = Ci E 0 +1 Xi = 0 Ci + 1 Ci Xi
i=1 i=1 i=1
ni=1
Xi X ni=1 Xi
Xi X 0 Sxx
= 0 + 1 = 0 + 1 = 1
Sxx Sxx Sxx Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Los estimadores por MCO tienen las siguientes propiedades que son muy
importantes en el anlisis de regresin lineal:
0 es un estimador insesgado de 0 . Es decir, E 0 = 0
2.
Demostracin:
E 0 = E Y 1 X
=E Y
E(1 X)
X
= 0 + 1 X E 1 = 0 + 1 X
1 X
= 0
Propiedades de los estimadores por
mnimos cuadrados ordinarios
2
3. La varianza de 1 se calcula con la expresin Var 1 =
Sxx
Var 0 = Var( Y 1
X)
Y + Var 1
= Var X 2Cov Y, 1
X
2 X 2 2
= + 2 XCov( Y, 1 )
n Sxx
Cov Y, 1 = 0
1
X 2
Var 0 = 2 +
n Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
De los resultados anteriores se tiene entonces que:
2
1 ~N 1 ,
Sxx
1
X 2
0 ~N 0 , 2 +
n Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Teorema de Gauss -Markov
Y 1 (Xi
ei = Yi X) =
i=1 i=1
n n
Y 1 Xi
Yi X =0
i=1 i=1
Propiedades de los residuales
2. La suma de los residuales, ponderados por el valor correspondiente de la
variable regresora, es igual a cero. Es decir,
= 0
=1
Propiedades de los residuales
Demostracin
Como = 1 ( )
entonces
= 1 ( )
=1 =1
= 1 ( )
=1 =1
= 1 2
=1 =1 =1 =1
= 1 2 2
=1 =1 =1
1 = se obtiene,
= =0
=1
Propiedades de los residuales
3. La suma de los residuales, ponderados por el valor ajustado, es igual a cero.
Esto es, =1 = 0
Demostracin:
= 0 + 1 = 0 + 1 = 0
=1 =1 =1 =1
=
=1 =1
Demostracin:
= + = + =
=1 =1 =1 =1 =1
Propiedades de los residuales
5.
n n
2
Y 1 (Xi
e2i = Yi X) =
i=1 i=1
Desarrollando el cuadrado de diferencias queda que,
n n
2
e2i = Yi
Y 2 Y 1 (Xi
2 Yi X) + 1 (Xi
X)2
i=1 i=1
2
= Syy 21 Sxy + 1 Sxx
2
= Syy 2 1 1 Sxx + 1 Sxx
2
Syy 1 Sxx
Estimacin de la varianza
En las expresiones que se obtuvieron para las varianzas y covarianzas de los
estimadores aparece el parmetro poblacional 2 , el cual es generalmente
desconocido y, por lo tanto, se debe estimar para obtener varianzas y covarianzas
de 0 y 1 ; adems de estimar los parmetros de 0 y 1 ; adems de estimar los
parmetros 0 y 1 , se requiere un estimador de la varianza para hacer pruebas de
hiptesis y formar estimados de intervalos pertinentes al modelo de regresin. En el
caso ideal, este estimador no debera depender de la ecuacin del modelo
ajustado.
Un estimador insesgado de 2 es 2 , siendo:
2
=1
2
1
2
= =
2 2
Aqu 2 es la varianza poblaciones y 2 es la varianza muestral.
Estimacin de la varianza
2 = 2
=1 2
2 = = 2
2
Y, por lo tanto, la varianza estimada de los parmetros estimados son:
2
1 =
1 2
0 = 0 = 2 +
Igualmente lo anterior se puede denotar
2
2 = donde 1 =
1
1 2 1 2
2 = 2 + de donde 1 = S +
1
Anlisis de varianza
Suponga que se tiene un conjunto de datos pareados que contienen el punto muestras
(X,Y), que es el valor predicho de Y ( obtenido por medio de la ecuacin de
regresin), y que la media de los valores Y muestrales es .
= ( )
( ) + ( )
=desviacin total
( )
=desviacin explicada
=desviacin sin explicar
La expresin anterior implica desviaciones a partir de la media y se explica a
cualquier punto (X, Y) particular. Si sumamos los cuadrados de las desviaciones
utilizando todos los puntos (X,Y), obtenemos cantidades de variacin.
2 2
2 = +
=1 =1 =1
Anlisis de varianza
Si se define:
:valor observado
:valor estimado
= :residuales del modelo
:desviacin
de los valores estimados con respecto a la media
Entonces se plantea que:
= + al restar a ambos lados
= + elevando al cuadrado a ambos lados y sumar hasta n
2
=1 2 = =1 +
2
=1 2 = =1 + 2 =1 + =1 2
Por propiedades de los residuales =1 2 = 0 luego,
2 2
2 = +
=1 =1 =1
Medida de bondad y ajuste
n n n
2 2
Yi
Y 2 i
= Y Y i
+ Yi Y
i=1 i=1 i=1
La expresin anterior es llamada identidad fundamental del anlisis de varianza.
SST = ni=1 Yi
Y 2 suma de los cuadrados totales
2
SSR = ni=1 Y
i
Y suma de los cuadrados de la regresin
i 2 suma de los cuadrados del error
SSE = ni=1 Yi Y
Con estas notaciones, la identidad fundamental del anlisis de varianza se puede
reescribir como:
SST = SSR + SSE
=
= 12
= 12
=1
Prueba de hiptesis de utilidad del modelo
0 :el modelo lineal no es significativo
1 :el modelo lineal es significativo
Se rechaza 0 si (1,2) donde SSR tiene un grado de libertad y SSE tiene n-2 grados
de libertad.
= = 2
Tabla anova (tabla de anlisis de
varianza)
Es decir el modelo es significativo y la
variabilidad en la variable
Fuente de la Suma de Grados Cuadrados F independiente ayuda a explicar la
variacin los de medios
cuadrado libertad variabilidad en la variable dependiente.
s Si no se rechaza la hiptesis nula, es
REGRESIN SSR k SSR/k SSR/k decir, F est en la regin de
F=
S2 aceptacin, se concluye que los datos
ERROR SSE n-k-1 SSE no reflejan suficiente evidencia para
nk1
= MSE = S 2 apoyar el modelo postulado.
TOTAL SST n-1 Los clculos para encontrar el
estadstico de prueba = = 2 se
resumen en la siguiente tabla:
Prueba de hiptesis de utilidad del modelo
Cuando se rechaza la hiptesis nula se concluye que hay una cantidad significativa de
la variable dependiente que es explicada por el modelo planteado. Es decir, el modelo
es significativo y la variabilidad en la variable independiente ayuda a explicar la
variabilidad de la variable dependiente. Si no se rechaza la hiptesis nula, es decir, F
esta en la regin de aceptacin, se concluye que los datos no reflejan suficiente
evidencia para apoyar el modelo postulado.
Significancia individual
En todo modelo de regresin se deben probar hiptesis para evaluar la validez
estadstica de las relaciones econmicas tericas. Entre la variedad de pruebas de
hiptesis que se pueden efectuar, las pruebas de dependencia y relevancia son las ms
importantes.
Prueba de relevancia: la prueba de relevancia consiste en evaluar estadsticamente
qu tan significativo es un parmetro del modelo, de esta manera puede identificarse
si la variable independiente aporta informacin importante al modelo de regresin,
es decir, explica a la variable dependiente.
Significancia individual
Pasos para realizar la prueba de relevancia:
1. Planteamiento de la hiptesis:
H0 : j = 0
Ha : j 0
2. Definicin del nivel de significancia
3. Clculo del estadstico de prueba. Para la prueba de relevancia en el modelo de
regresin, el estadstico de prueba se define como:
j Normal j , Var j
j j
t= t (nk1) = t df Normal(0,1)
sd(j )
Significancia individual
4. Regiones de decisin: La siguiente grfica muestra las regiones de rechazo y
aceptacin de la hiptesis nula.
1 n
RMSE =
h i=1
y i yi 2 Raiz del error cuadrtico medio
UTheil= 0,3 El pronstico se ajusta al 70%. La proporcin del error de pronstico es 30%.
Especificacin del modelo
Al realizar el grfico de dispersin entre las variables X y Y, se puede dar que a veces
la relacin entre dichas variables no es lineal. En ese caso es preciso suponer una
forma funcional apropiada para la relacin. Se consideran dentro de las formas
funcionales de los modelos de regresin, algunos modelos que pueden ser no lineales
en las variables, pero s en los parmetros, o que se pueden transformar en lineales
mediante algunas transformaciones algebraicas apropiadas.
Especificacin del modelo
Segn el nmero de variables explicativas podemos clasificar el modelo economtrico como:
Modelo ingenuo. No tiene variables explicativas, su representacin es:
Y= 1 + i
Modelo de regresin simple. Tiene una sola variable explicativa Y = 1 + 2 X 2 + i
Modelo estadstico lineal general o de regresin mltiple: Incluye varias variables explicativas.
Y = 1 + 2 X 2 +. . k X k + i
Segn la forma funcional podemos clasificar el modelo de regresin simple como:
Lin-lin: Y = 1 + 2 X 2 + i
Lin-log: Y = 1 + 2 LnX2 + i
Log-lin: LnY = 1 + 2 X 2 + i
Log-log:LnY = 1 + 2 LnX 2 + i
Dependiendo de la forma funcional el coeficiente de la variable explicativa tendr su
interpretacin particular.
Interpretacin de los resultados
Modelo Lin-Lin
Y = 0 + 1 X1 + i
intercepto pendiente
Y
= 1 Cambio en Y ante cambios marginales en X asumiendo las dems variables
X1
contantes.
Modelo Log-Log
Se tiene el modelo de regresin Yi = 0 Xi 1 ei
LnYi = Ln0 + 1 LnXi + i
1 1
dy = 1 dx
Y X
1Y dy 100 100 cambio porcentual en Y
= 1 =
1 X dx 100 100 cambio porcentual en X
Interpretacin de los resultados
Modelo Log-Lin
X
Yi = 0 1 i ei
LnYi = ln 0 + ln 1 Xi + i
1
dy = 1 dx
Y
1Y dy 100 cambio porcentual en Y
= 1 100 =
dx cambio absoluto en X
Modelo Lin-Log
Yi = 0 + 1 LnXi + i
1
dy = 2 dx
x
dy 1 cambio absoluto en Y
= =
1X dx 100 100 cambio porcentual en X
Ejemplos
= 21.6 + 6.1 + 1.7
Interpretacin LIN-LIN: por cada habitacin adiciona el precio promedio estimado
aumenta 6.1 millones suponiendo las dems variables constantes.
m 3
= 3.1 + 0.09 0.14 ln
ln
Interpretacin LOG-LOG: por cada 1% de aumento en la contaminacin el precio
promedio estimado diminuye 0.14% suponiendo las dems variables constantes.
m 3
= 3.1 + 0.09 0.14 ln
ln
Interpretacin LOG-LIN: por cada habitacin adicional el precio promedio
estimado aumenta 9% suponiendo las dems variables constantes
Interpretacin de los resultados
Ejemplo: interpretar el coeficiente de habitaciones de la siguiente ecuacin
= 3,1 + 0,09habitaciones 0,14 Ln contamiacin
Ln precio
Por cada habitacin adicional el precio promedio estimado aumenta 9% asumiendo las dems
variables contantes.
100 2 se conoce como la semielasticidad del precio respecto al nmero de habitaciones.
Clculo sencillo que permite calcular el cambio porcentual exacto.
%y = 100 exp 2 1 = 9,42
Por cada habitacin adicional el precio promedio estimado aumenta 9,42% asumiendo las dems
variables contantes.
49.6 ln
= 21.4 + 3.9
Interpretacin LIN-LOG: por cada 1% de aumento en la contaminacin el precio promedio estimado
disminuye 0.496 millones.
Clave: In Y= x 100
In x= /100
Interpretacin de los resultados
Modelos cuadrticos: modelos que capturan rendimientos crecientes y decrecientes.
= 1 + 2 + 3 2 +
Valor ptimo de x:
2 + 23 = 0
2
=
23
Interpretacin de los resultados
Ejemplo:
= 0,48 0,16 = 0
= 3
Interpretacin de los resultados
Ejemplo:
= 1 + 2 + 3 2 +
Interpretacin: 100 (2 + 23 )
n 1 ,2 ,..,
Modelo de Regresin Mltiple
Con base en la informacin anterior se plantea el siguiente sistema de ecuaciones
lineales en los parmetros.
Y1 = 0 + 1 X11 + 2 X12 + + k X1k + 1
Y2 = 0 + 1 X21 + 2 X22 + + k X2k + 2
Yn = 0 + 1 Xn1 + 2 Xn2 + + k Xnk + n
Modelo de Regresin Mltiple
= 1 + 2 2 + 3 3 + . + +
i=1, 2, 3n
k= nmero de betas en el modelo
= +
= 1 + 2 2 + 3 3 + . +
1 1 + 2 12 + 3 13 + + 1 + 1
2 1 +2 22 + 3 23 + + 2 + 2
3 = 1 +2 32 + 3 33 + + 3 + 3
1 +2 2 +3 3 + + +
nx1 nxk nx1
Ynx1= Xnx(k+1) B(k+1)x1 + enx1
Modelo de Regresin Mltiple
1 X12 X13 X1k 1
1 X22 X23 X2k 2
1 X32 X33 X3k 3
1 Xn2 Xn3 Xnk k
nxk kx1
Estimador de mnimos cuadrados ordinarios:
Min S = T
Como Y = XB + modelo poblacional entonces = Y XB
El estimador de es ,
S = = Y X Y X = Y X Y X =
= YY YX XY + XX
= YY 2BXY + XX
(XB)=XB
s
=0
= 2X Y + 2X XB
B
= X X 1 XY
B No multicolinealidad X X tiene que tener inversa
Supuestos del modelo de regresin lineal
mltiple:
1. El adjetivo lineal se refiere a que el modelo es lineal en los parmetros.
Para que la regresin sea lineal debe ser de la forma, ya sea en sus variables
originales o despus de alguna transformacin adecuada.
Y = X +
Ejemplo:
y = e0 X1 1 X2 2 . Xk k i
Ln y = 0 + 1 LnX1 + 2 LnX2 + + K LnXk + i
Supuestos del modelo de regresin lineal
mltiple:
1. El modelo es lineal en los parmetros.
2. Las variables regresoras X1 , Xk son variables no estocsticas, es decir, que
no son variables aleatorias y toman valores fijos en el modelo.
3. El valor medio de las perturbaciones estocsticas es cero, es decir, E i = 0
1 E(1 ) 0
E(2 )
E =E 2 = = 0 =0
n E(n ) 0
nx1
Supuestos del modelo de regresin lineal
mltiple:
4. La varianza de todas las perturbaciones estocsticas es constante, es decir,
Var = E E() E() T = E T
1
Var = E 2 1 2 n
n
E 1 1 E 1 2 E 1 n 2 0 0
E 2 1 E 2 2 E 2 n 0 2 0
T
E( ) = = = 2 I
E n 1 E n 2 E n n 0 0 2
Esta ltima expresin hace referencia a la matriz de varianzas y covarianzas del vector de
errores.
Supuestos del modelo de regresin lineal
mltiple:
5. Las perturbaciones estocsticas se distribuyen normalmente con media cero y
varianza 2 , es decir, i ~N 0, 2 In
6. Las perturbaciones estocsticas son incorrelacionadas, es decir Cov i , j = 0
Supuestos del modelo
1
= 2 = 0
1
2
= 1 2
~ 0, 2
Propiedades del vector
1. E =
Es decir es el estimador insesgado de .
2. Var = 2 X X 1
matriz de varianzas y covarianzas de los parmetros
estimados.
Propiedades del vector
= 1 X(X + )
= 1 + 1 X
= + 1 X
= X X 1
= X X 1 +
= X X 1 + X X 1
= + X X 1
= X X 1
Propiedades del vector
1
= 2 X T X
=
=
1 1
= XTX XTX
1 1
= X T X T
X X
1 T 1
= X T X T
X X
1 1
= XTX XTX
1 1
= XTX ( ) XTX
1 2 1
= XTX X T X
1 1
= 2 XTX ( ) X T X
1
= 2 XTX
Propiedades del vector
La matriz = 2 X X 1 es llamada matriz de varianzas y covarianzas de
concluye entonces que ~(,
2 1 )
Estimacin del vector de residuales
~(, 2 1 )
Adems se puede demostrar que el elemento del vector de parmetros sigue una
distribucin t-student, que se puede expresar:
=
Y este resultado indica que la distribucin t-student puede ser utilizada para determinar
intervalos de confianza y hacer pruebas(contrastes) de hiptesis acerca de los parmetros
del modelo.
Prueba de hiptesis individual
En esta prueba se utiliza el estadstico T, para determinar si cada una de las variables
regresoras influyen de manera significativa en las variaciones en el valor esperado de la
variable explicativa Y.
0 : = 0
: 0
El estadstico de prueba es:
=
Se rechaza 0 si (2,1)
Si = 0, es decir, que no se rechaza la hiptesis nula, significa que la variable no es
significativa en el modelo y es candidata a ser eliminada del modelo.
Rechazar la hiptesis nula significa que la variable ayuda a explicar la variabilidad de Y,
dejando las dems variables constantes.
Prueba de hiptesis global
Para esta etapa se utiliza e estadstico F con el objeto de determinar si hay una
relacin lineal significativa entre la variable explicada Y y las variables regresoras
1 ,2 ,, . El contraste de hiptesis es:
0 : 0 = 1 = 2 = . . = = 0
: al menos 0
Rechazar hiptesis nula indica que al menos una de las variables es significativa para
el modelo; en cambio, si no se rechaza, indica que el modelo no es significativo.
Se puede dar que en la prueba individual las variables no sean significativas y en la
prueba global, en cambio, por lo menos una sea significativa. En este caso, el
modelo puede representar problemas de multicolinealidad (relacin que puede
existir entre dos o ms variables).
Los clculos para determinar el valor del
estadstico de prueba F se resumen en la
siguiente tabla ANOVA ( se analiza la
variabilidad)
:
:
1:
Coeficiente de determinacin mltiple
( 1) 1
= = =
1
2
1
=
1 2
Variables dummy
En econometra a las variables binarias se les puede llamar dummy. Al definir la
variable binaria hay que decidir a qu evento se le asigna el valor de uno y cul el
valor de cero. Por ejemplo, en el estudio para determinar el salario de los individuos,
puede definirse female como una variable binaria que tome el valor de uno para mujer
y el valor cero para hombre. En este caso el nombre de la variable indica el evento que
tiene el valor de uno. Esta misma informacin se capta definiendo male (hombre) igual
a uno si la persona es hombre y cero si la persona es mujer. Si se define adems una
variable binaria married (casado) igual a uno si la persona est casada y cero si no es
as.
Las variables dummys se utilizan para modelar o representar cualidades o categoras.
Y = 0 + 1 X + 2 dummy + i
E Y Y, dummy = 1 = 0 + 1 X + 2
E Y X, dummy = 0 = 0 + 1 X
Modelos cuadrticos
Las funciones cuadrticas se emplean tambin con bastante frecuencia en economa para
captar efectos marginales crecientes o decrecientes.
= 1 + 2 + 3 2 +
Cuando el coeficiente de x es positivo y el de 2 es negativo la cuadrtica tiene forma
parablica.
Si 2 > 0 3 < 0 el punto de inflexin ( o mximo de la funcin) siempre se alcanzar en
el punto correspondiente al coeficiente de x sobre el doble del valor absoluto del
coeficiente de 2 .
Con este modelo se puede estimar el valor ptimo de x.
= 2 + 23 = 0
2
=
23
Modelos cuadrticos
= 1 + 2 + 3 2 +
1
= 2 + 23
1 100
= 2 + 23 100
Por cada ao adicional de educacin el salario promedio estimado aumenta 2 + 3
Ejercicio 2
El peso promedio de un lote experimental de aves de corral y sus niveles de
consumo de alimento acumulado a la semana se presentan a continuacin. Esta
informacin corresponde al periodo de tiempo que cambian de cros a adultos y
estn listos para ser vendidos a los restaurantes.
Peso del pollo en lb Alimento acumulado en lb
Semana
Y X2
1 0,58 1
2 1,10 2
3 1,20 3
4 1,30 4
5 1,95 5
6 2,55 6
7 2,60 7
8 2,90 8
9 3,45 9
10 3,50 10
11 3,60 11
12 4,10 12
13 4,35 13
14 4,40 14
15 4,50 15
Ejercicio 2
.
end of do-file
2.2 Encuentre la varianza del error
2
. anova y c.x c.x2
e(V) x x2 _cons
x .00186222
x2 -.00011005 6.878e-06
_cons -.00579988 .00031182 .02251352
.
end of do-file
2.4 En cul semana se alcanza el mximo
peso de los pollos?
. summarize y
= 0 + 1 1 + 2 2 + 3 3 +
1 = 1 + 2
Dado los supuestos del modelo clsico de regresin lineal, los estimadores de mnimos
cuadrados, dentro de la clase de estimadores lineales insesgados, tienen varianza
mnima, es decir, son los mejores estimadores lineales insesgados (MELI). Es comn
decir, entonces, que los estimadores por mnimos cuadrados son estimadores lineales
insesgados ptimos.
Anlisis de regresin mltiple:
inferencia
Al estudiar la recta de la regin poblacional = 0 + 1 1 + se obtuvieron
estimadores puntuales, mediante el mtodo de mnimos cuadrados ordinarios, de los
parmetros desconocidos 0 y 1 .Adems, bajo el cumplimiento de ciertas hiptesis, los
estimadores de mnimos cuadrados tienen propiedades deseables, en virtud del
teorema de Gauss-Markov. Sin embargo, la estimacin puntual no suele ser suficiente si
se necesita completar el anlisis de datos. Es obvio preguntarse sobre la precisin de los
resultados obtenidos, por ejemplo, qu tan cerca est 1 de 1 ? Tambin es necesario
encontrar qu tan cerca est la observacin de cierto valor hipottico. Por lo anterior,
se considerarn, a continuacin, los problemas de construccin de intervalos de
confianza y contrastes de hiptesis para los parmetros de regresin poblacional.
Pruebas de hiptesis
En todo modelo de regresin se deben probar hiptesis para evaluar la validez estadstica de las relaciones
econmicas tericas. Entre la variedad de pruebas de hiptesis que se pueden efectuar, las pruebas de
dependencia y relevancia son las ms importantes.
Prueba de relevancia: la prueba de relevancia consiste en evaluar estadsticamente qu tan
significativo es un parmetro del modelo, de esta manera puede identificarse si la variable
independiente aporta informacin importante al modelo de regresin, es decir, explica a la variable
dependiente.
Prueba de dependencia: esquema de prueba de hiptesis para el coeficiente de correlacin lineal
cuando el investigador desea evaluar si hay o no dependencia lineal entre un par de variables.
Pasos para realizar la prueba de relevancia:
1. Planteamiento de la hiptesis:
H0 : j = 0
Ha : j 0
2. Definicin del nivel de significancia
3. Clculo del estadstico de prueba. Para la prueba de relevancia en el modelo de regresin, el
estadstico de prueba se define como:
j Normal j , Var j
j j
t= (,1)
sd( j )
Pruebas de hiptesis
4. Regiones de decisin: La siguiente grfica muestra las regiones de rechazo y
aceptacin de la hiptesis nula.
0 : 1 = 2 = = = 0
: 1 2 . 0
2
= ,,1
1 2 ( 1)
Si por ejemplo = 0.05, la interpretacin del intervalo de confianza para es: dado un
nivel de confianza del 95% (en 95 de cada 100 casos), el intervalo:
j j
Donde la constante c es el percentil
j ,1
j , j + ,1 j
2 2
0,3
Densidad
de la forma: 0,2
0 : 3 = 0
: 3 > 0 0,1
0.0041 0,05
t= = 2.41 0,0
0.0017 0
X
1,648
df=526-3-1=522 y = 0.05
La regla de rechazo es que al nivel de
significancia de 5% se rechaza 0 a
favor de 1 si
j >
0,3
Densidad
de la forma: 0,2
0 : 3 = 0
: 3 > 0 0,1
0.0041 0,05
t= = 2.41 0,0
0 1,648
0.0017 X
0,2
j <
0,1
Por ejemplo, si el nivel de significancia es
0,05
5% y los grados de libertad son n-k-1=408-
0,0
-1,649 0
X
3-1=404, entonces c=-1.649 y al nivel de
significancia 5% se rechaza 1 : 1 = 0
En las aplicaciones, es usual probar la hiptesis
nula 0 : = 0 contra la alternativa de dos colas;
es decir,
Alternativa de dos colas 1 : 0
Cuando la alternativa es de dos colas, lo que
interesa es el valor absoluto del estadstico t. La
Grfica de distribucin
T; df=137
regla de rechazo para : = 0 es:
0,4 j >
0,3
1 = 0
=
Pruebas de hiptesis sobre un
solo parmetro poblacional: la
prueba t
=
Pruebas de una sola combinacin
lineal de los parmetros (captulo 4)
Las pruebas de hiptesis anteriores eran para probar hiptesis acerca de un solo
. En las aplicaciones, con frecuencia se tienen que probar hiptesis en las que
interviene ms de un parmetro poblacional.
0 : 1 = 2
1 : 1 < 2
1 2
=
(1 2 )
log
= 0 + 1 + 2 + 3 + 4 + 5 +
Se llama modelo no restringido.
La SRC es mayor en el modelo restringido y la R-cuadrada del
modelo restringido es menor que la R-cuadrada del modelo no
restringido.
Lo que hay que decidir es si el aumento de la SRC, al pasar del
modelo no restringido al modelo restringido ( 183,186 a 198,311)
es suficientemente grande para rechazar la Hiptesis nula. Como
en todas las pruebas, la respuesta depende del nivel de
significancia de la prueba.
= 11.22 + 0,0713 + 0,0202 +
= 11.19 + 0,0689 + 0,0126 + 0,00098
+ 0,0144 + 0,0108
n= 353 SRC=183.186 y 2 = 0,6278
= 11.22 + 0,0713 + 0,0202 +
198.311 183.186 3
= 9,55
183.186 353 5 1
Pruebas para restricciones
lineales mltiples: prueba F.
Si por ejemplo = 0.05, la interpretacin del intervalo de confianza para es: dado un nivel de
confianza del 95% (en 95 de cada 100 casos), el intervalo:
2 , + 2
Las funciones cuadrticas se emplean tambin con bastante frecuencia en economa para
captar efectos marginales crecientes o decrecientes.
El caso ms simple, es aquel en el que y depende de un solo factor observado x, pero lo hace
de forma cuadrtica.
= 0 + 1 + 2 2 +
Es importante recordar que 1 no mide la variacin en y respecto a x; no tiene ningn
sentido mantener 2 constante mientras s varia x. Si la ecuacin estimada se expresa como:
= 0 + 1 + 2 2 ,
Entonces se tiene la aproximacin:
1 + 22 , de manera que 1 + 22
Esto indica que la pendiente de la relacin entre x y y dependen del valor de x; la pendiente
estimada es 1 + 22 . Si se sustituye con x=0, se ve que 1 puede interpretarse como la
pendiente aproximada al pasar x=0 a x=1. Despus de eso, el segundo trmino, 22 , debe
ser tomado en cuenta.
Modelos con funciones cuadrticas
Si en la ecuacin estimada 1 > 0 y 2 < 0, el punto de inflexin (o mximo de la funcin)
siempre se alcanzar en el punto correspondiente al coeficiente de x sobre el doble absoluto del
coeficiente de 2
= 1 22
Ejemplo:
0
0 10 20 30 40 50 60
En el modelo:
= 0.417 0.297 + 0.080 + 0.029 0.00058 2 + 0.032 0.00059 2
log()
(0.099) (0.036) (0.007) (0.005) (0.00010) (0.007) (0.00023)
n=526 2 = 0.441
El coeficiente de female (mujer) implica que dados los mismos valores de educ, exper y tenure, las mujeres ganan
aproximadamente 100(0.297)=29.7% menos que los hombres. Este resultado se puede mejorar calculando la diferencia
porcentual exacta entre los salarios predichos. Lo que se quiere es la diferencia proporcional entre los salarios de las
mujeres y de los hombres, manteniendo todos los dems factores constantes.
Exponenciando y restando uno se obtiene:
100 1 1 = 100 exp 0.297 1 25.7%
Esta estimacin ms exacta implica que el salario de una mujer es, en promedio, 25.7% inferior al salario comparable de
un hombre.
Interacciones en las que intervienen
variables binarias
As como variables con un significado cuantitativo pueden estar relacionadas en las modelos de
regresin, tambin pueden estarlo las variables binarias.
log() = 0.321 0.110 + 0.213 0.301 +
(0.100) (0.056) (0.055) (0.072)
Este modelo tambin permite obtener la diferencia estimada entre los salarios de los cuatro
grupos.
La combinacin female=0 y married=0 corresponde al grupo de los hombres solteros, que es el
grupo base, ya que esto elimina female, married y .
La ecuacin es slo otra manera de encontrar las diferencias de salario entre las distintas
combinaciones de gnero y estado civil.
Prueba de hiptesis de utilidad del modelo de
regresin simple
Se realiza para contrastar:
0 :el modelo lineal no es significativo
:el modelo lineal es significativo
Se rechaza 0 si (1,2) donde SSR tiene un grado de libertad y SSE tiene n-2 grados
de libertad.
Para esta etapa se utiliza e estadstico F con el objeto de determinar si hay una relacin
lineal significativa entre la variable explicada Y y las variables regresoras 1 ,2 ,, . El
contraste de hiptesis es:
0 : 0 = 1 = 2 = . . = = 0
: al menos 0
Rechazar hiptesis nula indica que al menos una de las variables es significativa para el
modelo; en cambio, si no se rechaza, indica que el modelo no es significativo.
Se puede dar que en la prueba individual las variables no sean significativas y en la prueba
global, en cambio, por lo menos una sea significativa. En este caso, el modelo puede
representar problemas de multicolinealidad (relacin que puede existir entre dos o ms
variables).
Tabla ANOVA ( se analiza la variabilidad)
: nivel de significancia
: grados de libertad del numerador
1:grados de libertad del denominador
Consistencia de un estimador
La propiedad de consistencia quiere decir, que conforme el tamao de la muestra crece, un
estimador converge en probabilidad al valor poblacional correcto. Esto puede escribirse como:
lim =
O lo que es lo mismo:
lim =
Demostracin:
2 1
lim = lim 2 1
=
1
lim = 0 =