You are on page 1of 171

Econometra

Johanna Mndez Sayago


Qu es la econometra?

La econometra se basa en el desarrollo de mtodos estadsticos que se


utilizan para estimar relaciones econmicas, probar teoras econmicas y
evaluar e implementar polticas pblicas y de negocios. La aplicacin
ms comn en econometra es el pronstico de variables
macroeconmicas tan importantes como la tasa de inters, de inflacin,
y el producto interno bruto.
Datos econmicos

La econometra se ha convertido en una disciplina independiente de la


estadstica matemtica por ocuparse de la recoleccin y anlisis de datos
econmicos no experimentales.

Datos no experimentales (datos observacionales o retrospectivos): son


datos sobre individuos, empresas o segmentos de la economa que no son
obtenidos por medio de experimentos controlados.

Datos experimentales: suelen ser obtenidos en el laboratorio, pero en las


ciencias sociales son mucho ms difciles de obtener.
Pasos en un anlisis emprico

Cmo se procede para estructurar un anlisis econmico emprico?

1. Formular la pregunta de inters.

2. Construir un modelo econmico. El cual consiste en ecuaciones matemticas


que describen diversas relaciones. Identificar las variables del modelo. La
eleccin de las variables es determinada tanto por la teora econmica como
por consideraciones acerca de los datos.
El trmino de error o perturbacin es quizs el componte ms importante de todo
anlisis economtrico. Las constantes 0 , 1 , . son los parmetros del modelo
economtrico y describen direccin y fuerza de la relacin de la variable X para
determinar la variable Y.
Pasos en un anlisis emprico

3. Una vez recolectados los datos sobre las variables relevantes, se emplean los
mtodos economtricos.
4. Una vez precisado el modelo econmico, es necesario transformarlo en lo que
se llama un modelo economtrico.
5. Una vez se ha especificado el modelo economtrico pueden plantearse
diversas hiptesis en relacin con los parmetros. Se formulan pruebas de
hiptesis de inters.
6. Se realizan predicciones ya sea para probar una teora o al estudiar el impacto
de alguna poltica.
Estructura de los datos econmicos

1. Datos de corte transversal: consiste en una muestra de individuos, hogares,


empresas, ciudades, estados, pases u otras unidades, tomadas en algn
punto dado en el tiempo. Una caracterstica importante de los datos de corte
transversal es que a menudo puede suponerse que han sido obtenidos de una
poblacin subyacente mediante un muestreo aleatorio.
2. Datos de series de tiempo: consiste en observaciones de una o varias
variables a lo largo del tiempo. Ejemplos de datos de series de tiempo son
los precios de las acciones, la cantidad de dinero en circulacin, el ndice de
precios al consumidor, el PIB, la tasa anual de homicidios, y las cifras de
venta de automviles.
Otra caracterstica de los datos de series de tiempo es la periodicidad de los datos,
la frecuencia con que estos se recolectan. En economa, las frecuencias ms
comunes son diaria, semanal, mensual, trimestral y anual.
Estructura de los datos econmicos
4. Combinacin de cortes transversales: algunas bases de datos tienen
caractersticas tanto de corte transversal como de series de tiempo.
5. Datos panel: un conjunto de datos panel o (datos longitudinales) consiste en
una serie de tiempo por cada unidad de una base de datos de corte
transversal.
Estructura de los datos econmicos
Datos panel: La caracterstica fundamental de los datos panel, que los
distingue de las combinaciones de cortes transversales, es que durante un
intervalo de tiempo se vigilan las mismas unidades (personas, empresas o
ciudades) de un corte transversal.
Causalidad y nocin de ceteris paribus

El objetivo de los economistas es inferir que una variable tiene un efecto


causal sobre otra.

El concepto de ceteris paribus si todos los dems factores relevantes


permanecen constantes tiene un papel importante en el anlisis causal.

En la mayora de los casos, las hiptesis en las ciencias sociales son de


carcter ceteris paribus, es decir, para estudiar una relacin entre dos
variables todos los dems factores relevantes deben mantenerse
constantes. En las ciencias sociales, dado el carcter no experimental de
la mayor parte de los datos que suelen recolectarse para hallar
relaciones causales no es una tarea fcil.
Definicin del modelo de regresin
simple
En los modelos de econometra encontramos las siguientes variables:
Variable dependiente: Y /que queremos analizar y explicar.
Variables explicativas: X1 , X2 , X3 , Xn

Las variables pueden ser:


Cualitativas: sexo, raza, profesin, estado civil, religin.
Cuantitativas: edad, ingreso, consumo.
Definicin del modelo de regresin
simple

Y X La variable , llamada trmino de


Variable Variable error, o perturbacin, representa
dependiente independiente factores distintos a X que afectan
a Y.
Variable Variable explicativa
explicada
Variable de Variable de control
respuesta
Variable Variable predictora
predicha
Regresando Regresor
Definicin del modelo de regresin
simple
Las variables cualitativas se dividen:
Binarias: Sexo (0=Masculino, 1=Femenino)
Categricas: Tipos de producto (Madera, Plstico, Metal)

Qu es el anlisis de regresin?
Es una tcnica estadstica til para investigar y modelar la relacin entre
variables.
El anlisis de regresin simple tiene por objeto estimar la relacin
funcional entre dos variables.
El anlisis de regresin mltiple tiene por objeto estimar el efecto que
tienen mltiples variables (variables independientes), sobre la variable
de inters (variable dependiente).
Ejemplo 1
Lo que se pretende es estimar el precio de una vivienda, Y.
El precio de la vivienda depende de ciertas variables X.
:
Estrato.
m2 construidos de casa o apartamento
Calidad de los acabados.
Nmero de habitaciones.
Nmero de baos.
= , , , #, #
= + + + # + #
En esta ecuacin se suman trminos que no tienen las mismas unidades, es
necesario los coeficientes para que la ecuacin quede en las mismas unidades
que en esta caso es $.
= 0 + 1 + 2 + 3 + 4 # + 5 # +
= trmino aleatorio, error aleatorio
Ejemplo 2
Ejemplo: en la siguiente tabla se presentan los datos de la demanda mensual
de televisores y su precio unitario (en miles de pesos) para los ltimos 20
meses. Se pretende es determinar si los precios de los televisores pueden
ayudar a determinar la demanda que la empresa tendr en el futuro.
Mes X Y
1 60000 5124 Diagrama de dispersin X vs Y
2 64000 5045
6000
3 65000 4905
4 63000 5030
5 66000 4612 5000
6 70000 4531
7 80000 3273 4000
8 76000 4227 y = -0,0947x + 11086
Demanda

9 70000 4608
10 74000 4490 3000 R = 0,8214
11 75000 4386
12 76000 4213 2000
13 78000 4040
14 82000 3875
83000 3124 1000
15
16 83500 2890
17 86000 2757 0
18 80000 2220 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000
19 90000 2780 Precio
20 91000 2364
Ejemplo 2
Ejemplo: en la siguiente tabla se presentan los datos de la demanda mensual
de televisores y su precio unitario (en miles de pesos) para los ltimos 20
meses. Se pretende es determinar si los precios de los televisores pueden
ayudar a determinar la demanda que la empresa tendr en el futuro.
Mes X Y
1 60000 5124
2 64000 5045
3 65000 4905
4 63000 5030
5 66000 4612
6 70000 4531
7 80000 3273
8 76000 4227
9 70000 4608
10 74000 4490
11 75000 4386
12 76000 4213
13 78000 4040
14 82000 3875
15 83000 3124
16 83500 2890
17 86000 2757
18 80000 2220
19 90000 2780
20 91000 2364
Ejemplo 2
Se observa que la relacin entre las dos variables no es una lnea recta
exacta. Existen varias causas para ello, se citan algunas:
1. En el ejercicio, se supone que la demanda slo depende del precio. Sin
embargo, existen otras variables que inciden en la demanda, como los
ingresos, la inversin en publicidad, los precios de otras marcas, entre
otras. En general, sobre una variable Y inciden mltiples factores X, que
no son tenidos en cuenta en la formulacin.
2. Los errores de medida en la variable:
El modelo parece bastante limitado.
Una forma de resolver el problema anterior es incorporando una variable
aleatoria al modelo que recoja variables omitidas, errores de medida, entre
otras. De esta forma, el modelo pasa a ser estocstico y adquiere la forma:

= 0 + 1 1 +

Donde es un componente aleatorio de error o tambin llamado variable


aleatoria no observable, es decir, es lo que afecta a la variable Y que no lo
explica X.
Ejemplo 2
0 y 1 son los parmetros desconocidos del modelo, X la variable
exgena y Y la variable endgena.

En la prctica, se dispone de una muestra aleatoria de n observaciones


de la variable Y correspondientes a n observaciones de la variable X, en n
pares ordenados de la forma ( , ) a partir de la cual se estiman los
parmetros de la regresin.
Definicin del modelo de regresin
simple
El modelo economtrico contiene las especificaciones necesarias para su
validacin emprica. Es usual concebir el modelo economtrico como un modelo
conformado por una parte determinstica y una parte aleatoria o trmino de
error. El modelo economtrico tiene la forma:

Y = 1 + 2 X2 +. . +k Xk + i

Donde 1 + 2 2 +. . es la parte determinstica y es el trmino de error o


componente estocstico.

Los modelos economtricos por considerar un trmino aleatorio en su


estructura, hacen parte de los modelos probabilsticos.
Definicin del modelo de regresin
simple
Yi = 0 + 1 Xi + Funcin de regresin poblacional
La idea del modelo es estimar los parmetros 0 , 1
Se toma una muestra aleatoria de tamao n de la poblacin y se obtienen los valores de
, Xi.
es el trmino de error.
Yi
E = 0 + 1 X
X
La nica manera de obtener estimadores confiables de 0 y 1 a partir de los datos de
una muestra aleatoria, es haciendo una suposicin que restrinja la manera en que la
variable no observable est relacionada con la variable explicativa x.
=0
E( 0 1 ) = 0
(MCO):
n n

Min S = e2i = (Yi 0 1 Xi )2


i=1 i=1
Propiedades de los estimadores

Muestra pequea:
1. Insesgamiento
2. Eficiencia
Asinttica n
3. Consistencia
4. Convergencia en distribucin
Propiedades de los estimadores

1. Insesgamiento: Un estimador es insesgado si E()=



Sesgo= ()
ECM= error cuadrtico medio
2
= +
2. Eficiente: Un estimador es eficiente si V()
es el menor con respecto a
la varianza de otros estimadores de su clase.
Teorema de Cramr Rao: si es un estimador insesgado, tambin ser
eficiente si cumple con:
1

()
2 ()

2
Propiedades de los estimadores

3. Convergencia en probabilidad: una variable aleatoria xn converge en probabilidad a


una constante c si:
lim ( > ) = 0

lim =



Propiedades de la convergencia en probabilidad:
plim a=a
plim (x+y)=plim x + plim y
plim (xy)= plim x plim y
Teorema de Slutsky: si plim Xn =c entonces plim g(Xn)= g(c) donde g(.) es una funcin
continua.
Propiedades de los estimadores

4. Consistencia: un estimador es consistente si cumple:


plim =

Un estimador es consistente si su estimador converge al verdadero parmetro


poblacional.
Se puede demostrar que es consistente entonces:
=
lim ()

=0
lim ()

Definicin del modelo de regresin
simple
Existen diferentes razones por las cuales los modelos
economtricos deben considerar el trmino de error,
destacndose como las ms importantes las siguientes:
a) Datos: en muchos casos el grado de control que se puede
tener sobre las variables de inters es bajo. Adicionalmente,
aunque se desea obtener los verdaderos valores de las
variables, se debe aceptar que puede existir cierto error en la
medicin.
Un ejemplo tpico ocurre cuando las personas encuestadas
por diferentes motivos revelan un ingreso diferente al real y
dicha variable se incorpora al modelo.
Definicin del modelo de regresin
simple
Existen diferentes razones por las cuales los modelos
economtricos deben considerar el trmino de error,
destacndose como las ms importantes las siguientes:
b) Nmero de variables: el investigador siempre tiene
restricciones para incluir todas las variables que explican un
fenmeno. Por un lado, no cuenta con completa informacin,
y por otro, aunque disponga de demasiada informacin su
formulacin es extremadamente compleja que dificulta su
interpretacin. Por lo tanto, el procedimiento se basa en
incluir aquellas variables ms relevantes, dejando fuera del
modelo aquellas poco significativas. No obstante, el
investigador es consciente de que al no poder incluir todas las
variables incurre en cierto margen de error al efectuar la
estimacin.
Definicin del modelo de regresin
simple
Existen diferentes razones por las cuales los modelos
economtricos deben considerar el trmino de error,
destacndose como las ms importantes las siguientes:
c) Disponibilidad de informacin: muchas veces cuando el
investigador quiere incluir una variable importante en el
modelo se encuentra con la limitacin de cmo
cuantificarla. Un ejemplo de ello es la variable
habilidad; se conoce que sta tericamente afecta el
salario; sin embargo el investigador tiene que
conformarse con incluir otra variable o informacin
adicional que sea semejante y la describa de manera
aproximada.
Definicin del modelo de regresin
simple
Existen diferentes razones por las cuales los modelos
economtricos deben considerar el trmino de error,
destacndose como las ms importantes las siguientes:
c) Forma funcional: un investigador puede postular que la
relacin entre las variables de un modelo es de tipo
lineal; no obstante, otro investigador podra formular
una especificacin funcional distinta, por ejemplo
cuadrtica. Esta es otra fuente de error en la elaboracin
del modelo, pues no se puede tener total certeza sobre
su forma funcional aun cuando la teora seale algunas
directrices para corregirlo.
Regresin y estimacin de los
parmetros del modelo

El objetivo fundamental del anlisis de regresin es el estudio de la


dependencia de la variable explicada, en funcin de una o ms
variables llamadas explicativas. Para esto es necesario estimar los
coeficientes o parmetros de dicha funcin.
Regresin y estimacin de los
parmetros del modelo

El mtodo de estimacin ms popular de los coeficientes del modelo de


regresin recibe el nombre de mnimos cuadrados ordinarios (MCO). El
criterio de este mtodo consiste en proporcionar estimadores de los
parmetros que minimicen la suma de los cuadrados de los errores.
Operativamente el proceso es construir una funcin objetivo en
trminos de la suma de los cuadrados de los errores y mediante
optimizacin (condiciones de primer orden - C.P.O) obtener las
frmulas de clculo de los estimadores.
Supuestos del modelo clsico de regresin
lineal
Los parmetros 0 1 se pueden estimar de manera formal para que la recta de
regresin tenga propiedades razonables.
Se requiere entonces aceptar algunos supuestos que hagan que los estimadores de
mnimos cuadrados cumplan con algunas propiedades estadsticas deseables.
1. El modelo de regresin es lineal en los parmetros. Puede ser lneal o no en las
variables explicativas.
Ejemplos: Identificar cual es un modelo lineal o cual no.
= 0 + 1 + Modelo lineal

= 0 + 1 + Modelo lineal

= 0 + 1 2 2 + Modelo no lineal
ln = 0 + 1 + Modelo lineal
1
= 0 + + Modelo no lineal
2
1
= 0 + 1 ln + Modelo lineal

Supuestos del modelo clsico de regresin
lineal
2. Las variables regresoras X son variables consideradas no estocsticas
(no son variables aleatorias). Las X toman valores fijos en el modelo.
3. El valor medio de la perturbacin estocstica es igual a cero. Es decir:
( = ) = 0
Supuestos del modelo clsico de regresin
lineal
El valor medio de la perturbacin estocstica es igual a cero. Es decir:
( = ) = 0

Demostracin:
Supuestos del modelo clsico de regresin
lineal
\ =

Donde denota alguna funcin de la variable X. La ecuacin se conoce como


funcin de esperanza condicional (FEC), funcin de regresin poblacional (FRP) o
regresin poblacional (RP). Dicha funcin solo denota que el valor esperado de la
distribucin de Y dado se relaciona funcionalmente con . En otras palabras,
dice que la media o respuesta promedio de Y vara con X.
Supuestos del modelo clsico de regresin
lineal
Supuestos del modelo clsico de
regresin lineal
4. La varianza ( o dispersin) de la perturbacin estocstica es la misma en
todas las observaciones. Es decir, la varianza de i es constante. Este
supuesto se llama Homoscedasticidad(homo=igual, cedasticidad=varianza).
Es decir,
V i = 2
La expresin anterior establece entonces que la varianza de cada i es algn
nmero positivo constante e igual a 2 .
Por la tanto la distribucin de probabilidad de la variable endgena es:
Yi ~N(0 + 1 Xi , 2 )
Nota: si la varianza condicional vara, se dice que en el modelo hay
presencia de heterocedasticidad y se describe V i = 2i . Obsrvese que el
subndice 2i es el indicador de que la varianza de la poblacin Y ya no es
constante.
Supuestos del modelo clsico de
regresin lineal
Supuestos del modelo clsico de
regresin lineal

5. La perturbacin estocstica se distribuye normalmente. Es decir,


~ 0, 2
6. Los errores son incorrelacionados. Las variables aleatorias son
estadsticamente independientes. Es decir, para todo i se tiene que,
, = 0
Supuestos del modelo clsico de
regresin lineal
7. El nmero de observaciones n debe ser mayor que el nmero de
parmetros por estimar. De manera alternativa, el nmero de
observaciones debe ser mayor que el nmero de variables
explicativas.
8. Variabilidad en los valores de . Se requiere que no todos los valores
de en una muestra dada sean iguales.
9. El modelo de regresin est correctamente especificado. La omisin
de variables importantes del modelo o la escogencia de una forma
funcional equivocada afectan la validez de la interpretacin de la
regresin estimada.
10. No hay correlacin lineal perfecta entre variables explicativas
(Multicolinealidad perfecta).
Supuestos del modelo clsico de
regresin lineal
Cuando el modelo de regresin cumple con los anteriores supuestos se le
conoce como modelo de regresin clsico y tiene las siguientes propiedades:
Los estimadores son MELI (mejores estimadores lineales insesgados).
Si se agrega el supuesto de normalidad de los errores, los estimadores son MELI
(mejores estimadores insesgados) y por lo tanto seguirn la distribucin normal.
Con ello, los intervalos de confianza, las predicciones y las pruebas de hiptesis
tienen validez estadstica.
Obtencin de los estimadores
El mtodo de mnimos cuadrados consiste en estimar los parmetros 0 1 tales
que la suma de los cuadrados de los errores sea mnima. Es decir, el objetivo del
mtodo de mnimos cuadrados es minimizar la funcin dada por:
n n

f 0 , 1 = 2i = (Yi 0 1 Xi )2
i=1 i=1
Para minimizar f se debe derivar parcialmente con respecto a 0 y 1 e igualar a
cero las derivadas.


= 2 (Yi 0 1 Xi ) = 0 1)
0 =1

= 2 Yi 0 1 Xi Xi = 0 2)
1 =1

De 1)
n n
Yi n0 1 Xi = 0
i=1 i=1
De 2)
n n
Xi Yi 0 Xi 1 Xi 2 = 0
=1 i=1 i=1
Obtencin de los estimadores
De 1)
n n
Yi n0 1 Xi = 0
i=1 i=1

Dividiendo por n
n
i=1 Yi
=
n

Y = 0 + 1
X de la 1) ecuacin

0 = 1
Obtencin de los estimadores
n n

f 0 , 1 = 2i = (Yi 0 1 Xi )2
i=1 i=1

= 2 Yi 0 1 Xi Xi = 0
1 =1

= 0 + 1 2
=1 =1 =1

= 0 + 1 2
=1 =1

= 1 + 1 2
=1 =1

= 1 2 + 1 2
=1 =1

1 2 2 =
=1 =1

=1
1 =
=1 2 2
Obtencin de los estimadores

= 0 + 1
Donde 0 y 1 son estimadores puntuales de 0 y 1 respectivamente.

=1
Ahora como el denominador en la ecuacin 1 = 2 2
es la suma corregida de
=1
cuadrados de las , denotada es decir:
1
= =2 2
=1 2
= =1 2

Y el numerador es la suma corregida de los productos cruzados de y denotada

1
= =1 =1 = =1
=1

Entonces

=1

1 = = > 0
=1 2
Obtencin de los estimadores


Entonces 1 = =1 = > 0
=1 2

La expresin anterior se puede simplificar para facilitar las demostraciones que


puedan presentarse ms adelante, a travs del siguiente procedimiento:

=1 =1
=1
1 = =

Ahora como

= 0
=1
Entonces

=1

1 = = =1

donde

=

Obtencin de los estimadores
Obtencin de los estimadores
Una vez se han determinado las estimaciones por MCO del intercepto y de la pendiente, se obtiene la lnea de
regresin de MCO:
= 0 + 1
Donde se entiende que 0 y 1 han sido obtenidas empleado las ecuaciones

0 = 1

=1
1 =
=1 2 2

que se lee y gorro indican que los valores predichos por la ecuacin = 0 + 1 son
La notacin ,
estimaciones.
La ecuacin
= 0 + 1
Tambin es llamada funcin de regresin muestral (FRM) debido a que es la versin estimada de la funcin de
regresin poblacional \X = 0 + 1 .
Dado que la FRM se obtiene a partir de una muestra de datos, con una muestra se obtendrn una pendiente e
intercepto.
Obtencin de los estimadores
En la mayora de los casos, la pendiente estimada, se puede expresar como:


1 =

Es de primordial inters, pues indica la cantidad en la que cambia cuando X se
incrementa en una unidad.
De manera equivalente,
= 1
De manera que dado cualquier cambio en X ( ya sea positivo o negativo), se puede
calcular el cambio en Y.
Ejemplo 1
Volviendo al ejemplo de las viviendas:
Poblacin: Calimuestra de T viviendas
Estima los verdaderos parmetros poblacionales
Estimar 1 ,
Estimadores 1 , . son variables aleatorias porque los datos van a cambiar cada
vez que se toma otra muestra diferente.
e inobservables
Estimando por medio de M.C.O, o por el mtodo de mxima verosimilitud o por
momentos:
= 0 + 1 + 2 + 3 + 4 + 5
Se realizan pruebas de hiptesis sobre los estimadores poblacionales.
0 : 1 = 0
1 : 1 0
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Los estimadores por MCO tienen las siguientes propiedades que son muy importantes en el anlisis
de regresin lineal:
1. 1 es un estimador insesgado de 1 . Es decir, E 1 = 1
Demostracin:
n
Y Xi X
1 = i=1 Si = ni=1 Ci Yi
xx
n n

E 1 = E Ci Yi = Ci E Yi
i=1 i=1

Y como se supuso que E i = 0, entonces


n n n

E 1 = Ci E 0 +1 Xi = 0 Ci + 1 Ci Xi
i=1 i=1 i=1
ni=1
Xi X ni=1 Xi
Xi X 0 Sxx
= 0 + 1 = 0 + 1 = 1
Sxx Sxx Sxx Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Los estimadores por MCO tienen las siguientes propiedades que son muy
importantes en el anlisis de regresin lineal:
0 es un estimador insesgado de 0 . Es decir, E 0 = 0
2.

Demostracin:
E 0 = E Y 1 X
=E Y
E(1 X)
X
= 0 + 1 X E 1 = 0 + 1 X
1 X
= 0
Propiedades de los estimadores por
mnimos cuadrados ordinarios
2
3. La varianza de 1 se calcula con la expresin Var 1 =
Sxx

La varianza de un estimador permite analizar el grado de dispersin de la


estimacin con respecto a su valor esperado. En el caso de MCO al ser ambos
estimadores insesgados permitir analizar el grado de dispersin con respecto a
su verdadero valor poblacional y proporcionar una idea sobre la precisin de
la estimacin.
n n n
i=1 X i
X 2
Var 1 = Var Ci Yi = Ci2 Var(Yi ) = 2
Sxx 2
i=1 i=1
2 2
= 2
Sxx =
Sxx Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
4. La varianza de 0 se calcula como
1 X2 2 ni=1 Xi 2
Var 0 = 2 + =
n Sxx nSxx

Var 0 = Var( Y 1
X)
Y + Var 1
= Var X 2Cov Y, 1
X
2 X 2 2
= + 2 XCov( Y, 1 )
n Sxx
Cov Y, 1 = 0
1
X 2
Var 0 = 2 +
n Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
De los resultados anteriores se tiene entonces que:
2
1 ~N 1 ,
Sxx
1
X 2
0 ~N 0 , 2 +
n Sxx
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Propiedades de los estimadores por mnimos
cuadrados ordinarios
Teorema de Gauss -Markov

El uso de MCO en la estimacin de los parmetros se justifica en la


medida en que estos sean los estimadores puntuales ms eficientes entre
una amplia gamma de estimadores insesgados.

Dados los supuestos del modelo clsico de regresin lineal, los


estimadores de mnimos cuadrados, dentro de la clase de estimadores
lineales insesgados, tienen una varianza mnima, es decir son los mejores
estimadores lineales insesgados (ME-LI). Es comn decir, entonces que los
estimadores por MCO son estimadores lineales insesgados ptimos.
Propiedades de los residuales

Los residuales del modelo de regresin lineal se calculan como la diferencia


entre el valor observado Yi y el valor estimado Y i . El i-simo residual, denotado
i = Yi 0 1 Xi , i=1, 2, 3,n
ei , es entonces, ei = Yi Y
i = 0 + 1 Xi es el modelo ajustado de regresin lineal simple.
Donde Y
Una forma ms prctica de escribir el residual ei es
i = Yi 0 1 Xi
ei = Yi Y
Y 1
Y como 0 = X entonces,
i = Yi (
ei = Yi Y Y 1
X) 1 Xi
Y + 1
= Yi X 1 Xi
= Yi Y 1 (Xi X)
Propiedades de los residuales
Se tiene entonces que,
1. La suma de los residuales mnimo-cuadrticos, en cualquier modelo de
regresin que contenga como ordenada al origen 0 , es igual a cero. Esto es
ni=1 ei = 0
n n

Y 1 (Xi
ei = Yi X) =
i=1 i=1
n n

Y 1 Xi
Yi X =0
i=1 i=1
Propiedades de los residuales
2. La suma de los residuales, ponderados por el valor correspondiente de la
variable regresora, es igual a cero. Es decir,

= 0
=1
Propiedades de los residuales
Demostracin
Como = 1 ( )
entonces

= 1 ( )

=1 =1

= 1 ( )

=1 =1

= 1 2
=1 =1 =1 =1

Y teniendo en cuenta que =1 = ,


se obtiene

= 1 2 2
=1 =1 =1

1 = se obtiene,



= =0

=1
Propiedades de los residuales
3. La suma de los residuales, ponderados por el valor ajustado, es igual a cero.
Esto es, =1 = 0
Demostracin:

= 0 + 1 = 0 + 1 = 0
=1 =1 =1 =1

4. La suma de los valores observados es igual a la suma de los valores ajustados.


=
=1 =1

Demostracin:

= + = + =
=1 =1 =1 =1 =1
Propiedades de los residuales

5.
n n
2
Y 1 (Xi
e2i = Yi X) =
i=1 i=1
Desarrollando el cuadrado de diferencias queda que,
n n
2
e2i = Yi
Y 2 Y 1 (Xi
2 Yi X) + 1 (Xi
X)2
i=1 i=1
2

= Syy 21 Sxy + 1 Sxx
2
= Syy 2 1 1 Sxx + 1 Sxx
2
Syy 1 Sxx
Estimacin de la varianza
En las expresiones que se obtuvieron para las varianzas y covarianzas de los
estimadores aparece el parmetro poblacional 2 , el cual es generalmente
desconocido y, por lo tanto, se debe estimar para obtener varianzas y covarianzas
de 0 y 1 ; adems de estimar los parmetros de 0 y 1 ; adems de estimar los
parmetros 0 y 1 , se requiere un estimador de la varianza para hacer pruebas de
hiptesis y formar estimados de intervalos pertinentes al modelo de regresin. En el
caso ideal, este estimador no debera depender de la ecuacin del modelo
ajustado.
Un estimador insesgado de 2 es 2 , siendo:
2

=1
2
1
2
= =
2 2
Aqu 2 es la varianza poblaciones y 2 es la varianza muestral.
Estimacin de la varianza
2 = 2
=1 2
2 = = 2
2
Y, por lo tanto, la varianza estimada de los parmetros estimados son:
2
1 =


1 2

0 = 0 = 2 +


Igualmente lo anterior se puede denotar
2
2 = donde 1 =
1

1 2 1 2
2 = 2 + de donde 1 = S +
1
Anlisis de varianza
Suponga que se tiene un conjunto de datos pareados que contienen el punto muestras
(X,Y), que es el valor predicho de Y ( obtenido por medio de la ecuacin de

regresin), y que la media de los valores Y muestrales es .

= ( )
( ) + ( )
=desviacin total
( )
=desviacin explicada
=desviacin sin explicar
La expresin anterior implica desviaciones a partir de la media y se explica a
cualquier punto (X, Y) particular. Si sumamos los cuadrados de las desviaciones
utilizando todos los puntos (X,Y), obtenemos cantidades de variacin.

2 2
2 = +
=1 =1 =1
Anlisis de varianza
Si se define:
:valor observado
:valor estimado
= :residuales del modelo
:desviacin
de los valores estimados con respecto a la media
Entonces se plantea que:
= + al restar a ambos lados
= + elevando al cuadrado a ambos lados y sumar hasta n
2
=1 2 = =1 +
2
=1 2 = =1 + 2 =1 + =1 2
Por propiedades de los residuales =1 2 = 0 luego,

2 2
2 = +
=1 =1 =1
Medida de bondad y ajuste
n n n
2 2
Yi
Y 2 i
= Y Y i
+ Yi Y
i=1 i=1 i=1
La expresin anterior es llamada identidad fundamental del anlisis de varianza.

SST = ni=1 Yi
Y 2 suma de los cuadrados totales
2
SSR = ni=1 Y
i
Y suma de los cuadrados de la regresin
i 2 suma de los cuadrados del error
SSE = ni=1 Yi Y
Con estas notaciones, la identidad fundamental del anlisis de varianza se puede
reescribir como:
SST = SSR + SSE
=
= 12

= 12
=1
Prueba de hiptesis de utilidad del modelo
0 :el modelo lineal no es significativo
1 :el modelo lineal es significativo
Se rechaza 0 si (1,2) donde SSR tiene un grado de libertad y SSE tiene n-2 grados
de libertad.

= = 2

Tabla anova (tabla de anlisis de
varianza)
Es decir el modelo es significativo y la
variabilidad en la variable
Fuente de la Suma de Grados Cuadrados F independiente ayuda a explicar la
variacin los de medios
cuadrado libertad variabilidad en la variable dependiente.
s Si no se rechaza la hiptesis nula, es
REGRESIN SSR k SSR/k SSR/k decir, F est en la regin de
F=
S2 aceptacin, se concluye que los datos
ERROR SSE n-k-1 SSE no reflejan suficiente evidencia para
nk1
= MSE = S 2 apoyar el modelo postulado.
TOTAL SST n-1 Los clculos para encontrar el

estadstico de prueba = = 2 se

resumen en la siguiente tabla:
Prueba de hiptesis de utilidad del modelo
Cuando se rechaza la hiptesis nula se concluye que hay una cantidad significativa de
la variable dependiente que es explicada por el modelo planteado. Es decir, el modelo
es significativo y la variabilidad en la variable independiente ayuda a explicar la
variabilidad de la variable dependiente. Si no se rechaza la hiptesis nula, es decir, F
esta en la regin de aceptacin, se concluye que los datos no reflejan suficiente
evidencia para apoyar el modelo postulado.
Significancia individual
En todo modelo de regresin se deben probar hiptesis para evaluar la validez
estadstica de las relaciones econmicas tericas. Entre la variedad de pruebas de
hiptesis que se pueden efectuar, las pruebas de dependencia y relevancia son las ms
importantes.
Prueba de relevancia: la prueba de relevancia consiste en evaluar estadsticamente
qu tan significativo es un parmetro del modelo, de esta manera puede identificarse
si la variable independiente aporta informacin importante al modelo de regresin,
es decir, explica a la variable dependiente.
Significancia individual
Pasos para realizar la prueba de relevancia:
1. Planteamiento de la hiptesis:
H0 : j = 0
Ha : j 0
2. Definicin del nivel de significancia
3. Clculo del estadstico de prueba. Para la prueba de relevancia en el modelo de
regresin, el estadstico de prueba se define como:
j Normal j , Var j
j j
t= t (nk1) = t df Normal(0,1)

sd(j )
Significancia individual
4. Regiones de decisin: La siguiente grfica muestra las regiones de rechazo y
aceptacin de la hiptesis nula.

Criterio de decisin y conclusin del investigador: si > (2,1) se rechaza la


hiptesis nula. Se concluye que es estadsticamente relevante al nivel de
significancia. Por otro lado, cuando no sea posible rechazar la hiptesis nula, se puede
decir que no existe evidencia estadstica para afirmar que sea relevante al nivel
de significancia.
Coeficiente de determinacin
El coeficiente de determinacin, denotado como R2 ,es un estadstico que mide el
porcentaje de variacin total de la variable dependiente y que puede ser explicado por
la variabilidad en la variable independiente.
0 R2 1
La interpretacin de este coeficiente est dada por la variabilidad de la variable
endgena es explicada en R2 % por la variable exgena. Por ejemplo, si se tienen
definidas las variables de decisin Y: ingresos por ventas, y X: gastos en promocin, y se
obtuvo que R2 = 97.16%, esto significa que la variabilidad esperada en los ingresos por
ventas es explicada en un 97.16% por la variabilidad en los gastos de promocin.
SSR SSE
1= +
SST SST
2
SSR
R =
SST

2
2
= 1

2
SSE
R =1
SST
Coeficiente de correlacin muestral
El coeficiente de correlacin muestral, denotado por r, es una medida de la asociacin
lineal entre las variables X y Y y se define como:
S
1 = xy
Sxx
1 Sxy Sxy Sxx
r= R2 = = = 1
Syy Sxx Syy Syy

r es un estimador puntual del coeficiente de correlacin poblacional . Es claro entonces


que r > 0 o si 1 > 0 y que r < 0 si 1 < 0
Recordar que el valor de este coeficiente est definido as:
Cov(x, y)
= 11
x y
Coeficiente de correlacin muestral
Recordar que el valor de este coeficiente est definido as:
Cov(x, y)
= 11
x y
Lo cual entonces indica que los valores del coeficiente de correlacin estn entre -1 y 1. A
continuacin se muestran algunos posibles valores que pueden tomar el coeficiente de
correlacin muestral y el criterio que puede ser til para su interpretacin.
r = 1, indica que existir una relacin lineal perfecta.
r > 0.8, indica que existe una relacin lineal fuerte entre las variables X y Y
0.5 r 0.8, indica que existe una relacin lineal moderada entre las variables X y Y.
0 < r < 0.5, indica que existe una relacin lineal dbil entre las variables X y Y.
r = 0, indica que no existe una relacin lineal entre las variables X y Y.
Coeficiente de correlacin muestral
Tabla anova (tabla de anlisis de
varianza)
El anlisis de varianza (ANOVA por sus siglas en ingls) es otra prueba de hiptesis nula
H0 : 1 = 0 frente a la alternativa bilateral Ha : 1 0.
El objetivo ahora es utilizar la distribucin F para analizar la bondad o calidad de ajuste
de la lnea de regresin estimada. Es decir, el deseo es determinar si la variable exgena
influye linealmente sobre la endgena.
La hiptesis nula H0 :el modelo lineal no es significativo, frente a la alternativa Ha : el
modelo lineal es significativo, la regla de decisin es rechazar H0 si F f(1,n2) donde
SSR tiene un grado de libertad y SSE tiene n-2 grados de libertad.
Cuando se rechaza la hiptesis nula se concluye que hay una cantidad significativa de la
variable dependiente que es explicado por el modelo planteado.
UTheil
Medidas de evaluacin del pronstico ( No tiene escala, criterio de comparacin).

1 n
RMSE =
h i=1
y i yi 2 Raiz del error cuadrtico medio

Es la desviacin estndar del pronstico.


RMSE
UTheil = 0 UTheil 1
1 n 1 n
i=1 y i 2 + y 2
h h i=1 i

UTheil 0 El modelo genera "buenos" pronsticos.


UTheil 1 El modelo genera "malos" pronsticos.

UTheil= 0,3 El pronstico se ajusta al 70%. La proporcin del error de pronstico es 30%.
Especificacin del modelo

Al realizar el grfico de dispersin entre las variables X y Y, se puede dar que a veces
la relacin entre dichas variables no es lineal. En ese caso es preciso suponer una
forma funcional apropiada para la relacin. Se consideran dentro de las formas
funcionales de los modelos de regresin, algunos modelos que pueden ser no lineales
en las variables, pero s en los parmetros, o que se pueden transformar en lineales
mediante algunas transformaciones algebraicas apropiadas.
Especificacin del modelo
Segn el nmero de variables explicativas podemos clasificar el modelo economtrico como:
Modelo ingenuo. No tiene variables explicativas, su representacin es:
Y= 1 + i
Modelo de regresin simple. Tiene una sola variable explicativa Y = 1 + 2 X 2 + i
Modelo estadstico lineal general o de regresin mltiple: Incluye varias variables explicativas.
Y = 1 + 2 X 2 +. . k X k + i
Segn la forma funcional podemos clasificar el modelo de regresin simple como:
Lin-lin: Y = 1 + 2 X 2 + i
Lin-log: Y = 1 + 2 LnX2 + i
Log-lin: LnY = 1 + 2 X 2 + i
Log-log:LnY = 1 + 2 LnX 2 + i
Dependiendo de la forma funcional el coeficiente de la variable explicativa tendr su
interpretacin particular.
Interpretacin de los resultados

Modelo Lin-Lin
Y = 0 + 1 X1 + i
intercepto pendiente
Y
= 1 Cambio en Y ante cambios marginales en X asumiendo las dems variables
X1
contantes.
Modelo Log-Log

Se tiene el modelo de regresin Yi = 0 Xi 1 ei
LnYi = Ln0 + 1 LnXi + i
1 1
dy = 1 dx
Y X
1Y dy 100 100 cambio porcentual en Y
= 1 =

1 X dx 100 100 cambio porcentual en X
Interpretacin de los resultados
Modelo Log-Lin
X
Yi = 0 1 i ei
LnYi = ln 0 + ln 1 Xi + i

1
dy = 1 dx
Y
1Y dy 100 cambio porcentual en Y
= 1 100 =
dx cambio absoluto en X
Modelo Lin-Log
Yi = 0 + 1 LnXi + i

1
dy = 2 dx
x
dy 1 cambio absoluto en Y
= =
1X dx 100 100 cambio porcentual en X
Ejemplos
= 21.6 + 6.1 + 1.7

Interpretacin LIN-LIN: por cada habitacin adiciona el precio promedio estimado
aumenta 6.1 millones suponiendo las dems variables constantes.

m 3
= 3.1 + 0.09 0.14 ln
ln
Interpretacin LOG-LOG: por cada 1% de aumento en la contaminacin el precio
promedio estimado diminuye 0.14% suponiendo las dems variables constantes.

m 3
= 3.1 + 0.09 0.14 ln
ln
Interpretacin LOG-LIN: por cada habitacin adicional el precio promedio
estimado aumenta 9% suponiendo las dems variables constantes
Interpretacin de los resultados
Ejemplo: interpretar el coeficiente de habitaciones de la siguiente ecuacin
= 3,1 + 0,09habitaciones 0,14 Ln contamiacin
Ln precio
Por cada habitacin adicional el precio promedio estimado aumenta 9% asumiendo las dems
variables contantes.
100 2 se conoce como la semielasticidad del precio respecto al nmero de habitaciones.
Clculo sencillo que permite calcular el cambio porcentual exacto.
%y = 100 exp 2 1 = 9,42
Por cada habitacin adicional el precio promedio estimado aumenta 9,42% asumiendo las dems
variables contantes.
49.6 ln
= 21.4 + 3.9
Interpretacin LIN-LOG: por cada 1% de aumento en la contaminacin el precio promedio estimado
disminuye 0.496 millones.
Clave: In Y= x 100
In x= /100
Interpretacin de los resultados
Modelos cuadrticos: modelos que capturan rendimientos crecientes y decrecientes.
= 1 + 2 + 3 2 +

Con este modelo se puede estimar el valor ptimo de x.

= 2 + 23 No se puede interpretar por separado, se debe asumir algn valor de x.

Valor ptimo de x:

2 + 23 = 0

2
=
23
Interpretacin de los resultados
Ejemplo:

= 1,25 + 0,48 exper 0,08 2 si exp=10 aos


= 0,48 0,16 = 0

= 0,48 0,16 10 = 1,12

Interpretacin: Por cada ao de experiencia adicional a 10 el salario disminuye 1,12


millones.

= 3
Interpretacin de los resultados
Ejemplo:
= 1 + 2 + 3 2 +

Interpretacin: 100 (2 + 23 )

Por cada ao adicional de educacin el salario promedio estimado aumentar 100 (2 +


23 )%.

= 3.1 + 0.2 0.0075 2


Educacin=11
ln
= 0.2 0.015 11 = 0.035

Interpretacin LOG-LIN: por cada ao adicional a 11 el salario aumenta 3.5%
Prediccin
0 el valor promedio predicho de la variable Y cuando X = X0
Siendo Y
Ahora el inters est centrado en dos problemas de prediccin distintos:
0 .
1. Se puede estimar el verdadero valor que se obtendr para Y
2. Se puede estimar la esperanza condicional E Y0 \X = X0 , es decir, el valor
promedio de la variable dependiente cuando se fija en X0 la variable dependiente.
Criterio del p-valor

Cualquier prueba de hiptesis se puede resolver verificando si el estadstico de


prueba es mayor que el valor crtico a un nivel de significancia dado.

Existe un criterio alternativo que dar exactamente el mismo resultado con la


ventaja que no se necesita buscar el valor crtico. Lo nico que debe hacerse es
compararse el p-valor con al nivel de significancia ().

p_valor: es el nivel de significancia observado a partir del cual se inicia el rechazo


de la 0 .

> % no se rechaza hiptesis nula


< %se rechaza hiptesis nula
Modelo de Regresin Mltiple
Un modelo de regresin donde interviene ms de una variable exgena se llama modelo
de regresin lineal mltiple.
Supngase que se tienen ahora k, variables exgenas X1 , X2 , .., Xk y la variable
endgena Y. De nuevo, el inters se centra en determinar el valor esperado de la
variable endgena, pero en este caso, este valor est condicionado al valor que toman
todas las variables independientes. Por lo tanto, si la variable dependiente Y est
relacionada con las variables independientes X1 , X2 , .., Xk , se usar la notacin
E Y\X1 , X2 , .., Xk para representar el valor esperado de la variable dependiente
cuando las variables independientes toman los valores X1 , X2 , .., Xk , respectivamente.
El supuesto de linealidad, en este contexto, implica que esta esperanza es de la forma:
E Y\X1 , X2 , .., Xk = 0 + 1 X1 + . +k Xk
Donde los parmetros 0 , 1 ,..,k deben estimarse a partir de los datos.
Modelo de Regresin Mltiple
Como la relacin lineal no es exacta, se define la variable aleatoria i como la
diferencia entre la variable aleatoria Yi y su valor esperado dadas las variables
independientes, es decir
i = Yi E Y\X1 , X2 , .., Xk
Despejando Yi = 0 + 1 xi1 + 2 xi2 . . +k xik + i
Donde:
Yi :respuesta observada
0 :es la ordenada en el origen
j :es el coeficiente de regresin parcial de la j-sima variable regresora
Modelo de Regresin Mltiple
La informacin para un modelo de regresin mltiple se presenta en una tabla
como la siguiente:

Observacin Respuestas Regresoras


i 1 ,2 ,..,
1 1 11 ,12 ,..,1
2 2 21 ,22 ,..,2
3 3 31 ,32 ,..,3

n 1 ,2 ,..,
Modelo de Regresin Mltiple
Con base en la informacin anterior se plantea el siguiente sistema de ecuaciones
lineales en los parmetros.
Y1 = 0 + 1 X11 + 2 X12 + + k X1k + 1
Y2 = 0 + 1 X21 + 2 X22 + + k X2k + 2


Yn = 0 + 1 Xn1 + 2 Xn2 + + k Xnk + n
Modelo de Regresin Mltiple
= 1 + 2 2 + 3 3 + . + +
i=1, 2, 3n
k= nmero de betas en el modelo
= +
= 1 + 2 2 + 3 3 + . +

1 1 + 2 12 + 3 13 + + 1 + 1
2 1 +2 22 + 3 23 + + 2 + 2
3 = 1 +2 32 + 3 33 + + 3 + 3

1 +2 2 +3 3 + + +
nx1 nxk nx1
Ynx1= Xnx(k+1) B(k+1)x1 + enx1
Modelo de Regresin Mltiple
1 X12 X13 X1k 1
1 X22 X23 X2k 2
1 X32 X33 X3k 3

1 Xn2 Xn3 Xnk k
nxk kx1
Estimador de mnimos cuadrados ordinarios:
Min S = T
Como Y = XB + modelo poblacional entonces = Y XB
El estimador de es ,
S = = Y X Y X = Y X Y X =
= YY YX XY + XX
= YY 2BXY + XX
(XB)=XB
s
=0
= 2X Y + 2X XB
B
= X X 1 XY
B No multicolinealidad X X tiene que tener inversa
Supuestos del modelo de regresin lineal
mltiple:
1. El adjetivo lineal se refiere a que el modelo es lineal en los parmetros.
Para que la regresin sea lineal debe ser de la forma, ya sea en sus variables
originales o despus de alguna transformacin adecuada.

Yi = 1 Xi1 + 2 Xi2 + + k Xik + i

Y = X +
Ejemplo:

y = e0 X1 1 X2 2 . Xk k i
Ln y = 0 + 1 LnX1 + 2 LnX2 + + K LnXk + i
Supuestos del modelo de regresin lineal
mltiple:
1. El modelo es lineal en los parmetros.
2. Las variables regresoras X1 , Xk son variables no estocsticas, es decir, que
no son variables aleatorias y toman valores fijos en el modelo.
3. El valor medio de las perturbaciones estocsticas es cero, es decir, E i = 0

1 E(1 ) 0
E(2 )
E =E 2 = = 0 =0

n E(n ) 0
nx1
Supuestos del modelo de regresin lineal
mltiple:
4. La varianza de todas las perturbaciones estocsticas es constante, es decir,
Var = E E() E() T = E T
1

Var = E 2 1 2 n

n

Para un modelo de regresin mltiple la homocedasticidad es: = 2

E 1 1 E 1 2 E 1 n 2 0 0
E 2 1 E 2 2 E 2 n 0 2 0
T
E( ) = = = 2 I

E n 1 E n 2 E n n 0 0 2
Esta ltima expresin hace referencia a la matriz de varianzas y covarianzas del vector de
errores.
Supuestos del modelo de regresin lineal
mltiple:
5. Las perturbaciones estocsticas se distribuyen normalmente con media cero y
varianza 2 , es decir, i ~N 0, 2 In
6. Las perturbaciones estocsticas son incorrelacionadas, es decir Cov i , j = 0
Supuestos del modelo

1

= 2 = 0


1
2
= 1 2


~ 0, 2
Propiedades del vector

1. E =
Es decir es el estimador insesgado de .
2. Var = 2 X X 1
matriz de varianzas y covarianzas de los parmetros
estimados.
Propiedades del vector

= 1 X(X + )
= 1 + 1 X
= + 1 X

Donde todos los valores de X son conocidos, entonces


E = E + 1 X = + 1 X E()

Recordar que el E = 0, por lo tanto, la expresin anterior quedara reducida


as, E =
Propiedades del vector

= X X 1
= X X 1 +
= X X 1 + X X 1
= + X X 1
= X X 1
Propiedades del vector
1
= 2 X T X

=

=

1 1
= XTX XTX
1 1
= X T X T
X X
1 T 1
= X T X T
X X
1 1
= XTX XTX
1 1
= XTX ( ) XTX
1 2 1
= XTX X T X
1 1
= 2 XTX ( ) X T X
1
= 2 XTX
Propiedades del vector
La matriz = 2 X X 1 es llamada matriz de varianzas y covarianzas de
concluye entonces que ~(,
2 1 )
Estimacin del vector de residuales

El vector de residuales se define como la diferencia entre los valores observados


y los estimados. Es decir, =
Propiedades:
1. = 0
2. = 0
3. = 0
4. = 2 , donde = 1 ,
siendo M una matriz cuadrada de
orden n, simtrica e idempotente.
Estimacin del vector de residuales

Demostracin de las propiedades 1 y 4:


1. =
=
=
1
= XTX
=0

2. = = =
=
= =
= 2 = 2 2 = 2
Estimacin de la varianza

Un estimador insesgado de 2 en todo el modelo de k variables regresoras es 2 ,


donde
2

= = =
1 1 1
Inferencia con respecto a los parmetros
del modelo
Como cada de acuerdo a los supuestos del modelo, tiene una distribucin normal con
media cero y varianza 2 , entonces en notacin matricial se puede escribir que
~ 0, 2 ,donde son vectores columna de orden nx1 (0 es un vector nulo) y I es la
matriz identidad de orden nxn.
Adems se puede demostrar que cada elemento del vector de parmetros estimados de
est normalmente distribuido y que


~(, 2 1 )

Adems se puede demostrar que el elemento del vector de parmetros sigue una
distribucin t-student, que se puede expresar:

=

Y este resultado indica que la distribucin t-student puede ser utilizada para determinar
intervalos de confianza y hacer pruebas(contrastes) de hiptesis acerca de los parmetros
del modelo.
Prueba de hiptesis individual

En esta prueba se utiliza el estadstico T, para determinar si cada una de las variables
regresoras influyen de manera significativa en las variaciones en el valor esperado de la
variable explicativa Y.
0 : = 0
: 0
El estadstico de prueba es:

=

Se rechaza 0 si (2,1)
Si = 0, es decir, que no se rechaza la hiptesis nula, significa que la variable no es
significativa en el modelo y es candidata a ser eliminada del modelo.
Rechazar la hiptesis nula significa que la variable ayuda a explicar la variabilidad de Y,
dejando las dems variables constantes.
Prueba de hiptesis global
Para esta etapa se utiliza e estadstico F con el objeto de determinar si hay una
relacin lineal significativa entre la variable explicada Y y las variables regresoras
1 ,2 ,, . El contraste de hiptesis es:
0 : 0 = 1 = 2 = . . = = 0
: al menos 0
Rechazar hiptesis nula indica que al menos una de las variables es significativa para
el modelo; en cambio, si no se rechaza, indica que el modelo no es significativo.
Se puede dar que en la prueba individual las variables no sean significativas y en la
prueba global, en cambio, por lo menos una sea significativa. En este caso, el
modelo puede representar problemas de multicolinealidad (relacin que puede
existir entre dos o ms variables).
Los clculos para determinar el valor del
estadstico de prueba F se resumen en la
siguiente tabla ANOVA ( se analiza la
variabilidad)

Fuente de Suma de cuadrados Grados Cuadrados F


variacin de medios
libertad
Modelo de = 2 k
regresin = 2

Errores = n-k-1
2 =
residuales 1
TOTAL = 2 n-1
Los clculos para determinar el valor del
estadstico de prueba F se resumen en la
siguiente tabla ANOVA ( se analiza la
variabilidad)
La regla decisin es rechazar Ho si F > ,,1 donde:

:
:
1:
Coeficiente de determinacin mltiple

El coeficiente de determinacin mltiple, denotado por 2 , es un estadstico que


mide la proporcin de variabilidad en el valor esperado de Y cuando se presentan
variaciones en todas las variables regresoras y se define como:

2 =

2

2 =
2
= +
=
= 2 + = 2
Por lo tanto,
+
2 = =1 = 1
2
Coeficiente de determinacin mltiple

El valor de 2 aumenta cuando el nmero de variables regresoras aumenta,


independiente de la contribucin unitaria de la variable regresora que se incluya en el
modelo.
Por lo anterior, se define entonces el coeficiente de determinacin ajustado ( o
corregido), denotado 2 , el cual penaliza la adicin de variables regresoras que no
son tiles al modelo. El trmino ajustado indica corregido por los grados de libertad
asociados con las sumas de los cuadrados medios debido a los errores. Se expresa
como:
( 1)
2 = 1
( 1)
Es claro que el R cuadrado ajustado tiene en cuenta el tamao n de la muestra y solo
aumentar al agregar una variable regresora al modelo si esa adicin reduce el
cuadrado medio de los errores.
El coeficiente de determinacin ajustado es entonces ventajoso para evaluar y
comparar los modelos posibles de regresin.
Coeficiente de determinacin mltiple

Propiedades del R cuadrado ajustado:


Se interpreta de igual forma como se hace con 2
2 2 siempre existe esta desigualdad ( 2 = 2 si k=1)
2 puede ser negativo y si as ocurre se toma como cero.
Coeficiente de determinacin mltiple

Relacin entre el estadstico F y 2


A partir del coeficiente de determinacin, el estadstico F se puede reescribir
como:


( 1) 1
= = =

1
2
1
=
1 2
Variables dummy
En econometra a las variables binarias se les puede llamar dummy. Al definir la
variable binaria hay que decidir a qu evento se le asigna el valor de uno y cul el
valor de cero. Por ejemplo, en el estudio para determinar el salario de los individuos,
puede definirse female como una variable binaria que tome el valor de uno para mujer
y el valor cero para hombre. En este caso el nombre de la variable indica el evento que
tiene el valor de uno. Esta misma informacin se capta definiendo male (hombre) igual
a uno si la persona es hombre y cero si la persona es mujer. Si se define adems una
variable binaria married (casado) igual a uno si la persona est casada y cero si no es
as.
Las variables dummys se utilizan para modelar o representar cualidades o categoras.

Y = 0 + 1 X + 2 dummy + i
E Y Y, dummy = 1 = 0 + 1 X + 2
E Y X, dummy = 0 = 0 + 1 X
Modelos cuadrticos

Las funciones cuadrticas se emplean tambin con bastante frecuencia en economa para
captar efectos marginales crecientes o decrecientes.

= 1 + 2 + 3 2 +
Cuando el coeficiente de x es positivo y el de 2 es negativo la cuadrtica tiene forma
parablica.
Si 2 > 0 3 < 0 el punto de inflexin ( o mximo de la funcin) siempre se alcanzar en
el punto correspondiente al coeficiente de x sobre el doble del valor absoluto del
coeficiente de 2 .
Con este modelo se puede estimar el valor ptimo de x.

= 2 + 23 = 0

2
=
23
Modelos cuadrticos

= 1 + 2 + 3 2 +
1
= 2 + 23

1 100
= 2 + 23 100

Por cada ao adicional de educacin el salario promedio estimado aumenta 2 + 3
Ejercicio 2
El peso promedio de un lote experimental de aves de corral y sus niveles de
consumo de alimento acumulado a la semana se presentan a continuacin. Esta
informacin corresponde al periodo de tiempo que cambian de cros a adultos y
estn listos para ser vendidos a los restaurantes.
Peso del pollo en lb Alimento acumulado en lb
Semana
Y X2
1 0,58 1
2 1,10 2
3 1,20 3
4 1,30 4
5 1,95 5
6 2,55 6
7 2,60 7
8 2,90 8
9 3,45 9
10 3,50 10
11 3,60 11
12 4,10 12
13 4,35 13
14 4,40 14
15 4,50 15
Ejercicio 2

2.1 Estime la regresin (1) y determine 2 2


2.2 Encuentre la varianza del error
2

= 2
1
2.3 Encuentre la matriz de covarianza de los estimadores de mnimos cuadrados
ordinarios
. Justifique la seleccin de la funcin cuadrtica.
2.4 En cul semana se alcanza el mximo peso de los pollos?
2.5 Cul es el peso ptimo de venta de los pollos? Tenga en cuenta que el costo
de la libra de alimento es de $6 y el precio de la libra de pollo es de $30.
2.1 Estime la regresin (1) y determine
2 2
. regress y x x2

Source SS df MS Number of obs = 15


F( 2, 12) = 426.73
Model 24.2174638 2 12.1087319 Prob > F = 0.0000
Residual .340509181 12 .028375765 R-squared = 0.9861
Adj R-squared = 0.9838
Total 24.557973 14 1.75414093 Root MSE = .16845

y Coef. Std. Err. t P>|t| [95% Conf. Interval]

x .4213201 .0431534 9.76 0.000 .3272969 .5153433


x2 -.0080535 .0026227 -3.07 0.010 -.0137678 -.0023392
_cons .1005275 .1500451 0.67 0.516 -.2263926 .4274476

.
end of do-file
2.2 Encuentre la varianza del error
2
. anova y c.x c.x2

Number of obs = 15 R-squared = 0.9861


Root MSE = .168451 Adj R-squared = 0.9838

Source Partial SS df MS F Prob > F

Model 24.2174638 2 12.1087319 426.73 0.0000

x 2.70484092 1 2.70484092 95.32 0.0000


x2 .267563774 1 .267563774 9.43 0.0097

Residual .340509181 12 .028375765

Total 24.557973 14 1.75414093


2.3 Encuentre la matriz de covarianza de los
estimadores de mnimos cuadrados ordinarios

. Justifique la seleccin de la funcin


cuadrtica.
. vce

Covariance matrix of coefficients of anova model

e(V) x x2 _cons

x .00186222
x2 -.00011005 6.878e-06
_cons -.00579988 .00031182 .02251352

.
end of do-file
2.4 En cul semana se alcanza el mximo
peso de los pollos?
. summarize y

Variable Obs Mean Std. Dev. Min Max

y 15 2.805333 1.32444 .58 4.5


2.5 Cul es el peso ptimo de venta de los
pollos? Tenga en cuenta que el costo de la libra
de alimento es de $6 y el precio de la libra de
pollo es de $30.
Peso del Alimento
pollo acumula Peso del Peso del
Semana
en lb do en lb pollo alimento UTILIDA
Y X2 X$30/lb X$6/lb D
1 0,58 1 17,4 6 11,4
2 1,1 2 33 12 21
3 1,2 3 36 18 18
4 1,3 4 39 24 15
5 1,95 5 58,5 30 28,5
6 2,55 6 76,5 36 40,5
7 2,6 7 78 42 36
8 2,9 8 87 48 39
9 3,45 9 103,5 54 49,5
10 3,5 10 105 60 45
11 3,6 11 108 66 42
12 4,1 12 123 72 51
13 4,35 13 130,5 78 52,5
14 4,4 14 132 84 48
15 4,5 15 135 90 45
5. Realizar el ejercicio 3.6 del libro Gua Wooldridge (2011) 4a. edicin.

Considere un modelo de regresin mltiple que contiene 3 variables


independientes, bajo los supuestos RLM.1 a RLM.4:

= 0 + 1 1 + 2 2 + 3 3 +

Le interesa calcular la suma de los parmetros de x1 y x2; llame a esto

1 = 1 + 2

i. Muestre que 1 = 1 + 2 es un estimador insesgado de 1


ii. Determine la 1 en trminos de (1 ), (2 ), y de Corr(1, 2 )
Teorema de GAUSS-MARKOV

Dado los supuestos del modelo clsico de regresin lineal, los estimadores de mnimos
cuadrados, dentro de la clase de estimadores lineales insesgados, tienen varianza
mnima, es decir, son los mejores estimadores lineales insesgados (MELI). Es comn
decir, entonces, que los estimadores por mnimos cuadrados son estimadores lineales
insesgados ptimos.
Anlisis de regresin mltiple:
inferencia
Al estudiar la recta de la regin poblacional = 0 + 1 1 + se obtuvieron
estimadores puntuales, mediante el mtodo de mnimos cuadrados ordinarios, de los
parmetros desconocidos 0 y 1 .Adems, bajo el cumplimiento de ciertas hiptesis, los
estimadores de mnimos cuadrados tienen propiedades deseables, en virtud del
teorema de Gauss-Markov. Sin embargo, la estimacin puntual no suele ser suficiente si
se necesita completar el anlisis de datos. Es obvio preguntarse sobre la precisin de los
resultados obtenidos, por ejemplo, qu tan cerca est 1 de 1 ? Tambin es necesario
encontrar qu tan cerca est la observacin de cierto valor hipottico. Por lo anterior,
se considerarn, a continuacin, los problemas de construccin de intervalos de
confianza y contrastes de hiptesis para los parmetros de regresin poblacional.
Pruebas de hiptesis
En todo modelo de regresin se deben probar hiptesis para evaluar la validez estadstica de las relaciones
econmicas tericas. Entre la variedad de pruebas de hiptesis que se pueden efectuar, las pruebas de
dependencia y relevancia son las ms importantes.
Prueba de relevancia: la prueba de relevancia consiste en evaluar estadsticamente qu tan
significativo es un parmetro del modelo, de esta manera puede identificarse si la variable
independiente aporta informacin importante al modelo de regresin, es decir, explica a la variable
dependiente.
Prueba de dependencia: esquema de prueba de hiptesis para el coeficiente de correlacin lineal
cuando el investigador desea evaluar si hay o no dependencia lineal entre un par de variables.
Pasos para realizar la prueba de relevancia:
1. Planteamiento de la hiptesis:
H0 : j = 0
Ha : j 0
2. Definicin del nivel de significancia
3. Clculo del estadstico de prueba. Para la prueba de relevancia en el modelo de regresin, el
estadstico de prueba se define como:
j Normal j , Var j
j j
t= (,1)
sd( j )
Pruebas de hiptesis
4. Regiones de decisin: La siguiente grfica muestra las regiones de rechazo y
aceptacin de la hiptesis nula.

Criterio de decisin y conclusin del investigador: si > (2,1) se rechaza la


hiptesis nula. Se concluye que es estadsticamente relevante al nivel de
significancia. Por otro lado, cuando no sea posible rechazar la hiptesis nula, se puede
decir que no existe evidencia estadstica para afirmar que sea relevante al nivel
de significancia.
Prueba de significancia global:
Esta prueba se lleva a cabo para evaluar si en un modelo de regresin las variables
independientes explican estadsticamente en su conjunto la variable dependiente.
Se desea que en un modelo de regresin exista una alta dependencia ocasionada
por las variables explicativas. Esta prueba de hiptesis como cualquier otra debe
seguir una estructura similar a la prueba de relevancia. Las hiptesis nula y alterna
de la prueba de dependencia son:

0 : 1 = 2 = = = 0
: 1 2 . 0

Una forma rpida de calcular el estadstico de prueba es:

2
= ,,1
1 2 ( 1)

Si > ,,1 se rechaza la hiptesis nula y se concluye que si existe


dependencia entre variable dependiente y una o ms variables explicativas del
modelo de regresin.
Intervalos de confianza
En estadstica es comn efectuar inferencias basadas en estimaciones puntuales y en
intervalos. Estas ltimas son menos riesgosas debido a que se encuentran dentro de un
rango con cierto margen de confiabilidad. En particular, pueden construirse intervalos de
confianza para los parmetros del modelo de regresin as como para las predicciones.

Si por ejemplo = 0.05, la interpretacin del intervalo de confianza para es: dado un
nivel de confianza del 95% (en 95 de cada 100 casos), el intervalo:
j j
Donde la constante c es el percentil
j ,1
j , j + ,1 j
2 2

Contendr el verdadero valor (parmetro poblacional) j .

Donde j es el estimador de MCO de y j la desviacin estndar del estimador. 2 =


0.025 En este caso.
Prueba de hiptesis sobre un solo
parmetro poblacional: la prueba t
j j
t= t nk1 = t df

sej
Donde k+1 es la cantidad de parmetros desconocidos en el modelo poblacional
Y = 0 + 1 X1 + 2 X 2 + . . +k X k + u
(k parmetros de pendiente y el intercepto 0 ) y n-k-1 son los grados de libertad
(df)
Si la H0 : j = 0
El estadstico que se emplea para probar la H0 contra cualquier alternativa se
llama el estadstico t o el coeficiente t de j y se define como:
j
t= t (nk1) = t df Normal(0,1)
ee( j )
El estadstico t correspondiente j es fcil de calcular dados j y su error
estndar. En realidad, la mayora de los paquetes para regresin realiza esta
divisin y dan el estadstico t junto con cada coeficiente y su error estndar.
Pruebas contra alternativas de una cola
Para determinar una regla para rechazar H0 , hay que decidir sobre la hiptesis
alternativa relevante.
: > 0
Grfica de distribucin
Pruebas contra T; df=522

alternativas de una cola


0,4

0,3

Considere una alternativo de una cola

Densidad
de la forma: 0,2

0 : 3 = 0
: 3 > 0 0,1

0.0041 0,05
t= = 2.41 0,0
0.0017 0
X
1,648

df=526-3-1=522 y = 0.05
La regla de rechazo es que al nivel de
significancia de 5% se rechaza 0 a
favor de 1 si
j >

De acuerdo con la eleccin del valor


crtico c, el rechazo de 0 ocurrir en
5% de todas las muestras aleatorias
cuando 0 sea verdadera.
Grfica de distribucin
Pruebas contra T; df=522

alternativas de una cola


0,4

0,3

Considere una alternativo de una cola

Densidad
de la forma: 0,2

0 : 3 = 0
: 3 > 0 0,1

0.0041 0,05
t= = 2.41 0,0
0 1,648
0.0017 X

df=526-3-1=522 y = 0.05 c=1.645


De esta manera 3 o exper es
estadsticamente significativo al 5%
Pruebas contra alternativas de
una cola
La alternativa de una cola de que el
Grfica de distribucin
T; df=408 parmetro sea menor que cero,
0,4
1 : 1 < 0,
0,3
Ahora el valor crtico se encuentra a la
izquierda de la distribucin t.
Densidad

0,2
j <
0,1
Por ejemplo, si el nivel de significancia es
0,05
5% y los grados de libertad son n-k-1=408-
0,0
-1,649 0
X
3-1=404, entonces c=-1.649 y al nivel de
significancia 5% se rechaza 1 : 1 = 0
En las aplicaciones, es usual probar la hiptesis
nula 0 : = 0 contra la alternativa de dos colas;
es decir,
Alternativa de dos colas 1 : 0
Cuando la alternativa es de dos colas, lo que
interesa es el valor absoluto del estadstico t. La
Grfica de distribucin
T; df=137
regla de rechazo para : = 0 es:
0,4 j >

0,3

En una prueba de dos colas, c se elige de manera


Densidad

0,2 de que el rea en cada cola de distribucin t sea


igual a 2.5%. En otras palabras, c es el percentil
0,1
97.5 en la distribucin t con n-k-1 grados de
libertad.
0,025 0,025
0,0 Cuando se rechaza 0 en favor de 1 : 0 al
-1,977 0 1,977
X nivel de 5% se suele decir que es
estadsticamente significativa, o
estadsticamente distinta de cero, al nivel de
5%. Si no se rechaza 0 se dice que es
estadsticamente no significativa al nivel de 5%.
Otras pruebas de hiptesis acerca de

Aunque : = 0 es a hiptesis ms comn, algunas veces se desea probar se


es igual a alguna otra constante dada. Dos ejemplos usuales son = 1 y = 1.
En general, si la hiptesis nula se establece como
: =
Donde es el valor hipottico de , entonces el estadstico t apropiado es:
j
t= t (nk1) = t df

ee(j )
Como antes, t mide cuntas desviaciones estndar estimadas se alejaba j del
valor hipottico de . Es til escribir el estadstico t general como:
estimacin valor hipottico
t=
error estndar
Este estadstico distribuido como el estadstico 1
Pruebas para restricciones lineales mltiples:
prueba F
Una prueba de restricciones mltiples se le llama prueba de hiptesis mltiple o
prueba de hiptesis conjunta.

La otra alternativa es:

1 = 0

Lo que quiere decir es que 1 , 2 , 3 son diferentes de cero.


Pruebas de hiptesis sobre un
solo parmetro poblacional: la
prueba t

Pruebas contra alternativa de


una cola:
0 : = 0 versus
1 : > 0

=

Pruebas de hiptesis sobre un
solo parmetro poblacional: la
prueba t

Pruebas contra alternativa de


una cola:
0 : = 0
1 : < 0


=

Pruebas de hiptesis sobre un
solo parmetro poblacional: la
prueba t

Alternativa de dos colas:


0 : = 0
1 : 0


=

Pruebas de una sola combinacin
lineal de los parmetros (captulo 4)
Las pruebas de hiptesis anteriores eran para probar hiptesis acerca de un solo
. En las aplicaciones, con frecuencia se tienen que probar hiptesis en las que
interviene ms de un parmetro poblacional.

0 : 1 = 2

1 : 1 < 2

1 2
=
(1 2 )

1 2 = Var 1 + Var 2 2Cov(1 , 2 )


2 2 1 2
1 2 = (1 ) + 2 212
12 =denota una estimacin de Cov(1 , 2 )
Pruebas para restricciones lineales mltiples:
prueba F.

Prueba para restricciones de exclusin:


Se escribe el modelo no restringido que tiene k variables independientes de la manera
siguiente:
= 0 + 1 1 + . . + +
La cantidad de parmetros en el modelo restringido es k+1 se suma 1 por el intercepto.
Suponga que se tienen que probar q restricciones de exclusin: es decir, la hiptesis
nula dice que q de las variables tienen coeficientes iguales a cero.
0 = +1 = 0, . . , = 0
El estadstico F ( o coeficiente F) se define como:


1
Suponga que se ha elegido 5% como nivel de significancia. Sea c el percentil 95 en la
distribucin ,1 . q es la cantidad de restricciones
Usando el archivo MLB1.RAW se estima la ecuacin:
Pruebas para restricciones
lineales mltiples: prueba F.
= 11.19 + 0,0689
+ 0,0126 + 0,00098 + 0,0144
+ 0,0108
n= 353 SSE=183.186 y 2 = 0,6278
La suma de los residuales cuadrados no dice nada
acerca de la veracidad de la Hiptesis nula. Pero el
factor que si dice algo es el aumento de la SSE
cuando se eliminan del modelo las variables bavg,
hrunsyr, rbisyr.
Recuerde que, como las estimaciones de MCO se
eligen de manera que se minimice la suma de los
residuos cuadrados, siempre que se eliminen
variables del modelo, la SRC aumenta; esto es un
hecho algebraico. La pregunta es que este aumento
es suficientemente grande, en relacin con la SRC
del modelo que tiene todas las variables, como para
que se rechace la Hiptesis nula.
Pruebas para restricciones
El modelo sin las tres variables en cuestin es simplemente:
lineales mltiples: prueba F.
log = 0 + 1 + 2 +
En el contexto de las pruebas de hiptesis, la ecuacin anterior es
el modelo restringido para probar la :
0 : 3 = 0, 4 = 0, 5 = 0
Y el modelo

log
= 0 + 1 + 2 + 3 + 4 + 5 +
Se llama modelo no restringido.
La SRC es mayor en el modelo restringido y la R-cuadrada del
modelo restringido es menor que la R-cuadrada del modelo no
restringido.
Lo que hay que decidir es si el aumento de la SRC, al pasar del
modelo no restringido al modelo restringido ( 183,186 a 198,311)
es suficientemente grande para rechazar la Hiptesis nula. Como
en todas las pruebas, la respuesta depende del nivel de
significancia de la prueba.


= 11.22 + 0,0713 + 0,0202 +

n= 353 SRC=198.311 y 2 = 0,5971


Pruebas para restricciones lineales mltiples:
prueba F.


= 11.19 + 0,0689 + 0,0126 + 0,00098
+ 0,0144 + 0,0108
n= 353 SRC=183.186 y 2 = 0,6278


= 11.22 + 0,0713 + 0,0202 +

n= 353 SRC=198.311 y 2 = 0,5971




1

198.311 183.186 3
= 9,55
183.186 353 5 1
Pruebas para restricciones
lineales mltiples: prueba F.

En el ejemplo con 3 grados de libertad


en el numerador y 347 grados de
libertad en el denominador, el valor
crtico correspondiente al 5% es 2,60 y
el valor crtico correspondiente a 1% es
3,78 y al nivel de 5% si F es mayor a
2,60.
Ahora ya se est en condiciones de
probar la hiptesis con la que se inicio:
una vez controladas years y gamesyr las
variables bavg, hrunsyr no tienen
efectos sobre los sueldos de los
jugadores.
Pruebas para restricciones lineales mltiples:
prueba F.
2
2 0,6278 0,5971 3
2 = = 9,54.
1 1 (1 0,6278) 353 5 1
Que es muy cercano a lo que se obtuvo antes.
Intervalos de confianza
En estadstica es comn efectuar inferencias basadas en estimaciones puntuales y en intervalos.
Estas ltimas son menos riesgosas debido a que se encuentran dentro de un rango con cierto
margen de confiabilidad. En particular, pueden construirse intervalos de confianza para los
parmetros del modelo de regresin as como para las predicciones.

Si por ejemplo = 0.05, la interpretacin del intervalo de confianza para es: dado un nivel de
confianza del 95% (en 95 de cada 100 casos), el intervalo:

2 , + 2

Contendr el verdadero valor (parmetro poblacional) .

Donde es el estimador de MCO de y la desviacin estndar del estimador. 2 = 0.025


En este caso.
Anlisis de regresin mltiple: temas
adicionales (captulo 6)

La interpretacin de los parmetros cuando se tiene un modelo:


= 0 + 1 1 + 2 2
log()
= 2 2
Si se fija 1 , se tiene
Al emplear propiedades algebraicas sencillas de las funciones exponencial y logartmica se
obtiene la variacin porcentual exacta pronosticada para y
% = 100 2 2 1
Donde la multiplicacin por 100 convierte la variacin proporcional en una variacin porcentual.
Cuando 2 = 1,
% = 100 2 1
Ejemplo:

log() = 9.23 .718 log + 0.306
(0.19) (0.066) (0.019)
n=506 2 = 0.514
Si 2 =rooms y 2 = 0.306, %
= 100 0.306 1 = 35.8%
Modelos con funciones cuadrticas

Las funciones cuadrticas se emplean tambin con bastante frecuencia en economa para
captar efectos marginales crecientes o decrecientes.
El caso ms simple, es aquel en el que y depende de un solo factor observado x, pero lo hace
de forma cuadrtica.
= 0 + 1 + 2 2 +
Es importante recordar que 1 no mide la variacin en y respecto a x; no tiene ningn
sentido mantener 2 constante mientras s varia x. Si la ecuacin estimada se expresa como:
= 0 + 1 + 2 2 ,
Entonces se tiene la aproximacin:
1 + 22 , de manera que 1 + 22
Esto indica que la pendiente de la relacin entre x y y dependen del valor de x; la pendiente
estimada es 1 + 22 . Si se sustituye con x=0, se ve que 1 puede interpretarse como la
pendiente aproximada al pasar x=0 a x=1. Despus de eso, el segundo trmino, 22 , debe
ser tomado en cuenta.
Modelos con funciones cuadrticas
Si en la ecuacin estimada 1 > 0 y 2 < 0, el punto de inflexin (o mximo de la funcin)
siempre se alcanzar en el punto correspondiente al coeficiente de x sobre el doble absoluto del
coeficiente de 2
= 1 22
Ejemplo:

= 3.73 + 0.298 0.0061 2



(.35) (0.041) (0.0009)
n=526 2 = 0.093 8

0
0 10 20 30 40 50 60

Al pasar de 10 a 11 aos de experiencia, el aumento predicho en salario es aproximadamente


0.298 2 0.0062 10 (1) = 0.176
= 0.298/(2 0.0061) 24.4
El rendimiento de la experiencia se vuelve cero aproximadamente a los 24.4 aos.
Modelos con trminos de interaccin

Algunas veces es natural que el efecto parcial, la elasticidad o la semielasticidad de la


variable dependiente respecto a una variable explicativa dependa de la magnitud de otra
variable explicativa. Por ejemplo:
= 0 + 1 + 2 + 3 + 4 +
El efecto parcial de bdrms (cantidad de habitaciones sobre precio es):

= 2 + 3

Si 3 > 0, entonces implica que, en casas ms grandes, una habitacin ms produce un
aumento mayor en el precio. En otras palabras, existe un efecto de interaccin entre la
superficie en pies cuadrados y la cantidad de habitaciones.
Anlisis de regresin mltiple con
informacin cualitativa: variables binarias(o
dummy) captulo 7
Los factores cualitativos surgen casi siempre en forma de informacin bivariada: una persona es
mujer o hombre; una persona tiene o no computadora; una empresa ofrece o no determinado
tipo de plan de pensin a sus empleados; en un estado existe o no pena de muerte. En
econometra a las variables binarias se les suele llamar variables binarias o dummy, aunque
este nombre no es especialmente descriptivo.
Al definir una variable binaria hay que decidir a qu evento se le asigna 1 y a cul el valor de
cero.
Por ejemplo en el modelo para determinar el salario por hora:
= 0 + 0 + 1 +
Si female=1 si la persona es mujer y female=0 si la persona es hombre, el parmetro 0 = es la
diferencia del salario por hora entre hombres y mujeres, dada una misma cantidad de
educacin.
Anlisis de regresin mltiple con
informacin cualitativa: variables binarias(o
dummy) captulo 7
Por ejemplo en el modelo para determinar el salario por hora:
= 0 + 0 + 1 +
De esta manera el coeficiente 0 determina si hay discriminacin en contra de las mujeres: si
para un mismo nivel de los dems factores, 0 < 0, las mujeres ganan, en promedio, menos que
los hombres.
Interpretacin de los coeficientes de las variables
explicativas binarias cuando la variable dependiente
es log(y)

En el modelo:
= 0.417 0.297 + 0.080 + 0.029 0.00058 2 + 0.032 0.00059 2
log()
(0.099) (0.036) (0.007) (0.005) (0.00010) (0.007) (0.00023)
n=526 2 = 0.441

El coeficiente de female (mujer) implica que dados los mismos valores de educ, exper y tenure, las mujeres ganan
aproximadamente 100(0.297)=29.7% menos que los hombres. Este resultado se puede mejorar calculando la diferencia
porcentual exacta entre los salarios predichos. Lo que se quiere es la diferencia proporcional entre los salarios de las
mujeres y de los hombres, manteniendo todos los dems factores constantes.
Exponenciando y restando uno se obtiene:
100 1 1 = 100 exp 0.297 1 25.7%
Esta estimacin ms exacta implica que el salario de una mujer es, en promedio, 25.7% inferior al salario comparable de
un hombre.
Interacciones en las que intervienen
variables binarias
As como variables con un significado cuantitativo pueden estar relacionadas en las modelos de
regresin, tambin pueden estarlo las variables binarias.

log() = 0.321 0.110 + 0.213 0.301 +
(0.100) (0.056) (0.055) (0.072)
Este modelo tambin permite obtener la diferencia estimada entre los salarios de los cuatro
grupos.
La combinacin female=0 y married=0 corresponde al grupo de los hombres solteros, que es el
grupo base, ya que esto elimina female, married y .
La ecuacin es slo otra manera de encontrar las diferencias de salario entre las distintas
combinaciones de gnero y estado civil.
Prueba de hiptesis de utilidad del modelo de
regresin simple
Se realiza para contrastar:
0 :el modelo lineal no es significativo
:el modelo lineal es significativo
Se rechaza 0 si (1,2) donde SSR tiene un grado de libertad y SSE tiene n-2 grados
de libertad.

Cuando se rechaza 0 se concluye que hay una cantidad significativas de la variable


dependiente que es explicada por el modelo planteado. Es decir, el modelo es
significativo y a variablidad en la variable independiente ayuda a explicar la variabilidad
en la variable dependiente.

= = 2

Tabla anova (tabla de anlisis de
varianza)
Si no se rechaza la hiptesis nula, es
decir, F est en la regin de
Fuente de la Suma de Grados Cuadrados F aceptacin, se concluye que los datos
variacin los de medios
cuadrado libertad no reflejan suficiente evidencia para
s apoyar el modelo postulado.
REGRESIN SSR k SSR/k SSR/k
Los clculos para encontrar el
F=
S2
ERROR SSE n-k-1 SSE estadstico de prueba = = 2 se

nk1
= MSE = S 2
resumen en la siguiente tabla:
TOTAL SST n-1
Prueba de hiptesis global

Para esta etapa se utiliza e estadstico F con el objeto de determinar si hay una relacin
lineal significativa entre la variable explicada Y y las variables regresoras 1 ,2 ,, . El
contraste de hiptesis es:
0 : 0 = 1 = 2 = . . = = 0
: al menos 0
Rechazar hiptesis nula indica que al menos una de las variables es significativa para el
modelo; en cambio, si no se rechaza, indica que el modelo no es significativo.
Se puede dar que en la prueba individual las variables no sean significativas y en la prueba
global, en cambio, por lo menos una sea significativa. En este caso, el modelo puede
representar problemas de multicolinealidad (relacin que puede existir entre dos o ms
variables).
Tabla ANOVA ( se analiza la variabilidad)

Fuente de Suma de cuadrados Grados Cuadrados F


variacin de medios
libertad
Modelo de = 2 k
regresin = 2

Errores = n-k-1
2 =
residuales 1
TOTAL = 2 n-1
Tabla ANOVA ( se analiza la variabilidad)

La regla decisin es rechazar Ho si F > ,,1 donde:

: nivel de significancia
: grados de libertad del numerador
1:grados de libertad del denominador
Consistencia de un estimador
La propiedad de consistencia quiere decir, que conforme el tamao de la muestra crece, un
estimador converge en probabilidad al valor poblacional correcto. Esto puede escribirse como:
lim =

O lo que es lo mismo:
lim =

Demostracin:
2 1
lim = lim 2 1
=

1

lim = 0 =

La consistencia es un requisito mnimo para un estimador.

You might also like