You are on page 1of 88

Manual de Econometra

Alfonso Novales April 29, 2003 Contents


1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Algunos conceptos estadsticos bsicos . . . . . . . . . . . . . . . . . . 2.1 Medidas de posicin y medidas de dispersin . . . . . . . . . . . . 2.1.1 La media muestral como predictor . . . . . . . . . . . . . . 2.1.2 La desviacin tpica como indicador de volatilidad . . . . . 2.2 Medidas de asociacin . . . . . . . . . . . . . . . . . . . . . . . . 3 Contrastacin de hiptesis estadsticas . . . . . . . . . . . . . . . . . . 3.1 Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . 3.2 Contrates de asociacin . . . . . . . . . . . . . . . . . . . . . . . . 4 Tratamiento de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Ajuste estacional . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Tasas de variacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Estimacin de componentes . . . . . . . . . . . . . . . . . . . . . 5 El modelo lineal simple de regresin . . . . . . . . . . . . . . . . . . . . 5.1 Descripcin del modelo . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Nube de puntos . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Estimacin por mnimos cuadrados (ordinarios) . . . . . . . . . . 5.2.1 Representacin grca de la recta de regresin estimada . 5.3 Propiedades del estimador de mnimos cuadrados ordinarios . . . 5.4 Residuos del modelo. Grcos de residuos . . . . . . . . . . . . . 5.4.1 Estimacin de la varianza del trmino de perturbacin . . 5.5 Cuando los coecientes del modelo de regresin cambian a lo largo de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Cambio estructural en los coecientes del modelo de regresin 5 5 5 5 7 9 9 14 14 15 15 15 15 15 15 15 15 15 15 16 17 17 18

5.5.2 Variacin gradual en los coecientes del modelo . . . . . . 5.6 Algunos modelos de regresin sencillos . . . . . . . . . . . . . . . 5.6.1 El modelo constante . . . . . . . . . . . . . . . . . . . . . 5.6.2 El modelo con variables en desviaciones respecto a la media 5.6.3 El modelo con tendencia determinista lineal y cuadrtica . 5.6.4 Modelos no lineales en las variables . . . . . . . . . . . . . 5.7 Cmo especicar un modelo de regresin? . . . . . . . . . . . . . 5.7.1 Debe incluirse una constante en el modelo de regresin? . 5.7.2 Debemos estimar en valores originales o en logaritmos de las variables? . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.3 Debe estimarse el modelo con variables en niveles o en diferencias? . . . . . . . . . . . . . . . . . . . . . . . . . . 5.7.4 La frecuencia de observacin de las variables . . . . . . . . 6 Contrastes de hiptesis en el modelo de regresin lineal simple . . . . . 6.1 Signicacin estadstica versus precisin . . . . . . . . . . . . . . 6.1.1 Se hace una variable ms o menos signicativa? . . . . . . 6.1.2 Cmo puede discutirse qu variable es ms relevante en una regresin? . . . . . . . . . . . . . . . . . . . . . . . . . 7 Correlacin versus causalidad . . . . . . . . . . . . . . . . . . . . . . . 8 Variables no estacionarias . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 Caractersticas de una variable estacionaria . . . . . . . . . . . . . 8.2 Tendencias deterministas y tendencias estocsticas . . . . . . . . . 8.3 Regresin esprea . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 Regresin esprea bajo tendencias deterministas . . . . . . 8.3.2 Regresin esprea bajo tendencias estocsticas . . . . . . . 8.4 Tratamiento de tendencias deterministas . . . . . . . . . . . . . . 8.5 Ejercicios de simulacin . . . . . . . . . . . . . . . . . . . . . . . 8.6 Tendencias estocsticas y races unitarias . . . . . . . . . . . . . . 8.7 Contrastes de raz unitaria . . . . . . . . . . . . . . . . . . . . . . 8.8 Cointegracin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.1 Contraste de cointegracin . . . . . . . . . . . . . . . . . . 8.8.2 Contraste de hiptesis sobre la relacin de cointegracin estimada por mnimos cuadrados . . . . . . . . . . . . . . . 8.8.3 Correlacin y cointegracin . . . . . . . . . . . . . . . . . 8.8.4 Variables cointegradas: un ejemplo . . . . . . . . . . . . . 8.8.5 El modelo de correccin de error . . . . . . . . . . . . . . . 8.8.6 El contraste de cointegracin de Johansen . . . . . . . . . 2

21 21 21 23 24 25 26 26 27 27 27 30 30 32 32 32 32 32 33 36 38 39 42 44 44 45 45 45 47 47 48 49 51

10 11 12 13 14

15 16

17 18

Aspectos comunes a varias variables temporales: tendencias comunes, volatilidad comn. . . . . . . . . . . . . . . . . . 8.8.8 Qu hacer en presencia de variables con tendencias estocsticas (races unitarias)? . . . . . . . . . . . . . . . . . . . . Matrices de covarianzas no escalares . . . . . . . . . . . . . . . . . . . . 9.1 Deteccin de la autocorrelacin . . . . . . . . . . . . . . . . . . . 9.2 Tratamiento de la autocorrelacin. . . . . . . . . . . . . . . . . . 9.3 El estimador de mnimos cuadrados generalizados . . . . . . . . . 9.4 Deteccin de la heteroscedasticidad . . . . . . . . . . . . . . . . . 9.5 Contraste de igualdad de varianza entre submuestras . . . . . . . 9.6 Tratamiento de la heteroscedasticidad . . . . . . . . . . . . . . . . El modelo de regresin lineal mltiple . . . . . . . . . . . . . . . . . . . 10.1 Estimacin por mnimos cuadrados . . . . . . . . . . . . . . . . . Propiedades del estimador de mnimos cuadrados. . . . . . . . . . . . . Bondad de ajuste del modelo . . . . . . . . . . . . . . . . . . . . . . . . Contrastes de hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . Matrices de covarianzas no escalares . . . . . . . . . . . . . . . . . . . . 14.1 Comparacin de estimadores de la regresin mltiple y la regresin simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.2 Regresin particionada . . . . . . . . . . . . . . . . . . . . . . . . Grado de ajuste del modelo de regresin mltiple . . . . . . . . . . . . 15.1 Coecientes de correlacin parcial y de determinacin parcial . . . Colinealidad entre variables explicativas en un modelo de regresin . . . 16.1 Efectos de la colinealidad entre variables explicativas . . . . . . . 16.2 Deteccin de la colinealidad . . . . . . . . . . . . . . . . . . . . . 16.3 Tratamiento de la colinealidad . . . . . . . . . . . . . . . . . . . . 16.3.1 Regresin ortogonalizada . . . . . . . . . . . . . . . . . . . 16.3.2 Otros tratamientos . . . . . . . . . . . . . . . . . . . . . . Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelos univariantes de series temporales . . . . . . . . . . . . . . . . 18.1 Primeros conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . 18.1.1 Procesos estocsticos . . . . . . . . . . . . . . . . . . . . . 18.1.2 Funciones de autocorrelacin simple y parcial . . . . . . . 18.2 Procesos autoregresivos, AR(p) . . . . . . . . . . . . . . . . . . . 18.2.1 El modelo AR(1) . . . . . . . . . . . . . . . . . . . . . . . 18.2.2 El modelo AR(2) . . . . . . . . . . . . . . . . . . . . . . . 18.3 Procesos de medias mviles, MA(q) . . . . . . . . . . . . . . . . . 3

8.8.7

51 51 54 54 54 54 54 54 54 54 59 60 68 68 74 75 77 77 78 80 81 84 85 85 87 87 88 88 88 88 88 88 88 88

18.4 Procesos mixtos, ARMA(p,q) . . . . . . . . . . . . . . . . . 18.5 Procesos integrados ARIMA(p,d,q) . . . . . . . . . . . . . . 18.6 Prediccin con modelos univariantes . . . . . . . . . . . . . . 18.6.1 Prediccin con modelos AR(p) . . . . . . . . . . . . . 18.6.2 Prediccin con modelos MA(q) . . . . . . . . . . . . 18.6.3 Prediccin con modelos ARMA(p,q) . . . . . . . . . 18.6.4 Prediccin con modelos ARIMA(p,d,q) . . . . . . . . 18.7 Estimacin de modelos univariantes de series temporales . . 18.7.1 Estimacin de modelos autoregresivos . . . . . . . . . 18.7.2 Estimacin de modelos de medias mviles . . . . . . 18.7.3 Estimacin de modelos ARMA(p,q) y ARIMA(p,d,q) 19 El procedimiento de variables instrumentales . . . . . . . . . . . . 19.1 Correlacin entre variables explicativas y trmino de error . 19.2 Errores de medida . . . . . . . . . . . . . . . . . . . . . . . . 20 Modelos dinmicos . . . . . . . . . . . . . . . . . . . . . . . . . . 20.1 Colinealidad entre variables explicativas . . . . . . . . . . . 20.2 Estimacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20.2.1 Perturbacin sin autocorrelacin . . . . . . . . . . . . 20.2.2 Perturbacin con autocorrelacin . . . . . . . . . . . 21 Simultaneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.1 Identicacin . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Estimacin de una ecuacin del sistema . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .

88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88 88

1. Introduccin
Ha sido tradicional dejar muchas decisiones a los mtodos estadsticos. La discusin importante es si el investigador debe plantear su investigacin incorporando sus creencias a priori o, por el contrario, la investigacin ha de ser asptica en ese sentido, no debiendo estar condicionada en ningn aspecto por las creencias iniciales del investigador.

2. Algunos conceptos estadsticos bsicos


2.1. Medidas de posicin y medidas de dispersin Media, media ponderada, mediana, moda, varianza, desviacin tpica. Medidas alternativas de volatilidad. La media, muestral o poblacional, es la constante con respecto a la cual el error cuadrtico medio de la variable aleatoria es menor. Conveniencia de su utilizacin. 2.1.1. La media muestral como predictor La esperanza matemtica de una variable tiene una propiedad de gran importancia: es la constante alrededor de la cual la variable aleatoria experimenta uctuaciones de menor tamao. Anlogamente, dada una determinada muestra, la media muestral es la constante con respecto a la cual la variable experimenta unas menores desviaciones. Es decir, si nos plantemos resolver el probelma, M in F (a) M in E (X a)2
a a

donde la incgnita es la constante a, la solucin es a = . El valor mnimo de la funcin objetivo es: F () = V ar(X). Dada una determinada muestra de tamao n, la solucin al problema, M in F (a)
a n X 1

(Xi a)2

viene dada por a = x. El valor mnimo de la funcin objetivo es: F () = x V ar(X), varianza muestral de X. Quiz sorprendentemente, esta propiedad tiene implicaciones en relacin con la prediccin: un ejercicio de prediccin consiste en anticipar un valor de una 5

variable Xt en un instante futuro t0 , xt0 a partir de observaciones temporales x1 , x2 , ..., xT , T < t0 . Por supuesto que una prediccin no se ver exactamente corroborada por los datos futuros: el dato que se reciba en el instante t0 , xt0 , podr exceder de la previsin xt0 que efectuamos en el instante T , o ser inferior a la misma. Lo que el investigador quiere es que su mtodo de prediccin garantice que el error que espera cometer sea el menor posible. no tendra sentido utilizar un mtodo de prediccin que incumpla esta propiedad, pues equivaldra a creer que existe algn mtodo de prediccin alternativo con una expectativa de error inferior. Ahora bien, como el error de prediccin (denido como la diferencia entre valor realizado y valor anticipado, xt0 xt0 ) que se materialice en t0 puede ser positivo o negativo, es razonable buscar un mtodo de prediccin que minimice la expresin, M in E (xt0 xt0 )2
xt0

(2.1)

Ahora bien, si la variable X tiene una distribucin de probabilidad constante en el tiempo, como ocurrira si estamos considerando una muestra aleatoria simple, y en ausencia de tendencias, cambios estructurales en media, etc., la propiedad anterior nos sugiere que el mejor procedimiento de prediccin ser, xt0 = x Por tanto, si hemos de predecir un valor futuro de una variable aleatoria, sin disponer de datos de la misma, su esperanza matemtica, si es conocida, minimiza el Error Cuadrtico Medio entre todas las predicciones posibles. Si conocemos nicamente la media muestral, pero no disponemos de los datos individuales, dicha media muestral tiene una propiedad anloga a la que acabamos de enunciar. Tan importante es esta propiedad que la media muestral debe utilizarse como referencia con respecto a la cual tratar de obtener una prediccin mejor. Cuando decimos que una variable es impredecible, no nos referimos a que su prediccin es cero, o que no puede obtenerse, sino a que propondremos como prediccin su media muestral, sin hacer ningn clculo adicional. Lo importante es observar que, si se conoce la esperanza matemtica de la variable, o se dispone de una media muestral, stas son predicciones sencillas de obtener, y aceptables, al menos en ausencia de informacin adicional. Como matiz puede aadirse que, si el criterio a minimizar cuando se calcula una prediccin no es el ECM como en (2.1) , sino el Arror Absoluto Medio de la prediccin, 6

M in E | xt0 xt0 |
xt0

(2.2)

entonces la prediccin debe ser la Mediana poblacional, o la mediana muestral, si se dispone de dicha informacin, xt0 = M ediana(x). Hay que resaltar, sin embargo, que, con ms informacin que simplemente la media muestral, el investigador puede aspirar a obtener una prediccin mejor que la proprcionada por la media muestral; para ello, deber sustituir el promedio muestral por la esperanza condicional ET xt0 . Si por ejemplo, el investigador cree que la variable que pretende predecir obedece una estructura AR(1), entonces la prediccin que minimiza el Error Cuadrtico Condicional Medio vendr dada por ET xt0 = (t0 T ) xT , como vimos al examinar este tipo de procesos. La varianza condicional no es nunca superior a la varianza incondicional y es, en la mayora de los casos, muy inferior. La media muestral minimiza la varianza incondicional, mientras que ET xt0 minimiza la varianza condicional, alcanzando un resultado menor de este criterio y, por tanto, preferible. El modo en que puede utilizarse la informacin muestral detallada disponible para obtener el valor numrico dela varianza condicional ET xt0 es el objeto de XXX. 2.1.2. La desviacin tpica como indicador de volatilidad Ha sido tradicional en el anlisis de datos econmicos utilizar la desviacin tpica como medida de volatilidad de una variable. Esto es especialmente cierto en el analisis de datos nancieros, donde, aunque recientemente se han introducido otras medidas de volatilidad, el uso de la desviacin tpica es todava habitual. Esta prctica se deriva de la interpretacin directa de la desviacin tpica,como la desviacin promedio entre los valores que toma una determinada variable aleatoria, y su valor medio. Sin embargo, existen mltiples situaciones en las que tal caracterizacin de la volatilidad puede proporcionar una imagen engaosa de lo que el investigader pretende medir. Tomamos como punto de partida la idea de que, al medir volatilidad, el investigador pretende cuanticar el tamao medio de las uctuaciones que experimenta una determinada variable aleatoria. La simple lectura de esta armacin debera sugerir al lector que, como posible denicin de volatilidad, resulta fundamentalmente incompleta. Las uctucaioens que experimenta una variable aleatoria no pueden estudiarse si no se dene previamente el valor que sirve de referencia respecto al cual medir dichas uctuaciones. 7

En una primera lectura, podra pensarse que es evidente que la pretensin es la de cuanticar las uctuaciones que experimenta una variable aleatoria respecto a su nivel medio. Esta es la idea que subyace al uso de la desviacin tpica como medida de volatilidad; sin embargo, es fcil ver que existen situaciones en que dicha utilizacin no est totalmente justicada: Cambio estructural en media: supongamos una variable X que es constante a lo largo de cada una de las dos submuestras enque podemos dividir el perodo muestral. Es decir, X=1 en la primera parte de la muestra, y X=2 en la segunda parte de la muestra. En muchos sentidos, podramos decir que esta variable es constante, y ha experimenatdo una volatilidad nula a lo largo del intervalo muestral, si bien es verdad que en el instante t0 se produjo un cambio estructural, de carcter permanente, en el nivel medio de la variable. Si no se tiene en cuenta dicho cambio en la media, la varianza de X resulta ser no nula, mientras que si tenemos en cuenta el cambio en media, la varianza que calculemos ser cero. Presencia de una tendencia determinista: supongamos una variable X que crece a una tasa media de , a la vez que experimenta uctuaciones alrededor de dicha tasa media de crecimiento. En este caso, la varianza muestral de la variables, as como su desviacin tpica, sern importantes, y tanto ms elevadas cuanto mayor sea la tendencia o tasa de crecimiento . Esta situacin es muy frecuente en Economa en general y en Finanzas en particular, y se utiliza la desviacin tpica como indicador de volatilidad. Hay dos dicultades que suelen ignorarse: una, que, en presencia de endencia, carecemos de valor central de referencia. En presencia de una tendencia o crecimiento constante , el valor medio tender a ser el valor que tom la variable hacia el perodo central de la muestra, pero no es representativo de los valores muestrales de la variable: la primera parte de la muestra tender a estar por debajo de la media, estando la segunda parte de la muestra por encima de la media muestral; en tal situacin la media muestral no es un valor representativo de la variable y, en consecuencia, no tiene mucho sentido calcular el tamao de las uctuaciones alrededor de dicha media. En este contexto, el tamao medio de las uctuaciones alrededor de la media ser, en realidad, un indicativo de la magnitud de , la tasa media de crecimiento o tendencia determinista. Este es un caso donde debemos distinguir entre corto y largo plazo: a largo plazo, el uso de la desviacin tpica podra estar justicado, si entendemos que la 8

tendencia media de crecimiento ser eventualmente sustituida por un descenso en la variable, y la sucesin de un ciclo u oscilacin de perodo amplio, que terminara justicando el clculo de un valor central de referencia. La volatilidad a corto plazo ser el tamao medio de las uctuaciones alrededor de la tendencia determinista. Por tanto, tendra plena justicacin extraer de la variable el crecimiento tendencial, que haba que estimar previamente, y calcular el tamao medio de las uctuaciones que experimente el componente que resulta tras la extraccin de la tendencia determinista. Una vez ms, no se trata de discutir cul es el modo correcto de proceder; ms bien, hay que entender que estamos hablando de estimar caractersticas diferentes y, alguna de ellas puede no estar estadsticamente justicada. De acuerdo con la discusin anterior, medir la volatilidad mediante la desviacin tpica de una variable con tendencia determinista, tiene poca justicacin. Esto es especialmente cierto en el anlisis nanciero: en un perodo en que el precio de un activo experimente un slido crecimiento, su avrianza muestral resultar relativamente alta, por lo que podra concluirse que ofrece un riesgo importante; en consecuencia, a pesar de su sostenida rentabilidad (variacin porcentual en precio), un inversor podra decidir no incorporarlo en su cartera; este anlisis sera incorrecto. 2.2. Medidas de asociacin Coeciente de correlacin. Coeciente de correlacin parcial.

3. Contrastacin de hiptesis estadsticas


Uno de los procedimientos bsicos dela inferencia estadstica es la contrastacin de hiptesis, mediante el cual el investigador pretende conocer el grado en que la informacin muestral de que dispone es compatible con una determinada hiptesis. La hiptesis quee contrasta, denominada hiptesis nula, hace referencia a una determinada caracterstica de la distribucin de probabilidad de la que procede la informacin muestral disponible. As, la hiptesis nula, denotada como H0 , puede ser del tipo: H0 : La poblacin de la que se extrajo la muestra es Normal o referirse a valores numricos para algn parmetro de dicha distribucin de probabilidad poblacional, como H0 : La esperanza matemtica poblacional es igual a 10: H0 : = 10, La varianza poblacional es igual a 25: H0 : 2 = 25, ambas propiedades a la vez: H0 : = 10, 2 = 25. Generalmente, los contrastes anteriores se realizan bajo el supuesto de que el carcter de la distribucin de 9

probabilidad poblacional es conocido, por ejemplo, Normal. Este tipo de contrastes son contrastes paramtricos, puesto que se basan en la estimacin de algunos parmetros de la distribucin de probabilidad poblacional. El investigador no debe olvidar nunca que las propiedades de estos contrastes dependen de que sea correcta la hiptesis que se haya establecido acerca del tipo de distribucin poblacional de la que se extrajo la muestra disponible, as como del carcter de dicha muestra (muestra aleatoria simple). Un contraste que tiene muy buenas propiedades XXXX Existen contrastes no paramtricos, que no precisan de la estimacin de parmetros poblaiconales, ni descansan en ningn supuesto acerca de la distribucin de probabilidad poblacional, que son de un enorme inters en el anlisis de datos econmicos, a pesar de ser poco habituales. Son contrastes cuyas propiedades son muy robustas (es decir, continan siendo vlidas total o aproximadamente) con independencia del tipo de distribucin poblacional. Una segunda razn que conere enorme inters a los contrates no paramtricos es que nos permiten discernir el grado en que son vlidas hiptesis que no pueden representarse en trmios de valores numricos para los parmetros de la distribucin de probabilidad poblaiconal. As, en el primero de los ejemplos mantes mencionados, queremos contrastar la hiptesis de que la poblacin de la que se extrajo la muestra sigue una distribucin Normal. Por supuesto, que tambin podra contrastarse la hiptesis nula de que obedecve una distribucin t de Student, o chi-cuadrao, o cualquier otra. Asimismo, podemos contrastar la hiptesis de que dos muestra proceden de igual distribucin de probabilidad, sin necesidad de especcar de qu tipo es ninguna de ellas. Un tipo de contraste de gran inters para las cuestiones examinadas en el trabajo especco economtrico estriba en el grado de asociacin entre variables. Precisamente la Econometra consiste en el cnojunto de mtodos estadsticos que permiten asignar valores numricos a los coecientes de un modelo que trata de representar la relacin existente entre un conjunto de variables econmicas. Es, por tanto, un anlisis de tipo paramtrico; una vez asigndaos valores numricos a los parmetros del modelo, generalmente se llevarn a cabo contrastes paramtricos de hiptesis, utilizando los valores numricos estimados. Existen, asimismo, contrates no paramtricos que, sin necesidad de pasar por una fase de estimacin, permiten discutir si la evidencia muestral es consistente con la hiptesis de que dos variables determinadas estn relacionadas entre s. Es tan fcil llevar a cabo este tipo de contrastes que deberan formar parte, como paso previo a la estimacin de todo modelo econmtrico. No sera razonable que las conclusiones de tales 10

contrastes dictaminen la relacin de variables que deben incluirse en un modelo economtrico, pero es sumamente iliustrativo compementar la informacin proporcionada por ambos tipos de contrastes. En denitivia, como proponamos en la Introduccin a este texto, precisamente por su naturaleza probabilstica, los mtodos estadsticos no deben utilizarse de manera dogmtica. En denitiva, se trata de examinar la cuestin que est siendo objeto de anlisis en un determinado estudio, a la luz de la informacin muestral disponible, desde diversas pticas, con el objeto de proporcionar distintos tipos de evidencia. Por supuesto que en la generalidad de los casos, esas distintas perspectivas no sern todas consistentes entre s. Debe esperarse del investigador que proporcione toda la informcaion generada en relacin con la cuestin que dena la investigacin, para que cada lector pueda extraer sus propias conclusiones. En un contexto probabilstico no existen las verdades absolutas, y un detemrinado anlisis puede conducir a conclusiones diferentes. En un contraste paramtrico se establece, como confrontacin a la hiptesis nula, una hiptesis alternativa. La forma que adopte dicha hiptesis no es irrelevante en cuanto a la resolucin del contraste de hiptesis. Como ejemplo, tomando como un hecho cierto que la distribucin de probabilidad poblacional es Normal, y qeu la varianza de dicha distribucin es conocida, un investigador puede desear contrastar la hiptesis nula H0 : = 10, frente a la hiptesis alternativa H1 : 6= 10. En este caso, la hiptesis nula es simple, por cuanto que incluye un nico valor posible para la esperanza matemtica poblaiconal, mientras que la hiptesis alternativa es compuesta, por cuanto que incluye todo un rango de valores, todos los distintos del incluido en la hiptesis nula. Este contraste tiene, por tanto, otra caracterstica, y es que el conjunto de valores incluidos en ambas hiptesis cubre todo el espacio paramtrico. Un contraste diferente, con la misma hiptesis nula, sera aqul que considerase como hiptesis alternativa, 0 H1 : < 10. Esta es la hiptesis que debera especicar un investigador que sabe que, dada la naturaleza del problema con el que trata, existen razones tericas para creer que el valor numrico de no puede exceder de 10. Cuando se dispone de dicha informacin, el ltimo contraste descrito, que restringe el rango de valores numricos en la hiptesis alternativa jando 10 como cota superior, tiene mejores propiedades que el primero de los contrastes, que no estableca tal relacin. En la mayora de las aplicaciones econmicas, se dispone de informacin de este tipo, por lo que el investigador debe especicar cuidadosamente no slo la hiptesis nual que contrasta, sino tambin la hiptesis que considera como alternativa, de modo que su contraste de hiptesis tenga las mejores propiedades posibles. 11

Lamentablememnte, este hecho no suele tenerse en cuenta, establecindose con demaisad frecuencia hiptesis del tipo H1 : 6= 10. No slo el contraste se re0 suelve de distinta manera, segn sea sta o H1 la hiptesis alternativa; adems, cmoo hemos mencionado, las propiedades del contraste son distintas, y mejoran si introducimos en la denicin del mismo, informacin procedente del modelo terico que sea, por tanto, incuestionable. En un contraste de hiptesis, se rechaza la hiptesis nula cuando la informacin muestral es: i) signicativamente contraria a la hiptesis nula, ii) a la vez que es favorable a la hiptesis alternativa. Este principio, absolutamente bsico en la teora estadstica de contrastacin de hiptesis, tambin suele ignorarse con demasiada frecuencia. Por ejemplo, uno de las actuaciones incorrectas en el anlisis estadstico de datos econmicos, que se produce con cierta frecuencia, se reere a ocasiones en que la informacin muestral es contraria al rango de valores numricos contenidos en la hiptesis nula, pero an ms contraria al rango considerado bajo la hiptesis alternativa. Este sera el caso 0 si al confrontar H0 frente a H1 obtenemos que la media muestral, un estadstico muestral que es estimador eciente de la esperanza matemtica, resulta ser igual a 22, por ejemplo. Otro ejemplo (crecimiento monetario e inacin) En tal caso, los mtodos estadsticos de contrastacin de hiptesis conducirn a no rechazar la hiptesis nula, a pesar de que la informacin muestral es contraria a la misma. Cuando esto sucede, es muy frecuente comprobar que el investigador concluye que su hiptesis nula es vlida (con ste u otro calicativo de simialres connotaciones). Sin embargo, estamos en una situacin donda informacin muestral es contraria a dicha hiptesis nula; lo que el investigador debera hacer en este caso es reconocer este hecho, cuestionar la validez de su hiptesis nula, pero cuestionar asimismo el razonamiento que le llev a establecer la hiptesis alternativa de su contraste, pues la informacin muestral ha sido an ms contraria a la misma. En cuanto a la resolucin de los contrastes paramtricos de hiptesis, es preciso llevar a cabo previamente un ejercicio de estimacin que proporcione una estimacin numrica (x1 , x2 , ..., xn ) a partir del clculo del valor numrico que toma un determinado estimador del parmetro o vector de parmetros me diante el que se dene la hiptesis nula. Recordemos que un estimador es una funcin de la informacin muestral; evidentemente, no todas las funciones de la informacin muestral, es decir, todos los estimadores posibles, tienen buenas propiedades estadsticas. Para llevar a cabo el contraste de hiptesis es preciso 12

que la distribucin de probabilidad del estadstico (x1 , x2 , ..., xn ) dependa del parmetro o parmetros incluidos en la hiptesis nula. Por ejemplo,.... A su vez, el contraste de hiptesis tendr buenas propiedades si: i) ambas hiptesis estn correctamente establecidas, ii) los supuestos sobre los que se condiciona el contraste, que pueden referirse al tipo de distribucin poblacional, as como al valor numrico de alunos parmetros que no aparecen explcitamente en el contraste, sean correctos, iii) el estadstico utilizado en la resolucin del contraste tenga buenas propiedades estadsticas. Cuando la hiptesis nula es simple, es decir, incluye un nico valor numrico, 0 y la hiptesis alternativa es del tipo H1 , la resolucin del contraste se lleva a cabo mediante la construccin de un intervalo de conanza alrededor del valor numrico del estimador, utilizando la distribucin de probabilidad del mismo. As, llegamos a una armacin del tipo, h i (X) , b =P ag (3.1) donde , un nmero positivo prximo a 1, es el nivel de conanza del contraste. El contraste se resuelve despejando el valor terico del parmetro desconocido dentro de la expresin anterior, para obtener una igualdad del tipo, h i = P h1 ( (X)) f () h2 ( (X)) (3.2)

donde h1 ( (X)), h2 ( (X)) son nmeros reales que dependen de: i) el valor numrico del estimador (x1 , x2 , ..., xn ) en la muestra disponible, ii) el supuesto acerca de la distribucin poblacional, iii) el nivel de conanza (o el nivel de signifcacin) escogidos para el contraste. En esta expresin, dada una determinada muestra, el valor numrico del estimador (X) es conocido, por lo que puede comprobarse si se satisfacen o no las desigualdades, h1 ( (X)) f 0 h2 ( (X)) (3.3)

donde hemos sustituido el valor desconocido de por el valor numrico incluido en la hiptesis nula, 0 . S Bajo el supuesto que se ha hecho acerca de la distribucin de probabilidad poblacional, y de los valores numricos de los parmetros que se han supuesto conocidos (si haya alguno), la probabilidad de que el valor numrico de la funcin f () caiga fuera del intervalo (3.3) es de 1- y, por tanto, pequea. Es decir, 13

ste sera un suceso poco probable; si para = 0 , la funcin f () incumple las cotas denidas en (3.3) diremos que dicho valor del parmetro es poco verosmil, rechazando, en consecuencia, la hiptesis nula. A modo de ejemplo, recordemos cmo se lleva a cabo un contraste de hiptresis acerca del valor numrico de la esperanza matemtica de una poblacin Normal cuya varianza se supone conocida. El punto de partida es la propiedad de la media muestral de tal poblacin, que sigue una distribucin asimismo Normal, con la misma esperanza matemtica que la poblacin, y con una varianza igual a la varianza poblacional dividida por el tamao muestral. As, si la poblacin es X N (, 25), la media muestral es una variable aleatoria con distribucin x N (, 25 ). Por tanto, si se trabaja a un nivel del conanza del 95%, por n ejemplo, tendremos, x 0, 95 = P 1, 96 1, 96 5/ n
x donde hemos utilizado el hecho de que x N (0, 25 ) y N(0, 1). n 25/n

Esta igualdad es la correspondiente a (3.1) , donde el parmetro poblacional sobre el que se establece el contraste es la esperanza matemtica, = ; el estimador (x1 , x2 , ..., xn ) = x = 1 Pn xi es la media muestral, = 0, 95, y a = 1, 96; b = n i=1 1, 96. De esta igualdad, obtenemos, 5 5 5 5 0, 95 = P 1, 96 x 1, 96 x = P x 1, 96 x + 1, 96 n n n n
5 que es una igualdad anloga a (3.2) , con h1 () = x 1, 96 n , h2 () = x + x x 5 1, 96 n , f () = . En denitiva, nos queda comprobar si cuando se introduce en esta ltima igualdad el valor de que dene la hiptesis nula, la cadena de desigualdades se satisface o no. Supongamos que en la muestra disponible, de tamao 400, se ha calculado para la variable X una media muestral x = 7, 5;en consecuencia, el intervalo anterior es: 0, 95 = P [7, 0 8, 0] .

3.1. Contrastes de Normalidad 3.2. Contrates de asociacin Antes de proceder a la estimacin de un modelo especco que establezca una relacin paramtrica entre dos variables, conviene explorar la posible existencia 14

de una relacin entre ellas por los procedimientos estadsticos disponibles. Uno de ellos son los contrastes no paramtricos. Como ya hemos comentado anteriormente, una de las virtudes de este tipo de anlisis es que su validez y, en particular, los umbrales crticos que debe sobrepasar el estadstico que dene el contraste, no dependen de ningn supuesto acerca de la distribucin de probabilidad seguida por las variables cuya relacin se trata de caracterizar. Frente a otros procedimientos que forman el ncleo tradicional de la Econometra, esto es una ventaja pues, en el caso de los ltimos, la Normalidad de la variable cuyo comportamiento se pretende explicar es clave. Como, adems, el supuesto de Normalidad acerca de la distribucin de probabilidad de una variable econmica es mucha veces rechazado, resulta que las buenas propiedades de las estimaciones de un modelo economtrico quedan muchas veces en cuestin. Por eso es conveniente su uso en combinacin con otro tipo de procedimientos estadsticos, especialmente si sus propiedades no precisan tal hiptesis.

4. Tratamiento de datos
4.1. Ajuste estacional 4.2. Tasas de variacin 4.3. Estimacin de componentes

5. El modelo lineal simple de regresin


5.1. Descripcin del modelo 5.1.1. Nube de puntos 5.2. Estimacin por mnimos cuadrados (ordinarios) 5.2.1. Representacin grca de la recta de regresin estimada 5.3. Propiedades del estimador de mnimos cuadrados ordinarios Generalmente, estamos muy interesados en contratar hiptesis de distinto tipo: a) si una variable explicativa contiene informacin signicativa acerca de la variable dependiente, b) si el coeciente de imapacto de una determinada variable es igual a 1, c) si dos variables explicativas tienen el mismo coeciente, etc... Sin embargo, aunque los coecientes del modelo de regresin son constantes, si bien desconocidas, sus estimaciones, por cualquier procedimiento que podamos 15

utilizar, son aleatorias, pues son funcin de la muestra que utilicemos, que es aleatoria. Si el modelo que estamos estimando es correcto, como hemos de suponer, la perturbacin aleatoria del mismo, ut , otorga naturaleza asimismo aleatoria a la variable dependiente, yt . Esto signica que si cambiamos por ejemplo el perodo muestral que utilizamos en la estimacin, la realizacin de dicha perturbacin, es decir, sus valores numricos, sern diferentes, con lo que las observaciones de yt tambin los ern, y la estimacin de los parmetros diferir de la obtenida con otro perodo muestral. Asimismo, si cambiamos la frecuencia de observacin de los datos, de diaria a mensual, por ejemplo tomando el ltimo dato de cada mes, la muestra cambia, y con ella, las estiamciones de los coecientes de las variables explicativas en el modelo. Siendo variables aleatorias, nos interesa que los estimadores tengan ciertas propiedades deseables, lo cual depender del procedimiento de estimacin utilizado, y de lasc aractersticas del modelo que estamos estimando. Las principales propiedades en que podemos estar interesados son: insesgo, eciencia y consistencia. El insesgo consiste en que la esperanza matemtica del estimador coincida con el verdadero valor numrico del coeciente que estamos estimando. Un estimador eciente es un estimador de mnima varianza. El procedimiento de mnimos cuadrados proporciona el estimador lineal de mnima varianza, si bien pueden existir otros estimadores no lineales de varianza todava menor. Un estimador es consistente si, al aumentar el tamao muestral, converge en probabilidad al verdadero valor del parmetro desconocido que se est estimando. Se dice entonces que su lmite en probabilidad es dicho parmetro. Bien podra ocurrir que el estimador fuese sesgado en muestra pequeas, pero si es consistente, dicho sesgo ir reducindose si ampliamos el tamao muestral. El estimador de mnimos cuadrados no es siempre consistente. El estimador de mxima verosimilitud lo es, pero siempre que la hiptesis acerca de la distribucin de probabilidad en que se basa, sea correcta, sobre lo que no se puede tener seguridad. 5.4. Residuos del modelo. Grcos de residuos Los residuos del modelo, a veces denominados los errores del modelo de regresin, son aqul componente de la variable dependiente que no est explicado por los valores que toma la variable independiente o explicativa. En consecuencia, los residuos ut se calculan a partir de la expresin, yt = 0 + 1 xt + ut 16

de la que se obtiene, ut = yt 0 1 xt en el caso de datos de serie temporal, y ui = yi 0 1 xi en el caso de datos de seccin cruzada. Grcamente, si volvemos a la nube de puntos que representa la posible relacin entre x e y, y dibujamos sobre ella la recta de regresi n, el residuo no es sino la distancia vertical entre la altura (ordenada) de cada punto de la nube, y la altura que le correspondera de acuerdo con la recta de regresin estimada. Dicha altura debe tomarse con signo, de modo que el residuo es positivo cuando el punto de la nube est por encima de la recta de regresin estimada, y negativo cuando el punto queda por debajo de la recta de regresin estimada. 5.4.1. Estimacin de la varianza del trmino de perturbacin 5.5. Cuando los coecientes del modelo de regresin cambian a lo largo de la muestra Supongamos que se dispne de datos de serie temporal, y que el cociente que mide la relacin entre las variables x e y, es decir, la pendiente del modelo, ha variado a lo largo del tiempo. Es claro que un procedimiento de estimacin como mnimos cuadrados nos proporcina un nico valor numrico de dicho coeciente y, por tanto, cobra pleno inters nicamente bajo el supuesto de que dicho valor nmrico ha permanecido constante a lo largo del perodo muestral. Sin embargo, en la mayora de las aplicaciones econmicas que pueden considerarse, tal supuesto parece demasiado restrictivo pues, ms bien, el valor numrico de dicha elasticida habr variado a lo largo de la muestra. Qu proporciona en tal caso el mtodo de mnimos cuadrados? Lo primero que debemos entender es que el investigador no observa en ningn caso si el coeciente ha variado en el tiempo o no, dado que no observa el valor numrico de dicho coeciente. Esta es, precisamente, la razn que le mueve a estimar su valor numrico. En muchas situaciones, sin embargo, el investigador puede tener fundadas creencias acerca de que se han producido variaciones en el mismo. Por ejemplo, muchas veces se arma que la capacidad de la poltica monetaria para controlar la inacin se ha reducido signicativamente recientemente; tal armacin se debe 17

a la observacin, en datos reales, de que una fuerte expansin monetaria sola venir acompaada de un claro repunte inacionista, mientras que, ms recientemente, un robusto cecimeinto monetario puede ser compatible con una inacin contenida. En una situacin de tal tipo, un procedimiento de estimacin como MCO proporciona como valor numrico del parmetro un promedio de los valores numricos que ha tomado durante el intervalo de tiempo correspondinte a la muestra de datos disponible. Por tanto, resulta de suma importancia el modo en que el coeciente ha variado en el tiempo, como vamos a ver en los ejercicios de simulacin siguientes. 5.5.1. Cambio estructural en los coecientes del modelo de regresin Supongamos que el coeciente ha sido constante enla primera mitad de la muestra e igual a 0,5, mientars que en la segunda mitad de la muestra ha sido asimismo constante, e igual a 1,5. El estimador de mnimos cuadrados proporcionara en tonces una estimacin en torno a 1,0. En realidad, 1 = 1, 0 no es representativo de lo que ha ocurrido en ningn momento de la muestra, como ilustra el grco XX. Este tipo de situaciones puede conducir a impresiones engaosas, como ocurrira si en una parte de la muestra la pendiente ha sido positiva, invirtindose el signo de la relacin entre x e y en la segunda mitad de la muestra. Si en ambas partes el valor numrico de la pendiente ha sido el mismo, cambiando nicamente su signo, la estimacin resultante ser prxima a 1 = 0, 0, sugiriendo la ausencia de relacin entre ambas variables. Tal conclusin ser bastante errnea, pues habra existido una relacin, posiblemente bastante exacta entre x e y a lo largo de toda la muestra, pero el signo de la misma habra cambiado de la primera a la segunda submuestra, conduciendo a la equvoca estimacin mencionada. Que la estimacin proporcionada por un procedimeitno del tipo de MCO sea un promedio de los verdaderos valores numricos (no observados) de la pendiente, no debe tomarse en el sentido de que es la media aritmetica de dichos valores numricos. Sin embargo, tal intuicin es aproximadamente correcta. As, por ejemplo, si en el primer tercio de la muestra la pendiente hubiese sido 1 = 1, 0, y en las dos terceras partes nales de la muestra la pendiente hubiese sido 1 = 1, 0, la estimacin numrica del parmetro no seria muy diferente de 1 = 0, 33, como correspondera a la media aritmtica de los verdaderos valores, ponderados por el nmero de observaciones a los que aplica cada uno de ellos.

18

Ejercicios de simulacin Ejercicio 1: Simule 300 observaciones de un camino aleatorio N(10,25) como datos muestrales de la variable explicativa x. Utilizando un valor numerico de -1,0 para la pendiente, e ignorando el trmino de preturbacin del modelo, simule los 100 primeros datos para la variable dependiente y. Luego, utilice un valor igual a 1,0 para la pendiente y genere los datos cticios correspondientes a las observaciones 101 a 300 de la variable dependiente. Estime el modelo de regresin simple con dichos datos. Comentario: Al ejecutar el programa XXX, el lector comprobar que la estimacin de la pendiente del modelo se comporta de acuerdo con lo comentado en la seccin previa. Es recomendable ejecutar el programa varias veces, para obtener as un conjunto de estimaciones numricas de dicho parmetro. En ningn caso se obtendr estimaciones prximas al verdadero valor de la pendiente, que es de +1,0 en una parte de la muestra, y de -1,0 en la otra, sino ms bien un promedio, ponderado de acuerdo con el nmero de datos u observaciones en el que la pendiente ha tomado uno u otro valor numrico. El lector puede comprobar que, si aumenta la longitud muestral, las estimaciones que obtiene al ejecutar repetidas veces el programa, se aproximan an ms al promedio que cabra esperar, dado el porcentaje de datos con pendiente igual a +1,0 -1,0. Los estadsticos resultantes de la estimacin presentan toda la apariencia de proceder de un problema estadstico de relacin entre dos variables aleatorias. Sin embargo, es muy importante observar que el problema que acabamos de estimar es, en realidad, puramente determinista. No hay en el mismo ningn componente estocstico o aleatorio pues, no hemos utilizado un lemento de perturbacin. En nuestra simulacin, la relacin entre las variables x e y es, en todos los perdos exacta, no faltando ninguna otra variable, ni estando sujeta a ningn elemento de error impredecible. Es precisamente el hecho de tratar como constante un coeciente del modelo que no lo es, lo que produce la apariencia de ser un problema de naturaleza estocstica. Considerar tal supuesto (errneo, aunque no lo sabamos), es comparable a introducir una perturbacin estocstica en el verdadero modelo, que incorporara la variacin temporal en la pendiente. En dicha estimacin, aparentemente estadstica, obtenemos un R-cuadrado reducido, junto con una pendiente estimada que resulta estadsticamente signicativa, si juzgamos por su estadstico tipo-t. 19

Existe asimismo evidencia de autocorrelacin en los residuos, como sugiere el estadstico Durbin-Watson. La presencia de autocorrelacin es, en principio, sorprendete, pues hemos generado una variable x con estructura de ruido blanco y, por tanto, sin autocorrelacin y la variable y presenta una dependencia exacta y estrictamente contempornea con ella. Por tanto, no hay ni estructuras de autocorrelacin, ni estructuras dinmicas que pudieran producirla. Los indicios de autocorrelacin provienen del cambio estructural que se produce en el valor numrico de la pendiente. En el programa se calculan las funciones de autocorrelacin simple de ambas variables del modelo; mientras que la variable independiente (explicativa) no presenta autocorrelacin, como corresponde a su estructura de ruido blanco que hemos utilizado en su generacin, la funcin de autocorrelacin de la variable dependiente sugiere indicios claros de autocorrelacin. En realidad, esta variable, por construccin, carece de autocorrelacin, lo que sugiere una llamada de atencin al uso indiscriminado de las funciones de autocorrelacin para detectar autocorrelacin serial en una variable o en los residuos de una regresin. El grco XX que representa las observaciones de la variable dependiente junto con los residuos dela regresin muestra la similitud entre ambas variables, loque es, evidentemente, sinnimo de una relacin estimada pobre, a pesar de la signicacin estadstica de la pendiente del modelo. De hecho, puede observarse que la desviacin tpica de los residuos es similar a la desviacin tpica dela variable dependiente, lo que signica, como ya discutimos en la Seccin XX, que el modelo no tiene una capacidad explicativa importante. Nuevamente, es importante apreciar que ello ocurre junto con una valor claramente signicativo del estadstico F (F = T.R2 ) de signicacin conjunta de la regresin estimada. Esta apariencia de validez del modelo, de acuerdo con los estadsticos habituales es, en este caso, falsa, lo que constituye una impoirtante llamada de atencin sobre el uso indiscutido de contrastes de hiptesis.. De modo anlogo, el grco XX, que presenta los valores observados de la variable dependiente, junto con sus valores ajustados, muestra que el ajuste no se adeca en modo alguno al comportamiento de la variable que pretendamos explicar con el modelo, y que ha experiemntado un cambio estructural entre la primera y la segunda submuestras. Por el contrario, precisamente porque hemos impuesto una pendiente constante a lo largo de toda la muestra, los valores ajustados, que utilizan dicho valor constante de la pendiente, dibujan un comportamiento constante, promedio, durante toda la muestra, que no representa adecuadamente ninguna de las dos submuestras. 20

Simule asimismo con perturbacin. Construya un grco de varianza de la perturbacin y varianza de la distribucin de la pendiente estimada para un nmero de observaciones muestrales dado. 5.5.2. Variacin gradual en los coecientes del modelo 5.6. Algunos modelos de regresin sencillos 5.6.1. El modelo constante Como representacin analtica dle comportamiento de una variable, no cabe duda de que el modelo estadstico ms sencillo es, yt = 0 + ut que especica que, excepto por un trmino de perturbacin de naturaleza aleatoria, la variable yt es constante. Con este modelo, el investigador declara la imposibilidad de encontrar ninguna variable que pueda explicar el comportamiento de yt . Puesto que la matriz de datos de la (nica) variable explicativa es en este caso, X = (1, 1, 1, ..., 1) un vector de dimensin T, se tiene X = 1T , y recordando que 10T 1T = T, P y = t=T yt podemos adaptar la expresin general (XX) del estimador de t=1 mnimos cuadrados a este caso particular, teniendo, Pt=T yt 1 0 0 = (10T 1T ) 1T y = t=1 =y (5.1) T de modo que la estimacin de mnimos cuadrados de la constante es la media muestral de lavariable que pretendemos explicar. En consecuencia, el residuo es, en cada perodo, 10T y ut = yt 0 = yt y es decir, el dato correspondiente, en la forma de desviacin respecto a la media muestral. Por tanto, la Suma Residual, o suma de los residuos al cuadrado es, SR = u2 t =
t=T X t=1 2 (yt y )2 = T Sy

21

es decir, igual al producto del tamao muestral por la varianza muestral de la variable dependiente yt . Por otra parte, la Suma Total es, como en cualquier modelo de regresin, ST =
t=T X t=1 2 (yt y )2 = T Sy

y, por tanto, es especco de este modelo que SR = ST. En consecuencia, puesto que el modelo tiene una constante, se tiene: SE = ST SR = 0. En este modelo, la Suma Residual coincide con la Suma Total, indicador de las variaciones en yt que se pretende explicar, por lo que la Suma Explicada es igual a cero. En consecuencia, el R-cuadrado de la regresin es asimismo cero, R2 = 1 SR SE = =0 ST ST

Esto puede parecer paradjico a primera vista; sin embargo, tiene una interpretacin totalmente acorde con la naturaleza del modelo de regresin. Como discutimos en la Seccin XX, aunque el modelo de regresin se especica generalmente para relacionar los valores numricos observados para variables yt , xt , en realidad, su utilizacin fundamental en Economa estriba en establecer alguna inferencia acerca de la relacin que pueda existir entre las variaciones que experimentan las variables explicativas por un lado, y la variable dependiente por otro. Son las uctuaciones en ambas variables lo que fundamentalmente pretendemos caracterizar. Como vimos al caracterizar el estimador MCO, una vez que tenemos estimaciones numricas para los coecientes aosicados a las variables explicativas del modelo, obtenemos la estimacin numrica de la constante del modelo mediante, 0 = y 1 x 0 0 que relaciona las medias muestrales de todas las variables del modelo. Por tanto, la relevancia de la constante en el modelo estriba en ajustar las distintas medias muestrales de las variables del mismo, corrigido cada una de ellas por el coeciente asociado. Pero este es un ajuste generalmnente poco relevante para el investigador, que se interesa bsicamente en el modo en que variacioens en las variables xt generan uctuaciones en yt . Por tanto, en este modelo constante, en que no se explican las uctuacioens de yt , llevndose nicamente a cabo el ajuste de medias muestrales a travs de (5.1) ,es lgico que el indicador de ajuste R2 22

resulte igual a cero. Ntese, por ltimo, que no hemos impuesto esta condicin, sino que estamosminterpretan la propiedad del modelo constante, de tener un R2 igual a cero. 5.6.2. El modelo con variables en desviaciones respecto a la media Consideremos un modelo lineal, yt = 0 + 1 x1t + 2 x2t + ut cuya versin estimada es, yt = 0 + 1 x1t + 2 x2t + ut (5.3) (5.2)

y calculemos su promedio a travs de todas las observaciones muestrales. Tendremos,


t=T X t=1

yt =

y teniendo en cuenta la propiedad de los residuos MCO de tener suma igual a cero, se convierte en, y = 0 + 1 x1 + 2 x2 Restando (5.5) de (5.3) se tiene, yt y = 1 (x1t x1 ) + 2 (x2t x2 ) + ut en el que se observa que el modelo (5.2) es consistente con un modelo cuyas variables son las de (5.2)pero medidas cada una de ellas en desviaciones respecto a su promedio muestral; los coecientes estimados por MCO en este modelo coincidiran con los que se estimaran para el modelo original, excepto por el hecho de que el modelo en desviaciones respecto a la media carece de trmino constante. Por ltimo, los residuos MCO del modelo en desviaciones son, observacin a observacin, los mismos que se tendran para el modelo en las variables originales. La diferencia entre ambos modelos es que el modelo con las variables en desviaciones respcto a la media no precisa de trmino constante. Es fcil entender por qu: de acuerdo con (XX) , la estimacin MCO de la constante es la diferencia entre la media muestral de la variable dependiente y las medias muestrales de 23 (5.5)

t=T X t=1

0 + 1

t=T X t=1

x1t + 2

t=T X t=1

x2t +

t=T X t=1

ut

(5.4)

las variables explicativas, cada una de ellas corregida por el coeciente asociado. Pero en el modelo con variables en desviaciones respecto a la media, todas las vriables, dependiente y explicativas, tiene media muestral igual a cero. Por tanto, la estimacin MCO de una hipottica constante en dicho modelo sera igual a cero. incluso si incluimos dicha constante, su estimacin de mnimos cuadrados ser numricamente igual a cero. 5.6.3. El modelo con tendencia determinista lineal y cuadrtica Un modelo sencillo interesante es aqul que incluye una tendencia determinista como nica variable explicativa, adems del trmino constante, ln yt = 0 + 1 t + ut (5.6)

en el que la estimacin del coeciente 1 nos proporciona una estimacin de la tasa de crecimiento muestral de la variable yt . En efecto, si consideramos la estructura, yt = Ae 1 t tendremos una tasa de crecimiento dada por, dyt /dt d (ln yt ) d (ln A + 1 t) = = = 1 yt dt dt En denitiva, el modelo (5.6) no es sino la versin logartmica de la ecuacin de crecimiento (5.7), con 0 = ln(A), y donde el trmino de perturbacin ut pude recoger cualquier uctuacion de corto plazo alrededor de la tasa de crecimeinto constante, 1 . Este modelo es, por tanto, apropiado cuando se pretende estimar la tasa de crecimiento media de una variable yt a lo largo del perodo muestral. Hay que tener en cuenta, sin emabrgo que el parmetro 1 proporciona la tasa de crecimiento, supuesta constante, entre cada dos observaciones consecutivas. Si los datos de que disponemos son de naturaleza anual, entonces habremos estimado el crecimiento anual de la variable. Si los datos son trimestrales, el crecimiento anual se obtendr a partir de la estimacin de 1 mediante = (1 + 1 )4 1, que habremos de multiplicar por 100 si queremos presentar en trminos porcentuales. Si los datos de base son de naturaleza mensual, entonces obtendremos una estimacin del crecimeinto anual a partir de = (1 + 1 )12 1. Este modelo de tendencia determinista lineal es tambin muy til precisamente para extraer de una variable su comportamiento de largo plazo, cuando se supone 24 (5.7)

que ste est bien representado por el supuesto de una tasa de crecimiento constante. As, una vez estimado el modelo (5.6) , los residuos ut nos proporcionan el logaritmo de la variable yt desprovisto de tendencia, es decir, ut = ln yt 0 1 t, recogiendo as el comportamiento de la variables segn ucta alrededor de su tendencia de largo plazo. Diremos tambin que esta es la representacin de la variable corregida de tendencia lineal. Como hemos visto, este ejercicio, efectuado sobre el logaritmo de la variable original, incorpora el supuesto implcito de que la tasa de crecimiento de dicha variable es constante. 5.6.4. Modelos no lineales en las variables Algunos modelos no lineales pueden tratarse de modo muy sencillo, sin necesidad de desarrollar mtodos distintos de los estudiados en los captulos anteriores. Ello ocurre en muchas situaciones en que el modelo presenta no linealidades exclusivamente en las variables que aparecen en la relacin que se pretende estimar, como, yt = 0 + 1 xt + 2 x2 + ut t (5.8)

que es un modelo con una nica variable explicativa, que aparece tanto en su forma original, como al cuadrado. Es interesante observar que, en este modelo, la derivada parcial, que recoge la magnitud de los cambios inducidos en yt por un cambio en el valor numrico de xt viene dada por, dyt = 1 + 2 2 xt dxt A diferencia de la que tenamos en el caso del modelo de regresin lineal simple, que era, dyt = 1 dxt y, por tanto, constante, la derivada parcial del modelo (5.8) depende del valor numrico de la variable explicativa. Esto puede ser muy interesante en muchas relaciones econmicas, en las que es lgico pensar que el impacto que sobre yt tiene una variacin unitaria en xt depende del valor numrico de xt a partir del cual se produce dicha variacin unitaria. As, no tendra el mismo impacto negativo sobre el consumo un incremento de un punto en el tipo impositivo del IVA si ste 25

se produce cuando dicho tipo es del 3%, que si dicho incremento se produce a partir de un tipo del 15%. Parece lgico que as sea. Si las variables utilizadas en la regresin son los logaritmos naturales de las variables para las que inicialmente obtuvimos datos, como consumo y renta, yt = ln(Yt ), xt = ln(Xt ), estaramos recogiendo en (5.8) la creencia en una elasticidad no constante, como aparece en muchos modelos tericos econmicos. Si el valor numrico del coeciente 2 es negativo, tendremos que la variable yt crece menos que proporcionalmente con un aumento en xt , lo que correspondera a una nube de puntos en la forma de una funcin cncava, mientras que si estimamos un valor numrico positivo para 2 , tendremos que la variable yt crece ms que proporcionalmente con un aumento en xt , lo cual correspondera a una nube de puntos convexa. Por contraposicin, en el modelo lineal incorporamos a priori la hiptesis de elasticidad constante, es decir, el supuesto de que la variable yt crece proporcionalmente con xt .Sin duda que, aunque no se considera habitualmente, parece conveniente permitir en un priemr anlisis la posibilidad de una relacin cuadrtica contrastando, si se desea, la signicatividad estadstica del coeciente 2 , si bien dicho contraste habra que verlo a la luz de la discusin de la Seccion XX. As, en muchas ocasiones (como puede ser si se quiere utilizar el modelo estimado con nes predictivos) puede resultar conveniente mantener un posible trmino cuadrtico incluso si el coeciente 2 asociado aparece como estadsticamente no signicativo, en trminos del habitual contraste de la t de Student. Queda por discutir cmo obtener estimaciones de mnimos cuadrados para este modelo, a pesar de ser una relacin no lineal entre variables. Pero este tipo de modelos es muy sencillo de estimar, pues basta denir una nueva variable x2t = x2 t para tener el modelo de regresin, yt = 0 + 1 xt + 2 x2t + ut (5.9)

que, como modelo lineal que es en las variables explicativas xt y x2t , estimamos por medio de los procedimientos descritos en la Seccin XX, teniendo el estimador MCO de este modelo las propiedades habituales. 5.7. Cmo especicar un modelo de regresin? 5.7.1. Debe incluirse una constante en el modelo de regresin? Consideremos el modelo de regresin simple,

26

5.7.2. Debemos estimar en valores originales o en logaritmos de las variables? 5.7.3. Debe estimarse el modelo con variables en niveles o en diferencias? 5.7.4. La frecuencia de observacin de las variables Muchas veces se alusin al aparente principio de que, en cualquier trabajo estadstico con datos, ms informacin es preferible a menos, por los que, un mayor nmero de datos es preferible a un nmero inferior. En este sentido, si el investigador tiene la posibilidad de trabajar con datos mensuales de las variables dependiente e independiente, debe utilizar estos en preferencia al uso de datos anuales. Esto no es en modo alguno cierto, debido al menos a dos consideraciones. Errores de medida Por un lado, las variables econmicas, especialmente si son de carcter nanciero, tienen un nivel de volatilidad potencialmente importante, por lo que cada dato frecuente que se publica (digamos que mensual) recoge, no slo la evolucin subyacente o verdadera de la variable que se observa, sino tambin el componente de volatilidad en la misma. esto quiere decir que, al observar una variable cada mes, los datos tienen un componente de naturaleza errtica, es decir, puramente aleatorio o impredecible, que puede venir sucedido por un compoenente de igual naturaleza, pero signo opuesto, al mes siguiente. En consecuencia, si slo observramos el dato trimestral, que se forma bien mediante un promedio de los trimestrales, (si la variable es un stock), o acumulando lo tres datos mensuales correspondientes a dicho trimestre (si la variable es un ujo), una buena parte de los componentes errticos habr desaparecido por compensacin, y el dato trimestral sera, muy posiblemente, ms able, que los tres datos mensuales. Algo similar puede decirse en cuanto a observar datos trimestrales o anuales. Esta observacin est detrs de la sensacin que muchas veces se tiene al asistir a la divulgacin en los medios de comunicacin de un nuevo dato mensual de expectativas de empresarios, inacin, etc.. No es extrao asistir, en variables tan importantes, a un dato mensual aparentemente positivo sigue que se interpreta como negativo, quiz uno siguiente positivo, etc.. De este modo, la avalancha de datos frecuentes genera una incertidumbre que podra evitarse en cierta medida si, aun recogiendo datos mensualmente, se evaluaran slo con menos frecuencia. Esto tiene implicaciones cuande se trata de caracterizar la relacin que existe entre variables. Si, por ejemplo, estamos interesados en analizar el modo en que

27

las expectativas de los empresarios acerca de la demanda futura incide en sus decisiones de inversin, la presencia de los componentes errticos en los datos que se publican nos llevara a estimar un modelo, inversin = 0 + 1 exp ectativas o t t donde, inversin = inversint + t o t o exp ectativast = exp ectativast + t siendo t , t , los componentes errticos a los que nos hemos referido, que supondremos no relacionados, Corr(t , t ) = 0. Incluso si Corr(inversint , exp ectativast ) o es elevada, la presencia de t , t , har que, generalmente, Corr(inversin , exp ectativas ) o t t sea inferior a Corr(inversint , exp ectativast ), proporcionando un ajuste pero del o que habramos tenido en ausencia de dichos componentes errticos. Como consecuencia de que slo podemos utilizar en la regresin las medidas inversin , exp ectativas , o t t quiz incluso tengamos una estimacin del coeciente 1 no signicativa, debido a la prdida de precisin en su estimacin. Ejercicio de simulacin Otra posibilidad sera examinar los datos mensuales a la luz de una referencia temporal adecuada. La frecuencia en las relaciones estructurales Otra razn por la cual no es necesariamente preferible utilizar datos ms frecuentes que menos re reere a la propia naturaleza de la relacin que se est tratando de medir. Por ejemplo, consideremos la importante relacin existente entre crecimeinto monetario e inacin. Ningn economista duda de que tal relacin exista; algunos, incluso deenden la idea de que la inacin es puramente un fenmeno monetario, estando completamente determinada, por tanto, por la tasa de creciemitno de la cantidad de dinero. Otros economistas no llegan tan lejos, pero aceptan que hay una relacin positiva entre creciemitno moentario e inacin; precisamente contrastar si dicha relacin es ms o menos estrecha, o si un mayor crecimiento monetario se transmite completamente (es decir, con coeciente 1 = 1) a una mayor inacin, puede ser la motivacin para estimar un modelo, inf lacint = 0 + 1 crecimiento monetario + ut o 28

Ahora bien, verdaderamente creemos que un mayor crecimiento monetario en marzo, por ejemplo, genera una mayor inacin en dicho mes? Muy pocos economistas suscribiran tal concepto. Mucha mayor uniformidad de pareceres encontraramos en cuanto a creer que observado ao a ao, mayor crecimiento monetario viene asociado con mayor inacin, mientras que un ao en que se instrumenta una poltica monetaria ms restrictiva, denida por una reduccin del crecimiento monetario, es un ao de inacin menor. Es decir, la proposicin conceptual que relaciona positivamente crecimiento monetario e inacin es una proposicin referente al medio o largo plazo. Incluso con datos anuales surgir, lgicamente, la cuestin de si un menor crecimeinto monetario conduce a una menor inacin ese mismo ao, el ao siguiente, o en ambos. Esta ser una cuestin que puede discutirse mediante los procedimientos economtricos y los contrastes estadsticos adecuados, y que conduce a una investigacin siempre interesante. Pero sta es la perspectiva adecuada: en modo alguno tiene sentido pensar que las uctuaciones que, mes a mes, experimenta el crecimiento monetario se corresponden con las uctuaciones mensuales que se observan en la tasa de inacin. este tipo deinvestuigaciones, con datos mensuales, estn condenados al fracaso; incluso si estadsticamente detectsemos una relacin positiva, deberamos estar dispuestos a calicarla de esprea, en el sentido de no ser la relacin estructural que cualquier economista estara dispuesto a admitir entre crecimiento monetario e inacin. Este ejemplo no debe sino sugerir que las proposiciones econmicas tericas no dicen nada acerca de cul es la frecuencia en la que se cumplen, y no debemos en modo alguno inferir que una proposicin terica debe cumplirse en todo tipo de datos. Por el contrario, cuando nos proponemos examinar empricamente una proposicin terica, hemos de pensar cuidadosamente acerca de la frecuencia de datos en que esperamos que sta se manieste, y ello debe determinar el tipo de datos a utilizar. El posible cumplimiento de la proposicin puede apreciarse en datos de una frecuencia pero no en datos de frecuencia diferente. Estructura dinmica de una relacin y frecuencia de observacin de los datos Un aspecto relacionado se reere a las caractersticas dinmicas de la relacin que se est tratando de estimar: supongamos que existe una relacin entre variables econmicas que tarda un mes en manifestarse. As, con datos mensuales, un modelo apropiado sera, yt = 0 + 1 xt1 + ut 29

armando en este caso que la relacin es dinmica, por cuanto que no se maniesta contemporneamente, esdecir, durante el mismo mes. De acuerdo con este modelo, un incremento en xt tendera a conducir a un valor ms elevado de yt pero no este mes, sino al mes siguiente. Supongamos ahora que slo disponemos de datos trimestrales: por ejemplo, el dato del primer trimestre ser, para ambas variables, el promedio de los datos de enero, febrero y marzo, tenindose las relaciones, yf ebrero = 0 + 1 xenero + uf ebrero ymarzo = 0 + 1 xf ebrero + umarzo Aunque yenero no est relacionado con xenero , xf ebrero , o xmarzo , las relaciones existentes entre yf ebrero , ymarzo y xenero , xf ebrero son sucientes para que los datos del primer trimestre de ambas variables, yprimer
trimestre

yenero + yf ebrero + ymarzo , xprimer 3

trimestre

xenero + xf ebrero + xmarzo 3

estn relacionados. Sin embargo, debe apreciarse que la relacin ser entre lso datos de x e y correspondientes ambos al primer trimestre. En consecuencia, una relacin que con datos mensuales tena una naturaleza dinmica, pasa a ser estrictamente contempornea con datos triemstrales. As, es importante recordar que algunas de las propiedades de una relacin economtrica dependen de la frecuencia de observacin de los datos, no siendo, por tanto, propiedades de carcter absoluto de la relacin entre x e y.

6. Contrastes de hiptesis en el modelo de regresin lineal simple


Como se ha comentado anteriormente, tres son las nalidades posibles que se derivan de la estimacin de un modelo economtrico: a) la posibilidad de contrastar hiptesis econmicas tericas alternativas, b) la prediccin de los valores futuros de la variable dependiente 6.1. Signicacin estadstica versus precisin Uno de los contrastes ms habituales tras estiamr un modelo de regresin se reere a la hiptesis del tipo H0 : = 0, con la que el investigador se pregunta si la 30

variable asciada a dicho coecente tiene un impacto signicativo sobre la variable dependiente, cuyo comportamiento se pretende explicar. No debemos olvidar que con ello, lo que estamos contrastando es si dicho impacto es estadsticamente signicativo, y tratando de identicar dicha caracterstica con la existencia de un efecto estructural signicativo de la variable explicativa sobre la variables dependiente. Pues bien, ya hemos visto que la manera de resolver el contraste de dicha hiptesis consiste en utilizar el test t de Student, que en el caso de la hiptesis de signicacin adopta la forma, DT () tT k

donde T k denota el nmero de grados de libertad del modelo de regresin, denido como la diferencia entre el nmero de observaciones utilizado en la estimacin del mismo y el nmero de coecientes estimados. Por tanto, para decidir acerca de la hiptesis nula de signicacin de un coeciente , se construye el cociente entre la estimacin numrica de dicho coeciente y su desviacin tpica estimada, y se compara con el umbral crtico de la distribucin tT k al nivel de signicacin escogido de antemano. La prctica habitual consiste en concluir que la variable explciativa x no es relevante para explicar el comportamiento de la variable y si el valor numrico de su estadstico t de Student es inferior al nivel crtico proporcionado por las tablas de dicha distribucin al nivel de signicacin deseado. Que la comparacin se establezca en trminos del valor absoluto del estadstico muestral o no depende de que el contraste sea de una o dos colas, lo cual depende a su vez de la forma que adopte la hiptesis alternativa, segn sea sta H1 : 6= 0, o adopte alguna de las formas H1 : < 0, H1 : > 0. La forma que adopta este contraste sugiere de modo bastante evidente que el estadstico t puede ser inferior al umbral crtico de la distribucin de referencia a) bien porque el valor estimado sea pequeo incluso cuando se tie en cuenta el rango de variacin de la variable asociada, o b) porque, aun siendo suciente como para generar un impacto cuantitativo apreciable de x sobre y, dicho valor numrico se estima con poca precisin, es decir, con una desviacin tpica elevada. Mientras el primer caso corresponde a una situacin en la que querramos concluir que, efectivamente, la variable x no es relevante para explicar y, en el segundo caso, tal conclusin sera errnea; lo que est sucediendo en este caso es nicamente que la muestra disponible no nos permite asignar un valor numrico concreto al

31

cociente asociado, a pesar de que la variable x es un factor explicativo relevante de la variable y. A pesar de sus importantes implicaciones para el contraste de hiptesis estadsticas, esta discusin se ignora con demasiada frecuencia en el trabajo emprico. Su importancia deriva de que, como hemos ido revisando con anterioridad, existen distintas razones que pueden implicar una prdida de precisin en la estimacin puntual, con independencia del contenido informativo que la variable x tiene sobre y. Por ejemplo, aparece una prdida de precisin apreciable cuando el valor numrico del coeciente ha variado a lo largo del intervalo muestral [Recurdese el ejercicio de simulacin XXX]. en distintos puntosEsta se numricamente de Con mucha frecuencia se ignora 6.1.1. Se hace una variable ms o menos signicativa? 6.1.2. Cmo puede discutirse qu variable es ms relevante en una regresin? mayor valor numrico mayor estadstico t

7. Correlacin versus causalidad 8. Variables no estacionarias


La no estacionariedad de las variables involucradas en una regresin es uno de las situaciones que requiere una consideracin ms cuidadosa en el anlisis de regresin. La ausencia de estacionariedad se produce con mucha frecuencia en variables econmicas; adems, como vamos a ver, sus implicaciones en la estimacin de modelos de regresin pueden ser bastante negativas e importantes. Por ltimo, su deteccin y tratamiento no son siempre evidentes. 8.1. Caractersticas de una variable estacionaria Una variable estacionaria tiene generalmente varianza nita (salvo que obedezca a una distribucin que como la Cauchy, carece de este momento); ms precisamente, su varianza no cambia con el paso del tiempo y, desde luego, no tiende a innito. una perturbacin transitoria sobre una variable estacionaria tiene efectos 32

puramente transitorios; pueden durar varios perodos, pero sus efectos terminan desapareciendo. Los valores sucesivos de su funcin de auocorrelacin convergen rpidamente hacia cero, excepto quiz en los retardos de carcter estacional. la serie temporal correspondiente a una variable estacionaria no deambula durante perodos largos de tiempo a un mismo lado de su media muestral, sino que cruza frecuentemente dicho nivel medio. El nmero medio de perodos que transcurre entre dos cruces consecutivos del nivel medio muestral es pequeo. Por el contrario, una perturbacin de carcter transitorio sobre una variable no estacionaria tiene efectos permanentes. La funcin de autocorrelacin de una variable no estacionaria converge a cero muy lentamente, y su serie temporal muestra claramente largos perodos de tiempo en que deambula sin cruzar su nivel medio. 8.2. Tendencias deterministas y tendencias estocsticas La ausencia de estacionariedad en variables econmicas puede reejarse mediante la presencia de tendencias estocsticas o de tendencias deterministas en los precios de mercado, a travs de volatilidad cambiante en el tiempo, etc.. Una tendencia estocstica es un componente estocstico cuya varianza tiende a innito con el paso del tiempo. Una tendencia determinista es una funcin exacta del tiempo, generalmente lineal o cuadrtica, lo que hace que el valor de la variable crezca o disminuya constantemente; si la tendencia es lineal, la variable tender a ms o menos innito; si la tendencia es cuadrtica o de orden superior, la variable puede estar acotada. Si una variable presenta una tendencia determinista lineal, su valor esperado tender a aumentar o disminuir continuamente, con lo que ser imposible mantener el supuesto de que la esperanza matemtica de la sucesin de variables aleatorias que congura el proceso estocstico correspondiente a dicha variable, es constante. En consecuencia, tampoco podr mantenerse que la distribucin de probabilidad de dichas variables es la misma a travs del tiempo. Sin embargo, si efectuamos una correcta especicacin de la estructura de dicha tendencia, podr estimarse y extraerse del precio, para obtener una variable estacionaria, que no presentara las dicultades antes mencionadas. Mayor dicultad entraa el caso en que una variable precio incluye una tendencia estocstica pues, en tal caso, su esperanza y varianza no estn denidas. La presencia de una tendencia estocstica requiere transformar la variable, generalmente en primeras diferencias temporales, o tomando las diferencias entre las

33

observaciones correspondientes a una misma estacin cronolgica, en el caso de una variable estacional. La transformacin mediante diferencias resulta bastante natural en el anlisis de datos nancieros, por cuanto que la primera diferencia del logaritmo de un precio, en logaritmos, es la rentabilidad del activo, loq ue hace que la transformacin logartmica sea utilizada muy frecuentemente. Como prcticamente ningn precio o ndice nanciero es estacionario, el uso indiscriminado de un estadstico como la varianza o la desviacin tpica como indicador de riesgo conduce a medidas de volatilidad sesgadas al alza. Consideremos un modelo muy popular en el anlisis de mercados nancieros, el camino aleatorio: yt = + yt1 + t , t = 1, 2, ... que evoluciona a partir de un valor inicial y0 dado, donde t es un ruido blanco: sucesin de variables aleatorias, independientes, con media constante (que suponemos cero), y varianza asimismo constante 2 . Mediante sucesivas sustitu ciones, este proceso puede escribirse, de modo equivalente: yt = y0 + t +
t X s=1

En consecuencia, un camino aleatorio yt tiene varianza creciente en el tiempo: V ar(yt ) = t 2 Ello se debe a que el ltimo sumando en la representacin anterior es un ejemplo de tendencia estocstica. Cuanto mayor sea el nmero de observaciones consideradas, mayor ser la varianza muestral del camino aleatorio: un camino aleatorio tiene menor varianza a lo largo de una hora que a lo largo de un da, a lo largo de un da que a lo largo de una semana, etc.. Esto es lo que ocurrir con la inmensa mayora de los precios cotizados en los mercados nancieros. Aunque la presencia de tendencias estocsticas se produce generalmente junto con estructuras ms complejas que la de un camino aleatorio, la implicacin acerca de una varianza creciente con el tiempo se mantiene cuando se aaden a sta componentes autoregresivos o de medias mviles para yt . Para evitarlo, caracterizamos la volatilidad de un mercado o de un activo analizando el comportamiento de la rentabilidad que ofrece a lo largo del tiempo, no de su precio o cotizacin. 34

En el ejemplo anterior, de un camino aleatorio, la tendencia estocstica aparece debido al coeciente unitario del retardo de yt en la ecuacin que explica el comportamiento de esta variable, por lo que una tendencia estocstica se conoce asimismo como una raz unitaria. Con ms generalidad, recordemos que por la descomposicin de Wald, todo proceso estacionario acepta una representacin autoregresiva, quiz de orden innito, yt = 0 +
X s=1

j ytj = (L) yt

donde L denota el operador de retardos, denido como Lj yt = ytj. Si obtenQ emosQ races de dicho polnomio de retardos, podremos escribir, (L) = p (1 las i=1 ai L) q (1 bj L cj L2 ), donde los ltimos factores tienen como races dos j=1 nmeros complejos conjugados. una raz unitaria es un factor del primer tipo, con ai = 1. En el lenguaje estadstico, se dice que el proceso yt tiene una raz unitaria. Si el proceso yt siguiese una estructura dependiente de su pasado, pero del tipo: yt = 0 + 1 yt1 + t t = 1, 2, ..., 1 < 1 < 1 sus propiedades seran bastante distintas, con: X 1 t 1 yt = 0 + s y0 + ts s 1 1 1 1 s=1 y si consideramos que el proceso ha durado innitos perodos, E(yt ) = 0 2 ; V ar(yt ) = 1 1 1 2 1
t

estaran bien denidas, son constantes, y el proceso es estacionario. Este proceso se denomina proceso autoregresivo de primer orden y en l hay que distinguir entre momentos incondicionales, cuyas expresiones analticas acabamos de calcular en el caso de esperanza matemtica y varianza, y momentos condicionales. donde suponemos que ut es un proceso sin autocorrelacin (correlacin temporal consigo mismo). Es decir, Corr(ut , utk ) = 0 k. En estas condiciones, si ut sigue una distribucin Normal ut N(0, 2 ), enu tonces yt sigue una distribucin 35

yt N (

0 2 u , ) 1 1 1 2 1

Esta es la distribucin marginal o incondicional, de yt . Por otra parte, condicional en la historia pasada de yt , sin incluir el dato de fecha t, la distribu8cin de probabilidad condicional de yt es, yt N(0 + 1 yt1 , 2 ) u que tiene una menor varianza. De hecho, la varianza incondicional de yt es tanto mayor cuanto ms se acerque el parmetro 1 a 1, creciendo dicha varianza sin lmite. Sin embargo, la varianza condicional es siempre 2 , con independencia u del valor numrico del parmetro 1 . La varianza condicional de yt es igual a la varianza de ut , 2 , mientras que la u varianza incondicional de yt es siempre mayor que 2 . u Adems, E(yt /yt1 ) = 0 + 1 yt1 ; E(yt ) = 0 1 1

Como veremos ms adelante, el concepto de proceso browniano est bastante ligado al de camino aleatorio. Por tanto, la armacin anterior es coherente con establecer la hiptesis de que la rentabilidad de un determinado activo sigue un proceso browniano, pero no tanto con efectuar dicha hiptesis sobre su precio. 8.3. Regresin esprea El problema de la regresin esprea fue analizado por Granger y Newbold (1974), quienes mostraron la posibilidad de que, en determinadas situaciones, estimaciones mnimocuadrticas de un modelo de regresin lineal que sugieren una estrecha relacin entre variable dependiente y variables independientes, estn reejando, en realidad, una relacin esprea o cticia, que en realidad no existe. Es evidente que tal posibilidad sera extremadamente peligrosa, tanto en la estimacion de coecientes de imapcto o elasticidades, como en la contrastacin de hiptesis tericas. Lo que suele ignorarse con demasiada frecuencia es que las condiciones para que una regresin sea esprea se dan con mucha frecuencia en la investigacin aplicada en Economa, en general, y en Finanzas, en particular. 36

Comenzamos describiendo el tipo de dicultades a que puede dar lugar la ausencia de estacionariedad de las variables dependiente e independiente en un modelo de regresin lineal. Para ello, pensemos en el siguiente ejercicio: comenzamos simulando dos ruidos blancos independientes, xt , yt , t = 1, 2, ..., T, a partir de distribuciones de probabilidad Normal, con esperanza matemtica x , y (por ejemplo, iguales a cero) y varianzas 2x , 2y ; el coeciente de correlacin muestral entre las series temporales resultantes ser, por construccin, muy reducido, si bien no exactamente igual a cero. Nota: Cuanto mayor sea el tamao muestral, ms probable es que dicha correlacin sea igual a cero, debido a que la correlacin muestral, es decir, la correlacin entre las dos series temporales simuladas es, por la ley de los grandes nmeros, un estimador consistente de su anlogo poblacional, que es el coeciente de correlacin terico entre los dos procesos xt , yt , que es igual a cero. Por tanto, al aumentar T , la distribucin de probabilidad del coeciente de correlacin muestral se concentra alrededor de cero. El grco de ambas variables presentar una pauta oscilando alrededor de su media muestral que, por la misma razn apuntada para el coecente de correlacin, sern prximas, si bien no iguales, a x , y . Observaremos que cada serie temporal cruza repetidamente su nivel medio. Si estimamos una regresin del tipo: yt = 0 + 1 xt + ut , t = 1, 2, ..., T deberamos obtener una estimacin de 1 no signicativamente diferente de cero, y un R2 prcticamente nulo. En efecto, salvo por el error estadstico, as ocurre cuando llevamos a cabo un ejercicio de simulacin de Monte Carlo: al 95% de conanza, el habitual contraste tipo t rechazar la hiptesis nula de ausencia de capacidad explicativa de xt H0 : 1 = 0 aproximadamente en un 5% de los casos, y el valor mediana del coeciente de determinacin R2 para todas las simulaciones es muy reducido. El trmino constante slo resultara signicativo si en la generacin de las series temporales, hemos utilizado valores diferentes de x , y . Este resultado no se ve afectado signicativamente en ningn otro sentido por la presencia de tales trminos constantes, ni tampoco por cambios en el valor de las respectivas varianzas. Al variar el valor relativo de 2y / 2x tan slo se observa un comportamiento algo errtico del tamao del contrate de signicacin del parmetro 0 . En denitiva, en esta primera parte del ejercicio tendremos el 37

resultado que esperaramos: una regresin no signicativa, excepto en lo relativo al nivel escogido para el contraste. 8.3.1. Regresin esprea bajo tendencias deterministas A continuacin, aadimos una tendencia lineal determinista a cada una de ellos,
yt = at + yt x = bt + xt t

donde a y b son constantes arbitrarias y t es una tendencia determinista, es decir, una variable que aumenta cada perodo en una cantidad constante, . Si calculamos el coeciente de correlacin muestral entre xt e yt , apreciaremos que es elevado. Esto es sorprendente porque, como muestran las expresiones anteriores, cada variable es la suma de un componente de naturaleza determinista, que no experimenta ninguna uctuacin aleatoria, y un segundo componente de naturaleza estocstica. El coeciente de correlacin debera indicar la asociacin estadstica entre ambas variables, que es lo mismo que la asociacin entre sus componentes estocsticos, es decir, entre sus innovaciones. Pero dicha correlacin debera ser, por construccin, prcticamente igual a cero, en contra del resultado que se obtiene cuando se lleva a cabo este ejercicio de simulacin. En todo caso, tal elevada correlacin no reeja ninguna relacin real entre las variables, por lo que se denomina correlacin esprea. Como consecuencia de la misma, si se estima una regresin lineal, tomando cualquiera de estas variables como variable dependiente y la otra como independiente,
yt = 0 + 1 x + vt , t = 1, 2, ..., T t

los resultados cambian sustancialmente: se obtiene un R-cuadrado elevado pues, como ya sabemos, es igual al cuadrado del coeciente de correlacin entre ambas variables, a la vez que una pendiente 1 aparentemente signicativa, de acuerdo con el criterio habitual de utilizar su estadstico tipo t-Student. Ambas cosas ocurrirn en un elevado porcentaje de las simulaciones que realicemos, para distintas series temporales de xt , yt , t = 1, 2, ..., T. Por consiguiente, creeramos que la capacidad explicativa de la variable x sobre yt es muy importante. Este t resultado es sorprendente, por cuanto que las variables yt , x tienen la misma t 38

estructura estocstica que xt , yt , por lo que ambas relaciones deberan proporcionar resultados anlogos. Esta apariencia cticia de capacidad explicativa es lo que se conoce como regresin esprea. El grado de correlacin observado entre yt , x depende de dos factores: la t similitud entre las constantes a y b, y la relacin entre ambas y las desviaciones tpicas de los ruidos blancos originales, xt , yt . Si, por ejemplo, jamos el valor numrico de b en b = 1, y vamos tomando en cada ejercicio de simulacin valores: a = [0, 1; 0, 5; 0, 9; 1; 3; 10; 100] el coeciente de determinacin resultante, R2 aumenta montonicamente con el valor de a. Es decir, la mayor correlacin no se obtiene cuando hay a ambos lados de la igualdad la misma pendiente, lo que equivaldra a utilizar a = 1, sino que dicha correlacin aumenta con a. Esto se debe a que, segn aumenta a, cada vez hay ms tendencia determinista en yt , en el sentidod e ques sta predomina sobre el componente estocstico yt , y dicha tendencia determinista puede explicarse muya decuadamente mediante el componente anlogo de x . t 8.3.2. Regresin esprea bajo tendencias estocsticas En su trabajo pionero, Granger y Newbold (1974) trataron el problema de no estacionariedad producido por la presencia de tendencias estocsticas o races unitarias. Para ello, realizaron el siguiente ejercicio: a partir de la simulacin de dos ruidos blancos independientes que tendrn, por construccin, como antes, un coeciente de correlacin muestral muy reducido, aadieron una raz unitaria o tendencia estocstica a cada uno de ellos, yt = yt1 + yt xt = xt1 + xt obteniendo que el coeciente de correlacin entre xt e yt era muy prximo a la unidad. Esto es sorprendente, por cuanto que, a partir de condiciones iniciales conocidas, los valores de ambas variables en cada instante de tiempo pueden escribirse como, yt = y0 +
t X s=1

ys

que indican que la evolucin temporal de cada una de las variables se debe a la acumulacin temporal de sus innovaciones. Por tanto, la naturaleza estocstica de 39

cada variable est totalmente determinada por la naturaleza de sus innovaciones. Si xt y yt son independientes, entonces tambin deberan serlo xt e yt , en contra de los valores obtenidos para sus coecientes de correlacin muestrales en repetidas simulaciones. En todo caso, nuevamente, tal elevada correlacin no reeja ninguna relacin real entre las variables, por lo que se denomina correlacin esprea. Si estimamos una regresin lineal entre estas variables, en cualquier orden, tendremos de nuevo un R-cuadrado elevado y una pendiente signicativa, de acuerdo con el criterio habitual de utilizar su estadstico tipo t-Student, pero la evidencia de capacidad explicativa proporcionada por esta regresin sera esprea. Si las series temporales obtenidas mediante simulacin para las innovaciones o ruidos blancos xt y yt tuviesen correlacin distinta de cero, las variables xt e yt de los ejemplos anteriores mostraran correlaciones muestrales similares a las que se encuentran en los ejercicios de simulacin descritos. En ese caso, los elevados coecientes de correlacin no seran tan engaosos, si bien seran numricamente ms altos de lo que la correlacin entre xt e yt hara esperar. En un ejercicio de simulacin como el descrito, Granger y Newbold encontraron una frecuencia aproximada de rechazos de la hiptesis nula H0 : 1 = 0 del 76%. La frecuencia de rechazos de la capacidad explicativa global de la regresin se eleva muy signicativamente al aumentar el nmero de variables explicativas independientes con estructura de ruido blanco. Nuevamente los coecientes de determinacin son muy elevados, lo que sorprende, pues realmente, xt no explica apenas a yt . El estadstico de Durbin-Watson habitualmente utilizado para contrastar ausencia de autocorrelacin se reduce hacia cero, por lo que la combinacin de este hecho con un elevado R2 suele utilizarse como indicio de una regresin esprea. Ejercicio de simulacin En espureo.xls se han generado dos series temporales correspondientes a una poblacin Normal N(0,1). El generador de nmeros aleatorios de Excel produce observaciones independientes entre s, por lo que ambas series temporales se obtienen asimismo de manera independiente. La correlacin poblacional entre ellas es cero, si bien la correlacin muestral, al nal de ambas variables, es de 0,0278. Tampoco la media y desviacin tpica muestrales de cada variable son exactamente 0 y 1, como sus valores tericos, si bien no dieren mucho de ellos. El coeciente de asimetra terico, as como el exceso de curtosis (respecto de 3.0, que es la curtosis de toda poblacin Normal), deberan ser ambos igual a cero lo que, nuevamente, ocurre slo con carcter aproximado. 40

En regresion_ori se presentan los resultados de estimar una regresin entre las variables originalmente obtenidas por simulacin, la primera de ellas actuando como variable dependiente, la segunda como variable explicativa. El coeciente de determinacin es el cuadrado de su coeciente de correlacin y, por tanto, muy reducido. La estimacin del coeciente asociado a la variable explicativa aparece como no signicativamente diferente de cero, de acuerdo con el estadstico t habitual. El grco que presenta el ajuste de la recta a la nube de puntos muestra un lnea sin apenas pendiente, y una nube de puntos bastante circular. Ambos hechos reejan una escasa correlacin: una pendiente no signicativa sugiere que la variable explicativa puede cambiar de valor sin que la variable dependiente cambie; una nube de puntos circular muestra que el rango de valores de cada una de las dos variables asociado a un valor determinado de la otra es muy amplio. En consecuencia, un valor numrico de cualquiera de ellas apenas nos informa acerca del valor de la otra variable. Esta es la manifestacin de la ausencia de correlacin entre ambas. Lo contrario ocurre al estimar una regresin lineal entre las variables [regresion_tend], una vez que se ha aadido una tendencia determinista a cada una de ellas. Para ello, en la hoja Datos se han generado dos nuevas variables, sumando una tendencia lineal a la variable Y, y 0,6 veces la misma tendencia lineal a la variable X. Los estadsticos muestrales que aparecen al pie de dichas variables carecen de justicacin estadstica, como comentaremos en una seccin posterior. Aunque el componente estocstico en ambas variables es el mismo de antes, la nuebe de puntos entre ambas tiene un perl totalmente distinto, siendo prcticamente una linea recta. Esto se debe a que el componente tendencial predomina sobe el estocstico; como consecuencia, la regresin estimada entre ambas variables muestra un coeciente de determinacin muy prximo a la unidad. Lo que es quiz ms preocupante, es que la pendiente estimada en dicha regresin, que es sustancialmente ms elevada que la estimada con las variables originales, aparece como claramente signicativa, sugiriendo una importante capacidad explicativa a la variable independiente, contrariamentea lo que detectamos en la primera regresin. Aqu cabe discutir si este es un resjultado razonable: podra argumentarse que ambas variables tienen un componente tendecial importante y que, en ese sentido, no es sorprendente que el coeciente de determinacin entre ambas sea elevado. Es cierto, pero slo reeja la relacin entre los componentes deterministas, que no son los que deben concentrar la atencin del analista: si hay componentes deterministas en las variables dependiente y explicativas, el analista debera indagar las razones que explican la presencia simultnea de tales elementos 41

en las variables. Esta sera uno de los elementos del anlisis; el segundo consistira en evaluar la relacin entre los componentes estocticos en variables dependiente y explicativas; ste elemento es importante, pues nos proporciona informacin acerca del impacto que sobre la variable dependiente puede tener una intervencin sobre alguna de las variables explicativas, o una alteracin exgena en su valor numrico. La dicultad con la regresin anterior estriba en que si no se lleva a cabo este anlisis por componentes, el examen mecnico de los resultados de la regresin sugerira que la variable dependiente reacciona a uctuaciones inesperadas en la variable explicativa, cuando no es as; tal conclusin sera un error. Posteriormente, hemos mantenido los mismos elementos tendenciales de ambas variables, pero hemos incrementado de manera apreciable el componente aleatorio en ellas. Siendo tales componentes variables aleatorias de esperanza matemtica igual a cero, su tamao queda representao por su desviacin tpica, que era unitaria para ambas en las regresiones anteriores. En la hoja Datos hemos generado otras dos variables con desviaciones tpicas 20 y 30; la correlacin entre ellas desciende, si bien no de manera dramtica, situndose en 0,9349. Por ltimo, hemos mantenido estos compoenntes estocsticos, pero reduciendo el incremento perodo a perodo de la tendencia, que pasa de ser 1,0 a ser ahora 0,10. El coeciente de correlacin entre ambas variables se reduce ahora a 0,2446; la regresin entre ambas variables todava muestra una pendiente signicativamente diferente de cero de acuerdo con el uso habitual del estadstico t, pero de manera menos evidente que antes; el coeciente de determinacin es iguala 0, 24462 = 0, 0598, bastante reducido. El grco que muestra la nube de puntos, junto con la recta ajustada, ilustra la dicultad de precisar la pendiente de la recta que mejor se ajusta a dicha nube de puntos, es decir, la dicultad de estimar con precisin dicha pendiente. 8.4. Tratamiento de tendencias deterministas De las dos situaciones descritas en el apartado anterior, es algo ms sencilla de tratar la presencia de tendencias deterministas, cuando se anticipa correctamente que la presencia de las mismas es la nica causa de no estacionariedad de las variables que se pretende relacionar, es decir, cuando las variables tienen estructura, yt = 0 + 1 t + yt xt = 0 + 1 t + xt (8.1) (8.2)

Para ello, hay dos posibilidades: la primera consiste en incorporar en el modelo de regresin una tendencia determinista lineal como variable explicativa, 42

yt = + t + xt + ut (8.3) en la que el coeciente estimado y su desviacin tpica sern, aproximadamente, los mismos que habramos estimado en la regresin, yt = 0 + 1 xt (8.4)

Esto signica que si ambas innovaciones son independientes, en la regresin (8.3) se tendr un coeciente reducido en magnitud, y estadsticamente no signicativo, en trminos de su estadstico t de Student. Esto es distinto del resultado que se obtiene en la estimacin de la regresin habitual, yt = + xt + ut (8.5)

cuando las variables tienena estructura (8.2), (8.1), en la que se tendra un Rcuadrado muy elevado, una estimacin numrica de relativamente elevada, y un estadstico t para dicho coeciente, claramente por encima de 2,0 en valor absoluto, sugiriendo que la capacidad de xt para explicar yt es signicativa, contrariamente a lo que, en realidad, ocurre. La dicultad con el procedimiento que hemos sugerido es que todava mantendr un R-cuadrado muy elevado, debido a la capacidad explicativa que el trmino t tiene sobre yt , debido a la presencia de una tendencia determinista en esta ltima variable. este trmino aparecer como claramente signicativo, con un estadstico t muy elevado. La diferenciacin elimina asimismo las tendencias deterministas, como fcilmente puede comprobarse algebraicamente. De este modo, si el precio de un determinado activo tiene una tendencia temporal determinista lineal, su primera diferencia estar libre de dicha tendencia. Un proceso con una tendencia determinista cuadrtica sigue trayectorias con formas parablicas, cncavas o convexas. Su primera diferencia presentar una tendencia lineal, mientras que su segunda diferencia estar libre de tendencia. Un proceso con una tendencia determinista representada por un polinomio de grado tres puede tener ciclos. La primera diferencia de este proceso tendr una tendencia cuadrtica. Como ejemplo, consideremos: yt = 0 + 1 t + 2 t2 + t cuya primera diferencia es: 43

yt = yt yt1 = ( 1 2 ) + 2 2 t + (t t1 ) y su segunda diferencia: 2 yt = yt yt1 = yt 2yt1 + yt2 = 2 2 + (t 2t1 + t2 ) Por tanto, aparentemente, una solucin en el caso en que sospechamos que puede haber tendencias deterministas en las variables que pretendemos relacionar, consistira en estimar la posible relacin entre ellas despus de haber tomado diferencias temporales. Sin embargo, con dicha transformacin perdemos bastante informacin acerca de las uctuaciones de corto plazo en las variables, por lo que los procedimientos anteriormente descritos son ms recomendables. 8.5. Ejercicios de simulacin Ejercicio 1: Simule 300 observaciones de dos ruidos blancos independientes, con distribuciones N (x, 2 ), N(y , 2 ), como observaciones muestrales para x y las innovaciones xt , yt . A continuacin, genere observaciones para una tendencia determinista t. Los valores numricos para las variables x e y se obtienen aadiendo la tendencia t, multiplicada por sendas constantes a, b, a las respectivas innovaciones, para reproducir las estructuras (8.2) , (8.1). El ejercicio consiste en comparar el coeciente de correlacin que se obtiene para xt , yt , que ser muy reducido, con el que se obtiene entre xt e yt , que debera ser similar, pero ser, sin embargo, muy elevado. En segundo lugar, deben estimarse regresiones anlogas a (8.4) , (8.5) , (8.3) . 8.6. Tendencias estocsticas y races unitarias De modo anlogo, un proceso puede tener asimismo varias races unitarias. Los tipos de inters ya son rentabilidades, por lo que tienen, generalmente, un orden de no estacionariedad (es decir, un nmero de tendencias) menos que las series de ndices burstiles o de precios de derivados, por ejemplo. En ocasiones, sin embargo, algunas series de precios son no estacionarias de orden 2 (tienen 2 races unitarias), por lo que incluso las rentabilidades pueden ser no estacionarias, presentando una raz unitaria.

44

8.7. Contrastes de raz unitaria Si utilizamos la teora de la cointegracin, comenzaramos llevando a cabo contrastes de raiz unitaria para ambas variables, que detectaran en un 95% de las simulaciones que ambas variables son I(1). 8.8. Cointegracin Un vector z de variables de naturaleza I(1) se dicen cointegradas si existe una combinacinn lineal de las mismas, denida por un vector tal que 0 z es una variable aleatoria I(0), es decir, estacionaria. Ms generalmente, se dice que un vector z de variables cuyo mximo orden de integracin es q estn cointegradas si existe una combinacin lineal de las mismas, denida por un vector tal que 0 z es una variable aleatoria I(p), con p < q. El vector se denomina vector de cointegracin. 8.8.1. Contraste de cointegracin Si partimos de variables yt , xt de naturaleza I(1), sus primeras diferencias, yt , xt son estacionarias. Contrastaramos entonces la cointegracin de yt , xt estimando una regresin, yt = 0 + 1 xt + vt , t = 1, 2, ..., T (8.6)

y contrastando la estacionariedad de los residuos, como propusieron Engle y Granger (1987). Sin embargo, los niveles crticos para el contraste de esta hiptesis no son los mismos que para el contraste de races unitarias en una variable, pues ahora, el contraste se lleva a cabo despus de haber estimado el modelo de regresin (8.6). Esto no es irrelevante: el procedimiento de mnimos cuadrados busca los valores del espacio paramtrico ( 0 y 1 en la regresin anterior) que minimizan la varianza del residuo resultante, y ste tiene una varianza innita para los valores de 1 que no hacen que las variables estn cointegradas. Por tanto, si yt , xt estn cointegradas, el mtodo de MCO tender a seleccionar el valor de 1 que genera residuos estacionarios, es decir, la constante de cointegracin. Aunque esto es lo que pretendemos, ello signica que hay una cierta tendencia a concluir con ms frecuencia de la que debiramos que las variables estn cointegradas. en consecuencia, los valores crticos para el contraste de raz unitaria de los residuos de (8.6) deben ser ms elevados en valor absoluto que los utilizados para el contraste de raz unitaria habitual. 45

Si los residuos de esta regresin resultan ser estacionarios, decimos que las variables yt , xt estn cointegradas, siendo (8.6) la relacin de cointegracin entre ambas. Esta relacin sera el producto 0 z anterior despus de normalizar una de las coordenadas del vector lo cual, evidentemente, siempre es posible. Se interpreta como la relacin de largo plazo entre ellas, alrededor de la cual experimentan desviaciones a corto plazo que revierten posteriormente. Es decir, si en un determinado perodo, yt est por encima del valor numrico de 0 + 1 xt para ese mismo perodo, generalmente yt crecer por encima de 0 + 1 xt , de manera que yt+1 tender a acercarse a 0 + 1 xt+1 . En el caso de dos variables yt , xt , decimos que 1 es la constante de cointegracin entre ambas. En el anlisis de simulacin anterior, en el que generamos ambas series temporales a partir de procesos independientes, este contraste nos sugerir en una mayora de simulaciones que yt , xt no estn cointegradas, lo que aparecer en la forma de residuos de naturaleza I(1) en (8.6). En tal caso, habramos de estimar un modelo en diferencias de ambas variables, yt = 0 + 1 xt + vt , t = 1, 2, ..., T que arrojar un coeciente 1 no signicativo y un coeciente de determinacin muy reducido. Al contrastar cointegracin, estamos tratando de detectar la posible existencia de relaciones de largo plazo entre las variables del modelo. En ese sentido, la naturaleza del contraste sugiere el uso de una datos no necesariamente frecuentes, y una muestra temporal sucientemente amplia. De lo contrario, predominar en la muestra, en trminos relativos, la informacin acerca de las uctuaciones de corto plazo en las variables, frente a la de su evolucin tendencial, que es lo que tratamos de detectar. Por tanto, una eleccin inapropiada de la muestra, ya sea por una frecuencia alta de observacin de los datos, o por el uso de un perodo muestral no muy amplio, sesgar el resultado del contraste hacia la no deteccin de relaciones de cointegracin. Efectuar un anlisis de cointegracin signica relacionar los niveles de variables como oferta monetaria y precios, y no sus tasas de variacin. Por el contrario, basar la caracterizacin de la relacin entre variables como las citadas utilizando coecientes de correlacin estndar es delicado, pues puede conducir a la deteccin de regresiones espreas. El concepto de cointegracin generaliza el concepto de correlacin en la direccin adecuada. La existencia de una tendencia estocstica comn generara una relacin sostenible a largo plazo entre ambas variables, lo que har que sus diferenciales reviertan a travs del tiempo, es decir, que sean mean46

reverting. No tiene sentido analizar las relaciones entre los niveles de variables I(1) si no estn cointegradas. 8.8.2. Contraste de hiptesis sobre la relacin de cointegracin estimada por mnimos cuadrados Al estimar la relacin anterior por mnimos cuadrados hay que tener en cuenta que las propiedades de dicho estimador son vlidas nicamente en el caso de variables estacionarias. Cuando las variables estn cointegradas, el uso de mnimos cuadrados en la estimacin de la regresin esta justicado estadsticamente, pero la distribucin de probabilidad del estimador MCO no es la habitual. Por tanto, aunque el programa de estimacin que utilicemos nos proporcionar las desviaciones tpicas estimadas y los ratios tipo-t de cada coeciente, estos no son vlidos en este caso, y no deben utilizarse, por ejemplo, para contrastar hiptesis sobre los coecientes de la relacin de cointegracin. Hay muchos casos, sin embargo, en que el modelo terico sugiere que las variables yt , xt deben estar relacionadas con un determinado valor numrico del coeciente, por ejemplo, 0 = 1, por lo que el investigador estar interesado en contrastar dicha hiptesis. Esto puede hacerse por un procedimiento indirecto, sustituyendo el valor terico de , = 0 en la relacin entre ambas variables. Ello signica que construimos la variable auxiliar wt = yt 0 xt , y contrastamos la estacionariedad de esta variable. Cuando se procede de este modo, es improtante repetir el contraste para valores de 0 en un entorno de 0 , con el objeto de analizar la precisin con que hemos identicado la constante de cointegracin. 8.8.3. Correlacin y cointegracin Sin embargo, correlacin y cointegracin no son sinnimos. El problema de correlacin esprea surge entre variables no estacionarias, con independencia de que estn o no cointegradas, luego puede haber alta correlacin (de hecho, muy elevada) sin cointegracin. Alternativamente, el hecho de que exista una relacin de largo plazo entre variables no estacionarias no impide que stas experimenten desviaciones respecto de la misma que, si son de apreciable magnitud, reducirn la correlacin existente entre dichas variables. Un ejemplo sera la evolucin temporal de la cotizacin de un valor en Bolsa, analizada conjuntamente con un ndice que lo incluya, ya sea el ndice de mercado, un ndice de los valores ms capitalizados, o un ndice sectorial; dado que todo ndice es un promedio ponderado 47

de las cotizaciones de los valores en l incluidos, cabra esperar que ambas series temporales estuvieran correlacionadas. Sin embargo, las uctuaciones que ambos experimentan a corto plazo pueden ser sucientes para que su coeciente de correlacin sea reducido. 8.8.4. Variables cointegradas: un ejemplo Un ejemplo tpico de variables posiblemente correlacionadas pero habitualmente no cointegradas lo constituye algunos tipos de cambio. A partir de dos variables no estacionarias, pero cointegradas, es sencillo construir dos variabls no cointegradas, sin ms que aadir en cada perodo a una de ellas, un incremento no correlacionado temporalmente. Si la varianza de este componente no es muy grande, mantendremos una correlacin anloga a la inicial, que poda ser elevada; sin embargo, por construccin, las dos variables no estn cointegradas. Ejemplo de variables cointegradas es, xt = x + x wt + xt yt = y + y wt + yt wt = wt1 + t donde zt es la tendencia comn a xt e yt , siendo xt , yt variables aleatorias N (0, 2 ), N (0, 2 ), sin autocorrelacin. Las variables xt e yt estn cointegradas, x y puesto que y y yt y / x xt = y x + yt xt x x que es una variable estacionaria. El vector 1, y / x se denomina vector de cointegracin, y la combinacin lineal t = yt y / x xt , que es estacionaria, es la cuanta en la que se incumple la relacin de equilibrio a largo plazo en el perodo t. Cuando el vector zt consta de n variables, con n > 2, pueden existir varias relaciones de cointegracin. Esto es lo que sucede, por ejempo, al considerar un vector de tipos de inters a distinto vencimiento, dentro de un mismo mercado, ya sea el mercado secundario de deuda pblica, un mercado de swap en una determinada divisa, etc.. En este caso, el procedimiento de Engle-Granger para estimar vectores de cointegracin es problemtico, pues estimaremos una combinacin lineal 48

de las posibles relaciones de cointegracin existentes entre las variables que componen el vector. De hecho, la estimacin resultante depender de la normalizacin de coecientes utilizada en (8.6), a diferencia de lo que ocurre en el caso de dos variables. 8.8.5. El modelo de correccin de error Teorema de representacin de Engle y Granger Este teorema arma que si dos variables yt , xt de naturaleza I(1),estn cointegradas, sus relaciones dinmicas estn caracterizadas por el modelo de correccin de error,
m X

yt = y + xt = x +

y xti 1i

donde t1 denota la desviacin del perodo anterior respecto de la relacin de equilibrio a largo plazo t1 = yt1 xt1 , siendo el coeciente de cointegracin entre yt y xt , y es el operador de primeras diferencias. En el modelo de correccin de error todas las variables son estacionarias, I(0), por lo que las propiedades habituales del estimador MCO en dicho contexto, son vlidas. Los trminos y t1 y x t1 se denominan trminos de correccin de error, y han de aparecer en las ecuaciones anteriores con un determinado signo, que depende del modo en que se haya denido el desequilibrio t1 . Con nuestra denicin, ha de tenerse y < 0, x > 0; un valor negativo de y indicar que perodos en que yt es alto, es decir, superior a xt , tendern a venir seguidos de crecimientos relativamente reducidos de dicha variable. Un valor positivo de x indica que siguiendo a perodos en que yt es alto, xt tender a experimentar un crecimiento mayor; la conjuncin de ambos efectos hace que yt+1 tienda a aproximarse a xt+1 . Lo dual ocurrir tras perodos en que yt haya sido bajo, es decir, inferior a xt . Si hubiramos normalizado la relacin de cointegracin de otro modo, habrimos denido el trmino de desequilibrio como t1 = yt1 xt1 , y los signos de los coecientes y , x en (8.7) deberan ser entonces los contrarios a los antes descritos. Es fcil ver, sin embargo, que esto no es preciso: la aproximacin entre ambas variables puede conseguirse asimismo si ambas aumentan o disminuyen simultneamente, pero xt experimenta la mayor variacin. Por tanto, si ambos 49

i=1 p X i=1

n X

y yti + y t1 + yt 2i x yti + x t1 + xt 2i

(8.7)

x xti + 1i

i=1 q X i=1

coecientes tienen igual signo, x debe ser signicativamente mayor que y en valor absoluto. De hecho, podra ocurrir tambin que slo unos de los dos coecientes resulte estadsticamente signicativo, lo que podra interpretarse en el sentido de que la variable asociada soporta todo el peso del ajuste hacia la relacin de equilibrio a largo plazo. La cointegracin entre variables no lleva aadida ninguna interpretacin concreta en trminos de causalidad entre dichas variables. De hecho, como la relacin de cointegracion puede normalizarse de distintas maneras, puede presentarse una apariencia de causalidad en cualquiera de las dos direcciones. El modelo de correccin de error muestra que, en presencia de cointegracin, existe importante causalidad entre ambas variables, en principio, con carcter bidireccional. Slo si algunos de los coecientes del modelo MCE resultan ser estadsticamente no signicativos, podra hablarse de causalidad unidireccional. Si dos variables estn cointegradas, al menos una de ellas causa a la otra; sin embargo, ello podra tambin reejar el efecto comn de una tercera variable, no considerada en el modelo. Por ejemplo, al trabajar con datos de precios de contado y del futuro sobre un determinado activo nanciero, es habitual hallar un mayor nmero de retardos del precio del futuro en la ecuacin del contado, que viceversa, lo que sugiere que los mercados de derivados (en este caso, de futuros), incorporan la nueva informacin ms rpidamente que los mercados de contado, por lo que los ltimos parecen responder a uctuaciones en los primeros. En este tipo de ejemplos, en ocasiones el trmino de correccin de error resulta no signicativo en la ecuacin de precios del mercado de contado. Cuando el vector zt incorpora ms de dos variables, y existe ms de una relacin de cointegracin entre ellas, el modelo de correccin de error adopta una expresin similar a la antes propuesta. La diferencia estriba en que aparecen retardos de todas las variables, en diferencias, en todas las ecuaciones, y aparecen tantos trminos de correccin de error como relaciones de cointegracin en cada una de las ecuaciones. Dichos trminos sern los valores retardados de dichas relaciones de cointegracin; la normalizacin esocgida afecta nicamente a la interpretacin de los valores numricos estimados. La bsqueda de variables cointegradas abundan en la literatura nanciera, donde trata de caracterizarse las posibles relaciones de equilibrio a largo plazo entre precios de activos. As, se han analizado las posibles relaciones de cointegracin entre tipos de cambio, entre tipos de inters dentro de una misma estructura temporal, entre mercados de contado y futuro, entre commodities, valoracin 50

de divisas. Tambin se ha utilizado este tipo de anlisis para discutir el grado de integracin entre mercados de valores o de deuda, si bien parece existir ms evidencia favorable en el primer tipo de mercados. Este anlisis tiene asimismo implicaciones para la gestin nanciera: en principio, debera ser posible encontrar una cesta reducida de valores cointegrada con el ndice, lo que podra utilizarse en la gestin pasiva de carteras. Lo mismo debera ocurrir con un pequeo conjunto de ndices sectoriales, etc.. 8.8.6. El contraste de cointegracin de Johansen Si consideramos un vector autoregresivo V AR(p), yt = A1 yt1 + A2 yt2 + ... + Ap ytp + Bxt + t donde yt es un vector de variables no estacionarias, I(1), xt es un vector de variables deterministas, y t es unvector de innovaciones. El V AR(p) puede escribirse, yt = yt1 + con =
p X i=1 p1 X i=1

i yti + Bxt + t

Ai I, i =

j=i+1

p X

Aj

8.8.7. Aspectos comunes a varias variables temporales: tendencias comunes, volatilidad comn. 8.8.8. Qu hacer en presencia de variables con tendencias estocsticas (races unitarias)? De acuerdo con la discusin que hemos llevado a cabo en las secciones anteriores, el procedimiento a seguir en caso de presencia de races unitarias en las variables de una regresin lineal simple es claro. Si tanto xt como yt son variables I(1), es decir, tienen una raz unitaria, entonces el tratamiento que hemos de aplicar depende de si estn o no cointegradas. Si lo estn, hemos de especicar estimar un modelo de correccin de error. Si no estn cointegradas, hemos de estimar un

51

modelo en diferencias. En el ejercicio de simulacin descrito, la estimacin de la relacin en primeras diferencias, yt = 0 + 1 xt + vt , t = 1, 2, ..., T arrojar un coeciente 1 no signicativo y un coeciente de determinacin muy reducido en la mayora de las simulaciones. Esto signica, entre otras cosas, que la recomendacin de tratar la no estacionariedad diferenciando las variables, no es correcta. Tal sugerencia es vlida cuando, existiendo races uniatrias en ambas variables, no estn cointegradas. Cuando estn cointegradas, el modelo que se estima relaciona las variables en diferencias, pero incorpora asimismo un trmino de correccin de error. An as, subsisten algunos matices: Modelo uniecuacional: como hemos comentado anteriormente, la cointegracin entre variables no dice nada acerca de la posible relacin de causalidad entre ambas. De hecho, de acuerdo con el teorema de representacin de Engle y Granger, el modelo de relacin entre ambas variables es un modelo de correccin de error, que es un modelo de dos ecuaciones, una para yt en diferencias, y otra para xt en diferencias. En ambas aparece el trmino de correccin de error retardado como una de las variables explicativas, debiendo esperar que tome signo opuesto en cada una de las dos ecuaciones, segn como se haya denido dicho trmino, por las razones antes expuestas. Adems de dicho trmino, aparecern posiblemente algunos retardos de las diferencias, tanto de xt como de yt . Sin embargo, es prctica habitual utilizar tal representacin para especicar un modelo de regresin con una nica ecuacin, como proponen Engle y Granger (19xx). Al actuar as, hemos de interpretar que estamos estimando por separado tan slo una de las ecuaciones del modelo de correccin de error, lo cual puede hacernos perder eciencia en la estimacin, salvo si: a) las innovaciones en las dos ecuaciones estn incorrelacionadas, o b) las dos ecuaciones tuvieran exactamente las mismas variables explicativas. Qu diferencias? Ya sabemos que, en caso de cointegracin, el modelo a estiamr es una relacin entre las variables xt e yt en diferencias. En muchos casos, el investigador dispone de observaciones mensuales o trimestrales de variables como el consumo agregado, el PIB de un pas, la inversin, un 52

agregado monetario, etc. Estas variables tienen, generalmente, una raz unitaria, por lo que, en caso de querer relacionar dos de ellas, y en presencia de cointegracin, deberamos estimar un modelo de correccin de error. Sin embargo, no slo la primera diferencia, es decir, la variacin entre meses o trimestres sucesivos, yt yt1 , sino la diferencia anual, yt yt4 en el caso de datos trimestrales, o yt yt12 en el caso de datos anuales, tambin son variables I(0), es decir, estacionarias. Por tanto, el modelo de correccin de error puede especicarse en unas u otras diferencias, siempre que seamos consistentes en tratar tanto xt como yt de igual manera. Y, sin embargo, las propiedades estadsticas de unas u otras diferencias son bien diferentes; por ejemplo, su volatilidad es muy distinta. Adems, es perfectamente concebible que la variacin anual (es decir, la tasa interanual) de inacin est correlacionada con la tasa internual de crecimiento monetario, a la vez que las tasas de variacin intermensuales (es decir, mes a mes) de ambas variables, no muestren una relacin signicativa. Por consiguiente, no sera lo mismo estimar un modelo de relacin, 12 yt yt yt12 = 0 + 1 (xt xt12 ) + (yt1 0 1 xt1 ) + ut que un modelo, yt yt yt1 = 0 + 1 (xt xt1 ) + (yt1 0 1 xt1 ) + ut de los que no cabe esperar resultados comparables. Tampoco debe pensarse que es sta una cuestin estadstica. Por el contrario, es el propio investigador quien debe decidir si piensa que la relacin entre las variables se debe a las uctuaciones que experimentan en perodos breves de tiempo, como un mes, o en perodos ms amplios, como un ao.

53

9. Matrices de covarianzas no escalares


9.1. Deteccin de la autocorrelacin 9.2. Tratamiento de la autocorrelacin. 9.3. El estimador de mnimos cuadrados generalizados 9.4. Deteccin de la heteroscedasticidad 9.5. Contraste de igualdad de varianza entre submuestras 9.6. Tratamiento de la heteroscedasticidad

10. El modelo de regresin lineal mltiple


Aunque hasta ahora hemos considerado nicamente modelos con una sola variable explicativa, no hay ninguna razn para restringirse a tal situacin. Adems, en la mayora de la situaciones, el investigador creer que hay ms de una variable que condiciona la evolucin del fenmeno que pretende caracterizar. Por ejemplo, es razonable creer que en la determinacin de los tipos de inters juega un papel la tasa de crecimiento monetario, pero tambin la tasa de inacin (o las expectativas de inacin futura), e incluso el nivel de endeudamiento. Sin embargo, el anlisis que hasta ahora hemos presentado es de suma importancia, pues la mayora de las cuestiones se extienden sin mucha dicultad al caso en que hay varias variables explicativas en el modelo. Hay dos dicultades bsicas a que nos enfrentamos al estimar un modelo de regresin mltiple: una es la interpretacin de los efectos de una de las variables explicativas separadamente de las dems. Por otro lado, la posibilidad de que la variable endgena se determine simultneamente con algunae las variables explicativas es indudablemente mayor cuantas ms variables explicativas se incluyen en el modelo; esto sera importante, pues los procedimientos de estimacin que hasta ahora hemos examinado no tendran las propiedades que hemos descrito. Cuando hay determinacin simultnea de alguna variable explicativa con la variable dependiente del modelo de regresin uniecuacional, el estimador de mnimos cuadrados es no slo sesgado, sino inconsistente, y esto aplica a los coecientes de todas las variables explicativas, no slo aquella que plantea al problema de determinacin simultnea. La razn por la que trabajamos en muchas ocasiones con modelos de regresin mltiple es sencillamente, porque hay ms de una variable con capacidad explicativa signicativa sobre la evolucin de la variable endgena, yt . Si, en tal 54

situacin, slo explicitamos una de ellas como variables expliactivas, las restantes estarn incluidas en el trmino de error, con lo que ste recoger, adems de otros componentes, la evolucin de las variables explicativas omitidas del modelo de regresin. Con ello, su uctuacin ser importante, por lo que tendr una varianza notable. La nica manera de reducir dicha varianza del trmino de error es haciendo explcitas todas las variables potencialmente explicativas. El investigador nunca tiene convencimiento acerca de la capacidad explicativa de un detemrinado conjunto de variables. Lo que debe hacer es estimar el modelo con ellas, y proceder a contrastar la signicacin de cada una de ellas por separado, del modo que describimos en este captulo. En este proceso incide negativamente la dicultad en estimar por separado el efecto de cada una de las variables explicativas sobre la variable endgena, por lo que no puede sorprender que dediquemos a este asunto una buena parte del captulo. Si, queriendo caracterizar la determinacin de tipos de inters, estimamos el modelo, rt = 0 + 1 mt + 2 t + ut (10.1)

en el que aparecen el crecimiento monetario y la tasa de inacin como variables explicativas. El coeciente 1 mide el efecto sobre los tipos de inters de un incremento (o disminucin) unitario en la tasa de expansin monetaria, dada una determinada tasa de inacin, es decir, manteniendo la tasa de inacin constante. Aunque indudablemente esta es una evaluacin interesante, el hecho de que slo sea vlida en ausencia de variaciones en la tasa de inacin limita algo su uso. En todo caso, es claro que junto con este tipo de estimaciones, nos interesara disponer asimismo de una estimacin del efecto que tendra dicha variacin en el crecimeinto monetario teniendo en cuanta asimismo el impacto que dicha variacin puede tener sobre la tasa de inacin. Podra pensarse que si lo que se pretende es estimar el impacto que sobre los tipos de inters tiene una variacin unitaria en la tasa de crecimiento monetario, podemos estimar el modelo de regresin lineal simple, rt = 0 + 1 mt + vt (10.2)

Ahora bien, si el verdadero modelo es (10.1), entonces en el modelo (10.2), la tasa de inacin forma parte del trmino de error. De hecho, tendramos la relacin entre los trminos de error de ambas ecuaciones, vt = 2 t + ut 55

Como consecuencia, en la medida en que crecimiento monetario e inacin no son independientes, la variable explicativa mt y el trmino de error vt en el modelo (10.2) estaran correlacionados, Corr(mt , vt ) = 2 Corr(mt , t ) + Corr(mt , ut ) = 2 Corr(mt , t ) 6= 0 po lo que el estimador de mnimos cuadrados de (10.2) no tendra las propiedades que para l probamos en la seccin XX. En particular, sera inconsistente. En general, un modelo de regresin mltiple incorpora un nmero k de variables explicativas, ya sea con datos temporales, yt = 0 + 1 x1t + 2 x2t + ... + k xkt + ut , t = 1, 2, ..., T o con datos de seccin cruzada, yi = 0 + 1 x1i + 2 x2i + ... + k xki + ui , i = 1, 2, ..., N Es til que consideremos inicialmente un modelo ms simple, yt = 0 + 1 x1t + 2 x2t + 3 x3t + ut (10.4) (10.3)

que, al igual que hicimos en el modelo de regresin simple, podemos interpretar en diferencias temporlaes. Para ello, escribimos el modelo en dos instantes de tiempo sucesivos, yt1 = 0 + 1 x1t1 + 2 x2t1 + 3 x3t1 + ut1 y restando, con lo que tenemos, yt = 1 x1t + 2 x2t + 3 x3t + ut que nos muestra que la fouctuacion temporal en yt puede explicarse a partir de las variaciones temporales en x1t , x2t , x3t . Por tanto, una vez ms, el modelo es interpretado en trminos de variaciones, a pesar de estimarse con datos originales, en niveles de las variables. Una vez que hayamos estimado el modelo, y disponiendo de datos de las variables incluidas en el msmo, podremos calcular los dos miembros de la igualdad, yt = 1 x1t + 2 x2t + 3 x3t 56

que, en realidad, no coincidirn.La diferencia entre la variacin en yt y la variacin que para dicha variable se habra previsto en funcin de los cambios que han experimentado las variables explicativas, 1 x1t + 2 x2t + 3 x3t , se debe, por supuesto, a la existencia del error o residuo, que conamos que, en media, no ser muy grande. En todo caso, la diferencia entre los dos miembros de la igualdad anterior ser t . u 1 x1t mide el efecto que sobre yt habra tenido la variacin en El trmino x1t si las otras dos variables explicativas no hubiesen cambiado. Sin embargo, este es un supuesto cticio, pues las tres variables habrn visto alterado su valor numrico. A pesar de ello, el ejercicio ceteris paribus puede tener inters en el diseo de poltica econmica. Por ejemplo, retomando el modelo (10.1), el coeciente estimado 2 nos dara el efecto que sobre los tipos de inters tendr una variacin unitaria (positiva o negativa) en la tasa de inacin, si mantenemos inalterada la tasa de crecimiento moenatrio. Como sta es una variable de control de la autoridad moneria en la puesta en prctica de la poltica monetaria, el ejercicio que acabamos de describir es razonable. Incluso, una vez realizado, la propia autoridad monetaria podra preguntarse por el impacto que sobre los tipos de inters tendra un incremento de un punto en la tasa de inacin (que tender a elevar los tipos de inters), parcialmente compensada con una mayor restriccin monetaria (que tender a reducir los tipos de inters), por ejemplo, recortando en dos puntos el crecimiento monetario. Dicho impacto sobre los tipos de inters, sera, rt = 2 1 + 2 donde, una vez ms, hay que apuntar que, muy probablemente, 1 tomar un valor negativo. Si, por ejemplo, la ecuacin estimada es, rt = 4, 25 0, 42mt + 0, 96 t + ut (10.5)

entonces la elevacin de un punto en la tasa de inacin tendera a incrementar los tipos de inters en 0,96. Si se reduce en dos puntos el crecimiento monetario el efecto combinado ser mucho menor, rt = 2 1 + 2 = 0, 84 + 0, 96 = 0, 12. El modelo lineal de regresin especica una relacin del tipo, yt = 0 + 1 x1t + 2 x2t + ... + k xkt + ut , t = 1, 2, ..., T en la que se utilizan k variables para tratar de explicar el comportamiento de la variable yt . Esta ltima se conoce como variable dependiente, mientras que las variables que aparecen en el miembro derecho del modelo se denominan variables 57

explicativas. El trmino ut se conoce como la perturbacin o trmino de error del modelo, y es una variable aleatoria. Tambin yt se considera que es una variable aleatoria. La variable ut es el componente de yt que el modelo no puede explicar. Se entiende que la lista de variables explicativas recoge todas las variables que pueden estar relacionadas con yt , de modo que ut es el componente que el investigador reconoce no poder explicar. En un modelo de regresin interesa que este trmino sea lo ms pequeo posible. La expresin anterior reeja el supuesto de que disponemos de observaciones de series temporales para cada una de las variables del modelo. Los datos de series temporales recogen informacin acerca de una determinada unidad econmica (un pas, un mercado nanciero, etc...) en distintos instantes de tiempo, reejando as la evolucin temporal de un conjunto de variables relativas a dicha unidad econmica. Un ejemplo sera un modelo que pretende explicar la inacin mensual en la zona euro utilizando como variables explicativas la tasa de crecimiento de la M3, las variaciones en el precio del barril de petrleo, etc.. Otros ejemplos seran: a) tratar de explicar la evolucin temporal de las rentabilidades diarias ofrecidas por una cesta IBEX35 utilizando las rentabilidades ofrecidas por una cesta S&P500, b) explicar la evolucin de la volatilidad del IBEX35 a partir de la volatilidad del Futuro sobre el IBEX35, c) tratar de explicar la volatilidad implcita en una opcin put sobre Telefnica a partir de la volatilidad en la cotizacin de dicha accin, etc... En otras ocasiones, los datos disponibles no son de dicho tipo, sino de seccin cruzada, es decir, recogen informacin acerca de distintas unidades estadsticas, en un mismo instante de tiempo, yi = 0 + 1 x1i + 2 x2i + ... + k xki + ui , i = 1, 2, ..., N aunque ambos modelos se tratan de igual modo. Estimar el modelo consiste en asignar valores numricos a los coecientes 0 , 1 , 2 , ..., k. Una vez que se dispone de dichos valores numricos, puede calcularse el residuo del modelo, mediante la expresin, ut = yt 0 + 1 x1t + 2 x2t + ... + k xkt t = 1, 2, ..., T que tiene la misma naturaleza que los datos utilizados, es decir, ser bien una serie temporal o una seccin cruzada de datos. Un buen ajuste consiste en que los residuos sean lo menor posibles, si bien no es evidente cmo medir el tamao de una variable aleatoria de este tipo. 58

10.1. Estimacin por mnimos cuadrados Los datos disponibles pueden organizarse en la forma de una matriz X, de dimesncin Txk o Nxk para las variables explicativas, y de un vector y, de dimensin Tx 1 o Nx 1 para la variable dependiente. Asimismo, podemos considerar el vector u, de dimensin Tx1 o Nx 1, que contiene las T (o N ) variables aleatorias correspondientes a la perturbacin correspondiente a cada observacin muestral. Con ellas, el modelo de regresin lineal puede escribirse, y = XB + u El estimador de mnimos cuadrados ordinarios se obtiene mediante la expresin matricial, = (X 0 X)1 X 0 y que, como puede comprobarse, es un vector columna de dimensin kx1. Es, por tanto, una transformacin lineal de la variable dependiente y. En ese sentido, se dice que el estimador MCO es un estimador lineal. Este estimador proporciona un buen ajuste a los datos, en el sentido de que los residuos que genera proporcionan la menor suma de cuadrados posible. Es conveniente utilizar criterios como el de la suma de los cuadrados de los residuos porque estos pueden ser positivos o negativos, de modo que su suma directa no debe utilizarse como criterio de bondad de ajuste. En el caso de un modelo de regresin lineal simple, yt = 0 + 1 xt + ut , t = 1, 2, ..., T este estimador se convierte en, Cov(xt , yt ) DT (yt ) 1 = = xy , 0 = y 1x V ar(xt ) DT (xt ) por lo que el coeciente de correlacin entre xt e yt est muy relacionado con la estimacin de mnimos cuadrados de la pendiente de la recta de regresin. Sin embargo, como puede verse, dicho coeciente de correlacin debe corregirse por la volatilidad relativa de variable dependiente e independiente. La pendiente del modelo mide el efecto que una determinada variacin en xt tiene sobre yt . Si, por ejemplo, la correlacin fuese perfecta (supngamos que de signo positivo), pero la variable dependiente fuese el doble de voltil que la variable explicativa, el coeciente de correlacin sera 1, pero el coeciente del model. 59

11. Propiedades del estimador de mnimos cuadrados.


Generalmente, estamos muy interesados en contratar hiptesis de distinto tipo: a) si una variable explicativa contiene informacin signicativa acerca de la variable dependiente, b) si el coeciente de imapacto de una determinada variable es igual a 1, c) si dos variables explicativas tienen el mismo coeciente, etc... Sin embargo, aunque los coecientes del modelo de regresin son constantes, si bien desconocidas, sus estimaciones, por cualquier procedimiento que podamos utilizar, son aleatorias, pues son funcin de la muestra que utilicemos, que es aleatoria. Si el modelo que estamos estimando es correcto, como hemos de suponer, la perturbacin aleatoria del mismo, ut , otroga naturaleza asimismo aleatoria a la variable dependiente, yt . Esto signica que si cambiamos por ejemplo el perodo muestral que utilizamos en la estimacin, la realizacin de dicha perturbacin, es decir, sus valores numricos, sern diferentes, con lo que las observaciones de yt tambin los ern, y la estimacin de los parmetros diferir de la obtenida con otro perodo muestral. Asimismo, si cambiamos la frecuencia de observacin de los datos, de diaria a mensual, por ejemplo tomando el ltimo dato de cada mes, la muestra cambia, y con ella, las estimaciones de los coecientes de las variables explicativas en el modelo. Siendo variables aleatorias, nos interesa que los estimadores tengan ciertas propiedades deseables, lo cual depender del procedimiento de estimacin utilizado, y de lasc aractersticas del modelo que estamos estimando. Las principales propiedades en que podemos estar interesados son: insesgo, eciencia y consistencia. El insesgo consiste en que la esperanza matemtica del estimador coincida con el verdadero valor numrico del coeciente que estamos estimando. Un estimador eciente es un estimador de mnima varianza. El procedimiento de mnimos cuadrados proporciona el estimador lineal de mnima varianza, si bien pueden existir otros estimadores no lineales de varianza todava menor. Un estimador es consistente si, al aumentar el tamao muestral, converge en probabilidad al verdadero valor del parmetro desconocido que se est estimando. Se dice entonces que su lmite en probabilidad es dicho parmetro. Bien podra ocurrir que el estimador fuese sesgado en muestra pequeas, pero si es consistente, dicho sesgo ir reducindose si ampliamos el tamao muestral. El estimador de mnimos cuadrados no es siempre consistente. El estimador de mxima verosimilitud lo es, pero siempre que la hiptesis acerca de la distribucin de probabilidad en que se basa, sea correcta, sobre lo que no se puede tener 60

seguridad. Por construccin, el estimador MCO proporciona aqul conjunto de valores numricos para los coecientes del modelo de regresin que generan unos residuos cuya suma de cuadrados es menor. Como este es el criterio seguido para calcular el estimador de mnimos cuadrados, tal propiedad es incuestionable, y caracteriza a dicho estimador. Propiedad 1: No puede hallarse otro conjunto de valores numricos para los coecientes del modelo que generen unos residuos con una suma de cuadrados inferior a la obtenida a partir del estimador MCO. Adems de esta propiedad el estimador posee otras caractersticas, que examinamos a continuacin. En todo modelo lineal de regresin, los residuos generados por el estimador de mnimos cuadrados satisfacen las propiedades: Propiedad 2: Los residuos de mnimos cuadrados se relacionan con el trmino de perturbacin del modelo mediante,

u = Mu siendo M = IT X (X 0 X)1 X 0 , una matriz cuadrada de orden T . Propiedad 3: La matriz M es simtrica e idempotente Demostracin.- Inmediata, a partir de la denicin de la matriz M. Por ejemplo, 1 1 M 0 M = M M = IT X (X 0 X) X 0 IT X (X 0 X) X 0 = = IT X (X 0 X)
1

X 0 X (X 0 X)

X 0 + X (X 0 X)

X 0 X (X 0 X)

X 0 = IT X (X 0 X

Ahora podemos calcular las propiedades estadsticas (esperanza matemtica y matriz de covarianzas) del vector de residuos u, de dimensin Tx1 : Propiedad 4: Si el trmino de perturbacin satisface E(u) = 0T, V ar(u) = 2 IT , se tiene E () = 0, V ar () = 2 M. u u u u 61

Demostracin.- La primera parte es inmediata a partir de la propiedad anterior. Para probar la segunda parte, tenemos, V ar() = E(u0 ) = E(u0 M M 0 u) = E(u0 Mu) = u u = tr(u0 Mu) = E(uu0 M ) = E(uu0 )M = 2 IT M = 2 M u u Por tanto, incluso si el trmino de perturbacin del modelo tiene una estructura de covarianzas sencilla, el vector de residuos tendr una matriz de covarianzas bastante ms compleja. El vector de residuos tiene, al igual que el trmino de perturbacin, esperanza matemtica igual a cero para cada observacin muestral. Propiedad 5: Los residuos M CO estn incorrelacionados con cada una de las variables explicativas del modelo. Demostracin.- Si denotamos por u el vector de T residuos del modelo esti mado, tenemos X 0 u = X 0 (y X ) = X 0 (y X(X 0 X)1 X 0 y) = 0 Esta propiedad es muy importante si recordamos la interperetacin del coeciente de correlacin en el sentido de que una correlacin no nula entre variables permite cierta capacidad de predecir el comportamiento de una cualquiera de ellas a partir de los valores observados para la otra. por tanto, si los residuos del modelo tuvieran correlaci positiva o negativa con alguna de las variables explicativas, signicara que la informacin muestral relatiuva a dicha variable permite explicar el comportamiento del residuo, la parte de yt que hemos dejado sin explicar. Esto denira la estimacin que hemos obtenido como ineciente, pues no habra hecho uso de toda la ingformacin muestral disponible. por tanto, esta ausencia de correlacin es muy deseable. Propiedad 6: En todo modelo de regresin que incorpora un trmion constate, la suma de los residuos generados por el estimador M CO es igual a cero. Como consecuencia, su promedio es asimismo nulo. Demostracin.- Es consecuencia de la propiedad anterior, si tenemos en cuenta que el trmino constante acompaa a una variable explicativa que toma un valor igual a uno en todos los perodos. 62

Propiedad 7: El estimador MCO es insesgado E() = E (X 0 X)1 X 0 y = E (X 0 X)1 X 0 (X + u) = = E + (X 0 X)1 X 0 u = + (X 0 X)1 X 0 E(u) = 0

Propiedad 8: Si la matriz de covarianzas del trmino de perturbacin es V ar(u) = 2 IT , la matriz de covarianzas del estimador M CO es: Var( MCO ) = u 1 2 0 u (X X) . 0 0 V ar() = E E() E() =E = 0 1 0 0 = E (X X) X uu X(X 0 X)1 = (X 0 X)1 X 0 E (uu0 ) X(X 0 X)1 = = (X 0 X)1 X 0 V ar (u) X(X 0 X)1 = (X 0 X)1 X 0 V ar (u) X(X 0 X)1 Propiedad 9: Si la matriz de covarianzas del trmino de perturbacin es V ar(u) = 2 IT , el estimador MCO es el estimador lineal insesgado de menor u varianza. Demostracin.- Cualquier otro estimador lineal puede escribirse, = Ay. Si denimos la diferencia entre las matrices que denen este estimador y el estimador MCO, D = A (X 0 X)1 X 0 tenemos, = D + (X 0 X)1 X 0 y = D + (X 0 X)1 X 0 (X + u) = DX++ D + (X 0 X)1 X 0 u por lo que E = DX + . El estimador ser insesgado slo si la matriz D satisface la propiedad DX = 0, que equivale a la propiedad AX = Ik . Supongamos que se cumple esta propiedad. La matriz de covarianzas del estimador es entonces,

63

V ar() = E

= 2 (X 0 X)1 + 2 DD0 u u

0 h 0 i 0 1 0 0 1 0 0 = E D + (X X) X uu D + (X X) X

siendo el segundo sumando una matriz semidenida positiva. En consecuencia, la diferencia entre las matrices de covarianza del estimador y el estimador MCO es una matriz denida positiva, lo que prueba que este ltimo es el estimador lineal insegado de mnima varianza. Propiedad 10: Si el trmino de perturbacin del modelo de regresin se distribuye: u N(0T , 2 IT ), entonces el estimador MCO del vector de u coecientes se distribuye,
1 N (, 2 (X 0 X) ) u

Demostracin.- Se basa en el hecho de que el vector que dene el estimador de mnimos cuadrados (de dimensin kx 1) es una transformacin lineal del vector de perturbaciones (de dimensin Tx 1) = + (X 0 X)1 X 0 u siendo determinista el resto de los elementos que aparecen en esta expresin. Ello implica que el estimador de cada uno de los coecientes sigue asimismo una distribucin Normal, i N ( i , 2 aii ) 1 i k u donde aii denota el elemento i-simo en la diagonal de la matriz (X 0 X)1 , que tiene dimensin kxk. Propiedad 12: Si el trmino de perturbacin del modelo de regresin se distribuye: u N(0T , 2 IT ), entonces el estimador MCO del vector de u coecientes coincide con el estimador de Mxima Verosimilitud de dichos coecientes.

64

Demostracin.- Recordemos que la funcin de densidad de una varaible Normal multivariante N (, ) de dimensin T es, 1 1 1 0 1 f () = exp 2 (2)T /2 | |1/2 de modo que, si suponemos Normalidad del trmino de perturbacin, tenemos, 1 1 1 0 f (u) = exp 2 u u 2 u (2)T /2 ( 2 )T /2 u y la verosimilitud del vector de observaciones de la variable dependiente y resulta, 1 1 1 0 2 exp 2 (y X) (y X) L(y, X/, u ) = 2 u (2)T /2 ( 2 )T /2 u donde hemos utilizado el hecho de que el Jacobiano de la transformacin que convierte el vector u en el vector y es igual a la matriz identidad de orden T , por lo que tiene determinante igual a 1. Por tanto, dada una muestra y, X,maximizar la funcin de verosimilitud respecto a los valores paramtricos , 2 , equivale a minimizar la suma de cuadrados u de los residuos del modelo. La nica diferenciae striba en que el estimador M V del parmetro resulta ser, 2 = u SR T

frente al estimador que suele calcularse en la utilizacin del procedimiento de mnimos cuadrados, que es, 2 = u SR T k

y que suele conocerse como estimador de mnimos cuadrados de 2 . u Ambos se aproximan para tamaos muestrales moderados. El estimador M V de 2 es sesgado, mientras que el segundo es insesgado. El estimador M CO del u vector de coecientes alcanza la cota de Cramer-Rao (umbral inferior para la varianza de todo estimador insesgado), lo que no le sucede al estimador M CO de 2 , que excede de dicha cota, si bien no existe ningn estimador insesgado de 2 u u 65

que alcance dicha cota. El estimador M V de 2 es inferior a dicha cota, pero es u sesgado, como ya hemos dicho. Este resultado es importante, por cuanto que implica que si, adems de los supuestos ms bsicos, de tener esperanza cero y matriz de covarianzas escalar, aadimos el supuesto de que el trmino de perturbacin sigue una distribucin Normal, entonces el estimador MCO tiene las mismas propiedades que el estimador MV. Ahora bien, sabemos que, bajo condicioens bastante generales, el estimador MV es eciente; es decir, no puede encontrarse otro estimador, lineal o no lineal, que tenga una matriz de covarianzas menor que la del estimador MV. En trminos del concepto de precisin que introdujimos en la Seccin XX, no puede encontrarse un estimador de mayor precisin que el estimador MV. En consecuencia, la utilizacin del procedimiento de mnimos cuadrados est totalmente justicada bajo el supuesto de Normalidad del trmino de perturbacin, y algo menos cuando tal supuesto no se establece. Evidentemente, no se trata de que el investigador haga o no una hiptesis acerca del tipode distribucin que sigue el trmino de perturbacin, sino de que se preocupe acerca de si el supusto de Normalidad es aceptable Por eso es que los contrastes de normalidad deben tener una cierta importancia en el anlisis emprico.o de regresin sera igual a 2. Si las variables explicativas no son deterministas, sino aleatorias, como cabe esperar, entonces el clculo de las propiedades del estimador de mnimos cuadrados es algo ms complejo, y sus propiedades varan. En general, el estimador ser sesgado, pero ser consistente, salvo que alguna de las variables explicativas tenga un comportamiento tendencial. Cuando aparecen tendencias, el estimador de mnimos cuadrados es asintticamente insesgado y eciente,
T

lim E() = ; lim V ar() = 0


T

La fuerte estructura que hemos impuesto sobre el vector de perturbaciones, V ar(u) = 2 IT no es necesaria para garantizar la consistencia del estimador de u mnimos cuadrados. De hecho, incluso en presencia de variables explicativas estocsticas, el estimador de mnimos cuadrados todava es insesgado si las variables explicativas estn incorrelacionadas con el trmino de perturbacin del modelo de regresin. En realidad, todo lo que necesitamos es que la esperanza del trmino de perturbacin, condicional en la informacin proporcionadad por las variables explicativas, sea cero: E(u/X) = 0. Esto implica la ausencia de correlacin, puesto que, 66

E(X 0 u) = E [E(X 0 u/X)] = E [EX 0 (u/X)] = E [X 0 E(u/X)] = E(0) = 0 En tales condiciones, tomando esperanzas condicionales, tenemos, E(/X) = E (X 0 X)1 X 0 y/X = E (X 0 X)1 X 0 (X + u)/X = = E + (X 0 X)1 X 0 u/X = + (X 0 X)1 X 0 E(u/X) = 0

Sin embargo, si bien ser insesgado, el estimador MCO no ser ya eciente. La consistencia del estimador M CO requiere que las variables explicativas estn incorrelacionadas asintticamente (es decir, en el lmite al aumentar el tamao muestral) con el trmino de perturbacin, p lim Como 0 1 X 0u = + p lim X X p lim p lim ) T T 0 y si se existe el lmite p lim XTX y la matriz X 0 X es invertible, entonces un 0 1 argumento de continuidad garantiza la existencia de p lim XTX . En tal caso, 1 0 p lim T X u = 0 garantiza la consistencia del estimador M CO, puesto que se tiene, p lim = Dado que la matriz XTX se compone de momentos muestrales de orden 2, la existencia del lmite de dicha matriz requiere existencia de segundos momentos para el vector de variables explicativas. La presencia de una tendencia, aun siendo determinista, genera trminos del tipo, PT 2 PT t=1 t t=1 txit ; T T cuyo lmite no existir si las restantes variables xit tienen un comportamiento estable alrededor de un nivel de referencia. 67
0

1 0 Xu=0 T

En presencia de variables explicativas estocsticas, el estimador M CO no tiene distribucin Normal en muestras nitas incluso si u N(0T , 2 IT ). Por el conu trario, bajo ciertas condiciones de regularidad, se tiene, 1 T ( ) N (0, 2 (X 0 X) ) u
d

mediante aplicacin del teorema central del lmite al caso en que el trmino de perturbacin presenta la misma distribucin de probabilidad para todas las observaciones, con esperanza nula y varianza nita, y las variables explicativas satisfacen condiciones de existencia de moemtnos como la que antes discutimos.

12. Bondad de ajuste del modelo


Al tener los residuos media cero, es claro que debemos preocuparnos por el modo en que oscilan alrededor de cero. En particular, lo que nos interesa es que las desviaciones que experimentan con respecto a cero sean lo menor posibles. Es decir, que su varianza sea lo menor posible, pero su varianza muestral es, precisaP mente, proporcional a T u2 . Por otra parte, puesto que el residuo no es sino t=1 t una componente de la variable dependiente, aquella que no podemos explicar, tiene perfecto sentido comparar la varianza de los residuos con la de la variable dependiente. Ambas son positivas, y su cociente ser necesariamente inferior a la unidad, de modo que oscila entre 0 y 1. Pero esto es lo que hacemos con el coeciente de determinacin. La bondad del ajuste del modelo de regresin se representa por el coeciente de determinacin del modelo, PT SR 2 2 t=1 ut R =1 = 1 PT ST 2 t=1 (yt y )

sonde SR denota la suma de los cuadrados de los residuos, y ST lo que conocemos como Suma Total, la suma de las desviaciones al cuadrado de la variable dependiente respecto de su media muestral. Esta suma es igual a la varianza de yt multiplicada por el tamao muestral.

13. Contrastes de hiptesis


Generalmente, estamos muy interesados en contratar hiptesis de distinto tipo: a) si una variable explicativa contiene informacin signicativa acerca de la variable 68

dependiente, b) si el coeciente de impacto de una determinada variable es igual a 1, c) si dos variables explicativas tienen el mismo coeciente, etc... Para llevar a cabo contrastes de este tipo, necesitamos hacer alguna hiptesis acerca de la distribucin de probabilidad del trmino de error o perturbacin del modelo de regresin. Generalmente suponemos que dicho trmino sigue una distribucin Normal, si bien esto debe contrastarse utilizando los tests paramtricos o no paramtricos apropiados. Como hemos visto en la seccin anterior, wbajo ciertas condiciones tenemos,
1 N (, 2 (X 0 X) ) u

en cutyo caso, cada uno de los coecientes del modelo sigue asimismo una distribucin Normal, i N ( i , 2 aii ) 1 i k u donde aii denota el elemento i-simo en la diagonal de la matriz (X 0 X)1 , que tiene dimensin kxk. Si queremos contrastar una determinada hiptesis acerca del valor numrico del coeciente asociado a una determinada variable xi , 1 i k, H0 : i = 0 i podramos utilizar esta propiedad, pues tendremos que, i 0 i p N(0, 1) 2 aii u

de modo que bastara jar un nivel de signicacin para el contraste, obtener el nivel crtico correspondiente al mismo en la tabla de una Normal(0,1), y comparar 0 el valor numrico del estadstico i iii con dicho umbral critico. Por supuesto 2
u a

que el nivel crtico que obtengaos en la tabla de la N (0, 1) debe depender de que el contraste sea de una o de dos colas, es decir, de que la hiptesis alternativa sea del tipo, H1 : i 6= 0 i o de alguno de los tipos, 69

H1 : i < 0 i , H1 : i > 0 i La hiptesis de signicacin de la variable xi , 1 i k consiste en contrastar H0 : i = 0 frente a una alternativa, H1 : i 6= 0 aunque tambin podra ser de una sla cola, si tenemos informacin a priori restringiendo el signo de dicho coeciente. Sin embargo, el contraste de hiptesis no puede llevarse a cabo de este modo porque desconocemos el valor numrico de la varianza del trmino de error. Puede sin embargo estimarse, lo cual hacemos mediante la expresin, 2 = u SR T k

Ahora bien, si sustituimos su valor terico por su valor estimado, las propiedades estadsticas del contraste de hiptesis cambian. Concretamente, habremos de utilizar la propiedad, 2 (T k) u T k 2 u independiente de . Como consecuencia, tenemos que,
i iii 2 u a
2

es decir,

(T k) u /(T k) 2
u

tT k

i 0 p 2 i tT k u aii 70

con lo que podremos llevar a cabo contrastes como los mencionados. Especcamente al llevar a cabo contrastes de signicacin, conviene que distinguir entre las situaciones en que no rechazamos la hiptesis nula de ausencia de signicacin de una determinada variable porque efectivamente, no tiene capacidad explicativa, de aquellos casos en que no rechazamos la hiptesis nula porque la estimacion del coeciente asociado a dicha variable se lleva a cabo no una precisin reducida. Baja precisin implica una varianza elevada para el estimador de dicho coeciente, con lo que el valor numrico del ratio que aparece en el estadstico t de Student ser reducido, y posiblemente inferior al nivel crtico proporcionado por las tablas. En denitiva, hay que distinguir entre los caos en que dicho ratio es pequeo porque el numerador es pequeo, de los casos en que el ratio es reducido porque su denominador es muy elevado. Asimismo, conviene recordar que para rechazar una hiptesis nula, requerimos que la informacin muestral contenga evidencia signicativa en contra de la hiptesis nula y favorable a la hiptesis alternativa. Esta segunda condicin suele olvidarse con demasiada frecuencia, pero es importante, especialmente en contrastes de una cola. En el contraste de hiptesis H0 : i = 0 frente a la alternativa, H1 : i > 0 si obtenemos una estimacin puntual i = 3, 5 estaramos en una situacin en que la evidencia muestral es contraria a la hiptesis nula, pero tambin es contraria a la hiptesis alternativa. En tal caso, los mtodos estadsticos habituales para el contraste de hiptesis nos llevarn a no rechazar la hiptesis nula, a pesar de que la estimacin numrica del coeciente puede considerarse elevada. Ello se debe a que al establecer la hiptesis alternativa, no hemos considerado la posibilidad de que dicho coeciente tome valores negativos, seguramente por algun conocimiento previo o alguna razn terica. No es que nosotros queramos o no rechazar H0 , sino que los pprocedimientos habituals nos llevarn a no rechazar dicha hiptesis. En una situacin as, el investigador debera cuestionar las razones que le han llevado a establecer una hiptesis alternativa como la que hemos presentado. Si contina pensando que tal alternativa es razonable, deber desechar la muestra que ha utilizado; por el contrario, el resultado de la estimacin podra en algunos casos reconsiderar la hiptesis alternativa, establecindola en la forma H1 : i 6= 0, y volver a contrastar la hiptesis nula H0 : i = 0 de nuevo. 71

Para llevar a cabo el contraste de hiptesis de una cola H0 : i = 0 i frente a la alternativa, H1 : i > 0 i utilizaramos el hecho de que para toda variable tn se tiene, 0, 95 = P [ tn, ] siendo tn, el nivel crtico proporcionado por las tablas de la distribucin tn al nivel de conanza , que habremos de jar previamente. Por tanto, bajo el supuesto de que la hiptesis nula es cierta " # q i 0 i i 0 + tn, 2 aii 0, 95 = P p 2 tn, = P u i u aii

de modo que los valores admisibles del coeciente estn por debajo de 0 + h i i p p tn, 2 aii . Esto delimita una regin crtica RC 0 + tn, 2 aii ; + cuyo u u i umbral inferior es superior al valor terico, 0 . Es decir, rechazamos la hiptesis i nula si nuestra estimacin, con las muestra disponible, excede de dicho umbral, que es a su vez mayor que el valor terico 0 . i En el caso particular de que contrastemos si un coeciente es cero, cuando la alternativa contemplada es que tome valores nicamente positivos, rechazaremos la hiptesis nula cuando la estimacin puntual de dicho coeciente exceda de un p cierto umbral estrictamente positivo, tn, 2 aii . Este tipo de evidencia sera siu multneamente contraria a la hiptesis nula, y favorable a la hiptesis alternativa. Para contrastar hiptesis ms complejas, como H0 : 1 + 2 = 5 frente a una alternativa como H1 : 1 + 2 < 5, basta tratar 1 + 2 5 como una nueva variable aleatoria z cuya varianza puede determinarse sin ningn problema a partir de la matriz de varianzas-covarianzas de , y pensar en contrastar H0 : z = 0, frente a la alternativa H1 : z = 0. As, 72

z N (0, 1) DT (z) y si sustituimos en esta expresin el verdadero valor de 2 por su estimacin, u z5 tendremos DT (z) tT k y podremos proceder a contrastar H0 . Lo que estamos haciendo es comparar la magnitud de la holgura o incumplimiento de una restriccin, utilizando su desviacin tpica como unidad de medida, para poder decidir si dicha holgura es grande o pequea. Este argumento puede extender al contraste simultneo de varias restricciones. Calculamos para cada una de ellas su holgura, obteniendo as un vector de dimensin igual al nmero de restricciones, cuyas coordenadas pueden ser positivas o negativas. Igualmente, podemos pensar en obtener la matriz de covarianzas de las restricciones, una vez que tratamos cada una de ellas como una sla variable aletoria, como hemos hecho en el ejemplo anterior. Finalmente, decidimos si el vector de holguras es grande o pequea calculando su tamao utilizando la matriz de covarianzas como unidad de medida, (V ector de ho lg uras) [V ar (V ector de ho lg uras)]1 (V ector de ho lg uras)0 que puede probarse que sigue una distribucin Fq,T k , siendo q el nmero de restricciones que se contrastan. Por ejemplo, si contrastamos las hiptesis,... Para contrastar un conjunto de hiptesis lineales de la forma, H0 : R = r frente a la alternativa, H1 : R 6= r el estadstico, 0 r [R(X 0 X)1 R0 ]1 R r /q R u0 u/(T k)

Fq,T k

Utilizar este estadstico matricial es equivalente al ejercicio que hemos propuesto arriba. De hecho, no es dificil ver en el corchete central de este estadstico 73

tipo F la matriz de covarianzas del vector de holguras, donde el parmetro 2 u se ha sustituido por su estimacin en el denominador. Estamos, por tanto, calculando el tamao del vector de holguras, utilizando su desviacin tpica como unidad de medida. Por ltimo, en ocasiones pueden sustituirse en el modelo las regresiones que se pretende calcular. En ese caso, otro modo equivalente de calcular el estadstico F anterior consiste en comparar la suma de cuadrados de los residuos que se obtienen en el modelo sin restringir y el modelo restringido, mediante el estadstico, (SRR SSR) /q SSR/(T k) que es idntico al anterior y obedece, por tanto, a una distribucin de probabilidad Fq,T k . Otros estadsticos son, (SRR SSR) W ald SRR (SRR SSR) (T k + q) M ultiplicadores de Lagrange SRR T (ln SRR ln SSR) Razn de verosimilitudes o (T k)

14. Matrices de covarianzas no escalares


Si el trmino de perturbacin satisface las condiciones, E(uT ) = 0T , V ar(uT ): 2 , siendo una matriz simtrica, denida positiva, T xT , el estimador M CO es u insesgado, con matriz de covarianzas : Var( MCO ) = 2 (X 0 X)1 (X 0 X)(X 0 X)1 . u La demostracin de esta propiedad es totalmente anloga a la de las Propiedades 7 y 8. Si el trmino de perturbacin del modelo se distribuye N (0T , 2 ) siendo u una matriz simtrica, denida positiva, TxT, entonces el estimador MCO del vector de coecientes se distribuye, MCO N(, 2 (X 0 X)1 (X 0 X) (X 0 X)1 ) u La demostracin es anloga a la realizada en la Propiedad 10, basndose el resultado en el hecho de que, cuando las variables explicativas son deterministas, el estimador M CO es una transformacin lineal del vector u. 74

En estas circunstancias, el estimador M CO ya no es el estimador lineal insesgado de mnima varianza. 14.1. Comparacin de estimadores de la regresin mltiple y la regresin simple Consideremos la estimacin por mnimos cuadrados del modelo, yt = 0 + 1 x1t + 2 x2t + ut supongamos que estimamos una regresin auxiliar, x2t = 0 + 1 x1t + 2t y construimos los residuos, 2t = x2t 0 + 1 x1t , (14.2) (14.1)

que, como vimos en XX, tendrn, entre otras, la propiedad Corr(2t , x1t ) = 0. Si, a continuacin, estimamos el modelo de regresin simple de la variable dependiente de inters sobre los residuos de esta regresin auxiliar, yt = 0 + 22t + vt tendremos (como vimos en XX),
t=1 2 = PT

PT

2t yt 2 t=1 2t

Resulta sorprendente que, como puede probarse sin mucha dicultad, este estimador coincide con el estimador de mnimos cuadrados ordinarios de 2 en (10.4), MCO = 2 2 Lo que hemos hecho es extraer de x2t el efecto de x1t debido a la correlacin que, en general, existir entre estas variables. As, el residuo 2t mide el componente de x2t que no tiene nada en comn con x1t y, de hecho, tiene correlacin nula con esta variable.

75

Este resultado se extiende al modelo ms general, (10.3), en el que si estimamos la regresin auxiliar, x1t = 0 + 2 x2t + ... + k xkt + 1t , t = 1, 2, ..., T y utilizamos los residuos de esta regresin 1t = x1t 0 2 x2t ... k xkt , t = 1, 2, ..., T para estimar la regresin simple, yt = 0 + 11t + vt (14.4) (14.3)

tedremos que la estimacin de mnimos cuadrados de 1 en (14.4) coincidir con la estimacin de mnimos cuadrados de 1 en (10.3). Supongamos por un momento que en un determinado anlisis, la variable explicativa x1t tiene correlacin cero con el resto de las variables explicativas. Entonces, en (14.3) los coecientes estimados deberan ser prcticamente cero, al igual que el coeciente de determinacin de dicha ecuacin.En tal caso, el residuo 1t ser practicamente igual a x1t , 1t ' x1t , por lo que el modelo (14.4) ser esencialmente, yt = 0 + 1 x1t + vt (14.5)

Pero hemos dicho que la estimacin de mnimos cuadrados de 1 en esta regresin coincide con la estimacin de mnimos cuadrados de 1 en (10.3). Por tanto, cuando una variable explicativa est incorrelacionada con todas las dems, su coeciente puede estimarse igualmente bien en la regresin multiple completa, o en la regresin simple de yt sobre esta nica variable. Una segunda situacin en que se produce este mismo resultado es cuando la correlacin muestral entre cada una de las variables explicativas e yt es cero. La razn es que en tal caso, las estimaciones tericas de los coecienets asociados a cada una de estas variables sera cero, por lo que estimar el modelo (10.3) equivale, al menos tericamente, a estimar (14.5). Es interesante saber que neste resultado puede asimismo aplicarse a bloques de variables. As, supongamos que en el modelo de regresin mltiple, las k variables explicativas pueden agruparse en dos bloques, con la condicin de que ninguna variable de un bloque est correlacionada con ninguna variable del otro bloque. Permitimos, sin embargo, que variables de un mismo bloque estn correlacionadas, 76

positiva o negativamente entre s. Pues bien, en tal situacin, los coecientes asociados a las variables en el primer bloque pueden estimarse en una regresin de yt unicmente sobre este subgrupo de variables explicativas, y lo mismo puede decirse acerca de los coecientes asociados a las variables en el segundo bloque. 14.2. Regresin particionada

15. Grado de ajuste del modelo de regresin mltiple


Una vez estimados los coecientes del modelo de regresin mltiple, y obtenidos los valores numricos de los residuos, la varianza residual se obtiene, yt = 0 + 1 x1t + 2 x2t + 3 x3t + ut
n 2 2 Sy.123 1 X 2 Su ui = = n 3 i=1 n3 n3

2 = u

donde la notacin que hemos introducido enla ltima igualdad hace referencia a que se trata de la suma residual que resjulta al estimar una regresin en que la variable dependiente Y aparece explicada por x1 , x2 , x3 . La Suma Residual puede expresarse,
n X i=1 n X i=1 n X i=1 n X i=1 n X i=1

2 Sy.123

2 yi

yi 1

yi x1i 2

yi x2i 3

yi x3i

(15.1)

expresin que puede expresarse matricialmente,


2 Sy.123 = y 0 y X 0 y

y que puede descomponerse en la forma,


2 2 Sy = Sy.123 + n X i=1

(i y )2 y

(15.2)

de modo que la Suma Total, o suma de cuadrados de las desviaciones entre las observaciones de la variable dependiente y su media, es igual a la suma de la Suma Residual de la regresin, ms la Suma Explicada por la misma. 77

El coeciente de determinacin mltiple se dene,


2 Ry.123 2 Sy.123 =1 2 Sy

que puede obtenerse sin necesidad de calcular previamente los residuos de la P 2 regresin pues, utilizando (15.1) junto con Sy = n (yi y )2 se llega a, i=1
2 Ry.123 =

1 Sx1 y + 2 Sx2 y + 3 Sx3 y 2 Sy

Por la descomposicin de la Suma Residual (15.2), tenemos que el coeciente 2 de determinacin Ry.123 es positivo, y no superior a la unidad. El coeciente de correlacin mltiple es la raz cuadrada, con signo positivo, del coeciente de determinacin mltiple, s s 2 2 2 Sy.123 Sy Sy.123 2 = 1 = y.123 2 2 Sy Sy 15.1. Coecientes de correlacin parcial y de determinacin parcial El modelo de regresin mltiple nos permite considerar asimismo la capacidad explicativa que cada una de las variables independientes por separado, tiene sobre la variable dependiente, lo cual es de sumo inters para el investigador. Para ello utilizamos los coecientes de correlacin parcial, Denicin.- El coeciente de correlacin parcial entre Y y X1 , denotado por y1.2 , en el universo de variables Y, X1 , X2 , X3 , es el coeciente de correlacin simple entre las variables Y y X1 , una vez que se ha extrado de ellas la inuencia comn que puedan tener de la variable X2 . El coeciente de correlacin parcial entre Y y X2 , denotado por y2.1 , en el universo de variables Y, X1 , X2 , X3 , se denira anlogamente. Suele interpretarse el coeciente y1.2 como el grado de correlacin existente entre Y y X1 , cuando X2 se mantiene ja, pero consideramos bastante ms adecuada la interetacin que hemos dado: dicho coeciente mide la correlacin existente entre las variables Y y X1 que no es debida a la posible inuencia comn que ambas avriables puedan 78

experimentar respecto de X2 . Cuando hay ms de dos variables explicativas, las posibilidades de denir coecientes de correlacin parcial se multiplican. En el caso de dos variables explicativas, yt = 0 + 1 x1t + 2 x2t + ut si denotamos por y1 , y2 , 12 los coecientes de correlacin simple entre cada par de variables, puede probarse que, y1 y2 12 1 2 (1 2 ) y2 12 y2 y1 12 1 2 (1 2 ) y1 12

y1.2 = q y2.1 = q

Los coecientes de correlacin parcial pueden escribirse asimismo en trminos de varianzas muestrales. Por ejemplo, el coeciente de correlacin parcial entre Y y X2 es igual a, s s 2 2 2 Sy.1 Sy.12 Sy.12 y2.1 = 1 2 = 2 Sy.1 Sy.1 que depende de la comparacin entre dos sumas de cuadrados de residuos: la que procede de la regresin mltiple de Y sobre X1 y X2 , y la correspondiente a la regresin simple de Y sobre X1 . El coeciente de correlacin parcial entre Y y X2 es igual a la reduccin que la varianza del modelo de regresin simple se obtiene cuando se aade al mismo, como variable explicativa adicional, la variable 2 2 X2 . Es claro que Sy.1 > Sy.12 , pues la suma residual nunca disminuye al aadir una variable explicativa al modelo de regresin. Si, por ejemplo, X2 no aporta 2 2 explicacin alguna sobre Y que no est ya contenida en X1 , entonces Sy.1 = Sy.12 y y2.1 = 0, a pesar de que y2 habr sido, en general, diferente de cero. Analogmente, tendramos, el coeciente de correlacin parcial entre Y y X1 , s s 2 2 2 Sy.12 Sy.2 Sy.12 y1.2 = 1 2 = 2 Sy.2 Sy.2 Sus cuadrados son los coecientes de determiancin parcial, 79

2 Ry1.2 = 1 2 Ry2.1

2 2 2 Sy.12 Sy.2 Sy.12 = 2 2 Sy.2 Sy.2 2 2 2 Sy.12 Sy.1 Sy.12 = 1 2 = 2 Sy.1 Sy.1

16. Colinealidad entre variables explicativas en un modelo de regresin


En un modelo de regresin lineal mltiple, la interpretacin de los coecientes estimados no es inmediata. De hecho, lo verdaderamente importante es entender que hay diversas maneras de interpretar los valores numricos obtenidos en el proceso de estimacin, no todas equivalentes. La lectura ms inmediata de la estimacin de un modelo de regresin, utilizada con excesiva frecuencia, consiste en interpretar cada coeciente como el impacto que la variable explicativa asociada al mismo tiene sobre la variable dependiente. Lamentablemente, una interpretacin tan directa no es siempre vlida. Es fcil ver que el valor numrico de un coeciente como 2 en la regresin, yt = 0 + 1 x1t + 2 x2t + 3 x3t + ut es la variacin, positiva o negativa, segn su signo, que experimentara la variable yt si la variable x3t aumentase en una unidad, y supuesto que ninguna otra de las variables explicativas, alterase su valor numrico. Ahora bien, recordemos la interpretacin que llevamos a cabo acerca del signicado del coeciente de correlacin en la Seccin XX. Si x3t estuviera altamente correlacionada con x2t , (x3t , x3t ) = 0, 85, por ejemplo, sera poco realista hacer el supuesto ceteris paribus del prrafo anterior, pues el valor numrico del coeciente de correlacin entre ambas variables indica que cuando una de ellas aumenta, la otra generalmente disminuye. Por tanto, para calcular el efecto que sobre yt tendra un aumento de una unidad en x3t , habra que restar de 3 , que mide el efecto directo, el producto de 2 por el cambio producido en x2t . Este producto medira el efecto indirecto. Para calcular la magnitud de la variacin en x2t que cabra esperar que viniera asociada con un aumento de una unidad en x3t , hemos de apelar nuevamente al concepto de coeciente de correlacin, 80

(x3t , x3t ) =

23 2 3

16.1. Efectos de la colinealidad entre variables explicativas No se producen efectos sobre las caractersticas globales de la regresin: Rcuadrado, residuos numricos, desviacin tpica de la perturbacin, estadstico de signicacin global de la regresin, etc. Consideremos un modelo de regresin con las variables medidas en desviaciones respecto a su valor medio, yt = 1 x1t + 2 x2t + ut A partir de la matriz de covarianzas muestral entre las variables explicativas del modelo de regresin, var(x1 ) cov(x1 , x2 ) a b V ar(X) = = , a, c > 0, b Q 0, cov(x1 , x2 ) var(x2 ) b c obtenemos la matriz de covarianzas de los estimadores MCO del modelo de regresin mltiple, 1 2 c b 1 acb2 2 acb2 c b 2 MCO ) = 2 a b = = V ar( b a b c 2 acb2 2 acb2 ac b2 b a 1. Que las variables explicativas del modelo de regresin estn altamente correlacionadas signica que, en valor absoluto, su coeciente de correlacin (covarianza dividido entre producto de desviaciones tpicas) sea prximo a b2 la unidad o, lo que es equivalente, que ac est prximo a la unidad. Esto implica, evidentemente, que b2 es aproximadamente igual al producto ac. Una primera consecuencia es que el determinante de la matriz de covarianzas de las variables explicativas, ac b2 , ser prximo a cero, es decir, dicha matriz de covarianzas es prxima a ser singular. Como el inverso de dicho determinante aparece como un factor comn en V ar( MCO ), se tiene que tanto las varianzas de los estimadores MCO como sus covarianzas, son numricamente elevadas. Por ejemplo, con una matriz de covarianzas entre variables, 81

V ar(X) =

4 6.2 6.2 10

tenemos una matriz de covarianzas entre estimadores MCO, 1 4 6.2 19. 231 11. 923 V ar( MCO ) = 3.0 = 6.2 10 11. 923 7. 6923 con, DT ( 1 ) = 19. 231 = 4. 3853, DT ( 2 ) = 7. 6923 = 2. 7735

6.2 = . 98031 , Corr(x1 , x2 ) = p (4) (10)

1. Por tanto, se produce una prdida de precisin en las estiamciones, al aumentar las desviaciones tpicas de los estimadores MCO. En este caso, por tanto, estimamos con una baja precisin no porque existan variaciones en el valor de los coecientes, sino porque las variables asociadas estn altamente correlacionadas, positiva o negativamente. 2. Como discutimos en la Seccin XX al hablar de los contrastes de hiptesis estadsticas, la prdida de precisin tiene implicaciones importantes en cuanto a efectuar contrastes acerca de valores numricos con dichos coecientes, por cuanto que la menor precisin, que es equivalente a una mayor varianza estimada termina plasmndose en intervalos de conanza ms amplios. Esto hace mucho ms fcil que el valor numrico que se contrasta en una hiptesis nula simple caiga dentro de dicho intervalo, no rechnzadose, en consecuencia, dicha hiptesis nula. En este caso, que mla hiptesis nula no se rechace no se debe necesariamente a que el valor hipottico del coeciente sea muy similar al valor estimado, sino a que la desviacin tpica asociada a este ultimo es muy grande, lo que puede ampliar el intervalo de conanza asociado de manera muy importante. En denitiva, como vimos en su momento, la menor precisin en la estimacin viene asociada a una prdida de potencia en la contrastacin de hipotesis estadsticas. 3. Otra consecuencia de la correlacin entre variables explicativas es que la correlacin entre coecientes estimados, b tendr signo contrario al de ac la correlacin entre las variables explicativas x1 , x2 , y ser cercano a 1 en valor absoluto. Si las variables explicativas estn positivamente correlacionadas, entonces los estimadores MCO de sus coecientes asociados estn negativamente correlacionados. En el ejemplo anterior, 82

Ello quiere decir que, mientras que, a lo largo de la muestra, las dos variables tienden a estar simultneamente por encima o por debajo de sus respectivas medias muestrales, las estimaciones numricas de sus coecientes estarn una por encima de su media, y otra por debajo. Esto signica que el procedimiento tiende a sobre-estimar uno de dichos coecientes y a sub-estimar el otro, sin que, por supuesto, sepamos cul de ellos est en cada situacin. Pero adems, que su correlacin sea elevada implica que tendremos una seria dicultad en distinguir entre una coleccin de posibles pares de estimaciones 1 , 2 , que se distinguen unas de otras porque las que tienen un valor mayor de 1 , tienen un valor inferior de 2 . Este es un problema que se conoce como de falta de identicacin en la estimacin del modelo economtrico. Como hemos visto, el efecto de la colinealidad es aumentar las varianzas de los estimadores de mnimos cuadrados, as como sus covarianzas. En general, las correlaciones entre coecentes son asimismo elevadas. Esto signica no slo que exista una tendencia a que cada coeciente individual tienda a aparecer como estadsticamente no signicativo, sino que, adems, es difcil estimar numricamente cada coeciente por separado. Es lgico esperar que as sea: si dos variables x2 y x3 estn positivamente correlacionadas, entonces las dos tienden a desviarse en igual direccin respecto a sus medias muestrales. Por tanto, ambas tienden a estar simultneamente por encima o por debajo de sus respectivas medias; por consiguiente, la misma capacidad explicativa genera la combinacin 2 x2 + 3 x3 que la combinacin ( 2 + )x2 +( 3 ) x3 . Es decir, puesto que ambas variables se mueven generalmente en igual sentido, existen proporciones y de ambas variables que toman valores numricos muy similares, compensndose entre s. Por consiguiente, ambas combinaciones tomarn aproximadamente los mismos valores numricos. Como esta sustitucin entre las variables x2 y x3 puede llevarse a cabo en cuanlquier cuanta, siempre que se respete la proporcin dada por /, identicar con precisin por separado los valores numricos de los parmetros 2 y 3 resulta muy difcil.

Corr 1 , 2 = p

11. 923 = . 98029 (19. 231) (7. 6923)

83

16.2. Deteccin de la colinealidad Puesto que la colinealidad se reere a la presencia de corcientes de correlacin de elevados en magniotud entre las variables explciativas, nada mejor para detectar esta situacin que examinar dichos coecientes de correlacin en la muestra. Aunque parezca sorprendente, hay distintos procediemitnos que deben seguirse, pues son todos ellos de una enorme sencillez. 1. En primer lugar, el clculo dedichos coecientes de correlacin entre todos los pares de variables explicativas; en el modelo del ejemplo anterior, hay tan slo uno de tales pares. 2. En segundo lugar, deben examinarse las nubes de puntos entre tales pares de variables; como dijimos en su momento, un grco tan simple como una nueb de puntos nos proporciona una perspectiva muestral completa, a diferencia del nico valor numrico proporcionado por un coeciente de correlacin muestral. por ejemplo, en una nube de puntos podemos percibir que lo que aparece como un coeciente de correlacion muestral slo moderado, se debe a la existencia de ua submuestra, de reducida magnitud, enla que las dos variables en cuestin se desconectan, existiendo en el resto de la muestra una relacin estrecha entre ambas. 3. En tercer lugar, pueden calcularse los valores propios de la matriz de covarianzas de las variables observadas. Como hemos visto en el ejemplo anterior, en presencia de colinealidad, dicha matriz estar cercana a la singularidad, lo que se ha de reejar en que el menor de los valores propios debe ser muy inferior al mayor de los mismos. Ha de tenerse en cuenta que todos los valores propios de dicha matriz sern no negativos, como corresponde a una matriz de covarianazs, que es semi-denida positiva. Por otra parte, el determinante de una matriz cuadrada es igual al producto de sus valores propios, y ha de ser cercano a cero si la matriz es casi singular. para que el producto de los valores propios sea cercano a cero, es necesario que se cumpla la relacin citada entre el menor y el mayor de todos ellos. 4. Por ltimo, pueden estimarse regresiones parciales entre pares de variables explicativas. El R-cuadrado de dichas regresiones ser el coeciente de correlacin entre ambas, al cuadrado, por lo que la estimacin de estas regresiones auxiliares engloban como caso particular a la primera de nuestras sugerencias. De este modo, obtenemos informacin adicional til, especialmente 84

a travs de los residuos de cada regresin, cuyo examen nos proporciona el componente de una de las variables explicativas que no est explicado por la utilizada como variable explicativa en la regresin auxiliar. 5. Sensibilidad a variaciones en un nmero reducido de observaciones muestrales. 16.3. Tratamiento de la colinealidad Como hemos visto, uno de los dos problemas producidos por la colinealidad entre las variables explicativas del modelo de regresin estriba en la dicultad de interpretar separadamente cada uno de los coecientes estimados. Concretamente, no podemos interpretar el valor numrico de un coeciente estimado como el efecto de la variable explicativa asociada sobre la variable dependiente. 16.3.1. Regresin ortogonalizada Puesto que una de las dicultades generadas por la colinealidad entre variables explicativas estriba en la dicultad de interpretar los valores numricos estimados para los coecientes del modelo de regresin, uno de los posibles tratamientos de la colinealidad consiste en modicar las variables explicativas del modelo, de modo que las nuevas variables sean incorrelacionadas entre s. Para ello, el investigador debe comenzar estableciendo un ranking de importancia entre las variables explicativas originales, entendiendo por ello, su creencia acerca de la capacidad explicativa individual de cada una de ellas respecto a la variable dependiente. La primera de dichas variables en importancia se conserva inalterada. A continuacin, se estima una regresin lineal de la variable que ocupa el segundo puesto en el ranking, sobre la primera, x2t = 0 + 1 x1t + 2t (16.1)

los residuos de dicha regresin van a sustituir a la segunda variable. Dichos residuos son el componente de x2t que no est explicada por x1t ; adems, por construccin, estn incorrelacionados con x1t , (2t , x1t ) = 0. A continuacin, se estima una regresin de la tercera variable sobre las dos primeras; por construccin, los residuos de mnimos cuadrados de dicha regresin tienen correlacin nula con x1t y con x2t , y se procede de este modo hasta llegar a la variable colocada en el ltimo lugar del ranking.

85

Para establecer el ranking inicial, el investigador puede servirse de regresiones parciales de la variable dependiente sobre cada una de las variables explicativas originales. El R2 de dichas regresiones, las desviaciones tpicas residuales, as como un examen grco de los residuos de cada una de ellas, ser generalmente suciente para establecer dicho ranking. La nica dicultad en este anlisis surge si hay duda entre dos variables acerca de cul de ellas asignar alguno de los primeros lugares del ranking; esto sera importante, pues si dos variables tienen una capacidad explicativa similar, elevada en ambos casos, entonces la variable que resultase menos favorecida en la seleccin sera sustituda por lo residuos en una regresin de dicha variable por la que se seleccion como prioritaria en el ranking, y dichos residuos tendrn una capacidad explicativa muy reducida, debido a que estas dos variables eran originalmente muy similares. En otras palabras, si dudamos entre seleccionar x1t o x2t para ocupar el primer lugar en el ranking..... De este modo, alteramos la regresin inicial por otra, yt = 0 + 1 x1t + 2 2t + 3 3t + ut (16.2)

donde 2t y 2t denotan los residuos de las regresiones auxiliares, (16.1) y x3t = 0 + 1 x1t + 2 x2t + 3t , 2t = x2t 0 + 1 x1t , 3t = x3t 0 1 x1t + 2 x2t , (16.3) (16.4) (16.5)

En esta regresin, el coeciente de correlacin entre dos variables explicativas cualesquiera es cero. Por ejemplo, si consideramos 2t y 3t , tenemos que 3t tiene correlacin nula con x1t y con x2t , mientras que 2t es una combinacin lineal de x1t y x2t ; en consecuencia, el coeciente de correlacin entre 2t y 3t es igual a cero. Por tanto, a diferencia de lo que ocurra en la regresin original, los coecientes estimados en (16.2) pueden interpretarse como el impacto, positivo o negativo, que se tendra sobre yt si la variable asociada, digamos que 3t , aumenta en una unidad. La estrategia propuesta habra resuelto, por tanto, el problema de interpretacin de los coecientes individuales estiamdos; sin embargo, surge otra dicultad evidente, y es que el investigador no est interesado en estimar el impacto que sobre yt puede tener una variacin unitaria en 3t , sino en la variable original, x3t . 86

Sin emabrgo, no todo est perdido: supongamos que, una vez estimada (16.2) el investigador dispone de datos yt , x1t ,x2t y x3t . Sustituira, x2t = 0 + 1 x1t + 2t 3t = x3t ( 0 + 1 x1t + 2 x2t ) en (16.2) , obteniendo XXX. 16.3.2. Otros tratamientos Regresin cresta Componentes principales (16.6) (16.7)

17. Prediccin
Como mnimo, una variable puede predecirse a partir de su valor medio muestral.

87

18. Modelos univariantes de series temporales


18.1. Primeros conceptos 18.1.1. Procesos estocsticos 18.1.2. Funciones de autocorrelacin simple y parcial 18.2. Procesos autoregresivos, AR(p) 18.2.1. El modelo AR(1) 18.2.2. El modelo AR(2) 18.3. Procesos de medias mviles, MA(q) 18.4. Procesos mixtos, ARMA(p,q) 18.5. Procesos integrados ARIMA(p,d,q) 18.6. Prediccin con modelos univariantes 18.6.1. Prediccin con modelos AR(p) 18.6.2. Prediccin con modelos MA(q) 18.6.3. Prediccin con modelos ARMA(p,q) 18.6.4. Prediccin con modelos ARIMA(p,d,q) 18.7. Estimacin de modelos univariantes de series temporales 18.7.1. Estimacin de modelos autoregresivos 18.7.2. Estimacin de modelos de medias mviles 18.7.3. Estimacin de modelos ARMA(p,q) y ARIMA(p,d,q)

19. El procedimiento de variables instrumentales


19.1. Correlacin entre variables explicativas y trmino de error 19.2. Errores de medida

20. Modelos dinmicos


20.1. Colinealidad entre variables explicativas 20.2. Estimacin 88 20.2.1. Perturbacin sin autocorrelacin 20.2.2. Perturbacin con autocorrelacin

21. Simultaneidad
21.1. Identicacin 21.2. Estimacin de una ecuacin del sistema

You might also like