You are on page 1of 12

Modelo de regresin lineal simple 1 Introduccin Con frecuencia, nos encontramos en economa con modelos en los que el comportamiento

de una variable, Y, se puede explicar a travs de una variable X; lo que representamos mediante Y = ( ) f X (1) Si consideramos que la relacin f, que liga Y con X, es lineal, entonces (1) se puede escribir as: YXtt = 1 2 + (2) Como quiera que las relaciones del tipo anterior raramente son exactas, sino que ms bien son aproximaciones en las que se han omitido muchas variables de importancia secundaria, debemos incluir un trmino de perturbacin aleatoria, ut , que refleja todos los factores distintos de X -que influyen sobre la variable endgena, pero que ninguno de ellos es relevante individualmente. Con ello, la relacin quedara de la siguiente forma: Modelo de regresin simple YXu ttt = 1 2 + + (3) La expresin anterior refleja una relacin lineal, y en ella slo figura una nica variable explicativa, recibiendo el nombre de relacin lineal simple. El calificativo de simple se debe a que solamente hay una variable explicativa.

Supongamos ahora que disponemos de T observaciones de la variable Y ( 12 ,,,YYYT ) y de las correspondientes observaciones de X ( 12 ,,,XXXT ). Si hacemos extensiva (3) a la relacin entre observaciones, tendremos el siguiente conjunto de T ecuaciones: 11211 21222 12

TTT YXu YXu YXu =++ =++ =++ "" (4)

El sistema de ecuaciones (4) se puede escribir abreviadamente de la forma siguiente: 12 1, 2, , Y X u t T t t t = + + = (5) I-2 El objetivo principal de la regresin es la determinacin o estimacin de 1 y2 a partir de la informacin contenida en las observaciones de que disponemos. Esta estimacin se puede llevar a cabo mediante diversos procedimientos. A continuacin se analizan en detalle algunos de los mtodos posibles. Interesa, en primer lugar, realizar una aproximacin intuitiva a diferentes criterios de ajuste. Para ello se utiliza la representacin grfica de las observaciones ( , X Y t t ), con t = 1, 2,..., T. Si la relacin lineal de dependencia entre Y y X fuera exacta, las observaciones se situaran a lo largo de una recta (vase la figura 1). En ese caso, las estimaciones ms adecuadas de 1 y2 de hecho, los verdaderos valores seran, respectivamente, la ordenada en el origen y la pendiente de dicha recta. Figura 1 Pero si la dependencia entre Y y X es estocstica, entonces, en general, las observaciones no se alinearn a lo largo de una recta, sino que formarn una nube de puntos, como aparece en la figura 2. En ese caso, podemos contemplar las

estimaciones de 1 y2 como la ordenada en el origen y la pendiente de una recta prxima a los puntos. As, si designamos mediante 1 y 2 las estimaciones de 1 y2 , respectivamente, la ordenada de la recta para el valor Xt vendr dada por 12 YXtt = + (6) El problema que tenemos planteado es, pues, hallar unos estimadores 1 y 2 tales que la recta que pasa por los puntos (

, Xt t Y ) se ajuste lo mejor posible a los puntos ( , Xt t Y ). Se denomina error o residuo a la diferencia entre el valor observado de la variable endgena y el valor ajustado, es decir, I-3 12 u Y Y Y X t t t t t = = (7) Teniendo en cuenta el concepto de residuo se analizan a continuacin diversos criterios de ajuste. Figura 2 Un primer criterio consistira en tomar como estimadores 1 y 2 aquellos valores que hagan la suma de todos los residuos tan prxima a cero como sea posible. Con este criterio la expresin a minimizar sera la siguiente: 1 T t

t u = (8) El problema fundamental de este mtodo de estimacin radica en que los residuos de distinto signo pueden compensarse. Tal situacin puede observarse grficamente en la figura 3, en la que se representan tres observaciones alineadas, ( 11 X Y , ), ( 22 XY,)y( 33 X Y , ), tales que 2131 2131 YYYY XXXX = . Si se ajusta una recta que pase por los tres puntos, cada uno de los residuos tomar el valor cero, de forma que 1 0

T t t u = = Dicho ajuste se podra considerar ptimo. Pero tambin es posible que 3 1 0 t t u = = haciendo girar en cualquier sentido la recta si dejamos fijo ( 22 X Y , ), como muestra la figura 2, debido a que 31 u u = . Este sencillo ejemplo nos muestra que este criterio no es apropiado para la estimacin de 1 y2 , debido a I-4 que, para cualquier conjunto de observaciones, existen infinitas rectas que lo satisfacen. Otra forma de evitar la compensacin de residuos positivos con negativos consiste en tomar los valores absolutos de los residuos. En este caso se minimizara la siguiente expresin:

1 T t t u = (9) Figura 3 Desgraciadamente, aunque los estimadores as obtenidos tienen algunas propiedades interesantes, su clculo es complicado, requiriendo la resolucin de un problema de programacin lineal o la aplicacin de un procedimiento de clculo iterativo. Un tercer mtodo consiste en minimizar la suma de los cuadrados de los residuos, es decir, 2 1 T t t Su = = (10) Los estimadores obtenidos con arreglo al criterio expresado en (10) se denominan mnimo-cuadrticos, y gozan de ciertas propiedades estadsticas deseables, que se estudian posteriormente. Por otra parte, frente al primero de los

criterios examinados, al tomar los cuadrados de los residuos se evita la compensacin de stos, mientras que, a diferencia del segundo de los criterios, los estimadores mnimo-cuadrticos son sencillos de obtener. Es importante sealar que, desde el momento en que tomamos los cuadrados de los residuos, estamos penalizando ms que proporcionalmente a los residuos grandes frente a los pequeos (si un residuo es el doble que otro, su cuadrado ser cuatro veces mayor), lo que caracteriza tambin a la estimacin mnimo-cuadrtica frente a otros posibles mtodos. 5 Hiptesis estadsticas del modelo I Hiptesis sobre la forma funcional Los elementos del modelo tienen la siguiente relacin entre s: YXu ttt = 1 2 + + (43) La relacin entre el regresando, los regresores y la perturbacin aleatoria es lineal. El regresando y los regresores pueden ser cualquier funcin de la variable endgena o de las variables predeterminadas, respectivamente, siempre que entre regresando y regresores se mantenga una relacin lineal, es decir, el modelo sea lineal en los parmetros. El carcter aditivo de la perturbacin aleatoria garantiza su relacin lineal con el resto de los elementos. II Hiptesis sobre la perturbacin aleatoria La perturbacin aleatoria ut es una variable aleatoria no observable con las siguientes propiedades: a) La esperanza matemtica de la perturbacin aleatoria ut

es cero. ()0 1, 2, , E u t T t

= = (44) Se adopta aqu el supuesto de que los efectos individuales de las variables incluidas en el trmino de perturbacin tienden a compensarse por trmino medio. En cualquier caso, aun suponiendo que los efectos individuales no se compensasen exactamente y, por tanto, su valor esperado fuese distinto de cero, dicho valor podra ser acumulado en el trmino constante del modelo de regresin, con lo cual se podra mantener esta hiptesis sin ningn problema. Por esta razn, si el modelo tiene trmino constante, es imposible deslindar a posteriori la parte estrictamente correspondiente al coeficiente independiente del modelo, de la parte proveniente de la media de la perturbacin aleatoria del modelo. As, pues, sta seria una hiptesis no contrastable empricamente. b) Las perturbaciones aleatorias son homoscedsticas 22 () 1, 2, , E u t T t

= = (45) I-12 Esta hiptesis indica que todas las perturbaciones aleatorias tienen la misma varianza. Es decir, la varianza de las perturbaciones aleatorias del modelo es constante y, por tanto, independiente del tiempo o de los valores de las variables predeterminadas. Dicha hiptesis es contrastable empricamente mediante diversos contrastes estadsticos basados en los residuos mnimocuadrticos. Asimismo, hay que sealar que, en determinadas situaciones, esta hiptesis resulta poco plausible, sobre todo cuando se trabaja con datos de corte transversal, es decir, con observaciones sobre diferentes unidades muestrales referidas a un mismo momento del tiempo. Si no se cumple esta hiptesis, se dice

que las perturbaciones son heteroscedsticas. c) Las perturbaciones aleatorias con distintos subndices son independientes entre s. ()0 Ets

u u t s = (46) Es decir, las perturbaciones correspondientes a distintos momentos del tiempo o a distintas unidades muestrales no estn correlacionadas entre si. Este supuesto, al igual que el anterior, es contrastable a posteriori. La transgresin del mismo se produce con bastante frecuencia en los modelos en los que se utilizan datos de series temporales, es decir, observaciones realizadas a intervalos regulares de tiempo. d) La perturbacin aleatoria tiene una distribucin normal multivariante Dado que la perturbacin aleatoria recoge un conjunto amplio de variables, omitidas del modelo de regresin, que son independientes entre si y tambin del conjunto de regresores, por el teorema central del limite se puede suponer que el vector de perturbaciones aleatorias tiene una distribucin normal multivariante. Las cuatro hiptesis formuladas sobre las perturbaciones aleatorias se pueden expresar de forma conjunta como 2 ~ (0, ) u NID t (47) donde NID indica que son normales e independientes. III Hiptesis sobre el regresor X a) Las observaciones de X son fijas en repetidas muestras De acuerdo con esta hiptesis, los distintos regresores del modelo toman

los mismos valores para diversas muestras del regresando. ste es un supuesto fuerte en el caso de las ciencias sociales, en el que es poco viable experimentar. Los datos se obtienen por observacin, y no por experimentacin. Para que dicho supuesto se cumpliera, los regresores deberan ser susceptibles de ser controlados por parte del investigador. Es importante sealar que los resultados que se I-13 obtienen utilizando este supuesto se mantendran prcticamente idnticos si supusiramos que los regresores son estocsticos, siempre que introdujramos el supuesto adicional de independencia entre los regresores y la perturbacin aleatoria. Este supuesto alternativo se puede formular as: a*) La variable X se distribuye independientemente de la perturbacin aleatoria En desarrollos posteriores se adoptar el supuesto de que se cumple la hiptesis a). b) El regresor X no contiene errores de observacin o de medida sta es una hiptesis que raramente se cumple en la prctica, ya que los instrumentos de medicin en economa son escasamente fiables (pinsese en la multitud de errores que es posible cometer en una recogida de informacin, mediante encuesta, sobre los presupuestos familiares). Aunque es difcil encontrar instrumentos para contrastar esta hiptesis, la naturaleza del problema y, sobre todo, la procedencia de los datos utilizados pueden ofrecer evidencia favorable o desfavorable a la hiptesis enunciada. IV Hiptesis sobre los parmetros 1 y 2 son constantes Si no se adopta esta hiptesis el modelo de regresin sera muy complicado de manejar. En todo caso, puede ser aceptable postular que los parmetros del modelo se mantienen estables en el tiempo (si no se trata de perodos muy extensos) o en el espacio (si est relativamente acotado).

You might also like