Professional Documents
Culture Documents
ECONOMTRICOS EN LA EMPRESA
Y PARA FINANZAS
Sevilla, 2011
Esta obra est bajo una licencia de Creative Commons ISBN: 978-84-694-7251-4
INTRODUCCIN A LAS TCNICAS DE ANLISIS MULTIVARIANTE EN EL MBITO DE LA
ECONOMA Y LA EMPRESA
Mtodos Estadsticos y Economtricos en la Empresa y para Finanzas
CAPTULO 1
Introduccin a las tcnicas de Anlisis Multivariante en el
mbito de la Economa y la Empresa
MTODOS DE DEPENDENCIA
Variable(s) independiente(s)
Variable(s) dependiente(s)
Cuantitativa(s) Cualitativa(s)
MTODOS DE INTERDEPENDENCIA
Anlisis factorial (AF)
AF de correlaciones (para variables cuantitativas)
AF de correspondencias (para variables cualitativas)
Anlisis de componentes principales
Anlisis cluster (o de conglomerados)
En este captulo nos vamos a centrar en ofrecer las nociones fundamentales de tres
tcnicas de Anlisis Multivariante que tienen un extenso nmero de aplicaciones en el
mbito de la Economa y la Empresa. En concreto, se trata del ANOVA, el Anlisis
discriminante y el Anlisis cluster o de conglomerados.
Los modelos ANOVA (ANalysis Of VAriance) son tcnicas de Anlisis Multivariante
de dependencia, que se utilizan para analizar datos procedentes de diseos con una o
ms variables independientes cualitativas (medidas en escalas nominales u ordinales) y
una variable dependiente cuantitativa (medida con una escala de intervalo o de razn).
En este contexto, las variables independientes se suelen denominar factores (y sus
diferentes estados posibles o valores son niveles o tratamientos) y la variable
dependiente se conoce como respuesta.
En cuanto al Anlisis discriminante y al Anlisis cluster o de conglomerados, ambos se
utilizan para clasificar elementos en grupos o categoras. Sin embargo, mientras que el
Anlisis discriminante parte ya de grupos existentes y proporciona un medio para
realizar futuras asignaciones de nuevos casos a partir de los valores de un conjunto de
Para poder aplicar esta tcnica, deben verificarse previamente estas condiciones:
Independencia: los individuos estudiados han de ser independientes entre s.
Aleatoriedad: las muestras o grupos objeto de estudio deben haberse obtenido de
forma aleatoria.
Normalidad: las muestras o grupos analizados deben seguir una distribucin
Normal.
Homocedasticidad: debe haber igualdad de varianzas en las muestras o grupos
estudiados.
Veremos a continuacin cmo se plantea un problema con la tcnica ANOVA, primero
para el caso de un factor y luego para el caso factorial.
ANOVA de un factor
El anlisis de la varianza de un factor se utiliza para comparar el valor medio de una
variable dependiente cuantitativa en varios grupos, que se diferencian por los niveles del
factor considerado.
En este apartado, se considerar un modelo de efectos fijos no equilibrado, en el que,
por tanto, los tamaos muestrales no tienen por qu ser iguales.
Si denotamos por Y a la variable dependiente; J al nmero de muestras o grupos
considerados (correspondientes cada uno a un nivel distinto del factor); n1 , n2 , , n J a
J
los tamaos de cada una de las muestras; n n j al tamao muestral total; Yij al valor
j 1
J Y1J Y2 J YiJ YnJ J TJ YJ
J
T
T T j Y
j 1 n
Si se acepta la hiptesis nula, significar que los grupos no difieren en el valor medio de
la variable dependiente y que, en consecuencia, dicho valor medio se podr considerar
independiente del factor.
Para contrastar dicha hiptesis, introducimos los conceptos de media cuadrtica inter-
grupos (CME) y de media cuadrtica intra-grupos (CMD), que vienen dados,
respectivamente, por las expresiones:
nj
n j Y j Y Yij Y j
J J
2 2
j 1 j 1 i 1
CM E y CM D .
J 1 nJ
Los numeradores de cada una de estas medias cuadrticas se conocen como suma de
cuadrados entre grupos, SC E , y como suma de cuadrados dentro de grupos, SC D . Por
su parte, los denominadores son los llamados grados de libertad asociados a dichas
sumas: J 1 y n J , respectivamente.
El estadstico de prueba que utiliza ANOVA para contrastar la hiptesis nula planteada
se construye a partir de los conceptos anteriores; concretamente, viene dado por:
n Y Y
J
2
j j
j 1
CM E J 1
FJ 1, n J nj
.
CM D
Y Yj
J
2
ij
j 1 i 1
nJ
Suponiendo cierta H 0 , este estadstico sigue una distribucin F de Snedecor con J-1 y
n-J grados de libertad; por lo que dado un nivel de significacin , la regin crtica
vendr determinada por los valores tales que F FJ11,n J , siendo
P [ F FJ11,n J ] 1 .
Ejemplo:
Consideremos cuatro compaas A, B, C y D, cuyas acciones cotizan en Bolsa y
seleccionamos aleatoriamente las cotizaciones de esas acciones en diferentes instantes
de tiempo. As, para la compaa A se observa aleatoriamente la cotizacin en 5
n 20 T 15.490 Y 774,5
Solucin:
La hiptesis nula que se debe contrastar es:
H 0 : A B C D
H 1 : En caso contrario
La tabla ANOVA, en la que se indican las sumas de cuadrados, sus grados de libertad y
las medias cuadrticas inter-grupos e intra-grupos, es en este ejemplo:
Entre SC E 103.395 J 1 3 CM E
SC E
34.465 F
CM E
4,96
compaas J 1 CM D
Figura 1
Figura 2
Adems, la tabla ANOVA que proporciona IBM SPSS Statistics nos da el p-valor
asociado al estadstico de prueba, lo que facilita la toma de decisin en relacin a la
aceptacin o rechazo de la hiptesis nula. Como sabemos, al ser el p-valor superior al
nivel de significacin elegido (0,013>0,01) aceptaramos la hiptesis nula con lo que la
cotizacin media ser independiente de la empresa. Si embargo, si trabajramos con un
nivel de significacin del 5%, la conclusin sera distinta, puesto que 0,013<0,05.
Una limitacin importante del mtodo que acabamos de desarrollar es que nicamente
permite contrastar la hiptesis general de que los J promedios comparados son iguales.
Sin embargo, en el caso de que se rechace esa hiptesis y por tanto las medias no sean
iguales, no se podr precisar cules son las muestras que tienen medias distintas. Para
resolver esta cuestin, se deben utilizar otros contrastes, conocidos como
comparaciones mltiples post-hoc o comparaciones a posteriori. Los mtodos de este
tipo que ofrece IBM SPSS Statistics son muy diversos y cada uno de ellos necesita de
unas condiciones iniciales para su aplicacin. Desarrollaremos a continuacin el mtodo
de Scheff, que tiene menos restricciones para su aplicacin que los dems.
En general, este mtodo consiste en formular un contraste sobre una combinacin lineal
de cualquier nmero de medias poblacionales. En el caso particular que nos interesa de
comparacin de medias, las hiptesis que se formulan para los distintos valores de j
son las siguientes:
H 0 : j1 j2 0
H 1 : En caso contrario
Y j1 Y j2 2
Ejemplo:
El departamento de marketing de una empresa desea estudiar la repercusin de sus
campaas publicitarias en las ventas de uno de sus productos. Se realizaron tres
campaas diferentes, cada una en una provincia de la misma Comunidad Autnoma.
Las tres campaas tenan diferentes caractersticas en cuanto al medio de comunicacin
utilizado. La campaa A se centraba en la prensa escrita, la B en las emisoras de radio y
la C en anuncios en vallas publicitarias. Durante los tres primeros meses, las cifras de
ventas (en cientos de unidades) en cinco tiendas fueron las siguientes:
Medio de Ventas
comunicacin (en cientos de unidades)
A (prensa) 30 20 35 42 60
B (radio) 85 73 92 86 75
C (vallas) 40 28 39 41 50
Solucin:
En este caso, podemos empezar viendo el grfico de barras de error (Figura 3).
Figura 3
Dicho grfico parece indicar que existen diferencias significativas entre las ventas
medias en cada nivel del factor, puesto que los intervalos de los 3 no se solapan.
Adems, parece que las diferencias se darn cuando la campaa elegida es la radio,
pues los otros casos s se solapan.
Antes de contrastar la hiptesis de igualdad de medias, comprobaremos si se verifican
las hiptesis de aplicacin del ANOVA de un factor; en concreto, la normalidad y la
homoscedasticidad, puesto que los otros dos supuestos (independencia y aleatoriedad)
hacen referencia a la eleccin de las muestras.
Normalidad. sta se puede estudiar a travs del test de Shapiro-Wilk (dado que el
tamao muestral es inferior a 50), que se obtiene a travs de Analizar / Estadsticos
descriptivos / Explorar, indicando la variable dependiente (ventas) y el factor
(campaa publicitaria) y pulsando seguidamente en Grficos, donde se elige la
opcin Grficos con prueba de normalidad1. El resultado es el que nos muestra la
Figura 4.
Figura 4
En este contraste, la hiptesis nula plantea que los datos proceden de poblaciones
normales. En las tres muestras (correspondientes a los tres tipos de campaa
publicitaria: prensa, radio y vallas publicitarias) se acepta la hiptesis nula,
dado que los p-valores toman, respectivamente, los valores 0,881; 0,509 y 0,600 que
son mayores que 0,05, que es el nivel de significacin con el que estamos
trabajando.2
Homoscedasticidad. En este caso, aplicamos el test de Levene, que establece como
hiptesis nula la igualdad de varianzas en las distintas poblaciones. La forma de
operar con IBM SPSS Statistics aqu es: Analizar / Estadsticos descriptivos /
1
Al elegir esta opcin, junto a una serie de grficos denominados Grficos Q-Q normales, IBM SPSS
Statistics nos ofrece una tabla donde se recogen los resultados analticos de las pruebas de normalidad.
Dado que esta tabla es la que fundamentalmente nos interesa, es lo nico que mostramos en la Figura 4,
obviando los referidos grficos.
2
Obsrvese en la Figura 4 que al efectuar el contraste con IBM SPSS Statistics, tambin obtenemos el
resultado del test de Kolmogorov-Smirnov, que se aplica para tamaos muestrales superiores a 50.
Figura 5
Una vez comprobadas las hiptesis necesarias para llevar a cabo el ANOVA, podemos
aplicarlo. La Figura 6 nos muestra el resultado. Para un nivel de significacin del 5%,
el p-valor resultante (0,000) nos lleva a rechazar la hiptesis nula de igualdad de
medias. Concluimos, por tanto, que el tipo de campaa publicitaria utilizado repercute
en las ventas medias.
Figura 6
contraste que plantea, como hiptesis nula, la nulidad de diferencia de las medias
correspondientes. Se observa que existen diferencias significativas de medias entre las
campaas de radio y prensa y las de radio y vallas publicitarias; en ambos
casos, el p-valor es de 0,000, esto es, menor que el nivel de significacin del 5%
(adems, las diferencias significativas aparecen marcadas con * por el programa). No
sucede as, sin embargo, en el caso de la prensa y las vallas publicitarias.
Figura 7
Figura 8
Ejemplo:
Una subdelegacin del Ministerio de Educacin y Ciencia est interesada en estudiar la
cantidad anual pagada por los padres de alumnos de Enseanza Primaria en los colegios
privados pertenecientes al territorio de su mbito de competencia. Para realizar el
estudio se clasificaron los colegios privados de este territorio por bloques, segn su
localizacin geogrfica y segn el nmero de alumnos por aula que los colegios
afirmaban tener (considerando sta ltima variable como categrica: 25 alumnos o ms,
o bien, menos de 25 alumnos). En cada una de las combinaciones obtenidas se
seleccion una muestra aleatoria de 3 colegios y se recogi informacin correspondiente
a la cantidad anual (en cientos de euros) que el colegio reciba por cada alumno de
Enseanza Primaria. Los datos obtenidos se muestran en la tabla siguiente:
Menos de 25 32 25,4 50
alumnos por
45,5 37,2 20,9
aula
28,95 23 27
25 ms 21,6 26,5 15
alumnos por
25 17,2 24
aula
19 22 18
Solucin:
En este caso, se trata de un modelo con 2 factores: localizacin y nmero de alumnos
por aula (por tramos). El primero de estos factores tiene 3 niveles: zona norte, zona
centro y zona sur; mientras que el segundo tiene 2 niveles: menos de 25 alumnos por
aula y 25 ms alumnos por aula. De la combinacin de los niveles, se obtienen 6
poblaciones con las que se trabajar y que, como indica el enunciado del ejercicio
propuesto, vamos a suponer normales, independientes y homoscedsticas.
Para llevar a cabo un ANOVA factorial con IBM SPSS Statistics se utilizarn las
especificaciones del procedimiento Univariante al que se llega a travs de: Analizar /
Modelo Lineal General / Univariante.
La primera de las tablas (Figura 9) ofrece datos generales del problema: nombre de las
variables independientes (factores), sus niveles y el tamao de cada grupo resultante.
Figura 9
La tabla resumen del ANOVA (Figura 10) contiene informacin similar a la que
proporcionaba la tabla del modelo de un nico factor: las fuentes de variacin (origen),
las sumas de cuadrados, los grados de libertad, las medias cuadrticas, los estadsticos
de prueba F y los p-valores asociados a cada uno de estos estadsticos, que nos permiten
finalmente obtener la conclusin del contraste llevado a cabo.
Las filas correspondientes a Numalumnos (nmero de alumnos) y Zona recogen los
efectos principales, es decir, los efectos individuales de los dos factores incluidos en el
modelo: nmero de alumnos por aula y zona en la que se encuentra el colegio. Los
p-valores indican que, mientras los grupos definidos por la variable nmero de alumnos
pagan unas cantidades medias significativamente diferentes (el p-valor = 0,014 < 0,05
que aparece nos lleva a rechazar la hiptesis nula de igualdad de medias), las cantidades
medias pagadas en los grupos definidos por la variable zona no parecen diferir (el p-
valor = 0,753 > 0,05, por lo que se acepta la hiptesis nula de igualdad de medias).
La siguiente fila (Numalumnos*zona) contiene informacin sobre el efecto interaccin
entre ambas variables. El estadstico F correspondiente a este efecto tiene asociado un
nivel crtico de 0,714 > 0,05, lo que indica que el efecto de la interaccin no es
significativo.
Figura 10
D (1) D ( 2 )
PCD .
2
y aplicar el siguiente criterio para clasificar un elemento i:
Ejemplo:
En un banco se tiene informacin acerca de 16 clientes que solicitaron prstamos
instantneos por valor de 6.000 euros cada uno. Al cabo de 3 aos desde la concesin de
dicho crdito haba 8 clientes, de ese grupo de 16, que fueron clasificados como
fallidos, mientras que los otros 8 clientes resultaron no fallidos o cumplidores, ya que
reintegraron el prstamo. Para cada uno de los clientes se dispone de informacin sobre
su patrimonio neto y su deuda pendiente correspondientes al momento de la solicitud,
ambas variables medidas en miles de euros. Todo ello aparece en la siguiente tabla:
Fallidos No fallidos
En la mesa del director del banco hay ahora dos nuevas solicitudes de prstamo
instantneo. El primer solicitante dispone de un patrimonio neto de 60,6 (miles de
euros), con deudas pendientes por valor de 40,8 (miles de euros). Para el segundo
solicitante estos valores son de 58,2 y 13,2 (miles de euros) respectivamente
Se pide, mediante la aplicacin del Anlisis discriminante, construir una funcin
discriminante a partir de las variables patrimonio neto y deuda pendiente, que
permita clasificar, con el menor error posible, a los nuevos clientes en el grupo de
fallidos, o bien en el de no fallidos.
Solucin:
Partiendo de las variables clasificadoras patrimonio neto y deuda pendiente, se
estimar 1 funcin discriminante.
Junto a las dos variables citadas, en IBM SPSS Statistics se debe crear una variable ms
que indique el grupo al que pertenece cada elemento. Esta variable la vamos a
denominar aqu Grupo y le asignaremos el valor 1 para los clientes fallidos y el 2 para
los no fallidos. Una vez introducidos todos los datos, si se pulsa Analizar / Clasificar /
Discriminante, se obtendr el siguiente cuadro de dilogo, en el que se ha elegido como
variable de agrupacin la variable Grupo, que es la que indica a qu grupo pertenece
cada individuo:
Figura 11
Figura 12
Figura 13
3
En particular, se ha seleccionado Introducir independientes juntas, lo que significa que todas las
variables independientes sern consideradas en el proceso discriminante. Si se hubiera elegido Usar
mtodo de inclusin por pasos, se iran seleccionando las variables independientes de mayor a menor
poder discriminante y siempre que tuvieran un mnimo de poder discriminante. En lo que respecta a las
opciones que pueden elegirse en Estadsticos, Mtodo, Clasificar y Guardar, ms adelante se explorarn
algunas de ellas.
Figura 14
Figura 15
afirmar que un patrimonio neto por encima de la media4 hace ms probable la obtencin
de una puntuacin discriminante positiva (al ser positivo el coeficiente) y, de esta
manera, se ajustar ms al patrn de los clientes no fallidos (ya que para stos la
puntuacin del centroide es positiva). Por el contrario, una deuda pendiente por encima
de la media propiciar una puntuacin discriminante negativa (puesto que el coeficiente
asociado a esta variable es negativo) y esto llevar a clasificar al individuo entre los
fallidos (cuyo centroide tiene puntuacin negativa).
Seguidamente se van a mostrar algunas opciones de IBM SPSS Statistics que se pueden
elegir dentro del Anlisis discriminante y que nos aportarn informacin determinante
para clasificar nuevos individuos en los grupos existentes, as como para estudiar la
fiabilidad de los resultados.
Como se recordar, en el cuadro de dilogo que se obtena tras pulsar Analizar /
Clasificar / Discriminante aparecan, entre otros, los botones Estadsticos y Clasificar
(Figura 11).
Si dentro de Estadsticos se eligen como estadsticos descriptivos ANOVAs univariados
y M de Box y como coeficientes de la funcin De Fisher y No tipificados, se obtendrn,
adems de los resultados ya descritos, los que se muestran en las Figuras 16 a 19.
La Figura 16 proporciona los resultados de la aplicacin de ANOVA a cada variable
clasificadora, de manera que se puede contrastar, para cada una de ellas, la igualdad de
medias en los dos grupos. En lo que se refiere al patrimonio neto, su p-valor asociado
nos lleva a rechazar la hiptesis nula, lo que significar que el patrimonio neto medio es
distinto para fallidos y no fallidos; la conclusin sera la misma en lo que respecta a la
deuda pendiente, para un nivel de significacin mnimo del 4,4%. Este hecho
constituye un indicio de que las dos variables tienen poder discriminante y por tanto
deben introducirse como tales en el anlisis. Por el contrario, si no se observaran
diferencias de medias entre los grupos para alguna de las variables clasificadoras, quizs
no sera necesario incluirla en el modelo.
Figura 16
4
Los valores medios de las variables pueden fcilmente conocerse en IBM SPSS Statistics llevando a
cabo un anlisis descriptivo de las mismas.
cabo utilizando el estadstico M de Box (0,951) que muestra la Figura 17. Su p-valor
asociado vale 0,849, lo que lleva a aceptar la hiptesis nula de que las matrices de
varianzas-covarianzas son iguales.
Figura 17
Figura 18
De acuerdo con todo lo expuesto hasta ahora, procedamos a clasificar a los nuevos
solicitantes de prstamo. Recordemos que el primero dispona de un patrimonio neto de
60,6 (miles de euros) y tena deudas pendientes por valor de 40,8 (miles de euros); por
su parte, para el segundo solicitante estos valores eran de 58,2 y 13,2 respectivamente.
La funcin de clasificacin para el grupo de fallidos sera:
0,130 * Patrimonio neto 0,216 * Deuda pendiente - 5,876 .
Segn esto, para el solicitante 1 esta funcin valdra: 10,8148; y para el solicitante 2
sera: 4,5412.
En cuanto a la funcin de clasificacin para los no fallidos, sta vendra dada por:
La puntuacin del solicitante 1 en este caso sera: 11,394; y para el solicitante 2: 8,9856.
Como podemos ver, ambos solicitantes obtienen mayores puntuaciones en la segunda
funcin, por lo que los dos se clasificarn en el grupo de los clientes no fallidos.
La ltima de las opciones elegidas en el cuadro Estadsticos nos da los coeficientes de la
funcin cannica discriminante (Figura 19). stos son los coeficientes que el programa
utiliza para clasificar a los individuos, calculando las puntuaciones y comparndolas con
el punto medio de los centroides. Sin embargo, para nosotros no es relevante, puesto
que no las utilizaremos para la clasificacin y, adems, al tratarse de coeficientes no
tipificados, pueden estar afectados por las unidades de medidas de las variables
independientes, lo que dificulta su interpretacin.
Figura 19
5
Marcamos esta opcin porque as es en nuestro ejemplo. Si las muestras tuvieran tamaos distintos,
habra que elegir Calcular segn tamaos de grupos.
Figura 20
Los Resultados para cada caso se recogen en la Figura 21. Para cada cliente de la
muestra inicial, se seala el grupo real al que pertenece, el pronosticado, si ha habido
error en la prediccin (se indica con **) y la probabilidad de que cada caso pertenezca a
cada grupo condicionada a la distancia existente al centroide de cada grupo. Como se
puede observar, ha habido nicamente un cliente mal clasificado: el nmero 13.
Figura 21
Figura 22
Ejemplo:
Un banco ordena un estudio que permita identificar con la mayor precisin posible
aquellas solicitudes de prstamos que probablemente puedan llegar a convertirse en
morosos o fallidos en el caso que se concedieran. Para ello, dispone de la informacin
reflejada en la tabla que se ofrece ms abajo, relativa a 25 clientes y a las variables que
se definen seguidamente:
- Categora: grado de cumplimiento del cliente en el reintegro del prstamo. Toma el
valor 1 si el cliente es cumplidor; 2 si el cliente es moroso; 3 si el cliente es fallido.
- Ingresos: ingresos anuales del cliente, en miles de euros.
- Patrneto: patrimonio neto del cliente, en miles de euros.
- Proviv: variable dicotmica que toma el valor 1 si el cliente es propietario de la
vivienda que habita; 0 en caso contrario.
- Casado: variable dicotmica que toma el valor 1 si el cliente est casado; 0 en caso
contrario.
- Salfij: variable dicotmica que toma el valor 1 si el cliente es asalariado con contrato
fijo; 0 en caso contrario.
11 1 17,1 108 1 1 1
12 1 39 132 1 1 1
13 1 45,6 216 1 1 1
14 2 26,1 234 1 1 0
15 2 8,1 48 0 1 1
16 2 12,6 114 0 0 1
17 2 8,7 150 1 0 1
18 2 38,4 24 0 1 1
19 2 22,8 114 1 1 0
20 2 14,7 60 0 1 1
21 3 19,8 42 0 1 0
22 3 5,1 72 0 1 0
23 3 7,2 30 1 1 1
24 3 11,1 36 1 0 0
25 3 15,9 150 0 0 0
Solucin:
En este caso, se trata de aplicar el Anlisis discriminante mltiple, ya que el banco ha
clasificado a sus clientes en tres grupos. Habr que construir funciones de clasificacin
que permitan clasificar, con los menores errores posibles, a los clientes en los diferentes
grupos. Si se obtienen buenos resultados, estas funciones se podrn utilizar para analizar
si se concede o no un prstamo a un futuro solicitante.
Como ya sabemos, en Analizar / Clasificar / Discriminante se obtiene un cuadro de
dilogo en el que tenemos que seleccionar la variable de agrupacin (cuyo rango es
ahora 1 3) y las variables independientes. Asimismo podemos elegir las opciones
adecuadas para los resultados que deseamos analizar.
Para cada variable clasificadora contrastamos la igualdad de medias entre los grupos,
para tratar de determinar si las variables sern realmente discriminantes. Los ANOVAs
de la Figura 23 nos indican que no se observan diferencias significativas entre los
cumplidores, morosos y fallidos, en cuanto al hecho de ser propietario o no de la
vivienda que habitan (Proviv) y de estar o no casado (Casado). Por tanto estas variables
no deberan tener una gran influencia a la hora de clasificar a los clientes en uno u otro
grupo.
Figura 23
En este punto, podemos dar respuesta ya a la peticin del banco calculando las
funciones de clasificacin para cada grupo. La Figura 24 muestra los coeficientes de
cada una de ellas, para el grupo de clientes cumplidores, para los morosos y para
los fallidos.
Figura 24
Cuando el banco reciba una nueva solicitud de prstamo, podr determinar a qu grupo
puede pertenecer el cliente evaluando las tres funciones y asignndolo al grupo para el
que se haya obtenido una mayor puntuacin.
El poder predictivo de estas funciones de clasificacin se puede valorar a travs de la
Tabla de resumen (Figura 25) que ofrece IBM SPSS Statistics.
Figura 25
por los mtodos aglomerativos. De hecho, el programa IBM SPSS Statistics incluye
nicamente mtodos de este tipo.
Mtodos no-jerrquicos: la caracterstica fundamental que los distingue de los mtodos
jerrquicos es que solamente llevan a cabo agrupaciones de los individuos en un nmero
concreto de conglomerados, que debe ser fijado de antemano con coherencia.
Una posibilidad para esto es realizar en primer lugar un Anlisis cluster mediante
procedimientos jerrquicos, que nos permite no slo determinar el nmero de grupos o
conglomerados K ms adecuado, sino tambin la configuracin de stos que se tomarn
como punto de partida.
A partir de aqu, la mayora de los mtodos no-jerrquicos establecen K entidades
(estadsticos que representan, de alguna forma, a los elementos que conforman dichos
conglomerados de partida), que servirn para ir definiendo la clasificacin final de los
elementos entre los distintos conglomerados fijados.
Cada tipo de mtodo no-jerrquico proceder de un modo diferente para asignar los
elementos a algn grupo. As, por ejemplo, el mtodo de K-medias implementado en
IBM SPSS Statistics selecciona como entidades iniciales los centroides de cada uno de
los K conglomerados conformados por el mtodo jerrquico aplicado. Posteriormente,
va asignando el resto de elementos al grupo cuyo centroide se encuentre ms prximo.
Se puede hacer una nueva estimacin de los centroides a medida que se van
incorporando nuevos elementos, o bien, cuando todos hayan sido asignados a los
distintos grupos. Tras esta clasificacin inicial, el mtodo o algoritmo utilizado busca
reasignaciones de los elementos entre los grupos que den lugar a una mejora en el
criterio de agrupacin considerado. De no poder realizar ningn cambio que mejore el
resultado, el proceso se dar por concluido.
Ejemplo:
La Fundacin La Caixa ha llevado a cabo un estudio6 en el que caracteriza a las 50
provincias espaolas mediante los siguientes ndices sintticos, expresados en una
escala del 1 al 10:
ndice de renta
ndice de salud
ndice de servicios sanitarios
ndice de nivel educativo y cultural
ndice de oferta educativa, cultural y de ocio
ndice de empleo
6
Datos del Anuario Social de Espaa 2004. Coleccin Estudios Sociales. Fundacin La Caixa.
Solucin:
Desarrollaremos este ejemplo utilizando algunas de las opciones que nos brinda IBM
SPSS Statistics. En concreto, utilizaremos el mtodo no-jerrquico de K-medias.
Previamente, ser necesario fijar el nmero de grupos que se quiere obtener y los
valores iniciales que se tomarn como centroides y constituirn las entidades de partida.
Para ello, se puede aplicar primero un mtodo jerrquico, con el que se obtendr el
nmero de grupos adecuados y el valor inicial de los centroides de cada grupo. Despus
se podr ya aplicar el mtodo de K-medias y se obtendr la clasificacin final en
conglomerados. Hay que sealar que, en ocasiones, debido al gran tamao de algunas de
las tablas de resultados obtenidas, no se incluir la totalidad de stas, aunque s se har
mencin a ellas.
En primer lugar, hay que tener en cuenta que, adems de las variables que recogen los
distintos ndices sintticos que se van a considerar en el estudio, es necesario crear una
variable nominal en la que se identifique a cada elemento de la muestra, para que una
vez formados los conglomerados se tenga claro qu provincias se han agrupado. Con
este fin, se crea una variable de tipo cadena denominada Provinci en la que se han
incluido los nombres de las 50 provincias consideradas.
Una vez incluidos todos los datos, a travs de Analizar / Clasificar / Conglomerados
jerrquicos se obtiene un cuadro de dilogo en el que se deben indicar tanto las
variables de decisin como la creada para etiquetar los casos (Figura 26).
A continuacin, se debe indicar la medida de proximidad entre casos con la que se desea
trabajar, as como el mtodo elegido para la formacin de conglomerados. Esto se har a
travs del botn Mtodo. Nos hemos decantado por las opciones ms habituales: la
vinculacin inter-grupos7, como mtodo para clasificar a los elementos en
conglomerados, y la distancia eucldea al cuadrado, como medida de proximidad. En
7
Este mtodo se basa en valores medios. La distancia entre dos conglomerados se calcula tomando la
media de las distancias entre cada elemento de uno y otro conglomerado. Los dos grupos que se
encuentren a una menor distancia se fusionan para formar un nuevo cluster o conglomerado.
ese mismo cuadro, se nos da la opcin de estandarizar las variables, pero en este caso no
es necesario porque se trata de ndices sintticos que estn todos expresados en una
escala del 1 al 10.
Figura 26
En cuanto a los resultados que queremos que nos devuelva IBM SPSS Statistics, hemos
seleccionado en el botn Estadsticos: el Historial de conglomeracin, la Matriz de
distancias y un rango de soluciones de entre 3 y 5 conglomerados para el
Conglomerado de pertenencia (con ello, le pedimos al programa que nos muestre el
resultado que se obtendra si tuvisemos 3 conglomerados, 4 5, para a partir de ah
decidir qu nos parece mejor; esto es ya decisin del investigador8).
Asimismo, escogemos la opcin Dendograma en el botn Grficos.
Adems, en Guardar tenemos la posibilidad de crear nuevas variables en las que se
incluir el conglomerado asignado a cada provincia, para el nmero de conglomerados
que fijemos. Para ello, se deber proceder como muestra la Figura 27. Al haber
decidido formar entre 3 y 5 conglomerados, se crearn tres variables con los nombres
CLU3_1, CLU4_1 y CLU5_1, donde se guardarn los resultados en cada caso.
Una vez seleccionadas todas las opciones anteriores, se obtienen los resultados que
comentaremos a continuacin.
8
Igualmente, tambin es decisin del investigador decidir dichos nmeros de conglomerados iniciales, de
3 a 5, que desea tener a priori.
Figura 27
Figura 28
Figura 29
Una vez que se ha definido el nmero de grupos, el siguiente paso para poder aplicar el
mtodo no-jerrquico de K-medias consiste en calcular los centroides de los 5 grupos
definidos. Estos centroides se tomarn como valores iniciales del proceso de iteracin
en el mtodo de K-medias. Recordemos que el centroide de un grupo o conglomerado
ser un vector cuyas componentes son los valores medios de cada una de las variables
independientes, para las provincias pertenecientes a ese grupo.
Para calcular estas medias, se pulsa Analizar / Comparar medias / Medias y, en el
cuadro de dilogo resultante, se introducen todas las variables de las que se quiere
calcular la media (en Lista de dependientes) y se indican asimismo los conglomerados
que nos interesan (en Lista de independientes): los 5 con los que hemos decidido
quedarnos. Estos conglomerados estn incluidos en una variable cuya etiqueta es
Average Linkage (Between Groups). Pero debemos tener cuidado, porque hay tres
variables con esa misma etiqueta, las relativas a los casos de 3, 4 y 5 conglomerados
que queramos analizar. Movindonos sobre ellas, aparece el nombre de la variable
correspondiente. Nos interesa CLU5_1, que es la que guardaba los resultados para 5
conglomerados.
El informe resultante es el que se muestra en la Figura 32.
Figura 30
Figura 31
Figura 32
Las 12 medias que aparecen en cada fila de esta Figura 32 son las componentes del
centroide de cada grupo. Estos valores se deben copiar en un archivo de IBM SPSS
Statistics, del que el programa los importar luego para tomarlos como valores iniciales
del proceso de iteracin del mtodo no-jerrquico de K-medias. Dicho archivo lo hemos
nombrado en este ejemplo centroides.sav. Se deben cumplir los siguientes requisitos: la
variable que identifica a los conglomerados debe denominarse cluster_ (y figurar en el
archivo en primer lugar) y el resto de variables debe conservar su nombre inicial.
Una vez creado el archivo que contiene a los centroides, estamos en condiciones de
ejecutar el anlisis de conglomerados de K-medias. Para ello, en el archivo inicial
pulsamos Analizar / Clasificar / Conglomerado de K medias, resultando el cuadro de la
Figura 33. Deberemos introducir tanto las variables de decisin como la que usamos de
etiqueta de las provincias. Indicaremos que el nmero de conglomerados es 5 y la ruta
en la que se encuentra el archivo donde hemos guardado los centroides. Este se hace en
Centros de los conglomerados / Leer iniciales / Archivo de datos externo / Archivo.
Figura 33
9
Puede obtenerse el nmero de decimales deseado en la salida editndose la tabla correspondiente.
Figura 34
Figura 35
Figura 36
Figura 37
Una forma de analizar si la variabilidad entre conglomerados es mayor que dentro de los
conglomerados es a travs de la tabla ANOVA que se proporciona en la Figura 38.
Figura 38
se puede emplear para valorar la relevancia de las variables empleadas y comparar las
diferentes agrupaciones.
Para terminar, una cuestin adicional que se podra plantear es determinar cules son los
perfiles comunes de las provincias que constituyen cada uno de los 5 conglomerados
construidos. Esto es lo que se denomina perfilar los segmentos, y puede hacerse
mediante la tcnica multivariante del Anlisis discriminante. Lo lgico sera emplear
para ello nuevas variables, distintas a las empleadas en el anterior proceso de
agrupacin. Esta manera de proceder resulta muy habitual en este tipo de estudios.
CAPTULO 2
El modelo clsico de regresin lineal:
especificacin y estimacin
Comienza con este captulo el anlisis del modelo economtrico, el eje central en torno
al que se desarrollan los mtodos economtricos.
En concreto, en ste empezaremos viendo qu se entiende por un modelo economtrico.
Despus, iremos desarrollando las principales etapas que lo configuran: especificacin,
estimacin, inferencia y prediccin. Las dos primeras se vern en este mismo captulo,
en tanto que las dos ltimas se analizarn en el siguiente. Todo este estudio se har
basndonos en el modelo clsico de regresin, caracterizado por cumplir una serie de
supuestos y disfrutar con ello de un conjunto bien definido de propiedades.
Una vez conocido este modelo perfecto, proseguiremos con el anlisis del modelo
cuando no se cumplen todos los requisitos o propiedades descritas previamente, viendo
cules son las consecuencias principales de ello y tomando las medidas ms oportunas
para afrontarlas. ste es el objetivo que nos plantearemos en el Captulo 4.
Para concluir, los Captulos 5 y 6 se dedican, por un lado, al estudio de un tipo de
modelo muy importante en el mundo de la Empresa: los modelos de eleccin discreta; y
por otro, a mostrar una introduccin a los modelos de series temporales, esenciales en el
mbito de las Finanzas.
1
R. Frisch (Econometrica, vol. 1, n 1, 1933).
Teora econmico-empresarial
Especificacin
Datos,
Estimacin informacin
previa
Evaluacin
Prediccin / Explicacin /
Toma de decisiones
Figura 1
que, como podemos apreciar, no es sino un caso particular del modelo de regresin
lineal en el que k = 2. (Por mayor simplicidad incluso, X 2i se podra escribir como X i ,
ya que por ser la nica variable X visible, se podra prescindir de su subndice 2).
En la mayora de las ocasiones, nosotros nos referiremos al modelo de regresin
mltiple, que es el caso general. Sin embargo, en otras, por simplicidad en las
explicaciones (y sobre todo a nivel grfico), haremos referencia al modelo de regresin
simple.
Precisamente, la siguiente argumentacin la haremos basndonos en un modelo de
regresin lineal simple.
Pensemos que queremos estudiar una variable econmica (variable dependiente) cuyo
comportamiento creemos que depende, segn una relacin lineal, del de otra variable
que acta como independiente o explicativa de la primera. Si dispusisemos de los
valores de las N observaciones que conforman la poblacin de tales variables,
tericamente podramos representar una nube de puntos en la que podramos cruzar,
en unos ejes cartesianos, los valores observados para ambas variables.
A cada valor de la variable explicativa X le podran corresponder varios valores de la
variable dependiente o explicada Y (si nos fijamos en la Figura 2, para un valor
particular de X, por ejemplo, X 0 , le podran corresponder distintos valores de Y:
Y0 , Y ' 0 , Y ' ' 0 ). Si quisiramos asociar a cada valor de la variable explicativa un nico
valor de la variable explicada, nos surgira entonces la pregunta de cul tomar. En este
punto, parece que lo lgico sera elegir un valor representativo de todos los posibles
valores de Y que aparecen ligados a cada uno de los valores de X; este valor elegido
sera el valor esperado o esperanza matemtica de la variable Y, dado el valor de X:
E Y | X 0 .
Grficamente (Figura 2), nuestro objeto de estudio son, por tanto, del conjunto de datos
poblacionales, los puntos que conforman la RRP. Sobre esta recta se representan los
valores medios de la variable Y para cada valor de la variable dependiente X.
Yi
RRP
Y0
E Y | X i 1 2 X i
u 0 Y0 E Y | X 0
Y0
E(Y | X0)
Y0
X0 Xi
Figura 2
Este supuesto2 se ve adems reforzado por el hecho de que parece razonable pensar que
lo deseable es que las desviaciones ms frecuentes entre los valores observados de Y y
sus promedios (que no es ms que la definicin de u) sean pequeas. Si estamos ante
2
Si bien el modo correcto de escribir esta expresin es: E (u i | X i ) 0 , en la notacin economtrica
resulta habitual obviar que cuando estudiamos las variables estocsticas, stas estn condicionadas a los
valores de las variables explicativas; de este modo, se suele escribir simplemente: E (u i ) 0 .
RRM
Yi Yi 1 2 X i
RRP
Y0 E Y | X i 1 2 X i
e0 u0
Y0
E(Y | X0)
X0 Xi
Figura 3
3
Obsrvese, sin embargo, cmo la notacin parece estar mal escrita, pues se indica Yi , en lugar de
E Y / X i , que sera lo correcto. No obstante, sta es la notacin habitual en el mbito economtrico y as
seguiremos utilizndola, teniendo en todo caso presente cul es el significado correcto de lo que
estudiamos.
Las estimaciones obtenidas tambin dan lugar a desviaciones respecto a los valores
reales de Y, registrndose el denominado error o residuo muestral, que se denota por ei :
ei Yi Yi .
Para llevar a cabo la explicacin de conceptos que hemos desarrollado hasta este punto,
hemos recurrido en buena parte de nuestra exposicin al caso del modelo de regresin
simple (fundamentalmente en el aspecto grfico), pero como bien podr apreciarse, todo
ello se puede extender fcilmente al caso general.4 En lugar de Recta de Regresin
Poblacional (RRP) y de Recta de Regresin Muestral (RRM), podramos hablar de
forma generalizada de Funcin de Regresin Poblacional (FRP) y de Funcin de
Regresin Muestral (FRM).
Y1 1 X 21 X k1 1 u1
Y2 1 X 22 X k 2 2 u2
, o abreviadamente: Y X u ,
Y 1 X X kn k u n
n 2n
4
En el caso del modelo lineal simple, geomtricamente hemos trabajado con una recta. Si el modelo
tuviese dos variables explicativas, estaramos ante un plano de regresin; y si tuvisemos ms de dos,
hablaramos, en general, de un hiperplano de regresin.
donde la matriz Y es una matriz columna, de orden n x 1, cuyos elementos son los n
valores de la variable dependiente Y; X es una matriz de orden n x k, estando
conformadas sus columnas por los n valores de cada una de las k variables
independientes del modelo; es una matriz de orden k x 1, siendo sus elementos cada
uno de los k parmetros que acompaan a cada una de las variables independientes del
modelo; y u es una matriz de orden n x 1, referida las perturbaciones de cada una de las
n observaciones del modelo.
Supuestos no estocsticos
1. El modelo de regresin es lineal en los parmetros y en las variables explicativas.
(Ya comentado).
2. Los valores de las variables explicativas X son fijos en muestreo repetido; es decir,
las variables X se suponen no estocsticas. As, suponiendo fijo el valor de X, se
pueden observar los distintos niveles de la variable Y a la hora de obtener la
muestra. Por ello, el anlisis es de regresin condicional, esto es, condicionado a los
valores dados de las variables X.
3. El nmero de observaciones n debe ser mayor o igual que el nmero de parmetros
o coeficientes de regresin k a estimar (es decir, mayor o igual que el nmero de
variables explicativas): n k .
4. No existe multicolinealidad perfecta entre las variables explicativas del modelo, es
decir, no hay relaciones lineales exactas entre las mismas. Matemticamente, ello
significa que teniendo en cuenta que la matriz X es de orden n x k, su rango debe ser
k, con n k .
5. El modelo de regresin est correctamente especificado. Esto supone asumir que
todas las variables relevantes estn incluidas en el modelo, que la forma funcional
elegida es la correcta y que los supuestos que planteamos sobre las variables
estocsticas (que veremos seguidamente) son ciertos. Este supuesto es lo
suficientemente restrictivo como para cuestionar las conclusiones extradas en el
momento que se detecta algn error en las cuestiones anteriores. As, debemos tener
presente que en todo momento los resultados basados en el anlisis de regresin
lineal estn condicionados al modelo escogido, debindose pensar cuidadosamente
su formulacin.
Supuestos estocsticos
1. El valor medio o esperanza de la perturbacin u i es igual a cero para todas las
observaciones i. (Ya razonado anteriormente).
Esto significa que los factores explicativos incluidos en la perturbacin no influyen
de forma sistemtica en el valor promedio de Y.
Si se considera el vector o matriz columna de las perturbaciones asociadas a cada
observacin i, se expresara de este modo:
u1 E u1 0
u 2 E u 2 0
E u n1 , o lo que es lo mismo: E .
u E u 0
n n
2. La varianza de la perturbacin aleatoria es igual para todas las observaciones i; es
decir, es algn nmero positivo constante que denotaremos por u2 . Es lo que se
denomina homoscedasticidad.
Var u i E ui E (ui )
2
E u i2 E u i E ui2 u2
2
i 1, 2,..., n
Cov(ui , u j ) E ui E(ui ) u j E(u j ) E(ui u j ) E(ui ) E(u j ) E(ui u j ) 0
i j
Esto significa que, dados los valores de X, las desviaciones de dos valores
cualesquiera de Y en relacin a su media no muestran patrones sistemticos.
Expresado en forma sencilla, este supuesto implica que el trmino de perturbacin
relacionado con una observacin no est influenciado por el trmino de perturbacin
de otra observacin diferente.
Cov u i , X ji E u i E (u i ) X ji E X ji E u i X ji E u i E X ji E u i X ji 0
j 1, 2, ..., k i 1, 2, ..., n
Este supuesto implica asumir que X y u tienen una influencia separada y aditiva
sobre Y, y por tanto es posible determinar por separado sus efectos sobre la variable
dependiente.
u N n n1 ; u2 I nn .
Consecuencia: Dado que la variable Y depende de u (a travs de la expresin
Y X u ), y puesto que u es un vector aleatorio normal, Y resulta ser tambin un
vector aleatorio normal.
En particular, su media o esperanza matemtica va a ser: E Y X .
Var Yi E Yi E Yi
2
E u i2 Var u i u2 , i , y adems las covarianzas
entre distintas observaciones de Y son cero, como se puede ver si se deduce a partir
de la definicin de la expresin de la covarianza y teniendo en cuenta que la
perturbacin aleatoria es la diferencia entre las observaciones de Y y sus valores
esperados:
CovYi , Y j E Yi E Yi Y j E Y j E u i u j 0, i j .
Y N n X , u2 I nn .
ei Yi Yi Yi 1 2 X 2i ... j X ji ... k X ki .
Si nos fijamos, partiendo de una nube de puntos, nuestro objetivo final sera encontrar
aquella funcin lineal concreta, de entre las infinitas posibilidades existentes, que fuese
lo ms representativa posible de dicha nube de puntos; esto es, aqulla que diese lugar
a valores estimados de Y ( Y ) que hiciera que los residuos fuesen los ms pequeos
i
posibles en su conjunto.
De este modo, nuestro objetivo se puede alcanzar mediante un problema de
optimizacin matemtica; en particular, de minimizacin de una funcin que sera la
suma de los residuos al cuadrado5 (SCR):
Yi Yi
n n
ei2 ,Min
2
Min SCR Min
1 , 2 ,..., k
1 , 2 ,..., k i 1 1 ,...,
2 k i 1
Yi 1 2 X 2i ... j X ji ... k X ki
n 2
Min .
1 , 2 ,..., k i 1
SCR
1
SCR
2
SCR .
SCR
j
SCR
k
Donde:
SCR
n
2 Yi 1 2 X 2i ... j X ji ... k X ki 1
1 i 1
5
Al considerar la suma, estaramos teniendo en cuenta el conjunto de todos los residuos. El hecho de
tomar la suma del cuadrado de los residuos, en lugar de la suma de dichos residuos directamente, radica
fundamentalmente en que, si se observa, los valores de los residuos sern en unos casos positivos y en
otros negativos. Al tomar la suma de todos ellos, las desviaciones de un signo se podran compensar con
las del otro signo y acabar finalmente anulndose, desvirtundose entonces nuestro objetivo. Esto, sin
embargo, no ocurrir si tomamos el cuadrado de los residuos.
n
2 Yi 1 2 X 2i ... j X ji ... k X ki 0 ;
i 1
Y e
n n n
es decir: i 1 2 X 2i ... j X ji ... k X ki Yi Yi i 0
i 1 i 1 i 1
SCR
n
2 Yi 1 2 X 2i ... j X ji ... k X ki X 2i
i 1
2
n
2 Yi 1 2 X 2i ... j X ji ... k X ki X 2i 0 ;
i 1
esto es:
n n n
Yi 1 2 X 2i ... j X ji ... k X ki X 2i Yi Yi X 2i e
i 1
i X 2i 0
i 1 i 1
SCR
2 Yi 1 2 X 2i ... j X ji ... k X ki X ji
n
i 1
j
n
2 Yi 1 2 X 2i ... j X ji ... k X ki X ji 0 ;
i 1
por tanto:
Y
n n n
i 1 2 X 2i ... j X ji ... k X ki X ji Yi Yi X ji e
i 1
i X ji 0
i 1 i 1
SCR
n
2 Yi 1 2 X 2i ... j X ji ... k X ki X ki
i 1
k
n
2 Yi 1 2 X 2i ... j X ji ... k X ki X ki 0 ;
i 1
por consiguiente:
Y
n n n
i 1 2 X 2 i ... j X ji ... k X ki X ki Yi Yi X ki
e
i 1
i X ki 0
i 1 i 1
e Y Y Y X ,
e1 Y1 Y1
e Y Y
e 2 2 2 .
e Y Y
n n n
6
En el caso de que estuvisemos considerando un modelo de regresin lineal simple, obtendramos los
valores de 1 y 2 ya conocidos de las materias de Estadstica:
Cov ( X , Y ) S XY
1 Y 2 X y 2 2 .
Var ( X ) SX
7
Este paso se obviar por motivos de simplificacin de nuestra exposicin, pudiendo encontrarse en
manuales de Econometra ms avanzada.
n
SCR ei2 e ' e Y X ' Y X Y ' ' X ' Y X
i 1
En esta expresin se cumple que: ' X ' Y Y ' X , puesto que un lado de la ecuacin es
el traspuesto del otro y se trata de un escalar (un nmero); as, pues, tenemos que:
Por tanto, el desarrollo del mtodo de estimacin por MCO de manera matricial, podra
escribirse como sigue:
n
Min
SCR Min
e
i 1
2
i Min
e ' e Min
Y ' Y 2 ' X ' Y ' X ' X .
X ' X X ' Y .
X ' X 1 X ' Y .
8
A la hora de trabajar con el anlisis matricial, deben tenerse en cuenta las propiedades de las
operaciones con matrices; en particular, las ms importantes son:
1. ( A B ) ' A ' B '
3. ( A B ) 1 B 1 A 1
4. ( A ' ) 1 ( A 1 ) '
Para poder realizar estas operaciones, las matrices deben cumplir los requisitos exigibles en lo que a sus
rdenes respectivos se refiere.
La utilizacin del anlisis matricial para la obtencin de los estimadores del modelo por
el mtodo de MCO presenta como ventaja que se obtienen de una vez los valores de
todos los parmetros del vector : , , ..., , ..., .
1 2 j k
En este punto, cabe hacer las siguientes observaciones:
1. La matriz X ' X , que es cuadrada, simtrica y de orden k, debe ser no singular; esto
es, su determinante ha de ser distinto de cero. O lo que es lo mismo, no puede haber
multicolinealidad (relacin lineal) perfecta entre las variables explicativas del
modelo. De este modo, el rango de X ' X ser k y se asegurar as la existencia de la
matriz inversa de X ' X , posibilitando la obtencin del vector de los coeficientes de
regresin .
n
Yi
1 1 1 Y1 i 1
X 2 n Y2 X Y .
n
2i i
X X 22
X ' Y 21
i 1
X X k2
X kn Yn
k1 n
X ki Yi
i 1
2. Los estimadores por MCO son estimadores puntuales; es decir, dada la muestra,
cada estimador proporciona un solo valor (puntual) del parmetro poblacional
correspondiente.
3. Una vez determinada por MCO la FRM (recta, o hiperplano de regresin en el caso
mltiple), se cumplir que:
a) La FRM pasa necesariamente por las medias muestrales de la variable explicada
Y y de todas las variables explicativas X.
n
b) La suma de los residuos mnimo-cuadrticos es igual a cero: e
i 1
i 0 , siempre
n
d) Los residuos ei estn incorrelados con Yi , es decir: e
i 1
i Yi 0 , i 1, 2, ..., n .
Y ' e X ' e ' X ' e ' .
E E X ' X X ' u X ' X X ' E u .
1 1
3. Si Var Covu u2 I , entonces Var Cov u2 X ' X .
1
Demostracin:
'
Var Cov E E E E ' ;
1 '
Var Cov E X ' X X ' u X ' X X ' u E X ' X X ' u u ' X X ' X
1 1 1
N k ; u2 X ' X 1 .
4. Teorema de Gauss-Markov9: El estimador MCO es un estimador lineal, insesgado y
ptimo (ELIO), entendiendo por ptimo que tiene mnima varianza.
Por su propia definicin, el mtodo de estimacin por MCO nos proporciona los
estimadores ptimos a nivel muestral. El Teorema de Gauss-Markov es
fundamental, ya que nos garantiza, adems, que este mtodo de estimacin nos
proporciona los mejores resultados posibles tambin a nivel inferencial, ya que los
estimadores cumplen las propiedades deseables que se le exigen a un buen
estimador.
e Y X Y X X ' X X ' Y I X X ' X X ' Y M Y
1 1
M X u M X M u M u M u
9
Obviamos aqu la demostracin de este Teorema, pudiendo consultarse en manuales de Econometra
ms avanzada.
a) M es singular: M 0 .
b) M es simtrica: M M ' .
c) M es idempotente: M M n , n 2, 3, ... .
d) M X .
Demostracin:
Basndonos en las propiedades de M, se puede demostrar la ltima parte de lo
indicado en esta propiedad del modo que sigue:
E e y Var Cov e u2 M .
e N n ; u2 M .
Propiedades del estimador MCO de la varianza de la perturbacin aleatoria
Adems de los coeficientes de regresin , segn se ha podido ir viendo, en el modelo
hay otro importante parmetro a estimar: u2 , esto es, la varianza de la perturbacin
aleatoria. En tanto que este parmetro no se estime, todas las expresiones en las que
aparezca tendrn carcter poblacional. Slo cuando se estime a partir de datos
10
Recurdese que la matriz de varianzas-covarianzas de u hemos asumido que es diagonal:
Var Cov u u2 I , esto es, las covarianzas referidas a distintas observaciones valen 0. Sin embargo,
la matriz Var Cov e u2 M no es diagonal, por lo que las covarianzas entre distintas observaciones
son distintas de 0.
e 2
i
e 'e SCR
1. El estimador de u2 viene dado por la expresin: u2 i 1
.
nk nk nk
u2
n k n2k .
u 2
11
No vamos a demostrar ni deducir matemticamente ninguna de las propiedades referidas a u2 . stas
pueden ser consultadas por el lector en manuales de Econometra ms avanzada.
12
Habitualmente, en el mbito de la Economa y la Empresa, se suelen considerar variaciones unitarias.
No obstante, dichas variaciones pueden ser perfectamente infinitesimales, dependiendo del problema
analizado.
Efecto marginal
El efecto marginal de una variable explicativa X j sobre la variable explicada Y es un
concepto econmico que expresa la relacin entre variaciones absolutas de Y ante
variaciones absolutas de X j . En concreto, expresa la variacin media que experimenta
la variable dependiente Y cuando se incrementa en 1 unidad el valor de la variable
explicativa X j , manteniendo constantes las dems variables explicativas que pueda
haber en el modelo13. Es decir:
Y
Efecto marginal .
X j
13 Y
Este concepto se corresponde matemticamente con el de la derivada parcial: .
X j
14
En este punto, cabe resaltar la diferencia entre los conceptos de buen ajuste y mejor ajuste. Ya
hemos visto que el mtodo de estimacin por MCO nos proporciona el mejor ajuste posible a los datos de
la muestra disponible (nube de puntos); sin embargo, ello no significa necesariamente que dicho ajuste
sea bueno. Puede que el mejor ajuste posible sea malo. As pues, lo que estudiaremos ahora es si
nuestro ajuste obtenido, aun siendo el mejor posible, es bueno o no.
Un indicador adecuado para considerar el conjunto de las desviaciones que muestran los
datos individuales en relacin a su media es la Suma de Cuadrados Totales (SCT):
Y0 Y Y0 Y Y0 Y0 Y0 Y e0 .
15
Cuando hablemos de bondad del ajuste, nos referiremos a la obtenida en relacin a una muestra
considerada. Tericamente tambin podramos referirnos a la poblacin, pero no es lo que solemos tener
en la realidad, dada la habitual imposibilidad de disponer de toda la informacin poblacional.
Yi
RRM
Y0
Yi 1 2 X i
Y0 Y e
0 0
Y0 Y0 Y
Y0 Y
Y
X X0 Xi
Figura 4
Y
Y 2 Yi Y ei Y Y e
n n n n n
2 Yi Y ei
2 2 2
i i i
i 1 i 1 i 1 i 1 i 1
Utilizando las propiedades numricas 3-b) y 3-d) de los estimadores MCO (ya vistas),
tenemos que16:
Y Y e
n n n
i i Yi ei Y ei 0 .
i 1 i 1 i 1
Y Y 2 Yi Y e
n n n
2 2
i i .
i 1 i 1 i 1
16
Si el modelo no tuviera ordenada en el origen, al no cumplirse la propiedad numrica 3-b) de los
estimadores MCO, esta expresin no tendra entonces por qu ser 0 y, por tanto, el desarrollo matemtico
que se obtiene a partir de este punto no sera vlido para este tipo de especificacin del modelo.
tanto que el segundo es, como ya sabemos, la Suma de Cuadrados Residuales (SCR).
Segn esto, en definitiva tenemos que:
SCT SCE SCR .
De acuerdo con esta igualdad17, resulta evidente que a la hora de llevar a cabo un ajuste
de regresin, lo deseable es que el valor de la SCE sea lo mayor posible y,
consecuentemente, el de la SCR lo menor posible. Es decir, el ajuste del modelo ser
tanto mejor, en tanto ms alto sea la SCE en relacin con la SCT. De este modo, se
define un indicador para medir la bondad del ajuste: el coeficiente de determinacin,
que se denota por R 2 .
El coeficiente de determinacin
SCE
El coeficiente de determinacin se define concretamente como: R 2 .
SCT
R 2 mide la proporcin (en tanto por uno) o el porcentaje (si se multiplica por cien) de la
variacin total de la variable dependiente que es explicada por el conjunto de las
variables explicativas que conforman el modelo de regresin.18
SCR
El coeficiente de determinacin puede expresarse tambin como: R 2 1 .
SCT
Ello se deduce directamente al dividir la igualdad de la descomposicin de las sumas de
cuadrados entre SCT:
SCT SCE SCR SCR SCR
1 R2 R2 1 .
SCT SCT SCT SCT SCT
0 R2 1 .
17
Esta igualdad tambin se mantendra si dividisemos todas las sumas de cuadrados por el tamao de la
muestra considerada (n); en este caso, nos encontraramos con la conocida expresin estadstica:
Por tanto, cuanto ms cerca de 1 se halle el valor de R 2 , tanto mejor ser la bondad del
ajuste analizado. En trminos generales, la literatura estadstico-economtrica considera
que un ajuste de regresin puede considerarse bueno si el coeficiente de determinacin
presenta un valor que se sita a partir, aproximadamente, de 0,75.
SCT Yi Y Yi 2 n Y 2 Y ' Y n Y 2
n n
2
i 1 i 1
Y
n n
SCE Yi Y
2
i
2
n Y 2 Y ' Y n Y 2 ' X ' X n Y 2 ' X ' Y n Y 2
i 1 i 1
n n
SCR ei2 Yi Yi
2
Y ' Y Y ' Y Y ' Y ' X ' X Y ' Y ' X ' Y
i 1 i 1
19
Nos vamos a limitar simplemente a exponer estas expresiones. Sus deducciones y demostraciones
pueden consultarse en manuales de Econometra ms avanzada.
20
En el caso particular de que consideremos un modelo de regresin lineal simple, las expresiones ms
habituales (y de sobra conocidas por las materias de Estadstica) del coeficiente de determinacin son:
S XY
2
S XY 2 S X .
2
R2
S X2 S Y2
2 2
S Y2 S Y2
Yi
Yi 1 2 X i
Y2
R2 = 1
Y1
X1 X2 Xi
Figura 5
Dicho esto, lo ideal sera poder tener un indicador que aunase las dos informaciones del
modelo, esto es, el valor del coeficiente de determinacin y el nmero de grados de
libertad. De alguna manera, este indicador debera penalizar o corregir el valor de R 2
en funcin del nmero de grados de libertad, de forma que cuanto menor fuese ste,
tambin fuese menor el valor de R 2 .
En este sentido, surge entonces el denominado coeficiente de determinacin corregido,
que se denota por Rc2 o R 2 , el cual matiza o penaliza, de alguna manera, la inclusin de
nuevas variables explicativas en el modelo, o bien el escaso nmero de observaciones
muestrales en relacin al nmero de variables explicativas consideradas. Este
coeficiente se define:
n 1
Rc2 1 1 R 2 .
n k
Ntese, segn esta expresin, que si se produce un incremento del nmero de variables
explicativas en el modelo, tendremos que:
n 1
k n k Rc2 .
nk
Obsrvese tambin que este coeficiente nos sirve para ver si el nmero de observaciones
muestrales que estamos considerando es suficiente o no, pues manteniendo fijo el
nmero de variables explicativas k, cuando n tiende a infinito se tiene que:
n 1
Rc2 lim 1 1 R 2
n k
1 1 R lim
2 n 1
n k
1 1 R 1
2
n n
1 1 R 2 1 1 R 2 R 2 .
Pero debemos tener muy presente que, ante muestras pequeas, el valor de Rc2 nos
arrojar informacin sobre la bondad del ajuste del modelo ms fiable que la del R 2 .
21
Los modelos anidados son aqullos que tienen en comn una serie de variables explicativas, a las
cuales se les suman adems otras variables explicativas diferentes. Por ejemplo:
Consumo i 1 2 Precio i u i
Consumo i 1 2 Precio i 3 Renta i u i
Sin embargo, la realidad est tambin plagada de factores de tipo cualitativo cuya
inclusin en los modelos se puede hacer igualmente necesaria: sexo, estado civil, nivel
de estudios, localizacin geogrfica; es decir, los modelos pueden tener entre sus
variables explicativas, tanto variables cuantitativas como variables cualitativas.
Aparecen entonces las denominadas variables ficticias, tambin conocidas como
binarias o dicotmicas, o dummy (en terminologa anglosajona), que reflejan la
presencia o no de un determinado atributo.
Las variables ficticias se caracterizan porque:
Toman nicamente los valores 1 y 0, de manera que stos indican:
1 Presencia de determinado atributo.
0 Ausencia del atributo considerado.
Suelen referirse a variables cualitativas: sexo, localizacin geogrfica, etc.
Tambin son susceptibles de utilizacin para variables cuantitativas (por
ejemplo, la edad), refirindose a tramos en los que se puede dividir el rango
de valores de stas.
donde:
Yi Salario del titulado i-simo
Y1 1 1
Y2 1 0
Y Y3 y X 1 0 ,
1 1
Yn
donde la 2 columna de la matriz X, relativa a los valores de la variable explicativa, est
formada slo por ceros y unos, dependiendo de si la observacin en cuestin se
refiere a un graduado o a un doctor, respectivamente.
Si tenemos en cuenta que el nmero de datos ( n ) es tal que n n0 n1 , siendo n0 el
nmero de datos de X cuyo valor es 0 y n1 el nmero de datos que son 1, y denotamos
por Y0 a la variable dependiente del modelo asociada a los valores de X que son 0 y
por Y1 a la que corresponde a los valores de X iguales a 1, entonces tendremos que:
22
En el siguiente captulo, se tratarn los contrastes de hiptesis. No obstante, el lector debe conocer ya
estos conceptos, por anteriores materias de Estadstica que haya estudiado previamente.
n
n n
n Xi Yi Yi
X'X n i 1 n n1
X ' Y n i 1 i 1 nY .
n
2
n n1 n1 n1Y1
1
X i X i 2i i Yi
X Y
i 1 i 1 i 1 i 1
Y0
,
Y Y
1 0
Multiplicativa23: Yi 1 2 Di 3 Z i 4 Di Z i u i
23
Existen otras variantes de la especificacin multiplicativa, como es el caso de:
Yi 1 2 Di 3 Di Z i u i .
Ntese que las categoras base para el caso del sexo (variable Di ) y la zona
geogrfica de residencia (variable Z i ) son varn y zona urbana, respectivamente.
Especificacin aditiva:
En el caso de considerar la especificacin aditiva, el modelo es:
Yi 1 2 Di 3 Z i u i .
Si se toman los valores esperados del salario para las distintas combinaciones de valores
que pueden adoptar las dos variables ficticias introducidas en el modelo, se deduce de
manera inmediata que:
Una vez ms puede observarse cmo las comparaciones se hacen sobre las categoras
base: varn y zona urbana.
Especificacin multiplicativa:
En este caso, el modelo que se especifica resulta ser:
Yi 1 2 Di 3 Z i 4 Di Z i u i ,
Los valores esperados del salario, teniendo en cuenta los posibles valores de las
variables ficticias consideradas, son en este modelo:
Obsrvese, por su parte, que las otras dos diferencias posibles, distinguiendo sexo y
zona geogrfica de residencia, vienen dadas por combinaciones de coeficientes de
regresin y no por coeficientes aislados:
La principal aportacin del esquema multiplicativo frente al aditivo es que permite tener
en cuenta la interaccin entre variables. En concreto, en el ejemplo que nos ocupa, se
pueden apreciar distintas diferencias de salario entre mujeres y varones segn cual
sea su zona de residencia, mientras que con el esquema aditivo la diferencia salarial
entre varones y mujeres resulta ser la misma tanto en la zona rural como en la
zona urbana. Del mismo modo, la especificacin multiplicativa hace posible la
percepcin de distintas diferencias de salario entre zona rural y zona urbana segn
se trate de mujeres o varones, hecho que no ocurre con el esquema aditivo.
tendramos que: D1 D2 D3 1 ; esto es, la suma de estas tres variables sera igual a la
ordenada en el origen: X 1 . Por tanto, estaramos ante una situacin de multicolinealidad
perfecta, que nos impedira calcular de forma unvoca la estimacin de los parmetros.
Para evitarla, caben dos soluciones alternativas:
a) incluir slo m 1 variables ficticias en el modelo; o bien,
b) incluir m variables ficticias, pero en un modelo sin ordenada en el origen.
Por qu valores 0 y 1?
Otro aspecto importante a tener en cuenta en la construccin de variables ficticias es el
hecho de que no sera correcto emplear valores distintos a 0 y 1 en ellas, tal como las
hemos estudiado. El porqu de ello lo ilustraremos mediante el siguiente ejemplo.
Considrese el modelo: Yi 1 2 Z i u i , donde:
Es decir, que la diferencia en los salarios entre los individuos con un nivel de
cualificacin A respecto de los de B es igual que la diferencia de los de un nivel
B respecto de los de C y que, por tanto, entre A y C esta diferencia es el doble.
Todo ello, evidentemente, no tiene por qu ser as. sta es la razn, pues, por la que no
deben darse a las variables ficticias valores distintos a 0 y 1.
Ejemplos ilustrativos
Consideremos un modelo de regresin lineal que explica los ingresos netos familiares
en funcin de diversas caractersticas de la persona principal del hogar: edad, estado
civil y nivel mximo de estudios alcanzado. En concreto, las variables del modelo son:
nicamente habr que estar atentos a la interpretacin de los signos y valores de los
correspondientes coeficientes de regresin.
A partir de una muestra de 3.000 hogares espaoles con datos relativos a 1998, se han
planteado dos modelos distintos: segn un esquema aditivo y segn un esquema
multiplicativo. Se muestran a continuacin los resultados obtenidos en ambos casos.
Especificacin aditiva:
De acuerdo con la definicin de las variables realizada, el modelo a estimar es:
ING 1 2 EDAD 3 CASADO 4 SECUNDAR 5SUPERIOR u
3 - Este parmetro recoge el efecto del estado civil en nuestro modelo. En este
caso viene a significar que estar casado supone, por trmino medio, unos ingresos
netos adicionales en el hogar de 1.205,63 , frente a otros estados civiles.
cuya persona principal alcanza los estudios superiores son 13.181,26 ms elevados
que los de la categora base, por trmino medio.
Si se quisiera comparar la diferencia, en sus efectos sobre los ingresos netos familiares,
entre los hogares cuya personal principal tiene estudios superiores y los de estudios
secundarios, bastara con ver la diferencia entre los valores de los respectivos
coeficientes de regresin; es decir: 13.181,26 2.897,10 = 10.284,16 .
Obsrvese que, aplicando el significado de las variables ficticias, llegamos a distintas
ecuaciones segn sea el perfil de la persona principal del hogar:
- Persona principal no casada y con un nivel mximo de estudios primarios:
Especificacin multiplicativa:
Planteamos ahora un modelo alternativo que permitir distinguir posibles diferencias en
el efecto marginal medio de la edad sobre los ingresos netos familiares, dependiendo del
nivel mximo de estudios alcanzado por la persona principal del hogar:
3 - Los ingresos netos familiares de los hogares cuya persona principal est casada
superan en 1.000,14 , por trmino medio, a los ingresos netos familiares de los
hogares en los que el estado civil de la persona principal es otro (estando en
igualdad de condiciones para el resto de variables).
4 - Los ingresos netos familiares mnimos de los hogares cuya persona principal
tiene un nivel mximo de estudios secundarios sern, en promedio y sin tener en
cuenta el efecto de la edad, de 4.398,71 ms que los correspondientes cuando la
persona principal tiene slo estudios primarios.
5 - Los ingresos netos familiares mnimos de los hogares cuya persona principal
tiene un nivel mximo de estudios superiores sern, en promedio y sin tener en
cuenta el efecto de la edad, de 7.333,88 ms que los correspondientes cuando la
persona principal tiene slo estudios primarios.
Para comparar los efectos marginales medios de la edad sobre los ingresos netos de los
hogares cuyas personas principales tienen estudios superiores respecto a las que tienen
slo estudios secundarios, de nuevo sera suficiente con calcular la diferencia entre los
valores de los respectivos coeficientes de regresin; es decir: 478,99 170,00 = 308,99 .
Igualmente se podran comparar los ingresos mnimos de los hogares, en trmino medio
y sin tener en cuenta el efecto de la edad, cuando la personal principal tiene estudios
En las ecuaciones anteriores, puede observarse que el efecto marginal de la edad sobre
los ingresos netos familiares vara dependiendo del nivel mximo de estudios de la
persona principal del hogar. Esto no ocurra con la especificacin aditiva, sino que
dicho efecto marginal era entonces el mismo en todos los casos.
Modelo lineal
Como bien sabemos ya, la expresin de este modelo es:
Yi 1 2 X i u i , donde i 1,, n .
dY
- El coeficiente de regresin 2 expresa: 2 .
dX
- Efecto marginal 2 .
dY Y dY X X
- Elasticidad 2 .
dX X dX Y Y
1
dY
- El coeficiente de regresin 2 expresa: 2
d ln Y
Y dY Y .
d ln X 1 dX X
dX
X
- Elasticidad 2 .
dY dY Y Y Y
- Efecto marginal 2 .
dX dX X X X
Modelos semi-logartmicos
Dentro de stos, pueden considerarse dos tipos: log-lin y lin-log.
- Modelo log-lin.
Este modelo puede proceder en su origen de un modelo exponencial. De este modo,
partiendo de ste: Yi 1 2
Xi
e ui , tomando logaritmos se puede llegar a:
ln Yi ln 1 ln 2 X i u i . Si hacemos que: ln 1 1 y ln 2 2 , entonces se
llegar finalmente a la expresin del modelo log-lin:
ln Yi 1 2 X i u i , donde i 1,, n .
1
d ln Y dY Y dY Y
- Su coeficiente de regresin 2 expresa: 2 .
dX dX dX
dY dY Y
- Efecto marginal Y 2 Y .
dX dX
El valor del efecto marginal en este modelo depende del valor concreto de Y que
se considere. Por ello, suele hablarse del efecto marginal medio, que es el que
corresponde con el valor medio de dicha variable.
dY Y dY Y
- Elasticidad X 2 X .
dX X dX
- Modelo lin-log.
dY dY dY
- El coeficiente de regresin 2 expresa aqu: 2 .
d ln X 1 dX X
dX
X
dY dY 1 1
- Efecto marginal 2 .
dX dX X X X
El valor del efecto marginal en este modelo depende del valor concreto de X que
se tome. Debido a esto, suele hablarse del efecto marginal medio, que es el que
corresponde con el valor medio de X .
dY Y dY 1 1
- Elasticidad 2 .
dX X dX X Y Y
Modelo recproco
Este modelo viene expresado a travs de la forma funcional:
1
Yi 1 2 u i , donde i 1,, n .
Xi
dY dY
- Su coeficiente de regresin nos da: 2 .
1 dX X 2
d
X
dY dY 1 1
- Efecto marginal
2 2
2 2 .
dX dX X X X
El valor del efecto marginal en este caso depende del valor concreto que adopte
X . Por ello, suele considerarse el efecto marginal medio, que es el relativo al
valor medio de dicha variable.
dY Y dY 1 1
- Elasticidad 2 .
dX X dX X 2 XY XY
AIC* AIC 2 ln Y
Ejemplo ilustrativo
La siguiente tabla muestra los valores de los indicadores comentados para la relacin
entre las variables CONSUMO y RENTA, segn las distintas formas funcionales
consideradas:
24
Al igual que los coeficientes mostrados en la tabla de este ejemplo, este valor ha sido calculado de
forma externa a partir de los datos originales que se han empleado para el mismo.
Acerca de EViews
Al iniciar una sesin de EViews, la primera imagen que aparece es la pantalla que se
muestra en la Figura 6, donde se recogen diversas informaciones.
Ventana de
Barra principal comandos
de mens
rea de trabajo
Lnea de estado
Figura 6
En la parte superior se nos muestra una barra de color azul con el ttulo del programa y a
continuacin la barra principal de mens. La franja blanca que aparece bajo la barra
principal de mens se denomina ventana de comandos y permite trabajar en EViews
introduciendo directamente los comandos necesarios, ejecutndolos posteriormente con
la tecla Enter.
En la parte inferior de la pantalla, se encuentra la llamada lnea de estado donde se
especifica, por ejemplo, el directorio donde por defecto se guardar el archivo en curso
o en el caso de haber iniciado la sesin, si tenemos o no un fichero de trabajo en
memoria (WF = none).
La zona amplia de color gris es el rea de trabajo donde EViews ir desplegando las
ventanas que vayamos utilizando a medida que sea necesario en el transcurso de la
sesin.
desde una hoja de clculo o base de datos o exportarlos hacia una hoja de clculo o
base de datos, salir del programa EViews, etc.
Edit; Contiene las operaciones bsicas (cortar, copiar, pegar, deshacer, buscar,
reemplazar, etc.) de cualquier programa en entorno Windows.
Objects; Contiene las funciones para manejar los distintos objetos que se almacenan
en un fichero de trabajo: borrar, nombrar, imprimir, importar, etc.
View; Para habilitar este men desplegable es necesario antes abrir un fichero de
trabajo (o Workfile). En funcin del tipo de ventana activa en cada caso, se
obtendrn diferentes aspectos relacionados con la visualizacin en pantalla.
Procs; Contiene las operaciones relacionadas con series de datos principalmente. De
nuevo en este caso y al igual que en la opcin VIEW es necesario tener un fichero
de trabajo abierto para habilitar el men desplegable, el cual ser distinto segn la
ventana activa que utilicemos. En este men podremos seleccionar una muestra de
los datos, ordenarlos, generar nuevas series a partir de otras ya existentes, importar y
exportar series de datos, as como cambiar el rango poblacional de las series.
Quick; Proporciona acceso directo a los comandos que se utilizan con mayor
frecuencia: generar series a partir de otras ya existentes, seleccionar una muestra,
representar grficamente las series de datos, editar las series, estimar modelos de
regresin por MCO, representar las series a travs de histogramas y sus estadsticos
ms representativos (media, mediana, curtosis, etc.), hallar las matrices de
covarianzas y de correlaciones en un modelo de regresin, aplicar diversos mtodos
de tratamiento de series temporales (alisado exponencial, test de races unitarias,
correlogramas, test de causalidad de Granger, test de cointegracin, etc.) y estimar
modelos VAR, entre otros. Al igual que en las opciones VIEW y PROCS, es
necesario tener un fichero de trabajo abierto para habilitar el men desplegable, el
cual ser distinto segn la ventana activa que utilicemos.
Options; Contiene los parmetros de funcionamiento general de EViews. Por
ejemplo, el tamao y las fuentes de las ventanas de resultados que obtendremos al
estimar modelos (Window and Font Options), el comando que permite a EViews
guardar la ltima versin actualizada de nuestro fichero de trabajo (Backup files), el
nmero de iteraciones y grado de convergencia en procesos de estimacin iterativos
tales como el mtodo de Cochrane-Orcutt en la autocorrelacin (Estimation
Defaults), tamao, colores y fuentes de los grficos (Graphic Defaults), etc.
Window; Proporciona acceso directo a las distintas ventanas que tengamos abiertas
durante la sesin de trabajo.
Help; Es el men de ayuda usual de un entorno Windows. Se organiza de acuerdo
con varias opciones: referencias a objetos, comandos, funciones, matrices y
programacin. Adems, en cada una de ellas se puede hacer uso de la ayuda en
Figura 7
con datos trimestrales cuyos valores extremos deberan situarse entre el primer trimestre
del ao 1980 y el cuarto trimestre de 2005.
El problema que vamos a plantear en esta sesin de trabajo es el Ejercicio n 11 del
Boletn, que nos ofrece datos de 20 valores contables y de mercado de las acciones
correspondientes a otros tantos bancos espaoles en un da determinado de agosto de
1995 (es decir, se trata de datos de corte transversal o no temporales). Nuestro objetivo
ser tratar de establecer una relacin economtrica entre el valor de mercado de las
acciones de los bancos y sus respectivos valores contables.
Por tanto, en la opcin del men que se nos ha abierto elegiremos Undated or irregular
y, seguidamente, escribiremos: 1 en Start observation; y 20 en End observation, tal y
como se indica en la Figura 8.
Figura 8
ecuacin, grfico, grupo de series, matrices, modelos, series, datos de panel, tablas, etc.
Por defecto, aqu siempre aparecern dos elementos: un vector de coeficientes de
regresin denominado c y representado por , que incluir los coeficientes estimados de
la ltima ecuacin activa; y una serie llamada resid que, como su propio nombre
sugiere, est destinada a guardar los residuos de la ltima ecuacin estimada.
Figura 9
La ventana del Fichero de Trabajo contiene, adems, una barra de mens propia cuyos
elementos describiremos brevemente:
View, Procs y Objects; Nos proporcionan los mismos mens desplegables que
vimos en la barra de mens principal de EViews.
Save; Permite guardar el fichero de trabajo en uso en el disco duro o en una unidad
externa de almacenamiento (disquete, CD, pen-drive).
Label +/-; Permite visualizar el detalle de los objetos que se presentan en la ventana
de trabajo, as como fecha y hora de creacin.
Show; Permite visualizar una serie de datos, una lista de series y grficos en una
misma ventana o una serie generada a travs de una frmula apropiada.
Fetch; Permite importar distintos objetos (ecuaciones estimadas, series de datos,
grficos) de otro fichero de trabajo distinto de EViews, que hayamos almacenado
previamente.
Para ello, podemos hacer doble clic sobre la nueva serie CONSUMO que aparece
junto a c y resid en el Directorio de Objetos de Workfile. Tras abrirse la ventana
Figura 10
Figura 11
Obsrvese cmo antes de introducir los datos, la serie no tiene todava valores, como lo
indica su referencia NA (Not Available). Asimismo, otro aspecto que debemos resear
aqu es que en EViews los decimales estn en notacin anglosajona, es decir, precedidos
de un punto.
Despus de haber visto este breve ejemplo de introduccin directa de datos en EViews,
pasamos ya a resolver nuestro ejercicio. Cerramos entonces la ventana de trabajo de la
serie CONSUMO (e incluso, si queremos, podemos eliminarla situndonos sobre ella y
pulsando la opcin DELETE en el men de Workfile).
Los datos relativos al problema sobre los valores bancarios que queremos analizar se
encuentran en un fichero de Excel, del que deberemos importarlos. Para ello, desde el
men principal del fichero de trabajo deberemos seleccionar la opcin: FILE / IMPORT
/ READ TEXT-LOTUS-EXCEL.
De este modo, se obtendr la pantalla que vemos en la Figura 12, donde se debe
especificar la ruta por la que se accede al fichero agosto95.xls, que es la siguiente:
Escritorio \ agosto95.xls
Figura 12
Tras haber seleccionado este fichero y pulsado la opcin ABRIR, obtendremos el men
desplegable correspondiente a la importacin de ficheros Excel (Excel Spreadsheet
Import).
En este men debemos atender a varias cuestiones importantes:
- En la opcin Order of Data, el programa EViews nos permite especificar si los datos
que vamos a insertar de Excel estn ordenados por columnas (columns) o por filas
(rows). En este caso, seleccionamos la primera opcin.
- En segundo lugar, debemos indicar a EViews en qu celda de Excel se sita el
primer dato de nuestras series (Upper-left data cell). Por defecto, nos propone B2 y
as lo vamos a aceptar puesto que el fichero est preparado en este sentido.
Igualmente, debemos indicar el nombre de la hoja donde estn nuestros datos (para
versiones de Excel superiores a la 5, y siempre y cuando haya datos en ms de una
hoja).
- En tercer lugar, hemos de especificar el nombre de las series que vamos a utilizar o,
en su defecto, si el fichero Excel ya trae en su primera fila los nombres, slo el
nmero de series que vamos a importar. Como este ltimo es nuestro caso, slo
escribiremos en Names for series or Number of series if names in file un 2.
- Por ltimo, debemos cerciorarnos de que tenemos correctamente especificada la
muestra de datos que queremos importar; esto es, en Sample to import debe figurar:
1 20.
Figura 13
Una vez que hayamos seleccionado todos estos argumentos en este submen, estaremos
en condiciones de pulsar OK y proceder a la importacin de las dos series de datos de
nuestro ejercicio: VACC, como el valor de las acciones de los 20 bancos ms
importantes de Espaa; y VCON, como el valor contable de las acciones de dichos
bancos (ambas variables expresadas en la unidad monetaria de entonces; concretamente,
en millones de pesetas).
La Figura 14 representa el estado final de la ventana del fichero de trabajo despus de
importar los datos.
Figura 14
Figura 15
La opcin VIEW resulta muy interesante. Permite, entre otras acciones (Figura 16):
La representacin grfica de la serie seleccionada en funcin de un grfico de lneas
o uno de barras: LINE GRAPH o BAR GRAPH, respectivamente.
El anlisis del histograma y los estadsticos descriptivos de la serie: media, mediana,
valor mximo, valor mnimo, desviacin tpica, coeficiente de asimetra de Fisher y
coeficiente de curtosis de Fisher, as como el estadstico de Jarque-Bera, que
permite contrastar la normalidad de la serie en cuestin. Todo esto se hace a travs
de: DESCRIPTIVE STATISTICS / HISTOGRAM AND STATS. El resultado puede
observarse en la Figura 17.
Otras posibilidades de esta opcin del men, tales como CORRELOGRAM, se vern
ms adelante.
Tras realizar cualquiera de las acciones indicadas en VIEW, puede que queramos volver
al listado de datos de la variable. En este caso, bastar con elegir SPREADSHEET.
Figura 16
Figura 17
Figura 18
Figura 19
Figura 20
Figura 21
Figura 22
Figura 23
El valor del coeficiente de determinacin corregido del modelo (Adjusted R-Squared): Rc2 .
dependiente presenta diferentes formas funcionales, o bien tambin para elegir entre
distintas especificaciones de modelos de eleccin discreta (Akaike info criterion).
El valor del estadstico del criterio de Schwarz, como alternativa al criterio de
informacin de Akaike (Schwarz criterion).
El valor del estadstico F de Fisher-Snedecor bajo la hiptesis nula de no
significatividad del modelo.
Nivel de significacin mnimo al que se puede rechazar la hiptesis nula de no
significativad del modelo bajo el supuesto de que fuera cierta (Prob.(F-statistic)). Es
el p-valor asociado a la significatividad global del modelo. Permite estudiar este
aspecto sin usar las tablas estadsticas de distribucin de probabilidades.
Esta ventana nos da una completa visin inicial del modelo especificado. En nuestro
ejemplo, si observamos el signo del coeficiente de regresin estimado de VCON,
deducimos que la relacin entre las variables del modelo es directa (como cabra esperar
segn la Teora Econmica), concretndose en que cuando el valor contable se
incrementa en 1 milln de Ptas., el de las acciones lo hace por trmino medio en casi
1,22 millones de Ptas. (ntese que en el modelo lineal, el significado de los coeficientes
de regresin coincide con el concepto econmico de efecto marginal). En cuanto a la
bondad del ajuste muestral, tanto el valor de R 2 (0,836480), como el de Rc2 (0,827396),
son muy aceptables. Y en el terreno inferencial, que veremos en breve, la variable
explicativa resulta significativa, como evidencia el p-valor asociado a su estadstico t-
Student, o bien al estadstico F de significatividad global del modelo (que en este caso,
por ser un modelo de regresin lineal simple, coinciden en significado).
Resulta conveniente guardar esta ventana como objeto para que a lo largo de la
sesin, cuando se desee, podamos recuperarla en la ventana del fichero de trabajo y no
haya que volver a realizar la estimacin. As, en la Ventana de Ecuacin seleccionamos
la opcin NAME y le damos un nombre; por ejemplo: VACC_VCON.
EViews, adems, nos permite conocer la serie de los residuos, la de los valores
estimados de la variable dependiente y la de los valores reales, comparndolas a su vez
en un grfico. Para ello, debemos seleccionar desde el men de la Ventana de Ecuacin,
la opcin VIEW, en la que aparecern a su vez varias opciones tales como
REPRESENTATIONS, que nos indica el modelo estimado o, entre otras: ACTUAL,
FITTED, RESIDUAL (Figura 24), donde podemos elegir entre cuatro ms detalladas:
Actual, Fitted, Residual Table; representa los valores reales (actual), estimados
(fitted) y los residuales (residual) en una tabla, junto con un grfico a su derecha.
Actual, Fitted, Residual Graph; representa grficamente los valores anteriores.
Residual Graph; representa grficamente slo la serie residual.
Standardized Residual Graph; representa grficamente los residuos tipificados.
Figura 24
Figura 25
Figura 26
Figura 27
Este resultado, muy til en los procesos de inferencia, se obtiene tambin a partir del
men VIEW; en concreto, pulsando dentro de l la opcin COVARIANCE MATRIX.
incrementa un 1%, el valor de las acciones se incrementa por trmino medio casi un
0,94%.
Figura 28
Figura 29
Figura 30
CAPTULO 3
El modelo clsico de regresin lineal:
inferencia y prediccin
Una vez definidas las hiptesis nula y alternativa, en un contraste es preciso tambin
establecer un estadstico de prueba, que tendr carcter aleatorio (tomando diferentes
valores segn la muestra que se considere) y seguir una determinada distribucin de
probabilidad. En este caso, el estadstico de Jarque-Bera sigue una distribucin chi-
cuadrado con 2 grados de libertad, siendo su expresin:
12 2 32
2
JB n 22 ,
6 24
JB
2
valdra 0 ( un valor muy prximo a 0); es decir, si la perturbacin es normal,
tendr asociado un valor pequeo del estadstico JB
2
. Por tanto:
H 0 : u Normal ( JB
2
0)
H 1 : u No normal ( JB
2
0)
En este punto debemos de hacer una observacin importante. Nuestra variable objeto de
estudio es la perturbacin aleatoria; sin embargo, sta resulta inobservable, por lo que
no podremos analizarla directamente. Por ello, a la hora de estudiar u, tendremos que
recurrir a una estimacin de la misma: al residuo o error muestral. Recordemos que
ei u i . As pues, a la hora de la verdad nosotros estudiaremos la normalidad de los
residuos, en tanto que stos constituyen una estimacin muestral de las perturbaciones.
Si denotamos por JB exp el valor que toma el estadstico JB para la serie de los
2 2
residuos de la muestra que estamos considerando; y por 22,1 el valor terico del
mismo para un nivel de significacin , entonces tendremos que:
Si JB
2
exp 2 ,1 nos situaramos en la regin de aceptacin (RA) y, por tanto,
2
Si JB
2
exp 2 ,1 nos encontraramos en la regin crtica (RC) y rechazaramos
2
JB
2
exp
RA
RC
1
22,1
Figura 1
Una vez obtenida, mediante MCO, la estimacin del vector de parmetros del modelo
de regresin , y para valorar si sta resulta ser una aproximacin adecuada de los
parmetros poblacionales , podramos en primera instancia atender a las propiedades
que posee este estimador calculado por el citado mtodo: es ELIO (esto es, resulta ser
lineal, insesgado y de mnima varianza, como ya se ha estudiado).
Una forma adicional de valorar la precisin de la estimacin consiste en establecer un
intervalo de confianza: un intervalo de valores dentro del cual consideramos que se
encuentran los parmetros poblacionales con un determinado nivel de confianza1.
a jj
a kk
1
Podemos recordar brevemente el concepto de intervalo de confianza: supongamos que es el
estimador puntual de . Nuestro objetivo ser determinar qu valores conforman el intervalo
, , de tal forma que la probabilidad de que contenga a sea 1 (nivel de confianza).
Si nos fijamos, la estimacin es el centro o pivote del intervalo y es un nmero positivo, es el radio de
dicho intervalo, que sumado y restado al valor central configura finalmente la amplitud del intervalo. El
valor de va a depender del nivel de significatividad que se adopte.
j N j ; u2 . a jj .
j j j j j j
N (0,1) ,
u 2 . a jj Var ( j ) ES ( j )
A partir de los dos ltimos estadsticos podemos generar un nuevo estadstico que
seguira una distribucin de probabilidad t-Student, con n k grados de libertad2; en
concreto, dividiendo el estadstico normal entre la raz del cociente del estadstico chi-
cuadrado entre sus grados de libertad:
2
Si atendemos a la definicin de una variable aleatoria que sigue una distribucin t-Student, tenemos: que
si se toman dos variables aleatorias independientes, Z y V , de modo que Z N (0,1) y V s2 ;
Z
entonces, la variable aleatoria T se distribuye segn una t-Student con s grados de libertad.
V
s
Se representa por: T t s .
j j j j
u 2 . a jj u 2 . a jj j j j j
.
u2 u2 u 2 . a jj ES ( j )
(n k )
u2 u2
nk
La expresin final de este estadstico la vamos a denotar por t j , de modo pues que:
j j
t j tnk .
ES ( j )
t j
/2 /2
a t n k , / 2 b t n k ,1 / 2
Figura 2
Como se puede ver en la Figura 2: P a t j b 1 , donde es el nivel de
significacin y a b , dada la simetra de la funcin de densidad de la distribucin t-
Student. Desarrollando esta expresin, tenemos entonces que:
P a t j b 1 P b t j b 1
j j
P t n k ,1 / 2 t n k ,1 / 2 1
ES ( j )
P t n k ,1 / 2 ES ( j ) j j t n k , 1 / 2 ES ( j ) 1
P j t n k ,1 / 2 ES ( j ) j j t n k ,1 / 2 ES ( j ) 1
P j t n k ,1 / 2 ES ( j ) j j t n k ,1 / 2 ES ( j ) 1
P j t n k ,1 / 2 ES ( j ) j j t n k ,1 / 2 ES ( j ) 1 .
j t n k ,1 / 2 ES ( j ) ; es decir: j t n k ,1 / 2 ES ( j ), j t n k ,1 / 2 ES ( j ) .
3
Obsrvese cmo el centro o pivote del intervalo es la estimacin j del parmetro poblacional. Por su
parte, el radio del mismo viene dado por:
t n k , 1 / 2 ES ( j ) ,
que al sumarse y restarse a j , determinan finalmente el intervalo de confianza.
u2
2 (n k ) n2k .
u
2
u 2
2 2
u
/2 /2
a n2k , / 2 b n2k ,1 / 2
Figura 3
P a 2 2 b 1
u
P n2 k , / 2 2 2 n2 k ,1 / 2
u
1
2 u2
P n k , / 2 2 (n k ) n2 k ,1 / 2 1
u
n2 k , / 2 1 n2 k ,1 / 2
P 2 2 2 1
u .(n k ) u u .(n k )
u2 .(n k ) u2 .(n k )
, .
n2 k ,1 / 2 n2 k , / 2
El significado de este intervalo es anlogo al del desarrollado anteriormente para el caso
de los coeficientes de regresin del modelo.
SCR
Para concluir, obsrvese que como: u2 SCR u2 . (n k ) . De esta forma,
nk
el intervalo de u2 tambin puede expresarse de manera que:
SCR SCR
, .
n2k ,1 / 2 n2 k , / 2
H0 : j 0
H1 : j 0
j j
t j tnk .
ES ( j )
Si asumimos como cierta la hiptesis nula ( j 0 ), y con los datos de la muestra que
estemos considerando, obtendremos un valor concreto para dicho estadstico: el
estadstico experimental, que adoptara la forma4:
j
t exp
t nk .
ES ( j )
t exp t n k
RA
RC RC
/2 /2
t n* k ,1 / 2 t n* k , 1 / 2
Figura 4
4
Ntese que el estadstico de prueba podra igualmente utilizarse para cualquier otra hiptesis nula que
quisisemos contrastar en relacin a un valor concreto 0 del parmetro j ; esto es: H 0 : j 0 .
Tenida en cuenta la informacin muestral del caso concreto analizado, el estadstico experimental sera:
j 0
.
ES ( )
j
SCE / SCT
SCE R2
F exp k 1 k 1 k 1 F
k 1, n k .
SCR SCR / SCT (1 R )
2
nk nk
nk
F exp Fk 1, n k
RA
RC
1
Fk*11,n k
Figura 5
( R r )' R X ' X R '
1
1
( R r )
q
F exp Fq ,n k .
SCR
nk
Como sabemos, n k son los grados de libertad del modelo y q hace referencia al
nmero de ecuaciones o restricciones que forman la hiptesis nula a contrastar (nmero
de filas de R ), debiendo ser linealmente independientes y verificar que: q k .
( R r )' R X ' X R '
1
1
( R r )
( R r )' R X ' X R '
1
1
( R r )
q q
F exp
SCR 2
nk u
( R r )' R u2 X ' X R '
1
1
( R r )
( R r )' R Var Cov ( ) R ' 1
( R r )
.
q q
En este punto merece tambin hacer alusin al denominado estadstico de Wald (que es
utilizado por el programa EViews para llevar a cabo este tipo de contrastes). El
estadstico Fq , n k se construye a partir del cociente de dos variables aleatorias
independientes, cuyas distribuciones son del tipo chi-cuadrado con q y n k grados de
libertad, respectivamente. As:
W ( R r )' R u2 X ' X R '
1
1
( R r ) q2 y
SCR
2
n2 k ,
u
F exp
( R r )' R u2 X ' X R '
1 1
( R r )
Fq , n k ,
q
W
entonces: F exp ; o lo que es lo mismo: W q F exp .
q
Los siguientes ejemplos pueden ayudarnos a entender bien quines son los distintos
elementos que intervienen en el estadstico de prueba de este contraste:
1
R 0 1 1
0 1
1 2 0 ,
siendo:
r 0
3
H 0 : 2 3 3 4
1 2 5 3
5
La hiptesis alternativa, lgicamente, sera el incumplimiento de la hiptesis nula.
H 0 : 2 3 3 4 0
1 2 5 3
1 0 1 3 1 0
R
2 0 2
0 1 3 1 0 0 1 0 0
3 , donde:
1 0 0 0 2 3 0
4 r
3
5
F exp Fq , n k
RA
RC
1
Fq*, n1k
Figura 6
Para finalizar este punto, debemos resaltar que este estadstico que aqu hemos expuesto
sirve para contrastar cualquier hiptesis lineal que podamos plantearnos, incluidos los
contrastes de significatividad individual de los coeficientes de regresin6 y el de
significatividad global del modelo que, como ya sealamos al principio, pueden verse
simplemente como casos particulares del caso general.
El modelo restringido
En este punto abordamos el estudio de los contrastes de hiptesis sobre los coeficientes
de regresin del modelo desde otra perspectiva. En particular, comparamos dos
modelos: uno, el original; y otro, que llamamos modelo restringido, que es aqul que
asume como cierta la hiptesis nula y la incorpora en su propia definicin.
Supongamos que nos planteamos contrastar para el mismo esta hiptesis nula:
H0 : 4 0
5 0
( R r )' R X ' X R '
1
1
( R r ) SCRr SCR R 2
Rr2
q q q
F exp Fq , n k
SCR SCR (1 R ) 2
nk nk nk
6
En el caso del contraste de significatividad individual de un parmetro j , si partisemos del estadstico
2j
F de prueba general, ste terminara adoptando la forma: F exp F1, n k , el cual, si nos
Var ( j )
fijamos, coincide con el cuadrado del estadstico de prueba t; esto es: F exp t exp 2
.
F exp Fq , n k
RA
RC
1
Fq*, n1k
Figura 7
A la vista de esto:
relevante que se piensa que puede provocar una variacin estructural en un momento
del periodo muestral considerado y que, por tanto, tiene capacidad suficiente para
afectar a los parmetros o coeficientes del modelo. Sera el caso, por ejemplo, de
analizar cmo puede verse afectado un modelo de consumo en Espaa entre los aos
1990 y 2010 ante la entrada del euro en 2002; es decir, si este hecho supuso un cambio
en la estructura de consumo.
Este contraste se utiliza tambin frecuentemente con datos de corte transversal; en esta
ocasin, para comparar dos o ms grupos de la muestra. Por ejemplo, si se est
analizando un modelo que explique el salario y se quiere estudiar si su comportamiento
es el mismo para hombres y mujeres o si, por el contrario, el modelo debe ser diferente
para uno y otro caso. O, por poner otro ejemplo, en el caso de un modelo de consumo, si
se quisiera comparar si su estructura es la misma para residentes en zona urbana o no
urbana, etc.
As pues, el planteamiento de este tipo de contraste sera el siguiente:
H 0 : Ausencia de cambio estructural
H 1 : Existencia de cambio estructural
Si nos fijamos, la hiptesis nula contempla el caso en que un mismo modelo subyace
bajo el total de los datos de la muestra. Por el contrario, la hiptesis alternativa asumira
que seran precisas distintas estimaciones del modelo para cada uno de los periodos
temporales o divisiones transversales (segn el tipo de datos) considerados de la
muestra.
- Subperiodo 2
n 2k
7
Obsrvese que en este contraste la hiptesis nula contiene una ecuacin por cada igualdad entre los
coeficientes de regresin asociados a una misma variable en cada subperiodo; esto es: q k . Igualmente,
los grados de libertad asociados al denominador de este estadstico son: n1 k para el caso del modelo
del primer subperiodo y n2 k , para el segundo; por tanto, la suma de ambos hace que sea: n 2k .
F exp F( h 1) k , n hk
RA
RC
1
F(*h 11)k , n hk
Figura 8
3.5. Prediccin.-
Sea el modelo economtrico clsico de regresin lineal mltiple:
Yi 1 2 X 2 i ... j X ji ... k X ki u i j 1, 2, ..., k i 1, 2, ..., n .
O bien, matricialmente: Y X .
A partir del modelo estimado, si dispusisemos de una serie de valores concretos para
todas y cada una de las variables explicativas X j que conforman la matriz X,
podramos obtener una estimacin del valor de la variable dependiente Y.
Si tales valores de las variables independientes fuesen extra-muestrales, es decir, valores
distintos a los que integran la muestra objeto de estudio (que denotaremos de forma
general X ), entonces dicha estimacin de Y (que denotaremos por Y ) sera en
j 0 0
realidad una prediccin. sta podra plantearse tanto para series temporales (pensando
en la obtencin de un valor futuro de Y), como para datos transversales.
As, si nos facilitan la serie de valores extra-muestrales de las variables independientes
X 0 , tendramos:
X1 0 1
X2 0 X2 0
X0 Y0 X 0' .
X X
k 0 k 0
e0 Y0 Y0 .
de la cual podemos deducir cules son las fuentes del error de prediccin, esto es, de
dnde pueden provenir los errores o desviaciones que se produzcan a la hora de
contrastar la realidad con la estimacin. Tales fuentes son:
- Errores en la informacin de partida de las variables explicativas: X 0 .
- Errores en la estimacin de : .
- Errores estocsticos procedentes de la perturbacin aleatoria: u 0 .
Asimismo, tambin se puede ver que, puesto que e0 depende de u 0 y sta tiene
naturaleza aleatoria, entonces e0 es una variable aleatoria; adems, dado que u 0 es
normal, entonces e0 sigue igualmente una distribucin normal de probabilidad y, como
tal, nos interesa conocer tanto su valor esperado como su varianza. stos resultan ser:
As pues, en definitiva: e0 N 0; u2 (1 X 0' ( X ' X ) 1 X 0 )
De aqu, podemos establecer un intervalo de confianza para la prediccin, de forma
similar al referido a los coeficientes de regresin del modelo, ya visto. En efecto, si
tipificamos el error e0 , tendremos:
e0 e0
N 0,1 .
u2 (1 X 0' ( X ' X ) 1 X 0 ) ES (e0 )
u2
(n k ) n2 k ,
u 2
t e0
/2 /2
b t n k , 1 / 2 b t n k ,1 / 2
Figura 9
P b t e0 b 1 P t n k ,1 / 2
e0
t n k ,1 / 2 1
ES (e0 )
Y0 Y0
P t n k ,1 / 2 t n k ,1 / 2 1
ES (e0 )
P t n k ,1 / 2 ES (e0 ) Y0 Y0 t n k ,1 / 2 ES (e0 ) 1
P Y0 t n k ,1 / 2 ES (e0 ) Y0 Y0 t n k ,1 / 2 ES (e0 ) 1 .
Y0 t n k ,1 / 2 ES (e0 ) ; es decir: Y0 t n k ,1 / 2 ES (e0 ), Y0 t n k ,1 / 2 ES (e0 ) .
Como sabemos, esto quiere decir que el valor real Y0 que se corresponda con la
observacin de nuestra prediccin se encuentra contenido en este intervalo con un nivel
de confianza cifrado en el (1 ).100 %.
Para concluir, podemos sealar cules son las condiciones que deben cumplirse para
que las predicciones que llevemos a cabo sean fiables:
- Que la relacin lineal estimada entre Y y X se mantenga estable en el futuro (si
estamos trabajando con datos de series temporales) o fuera de la muestra (si estamos
considerando datos de corte transversal).
- Que los coeficientes de regresin sean suficientemente estables como para que sus
estimaciones actuales muestrales sean una buena aproximacin a los valores
obtenidos tras incorporar observaciones futuras o extra-muestrales.
- Que se conozcan los valores futuros o extra-muestrales de X, o que los modelos de
prediccin utilizados para su obtencin sean fiables.
- Que no existan errores de especificacin en el modelo estimado.
- Que el horizonte de prediccin no sea muy lejano.
Figura 10
Figura 11
Figura 12
8
Segn puede apreciarse, por regla general con EViews no es preciso hallar los valores crticos de los
estadsticos para realizar contrastes de hiptesis; no obstante, si en algn momento se desease obtener el
valor concreto que aparece en las tablas estadsticas de una distribucin de probabilidad particular, el
programa lo permite. As, en el caso de la distribucin t-Student, habra que escribir en la ventana de
comandos: =@qtdist(p,n), siendo p la probabilidad y n los grados de libertad de la distribucin. De
forma anloga, en el caso de la distribucin chi-cuadrado la orden sera: =@qchisq(p,n); y para una
distribucin F se debera escribir: =@qfdist(p,n1,n2).
Coefficient Tests; nos facilitar los instrumentos para realizar cualquier tipo de
contrastes de hiptesis nulas lineales sobre los coeficientes de regresin bien a
travs del estadstico de Wald o el de Fisher-Snedecor.
Residual Tests; presenta diversas opciones destinadas a realizar un anlisis
exhaustivo de los residuos y con ello de la perturbacin aleatoria del modelo:
normalidad, heteroscedasticidad, autocorrelacin
Stability Tests; ofrece la oportunidad de identificar cambios estructurales a travs
del Test de Chow, errores de especificacin general con el Test RESET de Ramsey y
analizar la inestabilidad de los parmetros utilizando los residuos recursivos.
En nuestro ejemplo, elegiremos RESIDUAL TESTS y luego HISTOGRAM-NORMALITY
TEST, segn se muestra en la Figura 13.
El resultado aparece en la Figura 14. De esta salida, el aspecto que ms nos interesa en
este punto es el relativo al contraste de Jarque-Bera. Como ya sabemos, este contraste
plantea como hiptesis nula la normalidad de la serie de datos analizada, que en este
caso es la de los residuos. De acuerdo con el p-valor asociado al estadstico de Jarque-
Bera, el nivel de confianza mximo para rechazar la hiptesis nula es del 78,19%, por lo
que incluso para un 90% aceptaremos la hiptesis nula.
En definitiva, acabamos de contrastar que la serie de los residuos de la estimacin, y
con ello la perturbacin aleatoria del modelo, sigue una distribucin normal de
probabilidad.
Figura 13
Figura 14
Figura 15
Figura 16
hiptesis nula que estamos verificando; en segundo lugar, el valor del estadstico F (que
sigue aqu una distribucin de Fisher-Snedecor con 1 y 22 grados de libertad) coincide
con el del estadstico 2 de Wald (con 1 grado de libertad), puesto que la hiptesis nula
slo se compone en este caso de 1 restriccin; y, finalmente, si atendemos a los p-
valores asociados a cualquiera de los dos estadsticos indicados, veremos que podemos
aceptar la hiptesis nula a partir de un nivel de confianza de en torno al 5,3%. En
definitiva, a tenor de estos resultados podemos afirmar que ambas elasticidades son
prcticamente iguales.
Figura 17
hiptesis nula) y la hiptesis nula se puede rechazar, atendiendo a cualquiera de los dos
estadsticos de prueba, para todos los niveles de significacin estndar en el mbito de
la Estadstica (incluso del 1%).
Figura 18
corte: 1992 (Figura 19). En este test, la hiptesis nula establece la ausencia de cambio
estructural. El resultado final aparece en la Figura 20.
Figura 19
Figura 20
Aunque EViews nos calcule de nuevo dos estadsticos, vamos a centrarnos esta vez
exclusivamente en el estadstico F de Fisher-Snedecor. ste se basa en la comparacin
entre la suma de los residuos al cuadrado de la regresin total (1980-2007) y la de las
referidas a las regresiones de las dos submuestras (1980-1991 y 1992-2007). El elevado
p-valor obtenido nos lleva a aceptar la hiptesis nula de ausencia de cambio estructural
a un nivel mximo de significacin del 43,06%; es decir, el consumo no alimenticio no
presenta un comportamiento diferenciado en el transcurso de todo el periodo.
Lo primero que deber hacerse es introducir las cifras indicadas para 2008 en todas y
cada una de las series correspondientes. Con este fin, deber irse abriendo cada serie y
pulsar EDIT +/- entre sus opciones, escribindose entonces la cifra en la posicin
sealada, tal y como se refleja en la Figura 21 para el caso de la variable PRECIO9.
Despus de introducir cada cifra, pulsaremos nuevamente EDIT +/- para bloquear la
escritura y evitar modificar alguna otra cifra por error.
A continuacin se realiza la prediccin del valor de la cifra de consumo utilizando la
especificacin lineal del modelo; para ello habr de seleccionarse la ecuacin estimada
REG. Una vez abierta, se elige la opcin FORECAST, obteniendo una ventana en la que
deberemos dar un nombre a la nueva serie de los valores estimados de la variable
dependiente. Por defecto, EViews nombra a esta serie igual que a la serie original pero
aadindole al final una F (del ingls, forecast). En este caso, CONSUMOF.
Podemos dejar este nombre, pero puede cambiarse a gusto del investigador. Asimismo
deberemos elegir el rango de datos de la salida estimada. Aqu deber elegirse 1980
2008. Con ello, las cifras de 1980 a 2007 de la serie CONSUMOF sern datos
estimados, en tanto que la correspondiente a 2008 ser una verdadera prediccin extra-
muestral. Adems de ello, EViews permite crear la serie de errores estndar estimados
de los errores de prediccin puntual10, que puede nombrarse como se desee (por
ejemplo, ESERRORF). Por lo dems, vamos a dejar las opciones sealadas por defecto.
La pantalla quedara tal como se indica en la Figura 22.
9
Recurdese que los decimales en EViews deben escribirse en notacin anglosajona: tras un punto.
10
Esta serie permitira establecer un intervalo de confianza para la prediccin puntual.
Figura 21
Figura 22
Figura 23
Igualmente, resulta interesante ver la Figura 24, donde se representan grficamente para
el periodo 1980-2007 la serie de datos reales de las tasas de variaciones del consumo
con base 1992, conjuntamente con la de sus valores estimados a partir del modelo lineal
establecido (CONSUMO y CONSUMOF, respectivamente), as como la de los residuos
MCO resultantes tras el ajuste. Con ello podemos ver que dicho ajuste resulta bastante
bueno y tambin qu observaciones son las que presentan mayores desviaciones entre el
dato real y el estimado; esto es, dnde se registran los mayores residuos, siendo en este
caso los correspondientes a los aos 2003, 1981 y 1985. Esto se hace a travs de: VIEW
/ ACTUAL, FITTED, RESIDUAL / ACTUAL, FITTED, RESIDUAL GRAPH.
Por ltimo, podemos resear cmo en la ventana de trabajo puede observarse que
aparecen las nuevas series de datos CONSUMOF y ESERRORF generadas. Adems, si
se abre la primera de ellas (CONSUMOF), se podr comprobar que, junto con las
estimaciones de los datos que van de 1980 a 2007, para 2008 aparece un nuevo dato:
2,8033, que resulta ser en este caso una prediccin extra-muestral. Todo esto puede
apreciarse en la Figura 25.
Para finalizar, podemos guardar este fichero para su uso en una sesin de trabajo
posterior. Esto lo haremos yndonos a FILE / SAVE AS en la barra principal de mens.
De este modo, podremos aprovechar este mismo modelo para analizar ms adelante
posibles problemas que pudiese presentar.
Figura 24
Figura 25
CAPTULO 4
El modelo clsico de regresin lineal:
incumplimiento de supuestos
Hasta este momento hemos estado trabajando con un modelo de regresin lineal
perfecto, que posee toda una serie de propiedades sustentadas en un amplio conjunto
de supuestos de distinta naturaleza, estocsticos y no estocsticos. En este captulo
vamos a estudiar qu sucede en nuestro modelo clsico de regresin lineal cuando no se
cumplen todos los requisitos o supuestos descritos previamente. Analizaremos distintas
situaciones: problemas de errores de especificacin en el modelo (que pueden provenir
de diferentes causas), presencia de multicolinealidad entre las variables explicativas del
modelo y existencia de heteroscedasticidad y/o autocorrelacin en la perturbacin
aleatoria de ste.
- Los coeficientes estimados por MCO ( ) pueden ser estimaciones sesgadas de los
parmetros poblacionales del modelo que resultara ms adecuado en la realidad.
Errores de medicin
a) Errores de medicin en la variable explicada
- Los estimadores MCO de los coeficientes ( ) son insesgados.
- Sus varianzas son tambin insesgadas, aunque mayores que en el caso en que
no hubiera este error. As pues, los estimadores no son ELIO, pues no son
eficientes.
b) Errores de medicin en las variables explicativas
- Los estimadores MCO de los coeficientes ( ) son sesgados e inconsistentes.
Se trata, por tanto, de un problema ms grave que el del caso anterior; se
podra trabajar entonces, en lugar de con las variables verdaderas, con
variables que fuesen aproximaciones de stas (variables instrumentales o
proxy).
Tests de deteccin
Seguidamente se exponen dos tests, muy generalizados, que permiten detectar la
presencia de algunos de los problemas de especificacin en un modelo:
F exp
SCRr SCR / m R Rr2 / m
2
F exp
R 2
NUEVO R 2 ANTIGUO / l
Fl ,n m ,
1 R 2
NUEVO /( n m)
donde:
l = n de nuevos regresores
m = n de parmetros del nuevo modelo
El objetivo es comprobar si el nuevo modelo supone una aportacin significativa
(vista a travs de su R 2 ) respecto al original.
Una ventaja del test RESET es que es fcil de aplicar, porque no requiere especificar
cul es el modelo alternativo; pero esto tambin puede resultar un inconveniente, ya que
si se rechaza el modelo inicialmente elegido, no se tiene entonces uno alternativo para
sustituirlo. As pues, este test puede considerarse fundamentalmente como una
herramienta de diagnstico.
Como es bien sabido, la estimacin de los coeficientes de regresin del modelo por el
mtodo de MCO se obtiene a travs de la expresin: X ' X X ' Y , verificndose
1
La multicolinealidad perfecta significa que existe una relacin lineal exacta entre las
variables explicativas del modelo, lo que implica que: X ' X 0 No existe X ' X .
1
En este caso, es posible obtener una estimacin de una combinacin lineal de los
parmetros del modelo, pero no calcular de forma nica.
MCO
Cuando no hay relacin lineal alguna entre las distintas variables explicativas (es decir,
el coeficiente de correlacin lineal entre X j y X m vale 0, X j X m ), la estimacin
por MCO de los parmetros poblacionales del modelo puede llevarse a cabo tanto de
manera conjunta a travs de la expresin X ' X X ' Y , como efectuando por
1
separado las regresiones simples de la variable explicada con cada una de las variables
explicativas; los resultados coincidiran exactamente. Esto es, se podra plantear:
Yi 1 2 X 2i i , de donde se obtendra 2 ,
Yi k k X ki 'i , de donde se obtendra k .
Y finalmente: 1 Y 2 X 2 k X k .
- Los MCO son estimadores lineales, insesgados y ptimos (en el sentido de mnima
varianza); es decir, son ELIO.
- Aun cuando los MCO sean ELIO, se constatan altos valores de los elementos de la
matriz de var cov ( MCO ) ; esto conlleva:
o Amplios intervalos de confianza para los parmetros poblacionales j ,
j t n k ,1 / 2 ES ( j ) , con la consiguiente disminucin de la precisin de
sus estimadores.
o Disminucin drstica de la potencia de los contrastes de significatividad
j
individual de los parmetros1: t j .
ES ( ) j
1
Obsrvese que al aumentar ES( j ) , disminuye el valor del estadstico t j , con lo que aumenta la
probabilidad de aceptar hiptesis nulas aun siendo falsas.
Deteccin de la multicolinealidad
Para detectar la presencia de multicolinealidad, existen diversos procedimientos:
1. Observar un valor del X ' X prximo a cero. No obstante, este mtodo no resulta
definitivo, ya que puede deberse a los valores concretos de la muestra escogida. Su
principal limitacin es que no tiene cota superior.
2. Estar ante un R 2 elevado (y, por tanto, ante una F que indica que el modelo es
globalmente significativo) y pocos estadsticos t-Student significativos asociados a
las variables explicativas. Se trata de un rasgo habitual en situaciones de
multicolinealidad, si bien no es del todo concluyente.
H 0 : R 2j 0
R 2j (k 1) 1
Fj Fk 2, n ( k 1) .
(1 R 2j ) n (k 1)
var ( j ) 1
FAV ( j ) .
var ( j ) 0 1 R j
2
Cuanto mayor sea el valor de FAV ( j ) , mayor ser la relacin lineal entre las
variables explicativas del modelo.
7. Nmero de condicin, de Belsley, Kuck y Welsch. Este indicador se define como:
mx
n ( x) ,
mn
Tratamiento de la multicolinealidad
Una vez detectada la presencia de multicolinealidad, existen diversas formas de
acometer su correccin. Entre ellas, pueden destacarse las siguientes:
1. Eliminacin de variables explicativas del modelo. El problema de la
multicolinealidad denota, en esencia, la falta de informacin suficiente en la muestra
para permitir una estimacin precisa de los parmetros individuales. En ocasiones,
puede interesar eliminar algunas variables del modelo original cuando existe una
alta correlacin entre ellas. Sin embargo, esto tiene consecuencias; la principal es
que la estimacin por MCO de los parmetros deja de ser ELIO, pues dejan de ser
insesgados; sin embargo, la varianza resulta ser menor. En estos casos, donde los
parmetros ya no son insesgados, es el error cuadrtico medio (ECM) lo que debe
observarse, eligindose el que sea mnimo.
2. Actuaciones sobre la muestra. Dado que la multicolinealidad hace aumentar la
varianza muestral de los MCO , se puede intentar actuar sobre la muestra para
disminuirla; as, se podran introducir nuevas observaciones o bien mezclar datos de
tipo transversal y temporal. Estas alternativas, sin embargo, en muchas ocasiones no
resultan factibles.
3. Establecimiento de restricciones sobre el comportamiento de los parmetros
poblacionales. Se puede intentar corregir el problema de la multicolinealidad
utilizando toda la informacin extra-muestral disponible, estableciendo restricciones
Su estimacin por MCO, mediante QUICK / ESTIMATE EQUATION, nos daba como
resultado lo mostrado en la Figura 2.
Figura 1
Figura 2
Podemos guardarlo, pulsando el botn NAME, con el nombre REG, por ejemplo.2
El anlisis inicial de los resultados obtenidos nos llev a comprobar cmo los signos de
todos los coeficientes de regresin parecan correctos.
Asimismo, del estudio de la significatividad individual de las variables explicativas, a
travs de los p-valores asociados a los correspondientes estadsticos t-Student, poda
deducirse que, con la excepcin de la variable TIR, todas ellas eran estadsticamente
significativas a un nivel de confianza incluso del 99%. En el caso de TIR, sta no lo
resulta siquiera para un 10% .
Respecto a la significatividad global del modelo, el p-valor (0,000000) asociado al
estadstico F de este contraste (37,02546) evidenciaba que as era, para un nivel de
confianza prcticamente del 100%.
En cuanto a la bondad del ajuste, el valor del coeficiente de determinacin (0,893785)
reflejaba que el ajuste resultaba muy aceptable. Por su parte, el valor del coeficiente de
determinacin corregido (0,869645), no slo reflejaba este hecho, sino tambin que no
existan problemas importantes de grados de libertad, dado que su valor no haba
sufrido un gran descenso en relacin al original.
Junto a todo esto, el contraste que se hizo posteriormente sobre la normalidad de la
perturbacin aleatoria del modelo, a travs del test de Jarque-Bera, vino a confirmar que
efectivamente u resultaba normal.
Llegados a este punto, y antes de dar definitivamente por bueno nuestro modelo,
podemos plantearnos si el modelo presenta algn tipo de error de especificacin.
Segn se ha podido comprobar al analizar la significatividad individual de cada una de
las variables del modelo, quizs no se debera considerar la de tipos de inters (TIR).
Para analizar si esta variable, incluida en la especificacin inicial, es necesaria o no,
podemos aplicar el test de variables irrelevantes o redundantes. Para llevar a cabo este
test en EViews, dentro de nuestro modelo estimado, debemos seleccionar la opcin
VIEW / COEFFICIENT TESTS / REDUNDANT VARIABLES y escribir el nombre de la
variable (TIR) en el cuadro de dilogo que surge (Figura 3).
La Figura 4 nos ofrece el resultado del test, bajo la hiptesis nula de que el coeficiente
de la variable seleccionada es cero, a travs del estadstico F (y el ratio de verosimilitud
o LR (Log likelihood ratio), que no consideraremos), adems del resultado de realizar la
regresin del modelo restringido, es decir, sin incluir la variable seleccionada. Como
sabemos, el estadstico F compara la suma de cuadrados residuales calculada con y sin
restricciones impuestas; si las restricciones planteadas son vlidas, la diferencia entre
los dos valores ser mnima y, por tanto, el valor de F ser pequeo (conduciendo ello a
aceptar la hiptesis nula). Este estadstico tiene como grados de libertad del numerador
2
Si guardamos el fichero en la sesin de EViews que hemos referido, podemos entonces recuperarlo y
comenzar a trabajar en este punto.
Figura 3
Figura 4
Los resultados obtenidos nos conducen a aceptar la hiptesis nula, pues el p-valor
asociado al estadstico F nos indica que el nivel de significacin mnimo al que se puede
rechazar la hiptesis nula es del 14,58%, o bien el nivel de confianza mximo para
rechazar dicha hiptesis es del 85,42%. Por tanto, la variable TIR no es necesaria en
nuestro modelo. Si bien la nueva especificacin perdera algo de bondad de ajuste
(evidenciada por la comparacin de los correspondientes valores del coeficiente de
determinacin corregido: 0,869645 frente a 0,862429), dicha prdida no sera relevante.
As pues, podemos eliminarla de nuestra estimacin. Lo haremos editando el modelo en
el botn ESTIMATE de nuestra ecuacin REG y borrando simplemente esta variable.
Tras llevar a cabo esta depuracin de nuestro modelo, resulta que nos facilitan los
datos de una nueva variable que consideramos que podra ser relevante en el mismo:
TIPIMP: Tipo medio impositivo en trminos reales con base 1992
Si fuese significativa, su no inclusin representara otro tipo de error en la especificacin
del modelo. La omisin de una variable explicativa relevante en nuestro modelo tendra,
adems, consecuencias ms graves que la inclusin de una variable irrelevante.
Los valores de dicha variable se encuentran a nuestra disposicin en un archivo de
Excel, denominado omitida.xls, que se encuentra en el espacio de la Asignatura en
WebCT. Para incorporarlo a nuestro anlisis deberemos importarlo a nuestro fichero de
trabajo. Como sabemos, para ello deberemos seleccionar, desde el men principal del
programa, la opcin: FILE / IMPORT / READ TEXT-LOTUS-EXCEL
La Figura 5 muestra la pantalla del men correspondiente a la importacin de ficheros
Excel (Excel Spreadsheet Import), con las opciones correspondientes seleccionadas.
Una vez importada TIPIMP, vamos a comprobar si esta nueva variable debe estar
presente en el modelo; es decir, si es una variable relevante que hasta el momento
hemos omitido en su especificacin. Para verlo, aplicaremos el test de variables
omitidas, que establece como hiptesis nula que la variable o variables a considerar en
el nuevo modelo no son significativas. El estadstico F de este contraste se calcula a
partir de la diferencia de la suma de cuadrados residuales de la regresin inicial (que
sera la restringida) y de la regresin con las variables que se omitieron en principio.
Sus grados de libertad son en este caso: 1, 22.
Para la realizacin de este contraste, dentro de nuestro modelo REG, deberemos
seleccionar VIEW / COEFFICIENT TESTS / OMITTED VARIABLES y seguidamente
introduciremos la variable TIPIMP (Figura 6).3
3
En este test debemos tener presente que la nueva variable que introduzcamos en el modelo ha de tener el
mismo nmero de observaciones que las de la especificacin inicial (en este caso, datos de 1980 a 2007).
Figura 5
Figura 6
Figura 7
En definitiva, hemos visto cmo nuestro modelo debe incluir la variable TIPIMP. Para
llevar a cabo de manera definitiva el nuevo ajuste, dentro de nuestro modelo REG,
pulsaremos una vez ms la opcin ESTIMATE y aadiremos la variable TIPIMP. El
resultado de la estimacin puede apreciarse en la Figura 8.
Otro tipo de test destinado a detectar problemas en la especificacin del modelo es el
denominado Test RESET de Ramsey. Este test permite detectar la omisin de variables y
la eleccin de una forma funcional inadecuada.
La realizacin del Test de Ramsey en EViews se hace, tambin dentro de la Ventana de
Ecuacin, a travs de VIEW / STABILITY TESTS / RAMSEY RESET TEST (Figura 9).
4
Obsrvese que esta conclusin tambin puede obtenerse si se atiende, en la salida de resultados del
modelo, al p-valor asociado al estadstico t-Student de esta variable.
Figura 8
Figura 9
La base de este test reside en la comparacin de la especificacin inicial del modelo con
una nueva que se plantea como alternativa y que aade, a las variables explicativas
originales, potencias de la estimacin de la variable endgena; de este modo, se
pretenden capturar posibles relaciones sistemticas existentes entre los residuos y las
estimaciones de Y y que no son recogidas por el modelo inicial. En este contraste se
emplea un estadstico F cuyo clculo se basa en la diferencia entre los coeficientes de
determinacin del nuevo modelo y el del original. La aceptacin de la hiptesis nula
supone asumir que el modelo inicial resulta aceptable; por el contrario, su rechazo
implica pensar que el modelo est mal especificado.
Figura 10
Figura 11
parece que haya problemas de multicolinealidad, pues no hay ningn valor absoluto que
se site por encima de 0,8. Con esto, finaliza as el presente ejercicio.
Figura 12
Figura 13
Figura 14
Hasta este momento, todo nuestro anlisis se ha basado en el hecho de que, para todas
las observaciones i del modelo, la perturbacin aleatoria ha presentado entre sus
principales supuestos homoscedasticidad e incorrelacin, lo cual se ha concretado en
que su matriz de varianzas-covarianzas resulta escalar de orden n x n:
u2 0 0 1 0 0
0 2
u 0 0 0 1 0 0
Var Cov (u ) 0 2
2
u 0 1 u2 I .
u
2 0
0 0 u 0 1
u21 0 0
0 u2 0 0
.
2
Var Cov (u ) 0 u2
3
0 0 u2n
problema sera preciso establecer algn tipo de supuesto que permitiese, de algn modo,
reducir el nmero de parmetros a estimar, de forma que finalmente fuese menor que n .
Ante la presencia de heteroscedasticidad, la matriz de Var Cov (u ) es una matriz
diagonal, que podra expresarse de la forma:
u21
0 0
2
0 u2
2
0 0
2
Var Cov (u ) 2 u2 2
0 3
2
0 u2n
0
2
Obsrvese cmo sera una matriz diagonal con un formato caracterstico.
u2 12 1n
12 u2 23 2n
Var Cov (u ) u2 .
1n 2n u2
n2 n
Ante la presencia de autocorrelacin, el investigador ha de estimar k 1
2
parmetros, que evidentemente es un nmero mayor que el de observaciones muestrales
n2 n
n : 1 , 2 , k , u2 ms los elementos diferentes que se hallan por encima de la
2
diagonal principal de la matriz6. Por tanto, al igual que suceda con la
heteroscedasticidad, se deber establecer algn tipo de supuesto que conduzca a reducir
dicho nmero de incgnitas hasta que sea menor que n .
La autocorrelacin es una situacin que se registra especialmente en modelos referidos a
series temporales, viniendo motivada por la existencia de ciclos y tendencias, relaciones
dinmicas, etc. Igualmente, tambin puede estar presente en series transversales; por
5
Ntese que al plantear autocorrelacin estamos suponiendo homoscedasticidad, lo mismo que
anteriormente cuando planteamos heteroscedasticidad supusimos incorrelacin. Es decir, estamos
considerando la quiebra de estos supuestos por separado. Si nos encontrsemos con ambas situaciones de
forma simultnea, procederamos primero suponiendo slo una y, una vez solucionada, afrontando luego
la otra.
6
Los elementos que hay por debajo de la diagonal principal de la matriz son los mismos que hay por
encima de la misma, dado que la matriz es simtrica: ij ji , i j .
1 12 1n
2
u2
u
12 2 1
23
2n
u 2
u2
Var Cov (u ) u2 u
u
2
1
1n 2 2n
u u2
1
La matriz tendra aqu tambin una forma caracterstica, si bien distinta a la del caso
de heteroscedasticidad.
Cuando la perturbacin aleatoria cumple estos supuestos, se dice que es esfrica. En los
casos en que incumple al menos alguno de ellos, es decir, que presenta
heteroscedasticidad y/o autocorrelacin, se habla de perturbacin no esfrica.
7
Obsrvese que, de acuerdo con las hiptesis establecidas, esto ltimo tambin sera cierto aun
presentando autocorrelacin la perturbacin aleatoria.
En esta situacin, el estimador MCO de sigue siendo una solucin del sistema de
ecuaciones normales: X ' X X ' Y , por lo que si la matriz ( X ' X ) es invertible, la
solucin nica a dicho sistema es: MCO X ' X 1 X ' Y . As pues, podemos seguir
estimando el modelo por MCO.
E MCO E X ' X X ' u X ' X X ' E u .
1 1
'
Var Cov MCO E MCO E MCO MCO E MCO E MCO MCO '
E X ' X X ' u X ' X X ' u
1 1
'
E X ' X X ' u u ' X X ' X
1 1
Var Cov MCO u2 X ' X .
1
En definitiva, tenemos que: MCO N k ; 2 X ' X X ' X X ' X .
1 1
El problema que nos encontramos sin embargo con el mtodo de estimacin de MCO es
que esta matriz de Var Cov
aun siendo correcta, no resulta la menor posible,
MCO
Para finalizar, tenemos que la estimacin insesgada del otro parmetro relevante en
nuestro anlisis, 2 , cuando u no es esfrica resulta ser:
Y * X * u* ,
al aplicar el mtodo de MCO sobre este nuevo modelo transformado estaramos en las
mismas condiciones que las conocidas de un modelo clsico.
E u * E Pu PE u P
Var Cov u * E u *u * ' E Pu ( Pu )' E Pu u ' P ' P E u u 'P '
Puesto que lo que perseguimos es que Var Cov u * sea escalar, nuestro objetivo final
ser ver qu matriz P debemos elegir para transformar el modelo, de tal manera que
verifique que: P P ' I .
P V 1 .
Como se puede ver, esta matriz efectivamente verifica:
Var Cov u * 2 P P ' 2 V 1 V V ' V 1 2 V 1 V V ' V ' 2 I .
' 1
8
Ntese que los elementos de la matriz P son simplemente los coeficientes de dichas combinaciones
lineales.
ya que:
1
MCG X * ' X * X * ' Y * V 1 X V 1 X V 1 X V 1Y
1 ' '
1
X ' V 1 V 1 X X ' V 1 V 1Y X ' 1 X
' '
1
X ' 1 Y .
X ' 1
X MCG X ' 1 Y .
Dado que MCG se puede expresar como: MCG X * ' X * X * ' u * , y puesto
1
3. Si E u * , entonces MCG es insesgado; es decir: E MCG .
4. La matriz de varianzas-covarianzas de MCG viene dada por:
Var Cov MCG 2 X * ' X * 1
,
9
Obsrvese que, en el caso de que se trabajase con los datos originales, habra que calcular la matriz 1 ,
la cual es cuadrada de orden n x n. En cambio, si se trabaja con los datos de las variables transformadas,
el orden de las matrices cuya inversa debera calcularse sera slo de orden k x k.
Var Cov MCG 2 X ' 1 X 1
.
MCG N k ; 2 X * ' X *
1
, o bien: MCG
N k ; 2 X ' 1 X 1
.
5. El estimador MCG es ELIO de .
Var Cov MCG Var Cov MCO ,
pues: 2 X ' X X ' X X ' X 2 X ' 1 X
1 1 1
es una matriz semidefinida
positiva.
1. La estimacin por MCG del otro parmetro relevante del modelo, 2 , se obtiene a
partir de la expresin:
e * ' e * SCR *
MCG
2
u2 ,
nk nk
*
e * Y * YMCG
*
Y * X * MCG V 1 Y (V 1 X ) MCG V 1 Y X MCG V 1 eMCG .
Coeficiente de determinacin
Una dificultad aadida que surge en el contexto de un modelo cuya perturbacin
aleatoria no es esfrica se refiere a la utilizacin del coeficiente de determinacin R 2
del modelo transformado como medida de bondad del ajuste. En primer lugar, dicho
modelo transformado puede no tener trmino independiente, con lo que R 2 ya no
estara acotado entre 0 y 1. Y, en segundo lugar, tendremos que conformarnos con
medir la capacidad del modelo para explicar la variable transformada Y * , que, sin
embargo, no olvidemos que no es nuestra variable de inters, pues sta es Y .
Inferencia estadstica
Como hemos podido apreciar, el nuevo modelo transformado, obtenido tras pre-
multiplicar las observaciones de las variables originales por la matriz de coeficientes
lineales apropiada, no slo tiene los mismos coeficientes de regresin que el modelo
original, sino que tambin cumple los supuestos propios de la modelizacin
economtrica clsica, para la cual se ha desarrollado en captulos anteriores toda la
teora inferencial referida a dichos coeficientes. Por consiguiente, todos los estadsticos
entonces establecidos podrn seguir siendo vlidos, con la nica salvedad de que en
lugar de referirnos a las variables originales X e Y , deberemos hacerlo ahora a las
variables transformadas X * e Y * , respectivamente. O de forma alternativa, si se
desease seguir trabajando con las variables originales, siempre que aparezca un
producto entre las matrices de datos de dichas variables, deber considerarse en medio
de ellas la matriz 1 , de manera anloga a lo que ya se ha mostrado en expresiones
anteriores de este mismo captulo.
u21
0 0
2
0 u2
2
0 0
2
Var Cov (u ) 2 u2 .
0 3
2
0 u2n
0
2
VAB 1 2 EMPLEO u .
Figura 15
Sin embargo, dado que la variable aleatoria u no es observable (y por tanto, tampoco su
varianza), una opcin es tomar los cuadrados de los residuos ( ei2 ) como aproximacin
de la varianza de ui ; es decir, plantear10:
ei2 f X ji , i 1, 2, , n .
Para realizar estos grficos, habra que definir primero la serie de los residuos al cuadrado.
La serie de residuos del modelo es calculada de forma automtica cuando ste se estima.
Sus valores se hallan en resid. No obstante, hay que tener presente que resid es un
objeto donde se van guardando los valores de los residuos de la ltima estimacin que
se lleve a cabo. Dado que vamos a trabajar con la serie concreta de residuos MCO
recin creada, deberemos crear sta como una variable especfica a partir de lo que hay
en este instante almacenado en resid. Para hacer esto, seleccionaremos GENR en la
Ventana de Trabajo y escribiremos en el cuadro de dilogo que surge (Enter equation):
RS = RESID, segn se muestra en la Figura 16. Tras ello, aceptaremos pulsando OK.
Figura 16
Una vez hecho esto, puesto que nuestra intencin es trabajar ahora con los residuos al
cuadrado, seguidamente generaremos dicha serie a partir de RS. Esto es, nuevamente
elegiremos GENR y en el correspondiente cuadro de dilogo que se abre, escribiremos
esta vez: RS2 = RS^2. Despus pulsaremos OK.
10
Junta a esta opcin, existen otras posibilidades consistentes en plantear funciones para los residuos
directamente, o bien, para sus valores absolutos.
A partir de aqu, podemos proceder a realizar los grficos entre los cuadrados de los
residuos y una funcin de la variable explicativa que consideramos que puede ser la
principal generadora del problema de la heteroscedasticidad en el modelo.
En el presente ejercicio, la seleccin de la variable explicativa que puede causar la
heteroscedasticidad no presenta problemas, pues slo estamos considerando una: el
EMPLEO. Sin embargo, si tuvisemos ms, deberamos hacer previamente esta
seleccin, bien gracias al conocimiento econmico de las variables en cuestin que
estuvisemos considerando, o bien a travs de la aplicacin de este mtodo a todas ellas.
La siguiente cuestin que se planteara sera la seleccin de la funcin de X j que habra
que tomar; es decir: la variabilidad de la perturbacin aleatoria sigue el patrn de
comportamiento de la variable X j de forma directa, de forma inversa, de su
cuadrado? En este caso, vamos a representar grficamente el cuadrado de los residuos
nicamente en funcin del EMPLEO. Pero, de forma anloga, se podra hacer con otras
formas funcionales: su inversa, cuadrado, etc.
Para obtener dicho grfico, debemos elegir en la barra principal de mens: QUICK /
GRAPH. Se crear de este modo una nueva ventana donde escribiremos en primer lugar
la variable independiente (a representar en el eje horizontal) y luego la dependiente (a
representar en el eje vertical): EMPLEO y RS2, respectivamente. Despus de aceptar
(OK), en el nuevo cuadro de dilogo que se abre elegiremos Scatter Diagram como tipo
de grfico. Para concluir, aceptaremos (OK). La Figura 17 muestra el grfico indicado.
Figura 17
A la vista de ello, se puede comprobar cmo el cuadrado de los residuos (tomado como
aproximacin de la varianza de la perturbacin aleatoria) no presenta un
comportamiento constante frente a las distintas cifras de la variable EMPLEO, lo que
parece apuntar a la existencia de heteroscedasticidad en el modelo.
Podemos guardar este grfico llamndolo, por ejemplo, METGRAF al pulsar NAME.
Contrastes paramtricos
Junto con los mtodos grficos (ms intuitivos que precisos), se han desarrollado un
buen nmero de estadsticos para contrastar la hiptesis nula de igualdad de varianza u
homoscedasticidad de la perturbacin aleatoria correspondiente a cada observacin de la
muestra estudiada. Esta gran variedad se debe a que la especificacin de la hiptesis
alternativa de heteroscedasticidad no suele ser conocida y puede ser ms o menos
general. A continuacin, vamos a revisar algunos de estos contrastes. En concreto, nos
vamos a centrar en tres contrastes de tipo paramtrico: Park, Glesjer y White, que se
caracterizan por estar basados en las hiptesis y supuestos estadsticos establecidos en el
modelo.
El contraste de Park parte del establecimiento de una relacin funcional entre los
valores de la varianza de la perturbacin aleatoria correspondiente a las distintas
observaciones, u2i , y los de la variable explicativa X ji , para algn j 2, , k , del
tipo:
u2 2 X ji e v
i
i
i 1, , n ,
o de forma equivalente:
ln u2i ln 2 ln X ji vi i 1,, n .
Dado que u2i se desconoce, Park propone utilizar como aproximacin los residuos al
cuadrado: ei2 . De esta forma, finalmente considera la expresin:
ln ei ln X ji vi i 1,, n ,
2
Figura 18
Figura 19
Para hacerlo con EViews, deberemos llevar a cabo los cuatro ajustes indicados y fijarnos
en la significatividad estadstica de cada uno de ellos. As pues, deberemos seleccionar
QUICK / ESTIMATE EQUATION y escribir en la Ventana de Especificacin de la
Ecuacin11:
- El primero de los ajustes: ABS(RS) C EMPLEO
- El segundo: ABS(RS) C 1/EMPLEO
- El tercero: ABS(RS) C SQR(EMPLEO)
- Y finalmente el cuarto: ABS(RS) C 1/SQR(EMPLEO)
Los resultados de cada una de las cuatro estimaciones pueden verse en las Figuras 20,
21, 22 y 23, respectivamente.
Cabe decir que para llevar a cabo cada una de las especificaciones del modelo, no es
necesario realizar cada vez el proceso QUICK / ESTIMATE EQUATION, sino que una
vez estimado el primer ajuste, basta con seleccionar la opcin ESTIMATE de la Ventana
de Ecuacin e ir cambiando la variable explicativa en cuestin.
Como se ha indicado, en cada caso hay que realizar un contraste de significatividad
individual del coeficiente asociado a la variable explicativa en cuestin (o de
significatividad global del modelo, ya que se trata de modelos de regresin simple).
Figura 20
11
Ha de tenerse en cuenta que la funcin valor absoluto de una variable se escribe en EViews de la
forma: ABS(nombre de la variable). Por su parte, la raz cuadrada se escribe: SQR(nombre de la
variable).
Figura 21
Figura 22
Figura 23
W2 n R 2 m2 .
Figura 24
Figura 25
A la vista del p-valor (0,051177) que aparece asociado al estadstico de prueba de White
(Obs*R-Squared), podemos sealar que para un nivel de significacin estrictamente del
5% no se podra rechazar la hiptesis nula de homoscedasticidad. No obstante, este
valor es muy prximo al 5%, con lo que dado el reducido tamao de la muestra y el
carcter asinttico de este contraste, as como por lo apuntado por todas las pruebas
anteriores realizadas (grficos y contrastes paramtricos), como conclusin final lo ms
prudente es asumir que pueden existir problemas de heteroscedasticidad en nuestro
modelo. Por tanto, lo ms apropiado es proceder a su estimacin por el mtodo de
MCG, que, como bien sabemos, proporciona estimadores lineales insesgados y ptimos
(ELIO) en estos casos.12
12
En caso de duda, siempre ser preferible optar por pensar que hay un problema de heteroscedasticidad
en el modelo y proceder a su estimacin por el mtodo de MCG, cuyo estimador ser ELIO. Ntese que,
si finalmente el modelo fuese homoscedstico el estimador MCG coincidir con el obtenido por MCO. En
caso contrario, habremos cometido un error, pues el estimador MCO no sera ELIO.
u21 0 0
0 2
u2 0 0
u2 2
Var Cov (u ) 0 3
0 0 u2n
donde:
u21
0 0
2
0 u2
2
0 0
2
u2 .
0 3
2
0 u2n
0
2
2
2 0 0 u1 0 0
u1
0 2 0 0
u2 0 u 0 0
2 2
1
2
, V
1
0
0
u2
u
3
3
0
0
2
0
0
u2 u
n n
V 1Y V 1 X V 1u .
A nivel de las observaciones individuales i, esto se expresara de la forma:
Yi 1 2 X 2i j X ji k X ki u i , i 1, 2, , n
u u u u u u
i i i i i i
Obsrvese que todas las variables del modelo, tanto la explicada, como las explicativas
y la perturbacin aleatoria, simplemente estn multiplicadas por un factor de
ponderacin, que podramos denominar i :
i .
u i
1 0 0
X j1
1
0 0 0
X j2
1
En este caso, V 1 0 1 ; esto es: i .
X j3 X ji
0 1
0
X jn
2. La varianza de la perturbacin aleatoria es directamente proporcional a una variable
explicativa X j , j 2, , k .
13
Ntese que si todas las ui fuesen iguales a (es decir, si estuvisemos ante homoscedasticidad),
todas las ponderaciones adoptaran el mismo valor, siendo ste igual a 1. As pues, el mtodo de MCO no
es ms que un caso particular de MCP donde las ponderaciones valen 1.
1 0 0
X j1
0 1 0 0
X j2 1
Aqu, V 1 0 1 ; y: i .
X j3 X ji
0 0 1
X jn
3. La varianza de la perturbacin aleatoria es directamente proporcional al cuadrado de
la variable estimada Y .
Es decir: u2i 2 Yi 2 , i 1, 2, , n .
1 0 0
Y1
1
0 0 0
Y2 1
En este supuesto, V 1 0 1 ; esto es: i .
Y3 Yi
1
0 0
Yn
u2 2 EMPLEOi .
i
Por tanto, se tratar de transformar el modelo original dividiendo cada uno de sus
miembros por la raz cuadrada de esa variable, o lo que es lo mismo ponderndolos por:
i 1 .
EMPLEOi
Para llevar a cabo con EViews la estimacin por MCG en este caso, en primer lugar
haremos doble clic sobre la ecuacin ajustada por MCO (AJUSTEMCO) y
seleccionaremos ESTIMATE (Figura 26).
Despus, en el cuadro de dilogo que aparece (que ya nos resulta familiar), pulsaremos
Options. Seguidamente, marcaremos la opcin Weighted LS/TSLS (Unavailable with
ARMA) y escribiremos en Weight la ponderacin concreta que vamos a utilizar14:
1/SQR(EMPLEO) tal y como se muestra en la Figura 27.
Tras pulsar OK, obtendremos finalmente la salida de resultados, que podremos guardar
seguidamente con el nombre AJUSTEMCG, que se observa en la Figura 28, donde se
nos ofrecen los coeficientes estimados por MCG y los valores de los estadsticos ms
relevantes del modelo transformado obtenido tras aplicar la ponderacin
correspondiente segn el mtodo de MCG (Weighted Statistics). Junto a ello, en la parte
inferior se muestran los estadsticos derivados del ajuste MCG considerando las
variables originales del modelo (no transformadas o ponderadas) (Unweighted
Statistics).
Figura 26
14
Esta ponderacin deberemos escribirla en EViews en letras minsculas.
Figura 27
Figura 28
Var Cov MCO 2 X ' X X ' X X ' X .
1 1
Figura 29
Figura 30
Figura 31
15
Este mtodo, sin embargo, no sera vlido si alguna de las variables del modelo presentase valores
negativos. Asimismo, debe researse que resulta ms eficaz cuanto mayor es el tamao muestral.
u2 12 1n 1 12 1n
12 u2 23 2n 12 1 23 2n
Var Cov (u ) u2 2
u 1 u2
2
1n 2n u 1n 2n 1
ij cov (u i , u j )
donde u2 (la varianza de u ) es constante y ij , i j , es el
u2 u2
coeficiente de correlacin lineal entre u i y u j .
1 1 2 n 1
1 1 1 n 2
2
Var Cov (u ) u u
2
,
1 1
1 1
n 1
s
donde u2 es la varianza (constante) de la perturbacin y s es el coeficiente de
u2
correlacin lineal entre dos perturbaciones cuya distancia entre ellas es s .
Los elementos no diagonales distintos de la matriz se reducen as a n 1 y, en
consecuencia, el nmero total de parmetros a estimar pasa a ser k n . A pesar de la
disminucin experimentada, sta no resulta an suficiente, puesto que el nmero de
parmetros sigue siendo superior al nmero de observaciones n . Por este motivo, deben
establecerse hiptesis adicionales sobre la estructura de comportamiento de u .
La componente aleatoria i se dice que es ruido blanco; esto significa que es una
variable aleatoria que satisface las siguientes condiciones16:
E ( i ) 0, i 1, , n
16
Obsrvese que la perturbacin aleatoria u que cumple las hiptesis establecidas en el modelo de
regresin lineal clsico es ruido blanco.
var ( i ) 2 , i 1,, n
cov ( i , j ) 0, i j , i, j 1, 2, , n .
La matriz de Var Cov (u ) en un AR(1) adquiere una forma particular que reduce
notablemente el nmero de parmetros a estimar.
Si calculamos la varianza de u , resulta que17:
2
u2 , debiendo ser 1 .
1 2
cov (u i , u i 1 ) u2 , i 1, 2,, n 1
cov (u i , u i 2 ) 2 u2 , i 1, 2,, n 2
cov (u1 , u n ) n1 u2
cov (u i , u i s ) s u2
s s , s 1, 2, , n 1 .
u2 u2
17
Ntese que Cov (u i 1 , i ) 0 , por depender u i 1 de i 1 y ser i ruido blanco.
2 2 2 ( 2 1) 2 .
As pues: u2 ( 2 1) 2 .
En cuanto a las covarianzas, tras desarrollar sus expresiones se obtiene finalmente que:
cov (u i , ui 1 ) 2 , i 1, 2,, n 1
cov (u i , u i s ) 0, s 2, , n 1, i 1, 2,, n s .
Se dice de este modelo que no tiene memoria, en el sentido de que cuando la distancia
en la perturbacin de dos observaciones es mayor que 1, la covarianza entre ellas es
nula. Los coeficientes de correlacin correspondientes sern entonces, nulos:
s 0, s 2, , n 1 .
cov (u i , u i 1 ) 2 2
1 .
u2 u2
(1 ) 1 2
2 2
1 0 0
1 0 0 1 2
0
1 0 1 2
1
1 2
Var Cov (u ) u2 u2 (1 2 ) 2
1
1
0 1 1 2
0 1
1 2
El siguiente paso que nos planteamos en nuestro anlisis consiste en detectar la posible
existencia de autocorrelacin. Para ello se pueden aplicar distintos mtodos. En
particular, podemos citar:
Mtodos grficos: representaciones de los residuos y correlogramas
Contrastes analticos: Durbin-Watson, Breusch-Godfrey
A continuacin, vamos a describir los mtodos indicados, aplicndolos de manera
prctica con ayuda de EViews sobre un modelo que especificaremos para tomar como
ejemplo.
As, vamos a plantear la estimacin, a travs de un modelo de regresin lineal, del
consumo pblico de cierto pas en funcin de su Producto Interior Bruto a precios de
mercado (Ejercicio n 45 del Boletn). Con este fin usaremos la informacin referida al
periodo 1998-2010 que nos proporciona el fichero aut.wf1, disponible en el espacio
virtual de la Asignatura en la WebCT, relativa a las variables:
CP: Consumo pblico (en millones de unidades monetarias)
PIB: Producto Interior Bruto a precios de mercado (en millones de unidades
monetarias)
Tras abrir el fichero en EViews a travs de la sucesin de comandos FILE / OPEN /
WORKFILE, procederemos a estimar mediante QUICK / ESTIMATE EQUATION el
modelo:
CP 1 2 PIB u .
Figura 32
estimado. Puesto que nos interesa trabajar con los residuos de nuestro modelo
AJUSTEMCO, optamos entonces por convertirlos en un objeto especfico. De este
modo, a nuestra serie de residuos MCO la llamaremos, por ejemplo, RS. Para hacer
esto, elegimos la opcin GENR en la Ventana de Trabajo y escribimos luego en la
ventana que se abre (Enter equation): RS = RESID. Tras aceptar (OK), tendremos en el
Directorio de Objetos de nuestro fichero de trabajo el nuevo objeto RS.
Llegados a este punto, ya estamos en condiciones de llevar a cabo los mtodos grficos
para detectar la existencia de autocorrelacin.
En primer lugar, analizaremos cul es el comportamiento grfico que se observa al
representar los residuos en relacin con el tiempo. Cuando se observan rachas de
residuos con el mismo signo, suele ser indicativo de autocorrelacin. Si hay pocos
cambios de signo, la autocorrelacin ser positiva; por el contrario, cuando hay muchas
rachas, se tiene evidencia de autocorrelacin negativa.
Veamos qu sucede en nuestro ejemplo al aplicar este mtodo grfico con EViews. Para
ello, nos iremos a la barra principal de mens y elegiremos: QUICK / GRAPH. Al
abrirse la ventana correspondiente, escribiremos la serie a representar: RS. Tras hacer
clic en OK, seleccionaremos Line Graph en tipo de grfico. Despus, en SHOW
OPTIONS, optaremos por Symbols only en el apartado Line Graphs. Para concluir,
pulsaremos OK.
Podemos ver el resultado en la Figura 33, que podramos grabar con el nombre GRAF1.
Figura 33
En el periodo 1998-2001 hay una racha de residuos negativos; le sigue una racha de
residuos positivos correspondientes al periodo 2002-2007; y, finalmente, otra racha de
residuos negativos en el periodo 2008-2010. Podemos por tanto intuir la existencia de
autocorrelacin y, adems, como hay nicamente dos cambios de signo, sera positiva.
Otro procedimiento grfico interesante consiste en la representacin de los residuos
frente a los del periodo anterior. Este mtodo es til para detectar, al menos, la
existencia de autocorrelacin que sigue un esquema AR(1). ste ser el caso si se
observa una relacin lineal clara entre ambas variables, ya que indicara que la
perturbacin aleatoria u i es una funcin lineal de la perturbacin aleatoria u i 1 , tal
como formula el modelo AR(1). Adems, podremos indicar si se trata de
autocorrelacin positiva o negativa, dependiendo del signo de la pendiente de la recta
que ajusta estos puntos.
Para hacer esta grfica con EViews, seleccionamos en el men principal QUICK /
GRAPH, y escribimos las series que deseamos representar, RS(-1) y RS, recordando que
en primer lugar debe ir aqulla que queramos posicionar sobre el eje X. Obtendremos el
grfico que aparece en la Figura 34, bajo la seleccin previa del tipo de grfico Scatter
Diagram. La nube de puntos resultante, que podemos nombrar como GRAF2, parece
indicar claramente la existencia de una relacin lineal directa entre ambas variables,
sugiriendo la posible presencia de autocorrelacin positiva, siguiendo, al menos, un
esquema AR(1).
Figura 34
Cuadro 1
Para llevar a cabo los correlogramas, el modo de proceder con EViews es seleccionar, en
la Ventana de Ecuacin de nuestro modelo AJUSTEMCO, la opcin VIEW /
RESIDUAL TESTS / CORRELOGRAM Q-STATISTICS, indicando el nmero de
retardos que se quieren incluir (Lags to include). Por defecto, EViews nos plantea 11
retardos (Figura 35). Generalmente este nmero es suficiente, por lo que nos
quedaremos con esta propuesta.
El resultado se muestra en la Figura 36, donde podemos apreciar que hay un mayor
nmero de coeficientes significativos (o prximos a serlo para un 5 % ) en la FAC
que en la FACP, lo que nos indica que estamos antes un modelo AR para la
perturbacin aleatoria.
Para determinar el orden, nos fijamos entonces en los coeficientes de la FACP que se
salen del intervalo de confianza sealado con lneas verticales de trazo discontinuo (para
un 95% de nivel de confianza). Vemos que nicamente el primero de ellos est fuera de
dicho intervalo, lo que nos permite pensar que estamos ante un modelo AR de orden 1,
al igual que nos sugeran los otros grficos representados anteriormente.
Figura 35
Figura 36
Contrastes analticos
Adems de los mtodos grficos, existen diversas posibilidades de tipo analtico para
contrastar la existencia de autocorrelacin. La hiptesis nula que se establece en todos
los casos es la ausencia de autocorrelacin y la diferencia entre unos contrastes y otros
radica en la hiptesis alternativa que se formula. A veces, stas son muy generales y
nicamente nos indican la existencia de autocorrelacin, mientras que en otros casos, no
slo plantean la existencia de autocorrelacin, sino tambin el esquema concreto de la
misma que est presente en el modelo.
A continuacin, vamos a revisar dos de estos contrastes.
El contraste de Durbin-Watson permite comprobar la existencia de autocorrelacin de
tipo AR(1). Recordemos que sta responde al siguiente esquema: u i u i 1 i ,
i 2, , n , donde i es ruido blanco.
e i ei 1
2
DW i2
n
.
e
i2
2
i
e i ei 1
Asimismo, se puede demostrar que DW 2(1 ) , siendo i 2
n
.
e
i 2
2
i
18
Algunos autores inician el sumatorio de la expresin del denominador en i 1 .
las cuales son independientes de X , aunque s dependen del nivel de significacin, del
nmero de variables explicativas y del tamao muestral.
La representacin grfica de estas distribuciones (Figura 37) nos permite distinguir
distintas zonas, de modo que:
Si DW d L , entonces existe autocorrelacin positiva.
Figura 37
Este contraste parte de la estimacin por MCO del modelo analizado en cuestin.
Seguidamente se estima una regresin auxiliar de sus residuos en funcin de p retardos
de stos y de las variables explicativas del modelo (pudiendo, incluso, introducirse
variables endgenas retardadas):
ei 1 2 X 2i k X ki 1ei 1 p ei p vi .
BG
2
n R 2 p2 ,
de la autocorrelacin ser el del ltimo retardo que haya resultado significativo (si
ninguno lo es, se aceptar entonces la hiptesis nula de ausencia de autocorrelacin).
El contraste de Breusch-Godfrey presenta como inconveniente el hecho de que si bien
puede indicar el orden de retardos hasta el que llega la autocorrelacin de la
perturbacin aleatoria en un modelo (caso de estar presente), no permite sin embargo
discernir cul es el esquema exacto de la misma; esto es, si es de tipo AR, o bien de tipo
MA.
Para aplicar el contraste de Breusch-Godfrey a nuestro ejemplo, abriremos la Ventana
de Ecuacin AJUSTEMCO y seleccionaremos VIEW / RESIDUAL TESTS / SERIAL
CORRELATION LM TEST (Figura 38). Aqu escribiremos, en principio, 1 retardo.
En la Figura 39, vemos que EViews nos ofrece el valor (8,473176) del estadstico
experimental de Breusch-Godfrey (Obs*R-squared), siendo su p-valor asociado
0,003604, por lo que incluso para un nivel de confianza del 99% dicho estadstico se
sita en la regin crtica, lo que nos lleva a rechazar la hiptesis nula de no
autocorrelacin. Adems, en la parte inferior de la salida se ofrece la regresin auxiliar
de los residuos MCO en funcin de las variables explicativas del modelo y de los
retardos elegidos de dichos residuos (en este caso 1). En relacin con dicha salida,
debemos fijarnos en que el p-valor del estadstico t correspondiente al primer retardo de
los residuos RESID(-1) es igualmente muy pequeo (0,0015), por lo que para los
niveles de confianza ms exigentes tambin resulta significativo.
Figura 38
Figura 39
Figura 40
Figura 41
CAPTULO 5
Modelos con variables dependientes discretas
1
La base econmica sobre la que se fundamentan estos modelos es la Teora de la Utilidad de Von
Neumann-Morgenstern, establecida en 1944. De acuerdo con sta, los sujetos se comportan ante una
disyuntiva, de tal modo que tratan de maximizar la utilidad esperada que les reporta cada una de las
alternativas posibles sobre las que han de decidirse.
P (Yi 1 | X i ) Pi F ( X i ) ;
y, en consecuencia:
P (Yi 0 | X i ) 1 Pi 1 F ( X i ) .
Yi F ( X i ) Pi .
F ( Xi ) Xi .
As pues:
Yi F ( X i ) u i X i u i .
Yi Pi X i ;
En el caso de que Xj sea una variable ficticia o dummy, entonces el efecto de una
variacin de dicha variable sobre la probabilidad de que Y tome el valor 1 se calcula a
travs de la diferencia entre los valores obtenidos por E Yi | X ji 1 y E Yi | X ji 0 .
Pese a la facilidad de planteamiento de este modelo, presenta importantes limitaciones.
stas son:
No normalidad de la perturbacin aleatoria; en efecto: para Yi 1 tenemos que
u i 1 X i 1 Pi , y para Yi 0 , u i 0 X i Pi , por lo que 1 u i 1 ,
cuando el rango de variacin de una variable aleatoria normal es (,) . En
concreto, u i sigue una distribucin binomial.
1 ************
Eleccin
0
************
Figura 1
2
Si se piensa por ejemplo en la adquisicin de una pliza privada de enfermedad por parte de los hogares
en funcin de su renta, parece evidente que a niveles bajos, la probabilidad ir creciendo lentamente, ya
que se carece de posibilidades; a partir de un cierto momento comenzar a subir ms rpidamente; y, de
nuevo, en niveles de probabilidad cercanos a 1, correspondientes a altos niveles de renta, el efecto
marginal ser de nuevo menor, pues muchos hogares dispondrn ya de dicha cobertura.
3
Como ya sabemos, si bien el modo ms correcto de actuar sera estimar el modelo por el mtodo de
MCG, una opcin intermedia, fcil y ms eficiente que MCO, sera aplicar la estimacin consistente de
White. Recurdese que, mediante este mtodo, la estimacin de los coeficientes de regresin del modelo
es la misma que por MCO, pero sin embargo, la matriz de varianzas-covarianzas de stos se estima
correctamente, lo que repercute en una mayor fiabilidad de los contrastes de hiptesis que se planteen.
1 ************
Eleccin
0
************
Figura 2
Cuando X i Pi 0 .
Cuando X i Pi 1 .
Yi ( X i ) u i .
De esta forma:
E Yi | X i P Yi 1 | X i Pi ( X i )
1
1 e Xi
y
P Yi 0 | X i 1 Pi 1
1 1
Xi
.
1 e 1 e Xi
As pues, la estimacin del modelo proporciona la cuantificacin de la probabilidad de
elegir la opcin 1; es decir:
1
Yi Pi ( X i ) .
1 e X i
P
X i ln i Li .
1 Pi
Li recibe el nombre de logit, y es lo que da nombre al modelo. El logit representa el
logaritmo neperiano de la razn de la probabilidad a favor de la alternativa 1. Por tanto:
Li
j .
X ji
Es decir, los parmetros miden el cambio en el logit ocasionado por un cambio unitario
en la variable Xj; esto es, cunto vara el logaritmo de la razn de probabilidades a favor
de la ocurrencia de la opcin 1, ante incrementos unitarios de Xj , no el efecto marginal
de un cambio unitario en Xj sobre la probabilidad de ocurrencia de la opcin 1, Pi.
ste ltimo viene dado por la expresin:
Pi ( X i )
(Xi) j ,
X ji X ji
Yi ( X i ) i .
Y consiguientemente:
Xi
E Yi | X i P Yi 1 | X i Pi ( X i ) ( s ) ds ,
2
s
1
donde ( s ) e 2 es la funcin de densidad de la distribucin normal estndar,
(2 )1 / 2
con media cero y varianza 1, y s es una variable muda de integracin.
As que, la estimacin del modelo ofrece la cuantificacin de la probabilidad de elegir la
alternativa 1; esto es:
X i s2
1
Yi Pi ( X i ) e 2
ds .
(2 )1 / 2
4
Obsrvese cmo lo que se defini como logit, no es ms que el logaritmo del estadstico odds.
j
P N / 2 N / 2 1 ,
ES ( j )
- R2 de McFadden:
Su expresin es:
ln( L)
R 2 de McFadden 1 ,
ln( LR )
L
LR 2 ln R ,
L
donde LR es la funcin de verosimilitud del modelo restringido, bajo la hiptesis nula
H 0 : 2 k 0 , y L es la funcin de verosimilitud del modelo original (sin
restricciones).
- Pseudo R2 de prediccin:
Esta medida indica la proporcin de predicciones correctas que realiza el modelo.
Concretamente, se define como:
Predicciones correctas
Pseudo R 2 de prediccin ,
n
donde n es el nmero de observaciones muestrales.
Normalmente, el valor umbral que se suele adoptar para asignarle un valor a una
prediccin es 0,5; de tal manera que:
2k 2 ln( L)
- Akaike Information Criterion (AIC): AIC
n
k ln(n) 2 ln( L)
- Schwarz Criterion (SC): SC
n
2k lnln(n) 2 ln( L)
- Hannan-Quinn Information Criterion (HQ): HQ
n
donde, para los tres estadsticos:
- k: nmero de regresores (incluido el trmino independiente);
- n: tamao de la muestra;
- L: valor de la funcin de verosimilitud.
MLP - Yi X i u i Yi Pi X i
1
Logit - Yi ( X i ) u i Yi Pi ( X i )
1 e X i
X i s2
1
Probit - Yi ( X i ) u i Yi Pi ( X i ) e 2
ds
(2 )1 / 2
La Figura 3 muestra el cuadro de dilogo de EViews para llevar a cabo la estimacin del
MLP. Obsrvese que en Options se elige la estimacin consistente de White
(Heteroskedasticity Consistent Covariance).
Las Figuras 4 y 5, por su parte, nos ofrecen los pasos necesarios que deben seguirse en
EViews para estimar los modelos logit y probit.
Figura 3
Figura 4
Figura 5
Figura 6
Figura 7
Figura 8
Si nos centramos en la salida del MLP, puede comprobarse el bajo valor reflejado por el
coeficiente de determinacin lineal R 2 , ya comentado a nivel terico.
Como ya se ha indicado, conceptualmente los modelos logit y probit resultan ms
apropiados que el MLP. A la hora de elegir entre uno u otro, podemos atender a los
resultados arrojados por medidas como el R 2 de McFadden (McFadden R-squared), el
estadstico LR o razn de verosimilitud (LR-statistic), o los estadsticos de Akaike,
Schwarz y Hannan-Quinn de prdida de informacin. Al observar los valores de todos
estos indicadores en nuestras estimaciones de los modelos logit y probit, puede
comprobarse que, de acuerdo con todos ellos, el modelo logit parece (aunque por muy
poco) ms adecuado.
En el Cuadro 1 se ofrece, para los tres modelos estimados, los efectos marginales de
cada variable explicativa sobre la probabilidad de tenencia de seguro privado de
enfermedad (junto con los valores medios de cada variable, necesarios para el clculo de
dichos efectos en los modelos logit y probit5).
5
Debe indicarse que los efectos marginales de los modelos logit y probit no son proporcionados por
EViews, sino que se han calculado aparte, tomando no obstante la informacin bsica precisa para ello de
los resultados de EViews.
Cuadro 1
CAPTULO 6
Introduccin a los modelos de series temporales
Media: E[Yt ] t , t
Coeficientes de autocorrelacin:
Cov(Yti , Yt j ) t , t
t , t Corr (Yt , Yt ) i j
, t i t j
i j i j
Var (Yti ) Var (Yt j ) t t
i j
1
Cuando hablemos de estacionariedad en el presente captulo, normalmente nos referiremos al
concepto de estacionariedad dbil.
Otra importante propiedad de los procesos estacionarios a la que hay que atender en su
anlisis es a la ergodicidad: las autocovarianzas tienden a cero al aumentar el retardo.
Los procesos estocsticos estacionarios que se emplean en el anlisis economtrico de
series temporales son fundamentalmente:
Ruido blanco
Determinados esquemas de series temporales univariantes pertenecientes a las
siguientes familias de modelos:
o Modelo autorregresivo de orden p: AR(p)
o Modelo de medias mviles de orden q: MA(q)
o Modelo autorregresivo de medias mviles de orden p,q: ARMA(p,q)
Ruido blanco
El ruido blanco es un proceso estacionario de carcter auxiliar, ya que entra a formar
parte de los modelos univariantes estacionarios que seguidamente se vern. Se
caracteriza porque los elementos de la serie que los componen t , con t (,) ,
son observaciones aleatorias independientes e idnticamente distribuidas, con media 0 y
varianza constante; esto es:
- E[ t ] 0, t
- Var ( t ) E[ t2 ] 2 , t
- Cov ( ti , t j ) 0, t i t j
t suele seguir una distribucin normal; se habla entonces de ruido blanco gaussiano.
AR(1): Yt Yt 1 t
AR(2): Yt 1 Yt 1 2 Yt 2 t
AR(p): Yt 1 Yt 1 2 Yt 2 ... p Yt p t
MA(2): Yt t 1 t 1 2 t 2
MA(q): Yt t 1 t 1 2 t 2 ... q t q
s Corr Yt E Yt Y ,..., Y , Y
t s
t 1 t s 1
del retardo s
2
De manera operativa, el coeficiente de correlacin parcial entre Yt e Yt s se corresponde con el ltimo
coeficiente de la proyeccin lineal de Yt en Yt 1 ,..., Yt s 1 .
s 2
s 1 2
s s.
2
2
1 2
Para 0 Para 0
s s
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
1 1 Corr (Yt , Yt 1 )
3 4 ..... 0
En esta ocasin, segn fuese el signo de (siendo 1 ), nos encontraramos con que:
3
Obsrvese que la Cov (Yt , Yt s ) va disminuyendo conforme aumenta el retardo s (siendo 1 ). Por
ello, se dice que en el modelo AR(1), los efectos se van diluyendo en el tiempo.
Para 0 Para 0
s s
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
- Cov(Yt , Yt 1 ) 2 1
- Cov(Yt , Yt k ) k 0, k 1
Todos los procesos de medias mviles (no slo el MA(1)) con coeficientes finitos
son estacionarios y ergdicos.
En este punto cabe resear que, dado que todo proceso de medias mviles resulta
estacionario, para que un modelo ARMA(p,q) resulte estacionario, habr que atender a
los posibles problemas que en este sentido presente su parte AR(p).
Al igual que suceda con el AR(1), los correlogramas de las FAC y FACP de un modelo
de tipo MA(1) resultan muy particulares.
Si nos fijamos en la FAC, tendremos que:
1 2
1
2
1 1 2
2 2
2 3 .... 0
Para 0 Para 0
s s
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
s s , con 1 .
Para 0 Para 0
s s
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
Para finalizar este punto cabe resear que, para esquemas AR y MA ms generales, los
correlogramas de sus FAC y FACP se ajustan a una serie de patrones especficos que
facilitan su identificacin. Ms adelante se ver un cuadro-resumen de ello.
Una propiedad importante que presenta el paseo aleatorio es que al tomar primeras
diferencias:
Yt Yt Yt 1 Yt 1 t Yt 1 t ,
4
Obsrvese que el paseo aleatorio es como un AR(1) en el que 1 .
d Yt 1 d Yt 1 ... p d Yt p t 1 t 1 ... q t q ,
H 1 : 1 (estacionariedad)
5
Tambin resulta asintticamente vlido para modelos con una componente de tipo MA.
Cointegracin
Se dice que dos series de datos temporales estn cointegradas si teniendo el mismo
orden de integracin, la combinacin lineal de ambas es integrada de orden cero, es
decir, es estacionaria.
El sentido econmico de la cointegracin se corresponde con la idea estadstica de que
las dos series tendran tendencias similares, es decir, creceran a tasas similares. La
integracin es condicin necesaria de equilibrio estable a largo plazo.
Para contrastar la cointegracin de series se puede aplicar, de la forma pertinente, el
contraste de Dickey-Fuller (o de Dickey-Fuller Aumentado).
2. Identificacin.
Aqu se recurre a la representacin de los correlogramas de la FAC y la FACP de la
serie resultante de la fase anterior para tratar de encontrar el proceso AR(p), MA(q),
ARMA(p,q), al que mejor parezca adaptarse.
En series con componente estacional, tambin se pueden seguir estos mismos pasos,
pero atendiendo a la periodicidad que presenta dicha componente.
4. Validacin.
- De la significatividad de los parmetros (a travs del estadstico t)
- De los residuos; deben ser ruido blanco. Se puede comprobar esto a travs de:
o Correlograma de los residuos: deben caer dentro de las bandas de
confianza
p
Si hay varios modelos que pasen los tests de validacin, para seleccionar el ms
adecuado se puede recurrir al ya conocido criterio de informacin de Akaike (AIC),
seleccionndose aquella especificacin que presente menor valor para el AIC. Si el valor
de ste fuese similar, se escogera entonces la especificacin con menos parmetros.
5. Prediccin.
Es el objetivo final de todo anlisis economtrico de series temporales.
6
Como siempre, este fichero est disponible en el espacio reservado a la Asignatura en WebCT.
aunque de forma muy lenta. Este comportamiento, que puede definirse como alta
persistencia en el correlograma, es apreciable en nuestra serie (Figura 2).
Figura 1
Figura 2
Figura 3
El resultado del contraste puede verse en la Figura 4, donde se aprecia que, en valor
absoluto, el estadstico de Dickey-Fuller Aumentado (ADF Test Statistic) que se obtiene
es menor que cualquiera de los valores crticos registrados para los niveles de
significacin habituales (1%, 5% y 10%).
As pues, podemos aceptar la hiptesis nula de existencia de raz unitaria y, por tanto,
considerar que la serie no es estacionaria.
7
Al incluir el trmino constante se est contrastando la no estacionariedad en media; si no se incluyese,
slo se contrastara la no estacionariedad en varianza. En este punto, cabe resear que el caso de la
tendencia determinista no se est considerando.
Figura 4
Figura 5
Figura 6
Figura 7
8
El comportamiento estacional habr de ser considerado tambin a la hora de identificar el modelo.
Figura 8
Figura 9
El correlograma nos va a servir ahora, adems, como base del proceso de identificacin
del modelo. En el Cuadro 1 se recoge un resumen de los principales rasgos que refleja
el comportamiento de la funcin de autocorrelacin total (FAC) y parcial (FACP),
segn los distintos tipos de procesos.
Cuadro 1
9
Es anlogo a lo que sucede con el anlisis de estas funciones para el caso de la perturbacin aleatoria de
un modelo economtrico.
En nuestro ejercicio, en la Figura 9 puede apreciarse que la FAC parece tener un mayor
nmero de valores significativos en los primeros retardos (es decir, que se salen de la
banda de confianza) que la FACP. Esto induce a pensar que se trata de un modelo
autorregresivo (AR), y el hecho de que la FACP presente claramente slo dos retardos
significativos en sus primeros rdenes apunta a que el orden de autocorrelacin sea 2,
con lo que empezaremos trabajando con un modelo AR(2).
10
Utilizaremos sta en lugar de la variable resultante directamente de su transformacin (DD12LY), que
ya creamos con anterioridad. El motivo reside en que esto facilitar despus el proceso de prediccin.
Figura 10
Figura 11
Figura 12
Figura 13
El nuevo resultado se muestra en la Figura 14, vindose que tambin sera aceptable. Su
correlograma aparece en la Figura 15.
Figura 14
Figura 15
Cuando existen dudas para escoger la mejor opcin de entre varios modelos, adems de
analizarse el correlograma, puede recurrirse a la observacin del valor del criterio de
mnima prdida de informacin de Akaike, el AIC (Akaike info criterion). Segn ste, se
preferir aquella opcin que presente un valor menor en este estadstico. En el caso de
que los valores del AIC fuesen muy parecidos, se elegira entonces aquel modelo con
menos trminos explicativos. En el presente ejercicio, adems de observar los
correlogramas, si atendemos al valor del AIC, podremos ver que en el primer caso ste
era -1,813440 y en el segundo, -1,938242. As que, segn esto, asumiremos que la
componente estacional de nuestro modelo sigue un proceso AR(12) y MA(24).
En definitiva, nuestro modelo resulta ser un ARIMA(2,1,0)x(1,1,2)12.
Prediccin
Una vez estimado el modelo, puede pensarse en dos tipos de predicciones: la prediccin
intramuestral o histrica (estimacin) y la extramuestral o futura (autntica prediccin).
La prediccin histrica consiste en estimar los valores de la serie Y usando el modelo
especificado dentro del periodo muestral. En este caso, sera de enero de 1980 a febrero
de 2007. Como se puede ver en la Figura 16, en la ventana de la ecuacin estimada se
seleccionar FORECAST, donde se elegir la opcin Static en METHOD y como
periodo muestral de prediccin se deber tener indicado:
1980:01 2007:02
Figura 16
Figura 17
Por su parte, la prediccin futura es aqulla que se realiza para ms de un periodo hacia
adelante, utilizando las estimaciones que se vayan obteniendo del modelo. El
procedimiento a seguir con EViews es muy similar al caso anterior, slo que ahora se
deber elegir la opcin Dynamic en METHOD y habr que modificar el periodo
muestral de prediccin, que ser de marzo de 2007 a mayo de 2007.
El resultado final, en el que se nos ofrece tambin un intervalo de confianza para la
prediccin, se recoge grficamente en la Figura 18. Los valores concretos de las
predicciones obtenidas pueden consultarse en la serie generada YF.
Con esto el ejercicio estara concluido y, si lo deseamos, podemos guardar el fichero de
trabajo a travs de FILE / SAVE AS en la barra principal de mens.
Figura 18