You are on page 1of 295

Universidade Estadual de Campinas

Instituto de Economia

Econometria: conceitos e aplicaes

Alexandre Gori Maia


2013

Sumrio
1.

Correlao e Regresso Linear Simples ................................................................................. 9


Introduo ................................................................................................................................... 9
1.1.

Correlao ........................................................................................................................ 9

1.2.

Regresso Linear Simples .............................................................................................. 15

1.3.

Mtodo de Mnimos Quadrados Ordinrios ................................................................... 18

1.3.1.

Definio ................................................................................................................. 19

1.3.2.

Aplicao do MQO na regresso linear simples ..................................................... 20

1.3.3.

Propriedades dos Estimadores de Mnimos Quadrados Ordinrios ........................ 22

Exerccios .................................................................................................................................. 23
Respostas................................................................................................................................... 24
2.

Inferncia com os Estimadores de MQO .............................................................................. 25


Introduo ................................................................................................................................. 25
2.1.

Teorema de Gauss-Markov ............................................................................................ 25

2.2.

Significncia das estimativas ......................................................................................... 29

2.3.

Distribuio amostral dos estimadores ....................................................................... 29

2.4.

Varincia dos estimadores .......................................................................................... 30

2.5.

Teste de hipteses para os coeficientes ...................................................................... 32

2.6.

Intervalo de confiana para os coeficientes ................................................................ 35

Exerccios .................................................................................................................................. 37
Respostas................................................................................................................................... 38
3.

Intervalos de Confiana e Previso para os Valores de Y ..................................................... 48


Introduo ................................................................................................................................. 48
3.1.

Intervalos para valores individuais e para a mdia aritmtica ....................................... 48

3.2.

Intervalo de confiana para o valor previsto de Yi ......................................................... 50

3.3.

Intervalo de previso para valores individuais de Yi ...................................................... 52

3.4.

Propriedades das estimativas por intervalo .................................................................... 53

Exerccios .................................................................................................................................. 55
Respostas................................................................................................................................... 55
4.

Formas Funcionais ................................................................................................................ 58


Introduo ................................................................................................................................. 58

4.1.

Modelo Linear ................................................................................................................ 58

4.2.

Modelo Log-Lin ............................................................................................................. 60

4.3.

Modelo Lin-Log ............................................................................................................. 62

4.4.

Modelo Log-Log ............................................................................................................ 64

Exerccios .................................................................................................................................. 66
Respostas................................................................................................................................... 67
5.

Anlise de Varincia ............................................................................................................. 68


Introduo ................................................................................................................................. 68
5.1.

Soma dos Quadrados ...................................................................................................... 68

5.2.

Coeficiente de Determinao ......................................................................................... 72

5.3.

Anlise de Varincia (ANOVA) .................................................................................... 74

Exerccios .................................................................................................................................. 76
Respostas................................................................................................................................... 77
6.

Introduo Regresso Linear Mltipla ............................................................................... 82


Introduo ................................................................................................................................. 82
6.1.

Estimadores de MQO ..................................................................................................... 82

6.2.

Estimadores de MQO a partir de notao matricial ....................................................... 85

6.3.

O uso de variveis centradas .......................................................................................... 89

Exerccios .................................................................................................................................. 94
Respostas................................................................................................................................... 96
7.

Anlise de Varincia para Regresso Linear Mltipla ....................................................... 102


Introduo ............................................................................................................................... 102
7.1.

Coeficiente de determinao e estatstica F ................................................................. 102

7.2.

Coeficiente de determinao ajustado .......................................................................... 106

Exerccios ................................................................................................................................ 108


Respostas................................................................................................................................. 110
8.

Inferncia em Regresso Linear Mltipla ........................................................................... 113


Introduo ............................................................................................................................... 113
8.1.

Matriz de varincia e covarincia e teste t para k ....................................................... 113

8.2.

Inferncia para combinao linear dos parmetros ...................................................... 117

8.3.

Teste de hipteses para combinao linear dos parmetros ......................................... 118

Intervalo de confiana para valor previsto ................................................................... 120

8.3.

Exerccios ................................................................................................................................ 122


Respostas................................................................................................................................. 124
9.

Contribuio Marginal ........................................................................................................ 125


Introduo ............................................................................................................................... 125
9.1.

ANOVA para contribuio marginal ........................................................................... 125

9.2.

Correlao parcial ........................................................................................................ 130

Exerccios ................................................................................................................................ 132


Respostas................................................................................................................................. 134
10.

Multicolinearidade ........................................................................................................... 135

Introduo ............................................................................................................................... 135


10.1.

Definio .................................................................................................................. 136

10.2.

Fator Inflacionrio da Varincia ............................................................................... 139

10.3.

Identificao da multicolinearidade.......................................................................... 141

10.4.

Correo da multicolinearidade ................................................................................ 142

Exerccios ................................................................................................................................ 145


Respostas................................................................................................................................. 148
11.

Variveis Binrias ............................................................................................................ 153

Introduo ............................................................................................................................... 153


11.1.

Variveis binrias para representar 2 categorias ...................................................... 154

11.2.

Variveis binrias para representar mltiplas categorias ......................................... 156

11.3.

Interpretao de coeficientes de binrias em equaes semi-logaritmicas ............... 159

11.4.

Outras aplicaes das variveis binrias .................................................................. 161

11.5.

Teste de mudana estrutural ..................................................................................... 165

Exerccios ................................................................................................................................ 169


Respostas................................................................................................................................. 171
12.

Heterocedasticidade ......................................................................................................... 172

Introduo ............................................................................................................................... 172


12.1.

Definio .................................................................................................................. 172

12.2.

Identificao ............................................................................................................. 175

12.2.1.

Anlise Grfica .................................................................................................. 175

12.2.2.

Teste de Goldfeld-Quandt ................................................................................. 177

12.2.3.

Teste de Breusch-Pagan .................................................................................... 180

12.2.4.

Teste de White ................................................................................................... 182

12.3.

Mnimos Quadrados Ponderados .............................................................................. 184

12.3.1.

Funo de heterocedasticidade conhecida......................................................... 186

12.3.2.

Funo

de

heterocedasticidade

desconhecida

Mnimos

Quadrados

Generalizados Factveis ...................................................................................................... 188


12.4.

Estimadores Robustos da Varincia ......................................................................... 190

Exerccios ................................................................................................................................ 192


Respostas................................................................................................................................. 194
13.

Autocorrelao ................................................................................................................. 195

Introduo ............................................................................................................................... 195


13.1.

Definio .................................................................................................................. 195

13.2.

Identificao ............................................................................................................. 199

13.2.1.

Anlise Grfica ..................................................................................................... 199

13.2.2.

Teste t para regressores estritamente exgenos .................................................... 201

13.2.3.

Teste de Durbin-Watson para um MCRL ............................................................. 203

13.2.4.

Teste de Breusch-Godfrey para mltiplas defasagens .......................................... 205

13.3.

Mnimos Quadrados Generalizados.......................................................................... 207

13.3.1.

Coeficiente de autocorrelao conhecido Mnimos Quadrados Generalizados


210

13.3.2.

Coeficiente

de

autocorrelao

desconhecido

Mnimos

Quadrados

Generalizados Factveis ...................................................................................................... 212


13.4.

Estimadores Robustos da Varincia ......................................................................... 214

Exerccios ................................................................................................................................ 215


Respostas................................................................................................................................. 217
14.

Equaes Simultneas ...................................................................................................... 220

Introduo ............................................................................................................................... 220


14.1.

Origem do problema ................................................................................................. 221

14.2.

Definio .................................................................................................................. 223

14.3.

Mnimos Quadrados Indiretos .................................................................................. 226

14.4.

Identificao ............................................................................................................. 228

14.5.

Estimao por Variveis Instrumentais .................................................................... 236

14.6.

Mnimos Quadrados em dois Estgios (MQ2E) ....................................................... 238

14.7.

Teste de endogeneidade ............................................................................................ 241

Exerccios ................................................................................................................................ 243


Respostas................................................................................................................................. 245
15.

Estacionariedade .............................................................................................................. 247

Introduo ............................................................................................................................... 247


15.1.

Processos estocsticos .............................................................................................. 248

15.2.

Estacionariedade ....................................................................................................... 249

15.2.1.

Definio ............................................................................................................... 249

15.2.2.

Raiz Unitria ......................................................................................................... 251

15.2.3.

Terminologia ......................................................................................................... 255

15.3.

Funo de autocorrelao ......................................................................................... 258

15.4.

Teste de raiz unitria................................................................................................. 260

15.4.1.

Teste de Dickey-Fuller .......................................................................................... 261

15.4.2.

Teste de Dickey-Fuller aumentado ....................................................................... 263

Exerccios ................................................................................................................................ 265


Respostas................................................................................................................................. 266
16.

Cointegrao .................................................................................................................... 267

Introduo ............................................................................................................................... 267


16.1.

Relao espria ......................................................................................................... 267

16.2.

Modelo de tendncia estacionria............................................................................. 269

16.2.1.

Coeficiente de determinao para regressando com tendncia............................. 270

16.3.

Modelo de diferena estacionria ............................................................................. 272

16.4.

Cointegrao ............................................................................................................. 273

16.4.1.

Modelo de correo de erros ................................................................................. 278

Exerccios ................................................................................................................................ 280


Respostas................................................................................................................................. 281
17.

Modelos ARIMA ............................................................................................................. 283

Introduo ............................................................................................................................... 283

17.1.

Modelo Autorregressivo (AR) .................................................................................. 283

17.2.

Modelo de Mdias Mveis (MA) ............................................................................. 286

17.3.

Modelo Autorregressivo e de Mdias Mveis (ARMA) .......................................... 287

17.4.

Modelo Autorregressivo Integrado e de Mdias Mveis (ARIMA) ........................ 288

Exerccios ................................................................................................................................ 293


Respostas................................................................................................................................. 293
Referncias .............................................................................................................................. 294

PARTE I
Regresso Linear Simples

Econometria

Alexandre Gori Maia

1. Correlao e Regresso Linear Simples


Introduo
O termo regresso foi originalmente proposto por Francis Galton em seu trabalho
Regression Towards Mediocrity in Hereditary Stature, publicado no Journal of the
Anthropological Institute of Great Britain and Ireland, em 1886. Galton analisou a relao entre
a estatura mdia dos pais de uma famlia e a de seus filhos adultos. Como se esperava, observou
que, em geral, pais altos tm filhos altos e pais baixos tm filhos baixos. Tambm verificou que
os filhos de pais altos no so to altos quanto seus pais, assim como os filhos de pais baixos no
so to baixos quanto seus pais. Em outras palavras, a estatura dos filhos tendia a regredir
estatura mdia da populao, comportamento que Galton denominou regresso mediocridade1.
A estatstica moderna reserva, entretanto, o termo regresso ao estudo da relao de
dependncia de uma varivel, a varivel dependente, em funo de uma ou mais variveis, as
variveis explanatrias. O objetivo dessas anlises estimar ou prever o valor mdio da varivel
dependente a partir de variaes na varivel explanatria, ou independente.
Para melhor compreender os objetivos e aplicaes da regresso em estatstica, ser
inicialmente apresentada a anlise de correlao, estreitamente relacionada anlise de
regresso, mas conceitualmente muito diferente. Posteriormente, descrevem-se alguns conceitos
e tcnicas iniciais da regresso aplicada s relaes lineares entre duas variveis, a regresso
linear simples.

1.1.

Correlao

Uma tcnica simples para identificar possveis padres de associao entre duas variveis
quantitativas o diagrama de disperso. A Figura 1 apresenta trs diagramas com diferentes
padres de disperso entre duas variveis X e Y. No primeiro observa-se uma tendncia de
associao linear positiva, ou seja, aumentando o valor de X, o valor de Y tambm tende a
aumentar. No segundo, a associao assemelha-se a uma parbola, ou seja, Y aumenta com X at
determinado ponto, quando, ento, passa a diminuir. No ltimo no h associao aparente entre
as variveis Y e X, pois os pontos no apresentam qualquer tendncia particular.
1

Medocre no sentido de mdio ou mediano, algo que est entre pequeno e grande, segundo definio do dicionrio

Michaelis da Lngua Portuguesa.

Econometria

Regresso Linear Simples

(1)

Entre os muitos tipos de associaes entre duas variveis, a mais simples e frequente a
linear. A associao de dependncia linear pode ser positiva, quando os valores de Y e X so
diretamente proporcionais2, ou negativa, quando os valores de Y e X so inversamente
proporcionais.
Uma medida simples para quantificar a relao de dependncia linear entre X e Y a
covarincia. Dado N pares de valores de uma populao (X1, Y1), ..., (XN, YN), a covarincia entre
X e Y ser dada por:
N

( X i X )(Yi Y )

XY =

i =1

(2)

Onde X e Y so, respectivamente, as mdias populacionais de X e Y.


Quando se trata de uma amostra de n pares de valores de X e Y, com mdias amostrais
equivalentes a X e Y , a estimativa da covarincia ser dada por:
r

XY =

( X i X )(Yi Y )

i =1

(3)

n 1

Valores negativos da covarincia sugerem relao de dependncia linear negativa;


valores positivos sugerem dependncia linear positiva; e valores muito prximos de zero
sugerem ausncia de dependncia linear.
Observe que a covarincia uma mdia dos produtos em relao aos valores centrados de
X e Y (desvios em relao s respectivas mdias). Para simplificar as representaes, esses
valores centrados podem ser representados pelas minsculas x e y:
xi = ( X i X ) e

y i = (Yi Y )

(4)

E a covarincia, expressa em valores centrados, ser dada por:


2

Aumentando X, aumenta o valor de Y.

10

Econometria

Alexandre Gori Maia

xi y i
XY =

(5)

i =1

n 1

Graficamente, os valores centrados representam uma mudana de eixos no diagrama de


disperso, que passam a ter origem nas mdias de X e Y, mas sem alterar o padro de associao:

(6)

Observe agora que, no diagrama formado pelos eixos x e y, pontos com padro de
associao linear positiva tendem a concentrar-se no 1 e 3 quadrantes, onde as coordenadas
apresentam o mesmo sinal e, portanto, o produto xiyi, ou ( X i X )(Yi Y ) , ser sempre positivo.
Ou seja, a covarincia ser positiva.
Analogamente, pontos com padro de associao linear negativa concentrar-se-o no 2 e
4 quadrantes, onde as coordenadas apresentam sinais diferentes e o produto xiyi, ser sempre
negativo (primeiro grfico da Figura 7). Na ausncia de padres de associao linear (segundo e
terceiro grficos da Figura 7), produtos com sinais negativos tendem a compensar aqueles com
sinais positivos e a covarincia ser prxima de zero.

(7)

Exemplo 1. Uma amostra de 10 ocupados ofereceu os seguintes valores para anos de


escolaridade (X) e rendimento mensal (Y):

11

13

15

15

240

240

440

300

640

870

700

1800

2400

240
11

Econometria

Regresso Linear Simples

O diagrama de disperso e a covarincia entre as duas variveis seriam dados por:

XY =

(0 8,5)(240 787) + ... + (15 8,5)(240 787)


10 1

XY =

21135
= 2348,3
9

Os resultados sugerem, portanto, uma associao linear positiva entre anos de


escolaridade e rendimento, ou seja, se os anos de escolaridade aumentarem, a tendncia que os
rendimentos tambm aumentem.
Exemplo 2. Uma amostra hipottica apresentou os seguintes dados para o rendimento (X) e um
indicador de felicidade, com escala entre 0 e 10 (Y), de 10 indivduos:
240
300
440
640
700
870
1500 1800
2400
X
1
3
4
7
7
8
7
7
5
Y
O diagrama de disperso e a covarincia entre as duas variveis sero dados por:

2900
2

XY =

(240 1179)(1 5,1) + ... + (2900 1179)(2 5,1)


10 1

XY =

11
= 1,2
9

Embora o valor da covarincia seja positivo, ele baixo e, visualmente, observa-se que a
associao entre as variveis no linear, mas sim quadrtica.
Embora a covarincia permita identificar a presena e o sentido da associao linear, no
permite avaliar seu grau de associao, ou seja, o quo prximo os pontos esto de uma reta. Isso
porque a amplitude de variao da covarincia depende das escalas de medida de X e Y e,
consequentemente, de seus desvios em relao s respectivas mdias (x e y). Por exemplo, no
primeiro exemplo tnhamos uma covarincia dada pelo produto de anos (escolaridade) por reais
(rendimento) e, no segundo caso, pelo produto de reais (rendimento) por uma escala de
felicidade (0..10). No poderamos, portanto, comparar as duas covarincias e afirmar qual delas
12

Econometria

Alexandre Gori Maia

apresenta o maior grau de associao linear. A medida derivada do produto de variveis com um
maior grau de disperso tenderia, naturalmente, a apresentar um maior valor de covarincia.
Para contornar esse problema e medir o grau de associao linear entre duas variveis,
utilizamos a correlao linear. A correlao () uma medida padronizada (adimensional) de
associao linear entre duas variveis, obtida ao se ponderar a covarincia pelo produto dos
desvios padro de X e Y (X e Y, respectivamente):

XY
XY

(8)

Outra maneira de enxergar a correlao como uma mdia do produto dos desvios
padronizados de X e Y. Em outras palavras, de (2), (4) e (8) teremos:
N

xi y i

i =1

XY

xi y i 1
i =1
XY N

1 N xi y i

N i =1 X Y

(9)

Que pode ainda ser expressa apenas em funo dos valores xi, yi e seus respectivos
quadrados:
N

i=1 xi yi
=

N
N

i=1 xi2

i=1 yi2

i=1 xi yi
N
N
i=1 xi2 i=1 yi2

(10)

Para um conjunto de dados da amostra, teremos:


r=

XY

(11)

S X SY

Ou ainda:
1 n xi y i
r=
=

n 1 i =1 S X S Y

i =1 xi yi
n
n
i =1 xi2 i =1 yi2

(12)

Graficamente, significa que, enquanto a covarincia mede a aproximao dos desvios em


relao a uma reta, a correlao medir a aproximao dos desvios padronizados em relao a
uma reta. Mantm-se a proporcionalidade e se elimina as distores das diferentes escalas de
medida, passando todas a referir-se a unidades de desvios padro:

13

Econometria

Regresso Linear Simples

(13)

A correlao assume valores entre -1 e +1 (inclusive) e permite uma interpretao


intuitiva do grau de associao linear entre duas variveis. Quo mais prximo o valor estiver
dos extremos, mais prxima a disperso dos pontos estar de uma reta com inclinao negativa
(-1) ou positiva (+1).

(14)

Importante assinalar que a correlao no capta a proporcionalidade da associao, mas


sim o grau de associao linear. Em outras palavras, uma correlao forte significa que, dadas
variaes em X, ser muito provvel que haja variaes (positivas ou negativas) em Y, no
importa em que razo (quanto Y ir variar em funo de variaes em X). Uma correlao nula
tambm no implica necessariamente ausncia de associao entre duas variveis, j que a
correlao refere-se exclusivamente associao linear.
Exemplo 3. Supondo a amostra de 10 observaes para anos de escolaridade (X) e rendimento
mensal (Y) do Exemplo (1), teramos:
S X = 5,1 e S Y = 739,3
r=

XY
S X SY

2348,3
= 0,628
(5,1)(739,3)

14

Econometria

Alexandre Gori Maia

Ou seja, h um forte grau de associao linear entre anos de escolaridade e rendimento,


sugerindo, por exemplo, que o aumento dos anos de escolaridade implicar, muito
provavelmente, no aumento da renda.
Exemplo 4. A partir dos dados do Exemplo (2), sobre renda (X) e felicidade (Y), teramos:
S X = 928,4 e S Y = 2,5
r=

XY
S X SY

1,2
= 0,001
(928,4)(2,5)

Ou seja, no h qualquer associao linear entre anos de escolaridade e rendimento, sugerindo,


por exemplo, que o aumento da renda no implicar, necessariamente, em variaes
proporcionais na felicidade.

1.2.

Regresso Linear Simples

Embora a correlao seja uma medida til do grau de associao entre duas variveis, no
explica algumas questes fundamentais, como: i) qual seria a variao em Y dada uma variao
em X? ii) Qual o valor esperado de Y dado um de X? Para responder essas e outras questes,
devemos realizar uma anlise de regresso linear.
A regresso linear simples pressupe que a relao entre Y e X na populao seja dada
pela equao3:
Yi = + X i + ei

(15)

Onde Y chamado de varivel dependente, explicada ou regressando; X a varivel


independente, explanatria ou regressor; e o erro aleatrio no explicado pelo modelo;
termo constante ou intercepto; e o coeficiente angular ou coeficiente de regresso. Em outras
palavras, a funo de regresso linear estabelece que cada valor de Yi pode ser dado a partir de
uma funo linear de um valor controlado de Xi mais um erro no previsto pelo modelo ei (Figura
16).

O termo linear refere-se aos coeficientes unitrios dos parmetros e . Modelos em que os coefecientes no

apresentam expoente unitrio so chamados de modelos de regresso no lineares.

15

Econometria

Regresso Linear Simples

(16)

O erro ei representa variveis omitidas ou mesmo dificuldades para mensurar aquelas


presentes no modelo. O modelo de regresso pressupe que o efeito do erro seja mnimo e que
este tenha uma natureza estocstica e esteja aleatoriamente distribudo em torno da reta de
regresso, como representa a Figura 17.

(17)

Exemplo 5. Podemos pressupor que rendimento mensal (Y) seja determinado pelos anos de
escolaridade (X) segundo a relao linear:
Yi = + X i + ei

Assim, pressupomos que o rendimento de um ocupado seja dado em funo (linear) de seus anos
de escolaridade mais um fator no observado ei. Os erros ei representam outras informaes no
previstas pelo modelo que tambm afetam o rendimento, tais como experincia profissional,
aptido, tipo de ocupao e caractersticas socioeconmicas do local de moradia.
Um pressuposto central da anlise de regresso que a reta de regresso representa a
esperana condicional de Y dado um valor de X. Em outras palavras, representa o valor mdio de
Y caso o valor de X seja igual a Xi (Figura 16). A representao formal para essa esperana
condicional ser dada por:

16

Econometria

Alexandre Gori Maia

E (Y / X i ) = + X i ou E (Yi ) = + X i

(18)

Podemos tambm demonstrar, sem muita dificuldade, que se a reta de regresso


representa a esperana condicional de Yi, ento a esperana condicional dos erros ser igual a 0.
Em outras palavras:
ei = Yi ( + X i )
E (e | X i ) = E[Yi ( + X i )] = E (Yi ) E ( + X i ) = E (Yi ) E (Yi ) = 0

(19)

E (ei | X i ) = E (ei ) = 0

Esse pressuposto denominado de mdia condicional zero dos erros, segundo o qual os
erros no esto associados aos valores das variveis independentes. Para compreendermos seu
significado, vamos supor uma aplicao da anlise de regresso onde a varivel Xi representa os
anos de escolaridade de um ocupado e Yi seu rendimento. Poderamos ter um comportamento no
observado nos erros (ei), aptido, por exemplo, que seja maior para pessoas com elevada
escolaridade e menor para pessoas com baixa escolaridade. Em outras palavras, teramos E(ei)>0
para valores elevados de Xi e E(ei)<0 para valores baixos de Xi, ou seja E(ei|Xi)0. O problema
que, quando formos analisar um modelo de regresso, no saberemos se os rendimentos mais
elevados se devem a uma maior escolaridade ou uma maior aptido. A relao de determinao
entre escolaridade e renda poderia, assim, estar viesada.
Compreendido esse pressuposto muito importate da anlise de regresso (que ser ainda
abordado futuramente), voltemos agora anlise da reta de regresso. A equao (15) permite
uma interpretao muito intuitiva da relao entre Y e X. O intercepto , por exemplo, representa
o valor esperado de Y quando o valor controlado de X for nulo. O coeficiente angular , por sua
vez, representa a variao marginal no valor esperado de Y dada uma variao unitria em X. Isso
porque, se desejamos estimar a variao marginal no valor esperado de Y - E(Y) - dada uma
variao infinitesimal em X - X - basta calcularmos a derivada de E(Y/X) em funo de X:
E (Y / 0) = + (0) =

e
(20)
E (Y | X ) E (Y | X ) ( + X )
=
=
=
X
X
X

17

Econometria

Regresso Linear Simples

Uma diferena importante entre regresso e correlao est na forma com que as
variveis so tratadas. Na regresso, pressupomos que a varivel dependente seja, assim como os
resduos, de natureza estocstica. J a varivel independente considerada como um valor fixo,
controlado pelo pesquisador. Seria o caso, por exemplo, de controlarmos o nvel de fertilizante
em um solo (varivel independente) e verificarmos a produtividade resultante (varivel
dependente). Para cada nvel de fertilizante teramos variaes aleatrias na produtividade, das
quais poderamos estimar os valores mdios. No seria adequado, por sua vez, tentarmos
controlar a produtividade para verificarmos as variaes no nvel de fertilizante. A correlao,
por sua vez, no estabelece qualquer distino entre as variveis X e Y.
Quando trabalhamos com dados de uma amostra, a representao da funo de regresso
(amostral) ser dada por:
Yi = + X i + ei

(21)

Onde e so estimadores amostrais para os coeficientes do modelo de regresso e ei


o resduo amostral4. Por sua vez, o valor previsto pela funo de regresso amostral ser dado
por:
Yi = + X i

(22)

Exemplo 6. Seja a relao do rendimento mensal (Y) com funo dos anos de escolaridade (X):
Yi = + X i + ei

Assim, o rendimento esperado para aqueles trabalhadores no remunerados seria dado por e,
para cada ano adicional de escolaridade, haveria uma variao marginal de reais no rendimento
esperado.

1.3.

Mtodo de Mnimos Quadrados Ordinrios

Estabelecida a relao linear entre Y e X, o prximo passo estimar a funo de regresso


com base em informaes da amostra da maneira mais exata e eficiente possvel. O mtodo mais
utilizado o de mnimos quadrados ordinrios (MQO), dada sua relativa simplicidade
4

O termo erro costuma ser reservado funo de regresso da populao e resduo para a funo de regresso da

amostra.

18

Econometria

Alexandre Gori Maia

operacional e resultados que, satisfeitas algumas condies, so os mais acurados (exatos) e


eficientes (varincia mnima) existentes (essas condies sero abordadas posteriormente). O
mtodo utiliza princpios matemticos para ajustar uma funo a uma srie de valores
observados em uma amostra, utilizando procedimentos que minimizam a soma dos erros de
previso ao quadrado, ou seja, a soma quadrtica das diferenas entre os valores observados na
amostra e os estimados pela funo.
O mtodo de mnimos quadrados uma das ferramentas mais importantes da estatstica
moderna e sua descoberta envolveu uma das disputas mais famosas da histria da estatstica.
Adrien Marie Legendre foi o primeiro a publicar a tcnica, em 1805, em seu livro Nouvelles
Mthodes pour la Determination des Orbites de Comtes, mas Johann Carl Friedrich Gauss
clamou a descoberta da tcnica que dizia utilizar desde 1795, tambm em problemas de
Astronomia e Fsica, embora publicada apenas em 1809.

1.3.1. Definio
Seja um conjunto de observaes (Yi) e uma funo matemtica f() utilizada para prever
os valores de Yi na populao Em outras palavras:
Yi = f ( ) + ei

(23)

Onde ei o erro de previso, ou seja, a diferena entre o valor observado Yi e aquele


previsto pela funo f():
ei = Yi f ( )

(24)

O mtodo de mnimos quadrados estimar o parmetro de tal forma que a soma dos
erros de previso ei ao quadrado seja mnima. Para isso, o primeiro passo obter a funo que
define a soma dos erros ao quadrado que, assim como f(), tambm depender de . Essa funo
chamada de Erro Quadrtico Total (EQT):
n

i =1

i =1

EQT ( ) = ei2 = [Yi f ( )]2

(25)

Dependendo do valor de , teremos um valor para o EQT. O objetivo encontrar um


valor para , ou *, de tal forma que o EQT seja mnimo. Como se trata de uma funo cncava

19

Econometria

Regresso Linear Simples

para cima5, seu valor mnimo ser obtido igualando-se a primeira derivada da funo em relao
ao parmetro a zero.

dEQT ( )
=0
d

(26)

1.3.2. Aplicao do MQO na regresso linear simples


A partir de um conjunto de observaes da amostra, o mtodo de mnimos quadrados
ajustar a reta que apresentar as menores distncias quadrticas entre os valores observados de Yi
e seus valores previstos ( Yi ). Obter, assim, os estimadores dos parmetros e de tal forma
que a soma dos erros quadrticos seja a mnima possvel, ou seja, minimizando a funo de EQT:
n

EQT = ei

i =1
n

EQT = [Yi Yi ] 2

(27)

i =1
n

EQT = [Yi ( + X i )] 2
i =1

Para minimizar a funo de EQT, deve-se igualar a zero as derivadas parciais em relao
a e .

d EQT
= 2in=1[Yi ( + X i )](1) = 0
d

(28)

d EQT
= 2in=1[Yi ( + X i )]( X i ) = 0

(29)

Desenvolvendo as expresses (28) e (29) chegaremos aos estimadores de MQO e .

Verifique que o sinal associado ao termo quadrtico 2 ser sempre positivo.

20

Econometria

Alexandre Gori Maia

= Y X

(30)

X i Yi n X Y

i =1
n

2
Xi nX

(31)

i =1

Aplicando-se algumas identidades algbricas, podemos ainda simplicar a representao


do estimador para6:
n

X iYi n X Y
i =1
n

Xi

nX

i =1
n

i =1
n

i =1

n X iYi X i Yi
=

n X i ( X i )

i =1

i =1

( X i X )(Yi Y ) xi yi
=

i =1

i =1

(Xi X )
i =1

=
2

i =1
n

xi

(32)
2

i =1

Conforme a convenincia analtica, pode-se demonstrar que pode ainda ser dado por:
n

xi yi X i yi xiYi
i =1
n

xi
i =1

=
2

i =1
n

xi
i =1

=
2

i =1
n

xi

(33)
2

i =1

Exemplo 6. A partir das informaes da amostra apresentas no Exemplo (1), podemos estimar os

parmetros para o ajuste de regresso linear entre o rendimento mensal (Y) e os anos de
escolaridade (X):
Yi = + X i + ei

Onde:

= 787 (85) = 7,62


n

xi y i

i =1
n

xi

=
2

21135
= 91,69
230,5

i =1

Sendo ento o ajuste de MQO dado por:


Yi = 7,62 + 91,69 X i

Dica: faa o caminho contrrio da demostrao, partindo da forma simplificada, para facilitar a compreenso.

21

Econometria

Regresso Linear Simples

Em outras palavras, o rendimento esperado para quem no possui escolaridade seria de 7,62 reais
e, para cada ano adicional de escolaridade, espera-se um acrscimo de 91,69 reais no rendimento.
1.3.3. Propriedades dos Estimadores de Mnimos Quadrados Ordinrios

A partir de desenvolvimento algbrico, podemos derivar algumas importantes


propriedades do ajuste de MQO.
Propriedade 1. O valor mdio dos resduos ser igual a zero.

Da equao (28) para os estimadores de mnimos quadrados pode-se demonstrar que a


soma e, consequentemente, o valor mdio dos resduos ser igual a zero:
n
2i=1[Yi ( + X i )](1) = 0

n
i =1[Yi

Yi ] = in=1 ei = 0

(34)

Propriedade 2. Os resduos no esto correlacionados aos valores de Xi.

Dada a definio de covarincia, para demonstrarmos que no h relao entre i e Xi,


precisamos provar que:
n

i =1 (ei e )( X i X ) = 0
Como a soma dos resduos igual a zero, teremos simplesmente que provar:

in=1 ei X i X in=1 ei e in=1 X i + e in=1 X = in=1 ei X i = 0


Utilizando agora os resultados da equao (29) para os estimadores de mnimos
quadrados podemos demostrar que:
n
2i=1[Yi ( + X i )]( X i ) = 0

n
i =1 (Yi

Yi )( X i ) = in=1 (ei )( X i ) = 0

(35)

Essas duas primeiras propriedade (Propriedade 1 e 2) so muito importantes na anlise de


regresso e denominadas condies de primeira ordem dos estimadores de mnimos quadrados.
Propriedade 3. A reta de regresso passar pelas mdias aritmticas de X e Y.

22

Econometria

Alexandre Gori Maia

Das equaes (22) e (30) podemos demonstrar que, quando o valor controlado de Xi for
equivalente mdia de X, o valor esperado de Yi ser igual mdia de Y.
Yi = + X i

Yi = Y X + X i

(35)

Yi = Y X + X
Yi = Y

Propriedade 4. Os resduos no esto correlacionados aos valores previstos de Yi.

Devemos provar que:

in=1 ei (Yi Y ) = in=1 ei Yi = 0


De (22) e (35), teremos que:
n
n
n
n
i =1 ei Yi = i =1 ei ( + X i ) = i =1 ei + i =1 ei X i = 0

(36)

Exerccios

1. Dados os estimadores de MQO do ajuste Yi = + X i , prove que y i = xi .


2. Observaram-se os gastos per capita com alimentao (Y) e a renda mensal per capita (X) em
uma amostra de 5 famlias:
Y

52

104

122

141

166

254

487

615

950

1014

a. Esboce e anlise o grfico de disperso para as variveis em questo;


b. Estime e analise a covarincia e a correlao entre as variveis;
c. Estime os parmetros do modelo de regresso linear simples para prever o gasto com
alimentao (Y) em funo da renda (X);
d. Interprete os parmetros do modelo de regresso;
e. Obtenha os resduos associados a cada estimativa para os gastos com alimentao;
f. Qual o gasto esperado com alimentao para uma famlia com renda per capita de
2.000 reais?

23

Econometria

Regresso Linear Simples

3. Uma amostra de quatro anos de uma economia fictcia forneceu os seguintes dados:
Y (Consumo, bilhes de US$)

X (Taxa de juros, % a.a.)

Agora suponha que a relao entre as variveis seja dada por:


Yt = + X t + et
a. Estime os coeficientes do modelo por MQO;
b. Interprete as estimativas dos coeficientes;
c. Qual seria o consumo esperado para a economia caso a taxa de juros baixasse para
4% a.a.?
4. (ANPEC, 1992) Responda Falso ou Verdadeiro. O custo total, C, de uma indstria e sua
produo, X, tm uma relao linear do tipo Ct = + X t + et . Para se ajustar esse modelo por
mnimos quadrados ordinrios preciso assumir certas hipteses como:
a. A varivel independente X seja aleatria.
b. Os erros tenham mdia zero.
c. Os erros sigam uma distribuio normal.
d. A varivel independente X seja independente do temo erro.
Respostas

2) b. XY=13180; r=0,96; c. = 30,80 ; = 0,13 ; e. i=-11,8; 10,0; 11,4; -13,1; 3,6; f. 290,4
3) a. = 8,5 ; = 1 ; c. Yi = 4,5
4) a. F; b. V; c. F.; d. V

24

Econometria

Alexandre Gori Maia

2. Inferncia com os Estimadores de MQO


Introduo

Aps estimar os coeficientes de um modelo de regresso, deve-se verificar o grau de


confiabilidade dos resultados, ou seja, verificar em que medida as estimativas obtidas na amostra
aproximam-se dos reais parmetros da populao. Para cumprir com esse objetivo, sero
realizados testes de hipteses e intervalos de confiana para os reais parmetros do modelo
regresso linear simples a partir das estimativas de MQO.
Para viabilizar essas anlises, fundamental conhecer algumas importantes propriedades
estatsticas dos estimadores de MQO. A contribuio mais importante para essa anlise foi dada
em 1821, quando Gauss demontrou que, sob determinadas premissas, as estimativas de MQO
seriam no viesadas e de mnima varincia. Posteriormente, em 1912, Markov desenvolveu de
maneira mais usual esse mesmo teorema, que passou a ser conhecido como teorema de GaussMarkov.
2.1.

Teorema de Gauss-Markov

Ao elaborarmos um modelo de regresso linear simples estamos pressupondo que, na


populao, Y seja dado por uma funo linear de X segundo a equao:
Yi = + X i + ei

(1)

Em primeiro lugar, devemos estar cientes que uma populao pode gerar amostras
diferentes. Assim, embora na populao os valores de e sejam constantes, ou seja, h apenas
uma reta para o conjunto de dados da populao, na amostra estaremos sujeitos aleatoriedade
da seleo e, assim, as estimativas dos coeficientes e podero assumir quaisquer valores
segundo uma dada distribuio de probabilidade. Em outras palavras, poderemos ter retas
diferentes dependendo da amostra selecionada (Figura 2).

25

Econometria

Propriedades dos Estimadores

(2)

Em segundo lugar, devemos considerar que, para uma dada amostra selecionada, outras
tcnicas poderiam ser aplicadas para obter os estimadores dos coeficientes e , no apenas o
MQO7, as quais no necessariamente chegariam aos mesmos resultados. Em outras palavras,
para uma dada amostra, poderamos ter diferentes retas amostrais, dependendo da tcnica
utilizada. O que garante que os estimadores de MQO sero melhores que outros estimadores
uma srie de condies estabelecidas pelo Teorema de Gauss-Markov.
Segundo o Teorema de Gauss-Markov, cinco pressupostos bsicos devem ser satisfeitos
para que os estimadores de MQO sejam os Melhores Estimadores Lineares No Viesados
(MELNV) ou, em ings, Best Linear Unbiased Estimator (BLUE). Ser linear, significa que os
estimadores de e sero funes lineares da varivel aleatria Y8. Ser no viesado significa
que o valor esperado do estimador de MQO ser igual ao parmetro da populao (3) e ser o
melhor estimador significa que sua variabiliadde ser a mnima possvel (4).
E ( ) = e E ( ) =

(3)

V ( ) < V ( ) e V ( ) < V ( )

(4)

Onde e so quaisquer outros estimadores lineares que no aqueles obtidos pelo


MQO.
Os cinco pressupostos para que os estimadores de MQO sejam MELNV so:

i)

Relao linear entre Y e X:

Entre as tcnicas alternativas, destaque para o Mtodo de Mxima Verossimilhana e o Mtodo de Momentos.

Pressupondo que os valores de X sejam controlados (no aleatrios), fcil demonstrar que os estimadores de

MQO so funes lineares de Y.

26

Econometria

Alexandre Gori Maia

A relao entre Y e X na populao pode ser representada por uma funo com
coeficientes (parmetros) lineares9. A linearidade nas variveis, por sua vez, no
necessria, j que estas podem ser algebricamente transformadas em novas
variveis que apresentem relao linear entre si. Por exemplo, o modelo

Yi = + X i2 + ei no linear no regressor, mas, se criarmos a varivel Z i = X i2 ,


ento a relao Yi = + Z i + ei ser linear (esse tema ser abordado
posteriormente).

ii)

Os valores de X so fixos em repetidas amostras e no aleatrios:


Pressupe que cada varivel independente possa ser controlada pelo pesquisador,
ou seja, este pode mudar seu valor de acordo com os objetivos da pesquisa. O
caso caracterstico o de um estudo experimental, onde o pesquisador seleciona
aleatoriamente os elementos amostrais que sofrero um determinado efeito
controlado de X e observa os valores resultantes de Y. Por exemplo, o pesquisador
seleciona aleatoriamente as parcelas de terra que recebero uma determinada
quantidade de fertilizantes (X) e observa suas produes (Y). Embora essa
premissa seja necessria para demonstrao de vrias propriedades estatsticas,
no verdadeiramente essencial, tampouco factvel na maioria dos estudos
econmicos. Em muitas situaes, pode ser pouco tico ou invivel controlar o
efeito de X. Por exemplo, no seria factvel selecionar aleatoriamente pessoas que
receberiam uma determinada quantidade de educao (X) para avaliar seus efeitos
sobre o rendimento no trabalho (Y). Em estudos no experimentais, quando no
controlamos os valores de X, mas os observamos aleatoriamente, devermos ter
cuidados especiais para que as relaes de causa e efeito no sejam viesadas.

iii)

Esperana condicional dos erros igual a zero:


Em outras palavras, E(e/Xi) = E(ei) = 0. o mesmo que afirmar que a esperana
condicional de Y igual reta de regresso, ou E(Y/Xi) = E(Yi) = +Xi. Significa
que os valores dos erros no podem estar associados aos valores de Xi. Caso
contrrio, as relaes de causa e efeito podem estar viesadas. No um problema
em estudos experimentais, quando conseguimos controlar os valores de X e esses

Expoentes dos coeficientes iguais a 1.

27

Econometria

Propriedades dos Estimadores

so considerados como constantes10. Entretanto, quando trabalhamos com estudos


no experimentais, devemos nos precaver para que no haja fatores no
controlados pelo modelo (e) afetando simutaneamente Y e X. Seria o caso, por
exemplo, da aptido, varivel no controlada em um modelo de determinao da
renda (presente, assim, nos erros e), que poderia afetar simultaneamente a renda
(Y) e os anos de estudo (X). Por definio, os estimadores de MQO pressupem a
ausncia de correlao entre os resduos (i) e a varivel independente (Xi)11. Caso
a ausncia de correlao no se concretize na populao, os estimadores de MQO
sero viesados;

iv)

A variabilidade dos erros constante, qualquer que seja X:


Em outras palavras, significa afirmar que a varincia condicional dos erros seja
dada por

Var (e | X i ) = Var (ei ) = E (ei2 ) [ E (ei )]2 = E (ei2 ) = 2 . Quando a

disperso dos erros a mesma em todos os pontos de X dizemos que os erros so


homocedticos (homo=igual; cedsticia=disperso). Caso contrrio, dizemos que
se tratam de erros heterocedsticos, ou seja, E (ei2 ) = i2 .

v)

Os erros so no autocorrelacionados:
Em outras palavras, Cov(ei,ej)=E(eiej)E(ei)E(ej)=0 para todos ij. Representa
independncia entre observaes da amostra, no havendo quaquer tipo de relao
entre seus erros. A autocorrelao , entretanto, frequente em anlises de sries
temporais (correlao serial) ou dados espaciais (correlao espacial);

Enquanto os trs primeiros pressupostos so necessrios para que os estimadores sejam


no viesados, os dois ltimos so necessrios para que estes sejam os mais eficientes12.
Em adio a estes cinco pressupostos, ainda importante que os erros estejam
normalmente distribudos para viabilizar a aplicao de testes de hipteses e intervalos de
confiana aos coeficientes do modelo de regresso (a ser visto no prximo tpico). Modelos

10

Lembre-se que a associao entre uma constante (X) e uma varivel aleatrio (e) ser sempre nula.

11

uma das condies de primeira ordem dos estimadores de MQO.

12

Para os leitores familiarizados com lgebra, as demonstraes dessas propriedades podem ser consultadas nos

Apndices A e B.

28

Econometria

Alexandre Gori Maia

baseados nessas seis pressuposies so chamados de Modelos Clssicos de Regresso Linear


(MCRL). Uma propriedade adicional muito importante dos estimadores de MQO sob a premissas
de um MCRL que esses sero os mais eficientes (apresentaro varincia mnima) entre
quaisquer estimadores no viesados de , no apenas entre os estimadores lineares como
pressupe o teorema de Gauss-Markov.

2.2.

Significncia das estimativas

Uma vez que os valores das estimativas de e (Equao 1) dependem da amostra


selecionada, devem-se considerar suas variabilidades para saber se h evidncias estatsticas de
que os respectivos parmetros da populao so diferentes de zero. Caso tenhamos, por exemplo,
evidncias estatsticas que o parmetro seja diferente de zero, significaria poder afirmar que a
reta da populao tem uma inclinao (positiva ou negativa) e, consequentemente, que h relao
linear entre Y e X. Analogamente, caso haja evidncias estatsticas que o parmetro seja
diferente de zero, significaria poder afirmar que a reta da populao no passa pela origem dos
eixos e, consequentemente, que o valor esperado de Y para um X nulo seja diferente de zero.
Graficamente, temos possveis representaes dessas situaes na Figura 5.

(5)

Para verificar se os parmetros do modelo de regresso so iguais ou no a zero,


conveniente aplicar testes de hipteses s estimativas obtidas por e . A aplicao desses
testes viabilizar-se- caso se conhea: i) as distribuies de probabilidade dos estimadores; ii) as
estimativas para os parmetros dessas distribuies.

2.3.

Distribuio amostral dos estimadores

Sob um pressuposto mais geral do Teorema do Limite Central, pode-se afirmar que a
soma de variveis independentes e igualmente distribudas ter uma distribuio normal. Assim,
29

Econometria

Propriedades dos Estimadores

os erros ei, por serem considerados uma soma de diferentes fatores no observveis afetando a
varivel Y, tambm estariam normalmente distribudos em torno de uma mdia zero. Entretanto,
essa pressuposio pode no ser verdadeira, sobretudo para amostras pequenas, dependendo da
composio dos fatores no observveis (caso estes no sejam aditivos, por exemplo) e de suas
respectivas distribuies de probabilidade. H testes estatsticos apropriados para verificar at
que ponto a distribuio dos resduos se aproxima de uma normal e se tal pressuposio pode ser
considerada verdadeira.
Dizer que os erros possuem distribuio normal com mdia zero o mesmo que afirmar
que os valores de Yi se distribuem normalmente em torno da reta de regresso (5). Ademais, a
normalidade dos erros (e dos valores de Yi em torno da reta) implicaria ainda que os estimadores
de MQO estariam normalmente distribudos, j que esses so combinaes lineares dos valores
de Yi (ver Apndice A). Pressupondo ainda que os estimadores de MQO sejam no viesados,
como sugere o Teorema de Gauss-Markov, teramos que os estimadores de um MCRL estariam
normalmente distribudos em torno dos reais parmetros e .

ei ~ N (0, 2 )

~ N ( , 2 )

(6)

~ N ( , 2 )

2.4.

Varincia dos estimadores

Conhecidas as funes de densidade de probabilidade (fdp) dos erros e dos estimadores


de MQO (6), o prximo passo definir os parmetros dessas fdp para viabilizar a inferncia
estatstica, em especial, a aplicao de testes de hipteses e intervalos de confiana. Os trs
parmetros necssrios so13: i) a varincia dos erros ou varincia da regresso (2); ii) a varincia
do estimador ( 2 ); iii) a varincia do estimador ( 2 ).

13

Os valores dos parmetros e no so necessrios j que o objetivo dos testes de hipteses e dos intervalos de

confiana justamente inferir sobre seus reais valores.

30

Econometria

Alexandre Gori Maia

A varincia dos erros representa a disperso quadrtica mdia dos erros em torno da reta
de regresso. Como usualmente desconhecemos o real valor de 2 na populao, precisamos de
um estimador para estim-lo a partir dos resduos da amostra. Como demonstrado no Apndice
C, o estimador no viesado de 2 a partir dos resduos do MQO ser dada por:
2

ei
2 =
n2

(7)

O denominador n2 representa o nmero de graus de liberdade dos resduos e significa


que, caso se conhea n2 valores dos resduos, os outros dois seriam automaticamente
determinados a partir de restries impostas s propriedades matemticas dos estimadores de
MQO14. A raiz quadrada da varincia da regresso, ou , chamada de erro padro da regresso
e uma medida da disperso mdia dos resduos.
Como o clculo do numerador da equao (7),

i2 ,

pode ser demasiadamente

trabalhoso, uma alternativa pode ser dada por:

ei2 = yi2 xi yi

(8)

No difcil demonstrar a relao estabelecida acima. Basta utilizarmos a expresso


definida no Apndice C para yi = xi + ei e lembrarmos que =

xi y i :
xi2

ei2 = ( yi xi ) 2 = yi2 2 xi yi + 2 xi2


( xi y i ) 2 ( xi y i ) 2
2
2
+
x2
ei = yi 2
2
2 2 i
x
x
(
)
i
i
( xi y i ) 2
2
2
= y i2 xi y i
ei = yi
2
xi

(9)

As varincias dos estimadores e ( 2 e 2 ) representam as disperses quadrticas


mdias destes em funo da aleatoriedade da amostra. Sero dadas por (ver demonstraes no
Apndice B):

Var ( ) = E ( ) 2 =

14

X i2 2
n xi2

2
Var ( ) = E ( ) 2 =
xi2

(10)

So duas as restries impostas aos resduos: i) i=0; ii) iXi=0.

31

Econometria

Propriedades dos Estimadores

Seus estimadores so obtidos substituindo 2 por 2 :


S2 =

X i2 2 = 1 + X 2 2

2
n xi2
n xi

S 2 =
1

2
xi2

(11)

As razes quadradas dessas varincias ( S e S ) so chamadas de erros padro dos


estimadores.
A partir dos estimadores obtidos em (11) podemos derivar algumas importantes
propriedades matemticas:
i.

Quanto maior o erro padro da regresso, menos precisa ser a estimativa dos
parmetros: em outras palavras, quanto mais dispersos estiverem os valores
observados em torno da reta de regresso, mais dispersas sero as estimativas de
MQO. Algebricamente, pode-se observar essa propriedade a partir do numerador
das equaes em (11).

ii.

Quanto maior a variabilidade observada para os valores de X, mais precisa ser a


estimativa dos parmetros: a variabilidade dos valores amostrados de X uma
importante medida da qualidade do ajuste. Baixa disperso de X indica que a
amostra no representa uma relevante amplitude de valores. Matematicamente, a
disperso de X ser medida pelo denominador

iii.

xi2

das equaes em (11);

Quanto maior o tamanho da amostra, maior a variabilidade observada para X e


mais precisas sero as estimativas dos parmetros: a maior representatividade da
amostra garante uma maior amplitude de comportamentos considerados.
Matematicamente, essa relao dada pelos denominadores n e

xi2

das

equaes em (11).

2.5.

Teste de hipteses para os coeficientes

O teste de hipteses para os coeficientes do modelo de regresso usualmente utilizado


para verificar se h evidncias, com base nas estimativas observadas na amostra, que seus
valores na populao sejam diferentes de zero. Assim, as hipteses a serem testadas seriam:

32

Econometria

Alexandre Gori Maia

H 0 : = 0

H 1 : 0

H 0 : = 0

H 1 : 0

(12)

Embora menos frequentes, podem ainda ser elaborados testes para verificar se os
parmetros e so diferentes, maiores ou menores que quaisquer outras constantes que no o
zero.
Pressupondo a veracidade das hipteses nulas e conhecendo as propriedades dos
estimadores de MQO (propriedade 6 e 10), teremos as seguintes distribuies de probabilidade
para as estatsticas de teste:

~ N (0, 2 )

~ N (0, 2 )

(13)

A partir de ento, os passos para resoluo sero anlogos aos de qualquer teste de
hipteses: i) observar estimativa para a estatstica de teste na amostra ( e ); ii) calcular valor

p, probabilidade de erro ao afirmar que o parmetro seja diferente de zero. Como a real varincia
dos coeficientes desconhecida, o uso de suas estimativas amostrais obtidas por S2 e S 2
exigir ainda a considerao da distribuio t de Student para o clculo da probabilidade de erro,
como exemplifica a Figura (14). Os graus de liberdade so os mesmo obtidos para a varincia
amostral da regresso (Equao 7), ou seja, n2.

(14)

Rejeitar H0 significa afirmar que a estimativa de significativa, ou, no caso do


coeficiente angular, que a varivel independente X significativa no modelo.

Exemplo 1. Obeservou-se o consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h) em uma amostra de 21 domiclios. Os valores
observados e as estimativas de MQ para o ajuste linear foram:

33

Econometria

Propriedades dos Estimadores

KWh
(Y)

AC
(X)

1
2
3
4
5
6
7
8
9
10
11

35
17
57
63
66
33
79
43
33
78
82

1,5
2,0
2,5
4,5
5,0
5,0
6,0
6,0
6,0
6,5
7,5

KWh
(Y)

AC
(X)

12
13
14
15
16
17
18
19
20
21

77
62
65
66
65
75
94
85
94
93

7,5
7,5
7,5
8,0
8,0
8,0
8,5
12,0
12,5
13,5

Yi = 27,85 + 5,34 X i + ei

Em outras palavras, espera-se que para cada hora adicional com o ar condicionado ligado o
consumo de energia aumente, em mdia, 5,34 KWh. O consumo esperado para um domiclio que
no utilize o ar condicionado de 27,85 KWh.
As estimativas da varincia e erro padro da regresso sero dadas por:

2 =

ei2 = (0,86) 2 + (21,53) 2 + ... + (0,61) 2 + (6,96) 2 = 3968,91 = 208,89


n2

21 2

19

= 208,89 = 14,45
O erro padro uma estimativa do erro mdio de previso do modelo, ou seja, de
aproximadamente 14,45 KWh.
O prximo passo estimar as varincias dos coeficientes do modelo para verificar se as
estimativas de e so significativas, ou seja, se so estatisticamente diferentes de zero. Essas
sero dadas por:
1

X2 2 1
6,9 2

S2 = +

=
+
208,89 = 60,94 = 7,812

2
2
2
n xi
21 (5,4) + ... + (6,6)

S 2 =
1

2
208,89
=
= 1,06 = 1,03 2
2
196
,
6
xi

Pode-se ento, finalmente, verificar se as estimativas so significativas aplicando-se o teste de


hipteses para aos coeficientes do modelo:

34

Econometria

Alexandre Gori Maia

O valor p associado ao teste para o coeficiente de 0,2%, ou seja, a probabilidade de erro ao


afirmarmos que o intercepto diferente de zero de apenas 0,2%. Sendo assim, pode-se afirmar
que residncias que no utilizam ar condicionado (X=0) possuem um consumo positivo de
energia, j que outros aparelhos estariam influenciando o consumo.
Por sua vez, o valor p associado ao teste para o coeficiente aproximadamente nulo. Em outras
palavras, se afirmarmos que diferente de zero, ou seja, que o nmero de horas com ar
condicionado ligado tenha relao linear com o consumo de energia, a chance de estarmos
errados seria praticamente nula.

2.6.

Intervalo de confiana para os coeficientes

Outra tcnica de inferncia estatstica clssica que pode ser aplicada s estimativas dos
coeficientes do modelo de regresso o intervalo de confiana. Dado um nvel de confiana , o
intervalo de confiana definir intervalos que, em repetidas amostras de tamanho n, conter o
real parmetro da populao em das situaes.
Antes de verificarmos as estimativas de intervalo para os coeficientes do modelo de
regresso, vale a pena relembrar alguns cuidados especiais na sua interpretao. Primeiro, como
o parmetro a ser estimado uma constante e no uma varivel aleatria, no podemos afirmar
que esse tenha de probabilidade de pertencer a um intervalo. O parmetro estar contido
(probabilidade 1) ou no (probabilidade 0) em um intervalo. Segundo, uma vez estimado o
intervalo com os valores de uma determinada amostra, no podemos afirmar que o intervalo
estimado tenha de probabilidade de conter o parmetro, j que, uma vez definidos os limites do
35

Econometria

Propriedades dos Estimadores

intervalo, esses contero (probabilidade igual a 1) ou no (probabilidade igual a 0) o parmetro


da populao.
Sabendo que os estimadores de MQO seguem uma distribuio normal sob as premissas
do MCRL, os intervalos de confiana para os parmetros e seriam dados por:

(15)

Onde Z o nmero de desvios padro, obtido da distribuio Z~N(0,1), que se deve estar
afastado do centro da distribuio para que se tenha de probabilidade entre os dois extremos do
intervalo. Entretanto, como os reais valores 2 e 2 so desconhecidos, o uso das estimativas
obtidas pelos estimadores S2 e S 2 implicar na considerao da estatstica t de student em
substituio Z. Assim, os intervalos de confiana para os parmetros e sero dados por:

IC( , ) = [ t n2 S ; + t n2 S ]
IC( , ) = [ t n 2 S ; + t n 2 S ]

(16)

Onde tn2 o valor da distribuio t de student com n2 graus de liberdade para que se
tenha de probabilidade entre os dois extremos do intervalo.

Exemplo 2. Para estimar intervalos com confiana de 95% para os parmetro do modelo da
relao linear entre consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h), teramos:

IC( , ) = [ 27,85 t19 (7,81); 27,85 + t19 (7,81) ]


IC( , ) = [ 5,34 t19 (1,03); 5,34 + t19 (1,03) ]
Para uma confiana de 95%, por exemplo, os intervalos seriam dados por:

IC( , ) = [27,85 2,09(7,81); 27,85 + 2,09(7,81)] = [11,51; 44,19]


IC( , ) = [5,34 2,09(1,03); 5,34 + 2,09(1,03)] = [3,18; 7,50]

36

Econometria

Alexandre Gori Maia

O intervalo determinado pelos valores 11,51 a 44,19 KWh uma estimativa de um intervalo que,
em repetidas amostras de tamanho 21, conteria o real valor do parmetro em 95% das
situaes. Por sua vez, o intervalo definido pelos valores 3,18 a 7,50 KWh uma estimativa do
intervalo de 95% de confiana para o parmetro .

Exerccios
1. Observaram-se os gastos per capita com alimentao (Y) e a renda mensal per capita (X) em
uma amostra de 5 famlias:

52

104

122

141

166

254

487

615

950

1014

a. Estime a varincia dos coeficientes do modelo de regresso linear simples para


prever o gasto com alimentao (Y) em funo da renda (X).
b. As estimativas dos coeficientes so significativas? Interprete.
c. Defina intervalos com confiana de 95% para os parmetros do modelo. Interprete
seus resultados.
d. Existe alguma associao entre os resultados dos testes de hipteses (b) e dos
intervalos de confiana (c)?
2. A partir de uma amostra de n elementos, foi estimada uma regresso linear simples, pelo
mtodo de mnimos quadrados, obtendo-se o resultado: Y = + 1 X . A seguir, a mesma
regresso foi estimada sabendo-se que a reta de regresso da populao passa pela origem
das coordenadas (termo constante = 0), obtendo-se o resultado: Y = 2 X . Pode-se afirmar
que:
a. 1 = 2 .
b. A reta de regresso passa pelas mdias amostrais de Y e X, mesmo que o modelo
no tenha intercepto.
c.

No primeiro modelo, quanto maior for a variao da varivel explicativa, maior


ser a preciso com que o coeficiente angular pode ser estimado.

37

Econometria

Propriedades dos Estimadores

3. (ANPEC, 1996) Suponha que, num modelo de regresso linear simples, o regressor (varivel
independente) seja correlacionado com o termo erro. Sobre o estimador de MQO, podemos
afirmar:
a. , em geral, viesado.
b. No possvel de ser obtido.
c. no viesado, porm no eficiente.
d. consistente.

Respostas
1) a. S2 = 15,38 2 ; S 2 = 0,02 2 ; b. : p=0,139; : p=0,009; c. IC(95%;)=[-18,16; 79,77];

IC(95%;)=[0,06; 0,20]
2) a. F; b. F; c. V
3) a. V; b. F; c. F; d. F

38

Econometria

Alexandre Gori Maia

Apndice A Valor Esperado e Exatido dos Estimadores de MQO


Para demonstrarmos algebricamente que os estimadores de MQO so no viesados caso os
pressupostos (i) a (iii) do teorema de Gauss-Markov sejam vlidos, comecemos pela
representao do coeficiente angular:
n

xiYi

i =1
n

xi 2
i =1

Para simplificar a demonstrao, vamos denominar zi =

xi

e teremos = z i Yi

x j2

i =1

j =1

Pressuposto i: supondo a relao linear entre as variveis, Yi = + X i + ei , teremos:


n

i =1

i =1

i =1

i =1

i =1

i =1

i =1

i =1

= z i Yi = z i ( + X i + ei ) = z i + z i X i + z i ei = z i + z i X i + z i ei
n

O primeiro termo, z i , ser igual a zero, pois

(Xi X )
i =1

i =1

xi2

i =1

=0

xi2

i =1

O segundo termo, z i X i , sera igual a , pois


i =1
n

xi X i

i =1
n

=
xi2

(Xi X )X i
i =1
n

i =1

(Xi X )
i =1

=
2

X i2 X i X
i =1
n

X i2

i =1

X i2 nX 2

i =1
n

i =1

i =1

2 X i X + X

=
2

i =1
n

X i2

=
2

2 nX + nX

i =1

Assim, teremos:
n

= + z i ei
i =1

Agora, para calcularmos o valor esperado de :


n

E ( ) = E + z i ei = + E z i ei
i =1

i =1

39

Econometria

Propriedades dos Estimadores

Pressuposto ii: se consideramos os valores de X fixos, no aleatrios, teremos:


n

E ( ) = + z i E (ei )
i =1

Pressuposto iii: e se a esperana condicional dos erros for zero, teremos finalmente:
n

E ( ) = + z i 0 =
i =1

A demonstrao para o intercepto mais simples. Primeiro, o estimador de MQO ser:

= Y X
Pressuposto i: supondo que a relao linear entre Y e X, Yi = + X i + ei , se calcularmos o
valor mdio de cada lado da equao teremos:
Y = + X + e
Substituindo o valor de Y na equao do estimador de :

= ( + X + e ) X = + X ( ) + e
Assim, a esperana de ser:
E ( ) = E ( ) + E[ X ( )] + E (e ) = + E ( X )[ E ( ) E ( )] + E (e )
Pressuposto iii: dada a esperana condicional (e incondicional) zero dos erros, teremos que
E (e ) = 0

Presspostos i a iii: ademais, caso os pressupostos (i) a (iii) sejam satisfeitos, sabemos que
E ( ) = . Ento o valor esperado de ser:
E ( ) = + E ( X ) 0 + 0 =

40

Econometria

Alexandre Gori Maia

Apndice B Varincia e Eficincia dos Estimadores de MQO


Para demonstrarmos algebricamente que os estimadores de MQO so eficientes caso os
pressupostos (i) a (iii) do teorema de Gauss-Markov sejam vlidos, precisamos inicialmente
calcular suas varincias. Comeando pelo coeficiente angular:
Var ( ) = E[ E ( )]2
n

Pressupostos i a iii: supondo E ( ) = e = + z i ei , ento:


i =1
n

Var ( ) = E ( ) 2 = E ( z i ei ) 2 = E ( z12 e12 + ... + z n2 en2 + 2 z1 z 2 e1 e2 + ... + 2 z n1 z n en 1en )


i =1

Pressuposto ii: considerando que os valores de X sejam controlados, ento E ( z i ei ) = z i E (ei ) e:


Var ( ) = z12 E (e12 ) + ... + z n2 E (en2 ) + 2 z1 z 2 E (e1 e2 ) + ... + 2 z n1 z n E (en1en )
Pressuposto iv: caso a varincia dos erros ser constante para qualquer i, ou seja E (ei2 ) = 2 e:
n

n n 1

i =1

i =1 j i

Var ( ) = z i2 2 + 2 z i z j E (ei e j )

Pressuposto v: caso os erros sejam no autocorrelacionados, ou seja, E (ei e j ) = 0 para ij,

ento:
n

Var ( ) = zi2 2 = 2 zi2 = 2


i =1

i =1

xi2
i =1

xi2
i =1
n

E:

Var ( ) = n
xi2
i =1

Para agora demonstrarmos que a varincia dos estimador de MQO para a menor entre os
estimadores lineares no viesados de , comecemos pela representao desse primeiro dada por:

41

Econometria

Propriedades dos Estimadores

= z i Yi
i =1

Que , naturalmente, uma funo linear da varivel aleatria Yi.


Agora, vamos generalizar a representao de outro estimador linear para por:
n

* = wi Yi
i =1

Ou seja, uma funo linear de Yi segundo um fator de ponderao wi.


A esperana deste estimador genrico ser dada por:
n

i =1

i =1

i =1

i =1

i =1

i =1

i =1

E ( * ) = E ( wi Yi ) = wi E (Yi ) = wi E ( + X i ) = wi + wi X i = wi + wi X i

Primeiro, as condies necessria para que * seja no vieasado, ou seja E ( * ) = , so:


n

wi = 0 e
i =1
n

wi X i = 1
i =1

E, dessas igualdades, derivamos ainda que:


n

i =1

i =1

i =1

wi xi = wi X i X wi = 1
Cientes dessas condies, vamos agora estimar a varincia de * :
n

i =1

i =1

Var ( * ) = Var ( wi Yi ) = wi2Var (Yi )


n

Como Var(Yi) = Var(ei)=2, ento Var ( * ) = 2 wi2


i =1

Agora vamos realizar um malabarismo algbrico, incluindo o termo zi na equao sem


comprometer a igualdade:
n

Var ( * ) = 2 ( wi z i + z i ) 2
i =1

Desenvolvendo, teremos:
n

Var ( * ) = 2 [( wi z i ) 2 + 2 z i ( wi z i ) + z i2 ] =
i =1

42

Econometria

Alexandre Gori Maia


n

i =1

i =1

i =1

Var ( * ) = 2 ( wi z i ) 2 + 2 2 ( z i wi z i2 ) + 2 z i2

O segundo termo ser zero, pois


n

( zi wi

wi xi
z i2 ) =

i =1

i =1
n

xi2

xi2

i =1

i =1

n 2
xi
i =1

1
n

xi2

i =1

1
n

=0

xi2

i =1

Assim, a varincia * de resume-se a:


n
n
n
2
Var ( * ) = 2 ( wi z i ) 2 + 2 z i2 = 2 ( wi z i ) 2 + n
i =1
i =1
i =1
xi2
i =1

Como o segundo termo da equao ( 2

xi2 ) constante, a varincia de

* ser minimizada

i =1

quando wi = z i . Em outra palavras, o estimador linear no viesado de de mnima varincia


justamente o , pois:
n

i =1

i =1

* = wi Yi = z i Yi =

A demonstrao da eficincia do estimador intercepto segue o mesmo raciocnio. Vamos,


entretanto, apenas apresentar o desenvolvimento para o estimador de sua varincia:
Var ( ) = E[ E ( )]2
Pressupostos i a iii: supondo E ( ) = e = + X ( ) + e , ento:

Var ( ) = E ( ) 2 = E[ X ( ) + e ] 2 = X 2 E ( ) 2 + 2 E[ X ( )e ] + E (e 2 )
O segundo termo igual a zero pois E (e ) = 0 .

Ademais, sabendo que E ( ) 2 = E ( ) 2 = Var ( ) , teremos:


n
1
Var ( ) = X 2Var ( ) + 2 E ( ei ) 2
n
i =1

Pressuposto iv e v: caso a varincia dos erros seja constante, E (ei2 ) = 2 , e os erros sejam no

43

Econometria

Propriedades dos Estimadores

correlacionados, E (ei e j ) = 0 , teremos:


Var ( ) = X 2

2
n

xi2
i =1

1
n2

E (ei2 ) = X 2
i =1

2
n

xi2

n 2
n2

i =1

E:
Var ( ) = (

X2
n

xi2

1
+ ) 2
n

i =1

A demonstrao que a varincia do estimador de MQO para a menor entre os estimadores


lineares no viesados de , segue os mesmos passos da obtida para , embora no seja aqui
apresentada.

44

Econometria

Alexandre Gori Maia

Apndice C Varincia dos erros


n

Devemos demonstrar que

e 2
= i =1
n2

um estimador no viesado de 2 . Em outras

palavras:
E ( 2 ) = 2

Comecemos pela especificao da funo de regresso populacional:


Yi = + X i + ei
Se calcularmos a mdia dos dois lados da equao teremos:
Y = + X + e
Subtraindo as duas equaes teremos:
Yi Y = ( X i X ) + (ei e ) , ou simplificadamente, yi = xi + (ei e )
Perceba que at agora trabalhamos apenas com parmetros e erros da populao. Vamos agora
integrar este desenvolvimento especificao dos resduos na amostra. Primeiro, temos que:
yi = xi + ei
E, consequentemente:
ei = yi xi
Substituindo yi por xi + (ei e ) teremos:
ei = xi + (ei e ) xi = xi ( ) + (ei e )
A partir desta especificao dos resduos, vamos desenvolver o numerador de 2 . Ou seja, a
soma do quadrado dos resduos (SQRes):
n

i =1

i =1

ei2 = [ xi2 ( ) 2 2 xi ( )(ei e ) + (ei e ) 2 ]


Por sua vez, o valor esperado da SQRes ser
n

i =1

i =1

i =1

i =1

i =1

i =1

i =1

i =1

E ( ei2 ) = E[ xi2 ( ) 2 ] 2 E[ xi ( )(ei e )] + E[ [(ei e ) 2 ]


E ( ei2 ) = E[ xi2 ( ) 2 ] 2 E[ xi ( )(ei e )] + E[ [(ei e ) 2 ]

45

Econometria

Propriedades dos Estimadores

Supondo que os valores de Xi sejam controlados:


n

i =1

i =1

i =1

i =1

E ( ei2 ) = xi2 E[( ) 2 ] 2 E[ xi ( )(ei e )] + E[ (ei e ) 2 ]


O primeiro termo pode ser simplicado por

2
n
2
2
) =
(

x
Var
x
i
i n =2
i =1
i =1
xi2
n

i =1

O segundo termo pode ser desenvolvido a partir de uma das propriedades do Apndice A,
n

= + z i ei , onde z i =
i =1

xi
n

z i2

i =1
n
n
n
xe
x 2e 2 x 2e e
2 E[ xi ( )(ei e )] = 2 E[ xi ( + n i i )(ei e )] = 2 E[ ni i ni i ]
i =1
i =1
i =1
xi2
xi2 xi2
i =1

i =1

i =1

Como o valor mdio dos erros zero e os valores de Xi so considerados controlados:


n

n
n
x 2e 2
2 E[ xi ( )(ei e )] = 2 E[ ni i ] = 2
i =1
i =1
xi2

xi2 E (ei2 )
= 2 2

i =1
n

xi2

i =1

i =1

O terceiro termo, por sua vez, ser dado por:


n

i =1

i =1

i =1

i =1

i =1

E[ (ei e ) 2 ] = E[ (ei2 2ei e + e 2 )] = E[ ei2 2e ei + ne 2 ] = E[ ei2 2ne 2 + ne 2 ]


n

E[ (ei e ) ] = E (
2

i =1

Caso

ei2

i =1

os

erros

i =1

i =1

ne ) = E [
2

sejam

i =1

no

ei2

n
+ n ei
i =1

correlacionados

n ]

(pressuposto

v),

ento

E(eiej)=0

E ( ei ) 2 = E ( ei2 ) . Ento:
n

i =1

i =1

i =1

i =1

E[ (ei e ) 2 ] = E[ ei2 n ei2 n 2 ] = E[ ei2

1 n 2
ei ] = n 2 2 = (n 1) 2 =

n i =1

Finalmente, voltamos ao desenvolvimento da SQRes, substituindo cada termo pelos seus


respectivos desenvolvimentos:

46

Econometria

Alexandre Gori Maia

E ( ei2 ) = 2 2 2 + (n 1) 2 = (n 2) 2
i =1
n

Assim, se definirmos o estimador da varincia dos erros por

e 2

i =1
=
n2

teremos um

estimador no viesado para 2 , pois:

n e 2

E ( ) = E i =1
n2

2
= (n 2)

n2

47

Econometria

Intervalos de Confiana e Previso

4. Intervalos de Confiana e Previso para os Valores de Y


Introduo
Sabemos que, dependendo da amostra selecionada, teremos estimativas diferentes para os
coeficientes da regresso e . Assim como as estimativas variam aleatoriamente, o mesmo
ocorrer com os valores previstos de Y . Portanto, ao realizarmos uma previso em regresso
linear, tambm necessrio considerar a variabilidade do estimador, o que pode ser feito
elaborando estimativas por intervalo para os valores previstos.
Antes de elaborar estimativas por intervalo para os valores previstos de um modelo de
regresso linear, necessrio compreender uma importante distino entre estimativas para
mdias e estimativas por valores individuais. Isso ser feito revisando alguns simples conceitos
da distribuio normal e do teorema do limite central.

3.1.

Intervalos para valores individuais e para a mdia aritmtica


Suponha, por exemplo, que os rendimentos de uma populao (Y) estejam normalmente
2

distribudos com mdia ( Y ) 800 reais mensais e varincia ( Y ) de 2002.


Y ~ N (800, 200 2 )

A partir da fdp de Y poderamos estimar quaisquer intervalos com probabilidades de


ocorrncia de valores individuais de Y em uma amostra. O intervalo definido pelos rendimentos
entre 408 e 1192 reais conteria, por exemplo, 95% dos rendimentos de uma amostra.

Imagine, agora, que dessa populao Y seja selecionada uma amostra aleatria de 100
pessoas e calculada sua mdia aritmtica. Pelo Teorema do Limite Central, sabemos que essa

48

Econometria

Alexandre Gori Maia


2

mdia aritmtica Y estar normalmente distribuda com mdia de 800 reais e varincia ( Y ) de
2002/100.
Y ~ N (800,

200 2
)
100

Da mesma forma que fizemos para valores individuais de Y, podemos tambm estimar
intervalos com probabilidades de ocorrncia dos valores de Y . Teramos, por exemplo, 95% de
probabilidade de o rendimento mdio de uma amostra de 100 pessoas estar entre 761 e 839 reais:

Imagine agora que desconheamos a real mdia populacional ( Y ). O objetivo principal


passa a ser inferir valores da populao a partir de estimativas da amostra. O intervalo de
confiana uma tcnica simples de inferncia que permite estabelecer um intervalo com
probabilidade de conter um parmetro populacional. No nosso exemplo, a especificao de um
intervalo com confiana de 95% para Y signficaria que este, em repetidas amostras de tamanho
n, conteria o real rendimento mdio da populao em 95% das situaes. Esse intervalo seria
definido por:
IC ( , Y ) = [Y Z Y ; Y + Z Y ]

(1)

Supondo que o valor da mdia observada na amostra Y seja de 780, a estimativa para
esse intervalo seria:
IC (95%, Y ) = [780 1,96(

200
200
); 780 + 1,96(
)] = [740,9; 819,2]
10
10

A partir da mdia observada na amostra ( Y =780) poderamos ainda inferir sobre os


valores individuais de Y, ou seja, sobre os rendimentos individuais. Enquanto o intervalo de
confiana refere-se a uma estimativa para um parmetro populacional, uma constante, o intervalo

49

Econometria

Intervalos de Confiana e Previso

de previso refere-se a uma estimativa para variveis aleatrias. A especificao de um intervalo


de previso para Y seria dada pro:
IP( , Y ) = [Y Z Y ; Y + Z Y ]

(2)

Perceba que, enquanto a estimativa do intervalo de confiana baseia-se na variabiliade da


mdia amostral ( Y ), o intervalo de previso baseia-se na variabilidade dos valores individuais
( Y ).
No nosso exemplo, a estimativa para o intervalo de previso de 95% para os rendimentos
individuais seria dada por:
IP(95%, Y ) = [780 1,96(200); 780 + 1,96(200)] = [388; 1172]

3.2.

Intervalo de confiana para o valor previsto de Yi


O conceito de intervalo de confiana aplicado aos valores previstos de um modelo de

regresso linear anlogo quele da mdia aritmtica, com a diferena de o primeiro se tratar de
uma estimativa para um mdia condicional E (Y | X i ) - e o segundo para uma mdia
incondicional E (Y ) . Em outras palavras, o objetivo estimar o valor esperado condicional de
Y de um modelo de RLS na populao, que dado por:
E[Y / X i ] = E[Yi ] = + X i

(3)

A estimativa pontual obtida para E[Yi] em uma amostra ser dada por:
Yi = + X i

(4)

Assim como os valores de e variam aleatoriamente em funo da amostra


selecionada, Yi tambm estar aleatoriamente distribudo. Aproveitando-se ainda da mesma
generalizao do Teorema do Limite Central utilizada para justificar a ditribuio normal dos
erros, pode-se demonstrar que Yi , por ser uma funo linear de variveis normais15, ter
distribuio normal com parmetros dados por:

15

Controlando-se os valores de Xi, a nica fonte de variabilidade Yi ser proveniente dos estimadores e , j

que Yi = + X i . Como esses apresentam distribuio normal, uma funo linear de variveis normais ter
tambm distribuio normal.

50

Econometria

Alexandre Gori Maia

Yi ~ N ( E[Yi ], Y2 )

(5)

Sendo que Y2 ser dado por (ver Apndice A para demonstrao):


i

Y2

2
x
1
= + n i 2
n

x 2j

j =1

(6)

Entretanto, como 2 desconhecido, teremos sua estimativa no tendenciosa dada por:

S Y2

xi2
1

=
+ n
n
x 2j

j =1

(7)

Assim, intervalos de confiana para os valores previstos de Y sero dados por:


IC ( , E[Yi ]) = [Yi t n 2 S Y ; Yi + t n 2 S Y ]
i

(8)

Onde tn2 corresponde ao valor da distribuio t de student com n2 graus de liberdade e


probabilidade .

Exemplo 1. Observaram-se o consumo mensal per capita de vinho (X em litros mensais per
capita) e a taxa de mortalidade cardaca (Y em mortes para cada grupo de 100 mil habitantes) em
19 pases. Os valores observados foram:

Pas
Alemanha
Austrlia
ustria
Blgica
Canad
Dinamarca
Espanha
Estados Unidos
Finlndia
Frana

X
2,7
2,5
3,9
2,9
2,4
2,9
6,5
1,2
0,8
9,1

Y
172
211
167
131
191
220
86
199
297
71

Pas
Holanda
Irlanda
Islndia
Itlia
Noruega
Nova Zelndia
Reino Unido
Sucia
Suia

X
1,8
0,7
0,8
7,9
0,8
1,9
1,3
1,6
5,8

Y
167
300
211
107
227
266
285
207
115

Pressupondo que a relao entre consumo de vinho e mortalidade cardaca seja linear, estimou-se
o seguinte ajuste:
51

Econometria

Intervalos de Confiana e Previso

Yi = 360,6 + 23,0 X i

Em outras palavras, estamos pressupondo que, para cada litro adicional per capita de vinho, a
mortalidade cardaca mdia reduza em 23 pessoas para cada grupo de 100 mil habitantes.
Caso desejssemos estimar a mortalidade cardaca mdia para um consumo de 5 litros per capita,
esta seria dada por:
Yi = 360,6 + 23,0(5) = 145,7

Ou seja, uma estimativa pontual para a mortalidade cardaca mdia de pases com consumo
equivalente a 5 litros per capita de vinho seria de 145,7 mortes/100 mil habitantes. Uma
estimativa por intervalo de 95% para esta estimativa seria dada por:
IC (95%, E[Yi ]) = [145,7 2,11(11,2); 145,7 + 2,11(11,2)] = [122,1; 169,3]

Pois:

2 = 37 ,9 2
e
1
(5 3) 2
S Y2 = +
2
2
i
19 ( 2,7 3) + ...( 5,8 3)

37,9 2 = 11,2 2

Assim, o intervalo definido pelos valores 122 e 169 mortes/100 mil habitatantes seria uma
estimativa do intervalo que, em repetidas amostras de tamanho 19, conteria a real mortalidae
mdia dos pases com consumo de vinho equivalente a 5 litros per capita em 95% das situaes

3.3.

Intervalo de previso para valores individuais de Yi


Partindo do pressuposto que os valores individuais de Yi tambm estejam, assim como os

erros da regresso, normalmente distribudos em torno da reta de regresso, possvel


estabelecer intervalos de previso para os mesmos. A f.d.p. para Yi ser dada por:

Yi ~ N ( E[Yi ], Y2i )

(9)

Sendo que Y2i ser dado por (ver demonstrao no Apndice A):

Y2

x2
1
= 1 + + n i

n
x 2j

j =1

(10)

52

Econometria

Alexandre Gori Maia

Entretanto, como 2 desconhecido, teremos a estimativa no tendenciosa dada por:

S Y2i

x2
1
= 1 + + n i

n
x 2j

j =1

(11)

Assim, intervalos de previso de para valores individuais de Y sero dados por:


IP( , Yi ) = [Yi t n 2 S Yi ; Yi + t n 2 S Yi ]

(12)

Onde tn2 corresponde ao valor da distribuio t de student com n2 graus de liberdade e


probabilidade .

Exemplo 2. No exemplo (1) tnhamos uma estimativa por intervalo para a mortalidade cardaca
mdia em pases com consumo de vinho equivalente a 5 litros per capita. Suponha que agora
desejamos uma estimativa por intervalo para as mortalidades de cada pas, no mais para a
mortalidade mdia. Em outras palavras, uma estimativa por intervalo de, por exemplo, 95% para
as taxas individuais de mortalidade seria dada por:
IC (95%, Yi ) = [145,7 2,11(39,5); 145,7 + 2,11(39,5)] = [62,4; 229,0]

Pois:

1
(5 3) 2
S Y2i = 1 +
+
2
2
19 ( 2,7 3) + ...( 5,8 3)

37 ,9 2 = 39,5 2

Assim, os valores 62 e 229 mortes/100 mil habitantes definiriam a estimativa de um intervalo de


95% de probabilidade para as taxas de mortalidade de pases com consumo de 5 litros de vinho
per capita.

3.4.

Propriedades das estimativas por intervalo


A anlise apresentadas permitem algumas importantes consideraes sobre a

confiabilidade das estimativas:


i.

Quanto maior a disperso dos resduos, menor a preciso do intervalo de


confiana e/ou previso: as equaes (5) e (9) permitem observar que, medida
que aumenta a disperso dos resduos ( 2 ), aumentar a varincia de Yi e Yi, e,
53

Econometria

Intervalos de Confiana e Previso

consequentemente, aumentar a amplitude de variao do intervalo de confiana


e/ou previso;
ii.

Quanto maior o tamanho da amostra, maior a preciso do intervalo de confiana


e/ou previso: o efeito do tamanho da amostra na preciso das estimativas pode
ser identificados pelos denominadores n e x2j nas equaes (5) e (9);

iii.

Quanto maior a variabilidade do regressor, maior a preciso do intervalo de


confiana e/ou previso: a variabilidade do regressor representada pelo
denominador x2j nas equaes (5) e (9);

iv.

Quanto mais o valor controlado Xi aproxima-se da mdia de X ( X ), maior a


preciso das estimativas: significa que intervalos de confiana e/ou previso tero
maior amplitude para valores mais afastados da mdia amostral de X, sugerindo
que cuidados adicionais devem ser considerados na extrapolao de valores muito
afastados daqueles observados na amostra. Matematicamente, essa propriedade
pode ser observada a partir do numerador x2i nas equaes (5) e (9).

Exemplo 3. A Figura abaixo apresenta as faixas de amplitude para os intervalos de confiana dos
valores previsos (faixas mais estreitas) e para os intervalos de previso dos valores individuais
(faixas mais largas) da mortalidade por grupo de 100 mil habitantes.

Em primeiro lugar, a amplitude do intervalo de previso (para valores individuais) superior ao


de confiana (para a mdia) j que, para um mesmo consumo per capita de vinho, h,
naturalmente, maior variabildiade mortalidades dos pases que entre as estimativas de suas
mdias.
54

Econometria

Alexandre Gori Maia

Em segundo lugar, como as varincias de Yi e Yi dependem do valor controlado de Xi, observase que as amplitudes dos dois intervalos tendem a aumentar medida que os valores controlados
de X afastam-se da mdias de suas observaes (3 litros per capita), o que est associado
menor preciso para extrapolaes distantes do conjunto de valores ovservados.

Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:

52

104

122

141

166

254

487

615

950

1014

a. Estabelea uma previso, com 95% de confiana, para a despesa mensal mdia
das famlias com renda mensal de 1.500 reais e para possveis valores individuais
dos gastos dessa mesma famlia. Interprete os resultados.

Respostas
1) a. IC(90%, E[Yi])=[229,8 57,9]; IP(90%, Yi)=[229,8 70,7];

55

Econometria

Intervalos de Confiana e Previso

Apndice A Varincia do Valor Previsto


Dado um determinado valor de X, chamaremos de X * , a estimativa para o valor esperado de Y,
chamaremos de Y* , ser dada por:
Y* = + X *
A varincia de Y* ser ento dada por:
Var (Y* ) = Var ( + X * ) = Var ( ) + Var ( ) X *2 + 2Cov ( , X * )

Embora as varincias de e sejam conhecidas e os valor de X * constante, conhecer o valor


da covarincia entre e para dar continuidade ao desenvolvimento algbrico. Esta ser dada
por:
Cov( , ) = E[ E ( )][ E ( )]
Como = Y X e E ( ) = Y XE ( ) , teremos:
Cov( , ) = E[(Y X ) (Y XE ( ))][ E ( )] = XE[ E ( )][ E ( )] = XVar ( )
Dando agora continuidade ao desenvolvimento da varincia de Y* :
Var (Y* ) = Var ( ) + Var ( ) X *2 2 XVar ( ) X *
2
2
X X
X2
1
X2
1 X 2X* X + X
Var (Y* ) = ( + n
) 2 + n * 2 2 n * 2 = ( + *
) 2
n
n
n
xi2
xi2
xi2
xi2
i =1

i =1

i =1

i =1

1 (X X )
Var (Y* ) = [ + *n
] 2
n
xi2
i =1

Por sua vez, a representao do valor individual Yi, dado o valor de X * , ser dada por:
Yi* = + X * + ei*

Como os resduos no so relacionados aos valores previstos de Y, a varincia de Yi* ser dada
por:

56

Econometria

Alexandre Gori Maia

2
2
1 (X X )
1 (X X )
Var (Yi* ) = Var ( + X * ) + Var (ei* ) = [ + *n
] 2 + 2 = [ + *n
+ 1] 2
n
n
xi2
xi2
i =1

i =1

57

Econometria

Formas Funcionais

4. Formas Funcionais
Introduo
Sabemos que o MQO limita-se ao ajuste de funes lineares, ou seja, ao ajuste de uma
reta no caso de regresso linear simples. Entretanto, h relaes que, embora originalmente
sejam no lineares nas variveis, podem ser transformadas em relaes lineares por anamorfose,
ou seja, atravs de transformaes de suas variveis originais. Isso significa que, caso a relao
entre Y e X no seja linear, podemos encontrar transformaes f(Y) e g(X) tais que as relaes
entre estas funes sejam lineares. Seria o caso, por exemplo, de uma relao quadrtica entre Y
e X ( Yi = + X i2 + ei ), que se transformaria em linear quando analisada em relao a Y e Z=X2
( Yi = + Z i + ei ).

A escolha da forma funcional apropriada (tipo de transformao das variveis) depender


da anlise prvia da relao entre os valores observados na amostra e, principalmente, do
conhecimento prvio das relaes por parte do pesquisador. As formas funcionais mais
conhecidas so: i) linear; ii) log-lin; iii) lin-log; iv) log-log ou log-duplo; e v) modelo inverso.
Abordaremos apenas os quatro primeiros, que so mais frequentes em estudos econmicos.

4.1.

Modelo Linear
a forma mais simples de relao entre duas variveis, pressupondo que Y apresente

aumentos (ou redues) absolutos constantes segundo variaes absolutas em X.

58

Econometria

Alexandre Gori Maia

(1)

Yi = + X i + ei

Como j discutido em captulos anteriores, o intercepto do modelo linear representa o


valor esperado de Y para valores nulos de X e o coeficiente angular representa a variao
marginal absoluta no valor esperado de Y dada uma variao unitria em X. Isso porque, de
maneira simplificada, teramos:

E[Y / 0] = + (0) =

e
Y Y ( + X )
=
=
=
X X
X

(2)

Dizemos ainda que a inclinao do modelo linear constante, ou seja, a variao


marginal no valor esperado de Y a mesma para qualquer valor de X. Geometricamente, pode-se
observar pela Figura (2) que a tangente ser a mesma em qualquer ponto da reta.

Exemplo 1. Observou-se, durante 19 dias, a relao entre o total de vendas nos finais de semana
de uma sorveteria (Y, em 1.000 R$) e a temperatura mdia (X, em oC). Pressupondo que haja
uma relao linear de determinao entre as variveis, o modelo ajustado foi:

Yi = 1,038 + 0,125 X i + ei

59

Econometria

Formas Funcionais

A estimativa do coeficiente angular sugere que, para cada aumento unitrio na temperatura
mdia (X=1 oC), haja um incremento mdio e constante de 125 reais nas vendas de sorvete
(Y=0,1251.000 R$). O intercepto negativo no possui interpretao econmica, pois indicaria
um venda esperada negativa caso a temperatura mdia fosse igual a 0 oC. Este ocorre porque os
valores observados na amostra limitam-se basicamente a temperaturas entre 20 e 40 C, ficando
muito difcil prever o que ocorreria com uma temperatura igual a 0o C.

4.2.

Modelo Log-Lin
Em muitas situaes, pode ser irrealista acreditar que a varivel Y apresente crescimentos

absolutos constantes em funo de variaes absolutas tambm constantes de X. Uma forma


caracterstica de relao econmica acontece quando Y apresenta crescimento (ou decaimento)
exponencial em relao a variaes absolutas de X. Em outras palavras, quanto maior o valor de
Y, mais rpido esta cresceria (ou mais lentamente decairia) em funo de variaes absolutas em
X. Esse tipo de relao pode ser dada pelo modelo log-lin, com a transformao de Y pelo seu
logaritmo natural ln(Y):

(3)

ln(Yi ) = + X i + ei

As relaes dos coeficientes com as variveis do modelo linear, que eram dadas
diretamente com Y e X, passam, agora, a ser dadas entre ln(Y) e X:

E[ln(Y ) / 0] = + (0) =

e
ln(Y ) d ln(Y ) d ( + X )
=
=
=
X
dX
dX

(4)

60

Econometria

Alexandre Gori Maia

Como a interpretao de variaes absolutas no valor esperado de ln(Y) no algo trivial,


a relao direta entre variaes de X e Y pode ser obtida atravs de algumas propriedades bsicas
do clculo diferencial:
E[ln(Y ) / 0] = E[Y / 0] e

e
Y / Yi
ln(Y )
=
=
X
X

(5)

pois
ln(Y ) 1
Y
= ln(Y ) =
Y
Yi
Yi

Isso significa que variaes absolutas marginais em ln(Y), ou seja, ln(Y), representam
variaes relativas em Y (Y/Yi). Assim, o coeficiente angular representar a variao relativa
em Y dada uma variao unitria em X, pois quando X=1, teremos Y/Yi= e,
consequentemente, Y=Yi.
J a representao para o valor esperado de Y quando X igual a zero (E[Y/0] e) deve
ser interpretada de forma aproximada. O antilogaritmo trata-se, na verdade, de uma estimativa
viesada para a esperana condicional de Y para qualquer valor condicionado de X, j que o valor
mdio de ln(Y) corresponde ao log da mdia geomtrica de Y e no de sua mdia aritmtica.

Exemplo 2. Uma amostra ofereceu informaes sobre a renda mensal (Y, em R$) e anos
completos de escolaridade (X) de 94 ocupados do estado de So Paulo em 2007. Acredita-se que
a renda cresa exponencialmente com os anos de escolaridade, ou seja, acrscimos absolutos nos
anos de escolaridade implicariam em variaes absolutas maiores no rendimento mdio para
aqueles com escolaridade mais elevada: A relao estabelecida seria dada por:

61

Econometria

Formas Funcionais

ln(Yi ) = 6,006 + 0,121X i + ei

Assim, o coeficiente angular sugere que, para cada ano adicional de escolaridade (X=1), haja
um incremento mdio relativo constante de 12,1% no rendimento do trabalho (Y=0,121Yi).
Espera-se ainda que o rendimento daqueles sem escolaridade (X=0) seja de aproximadamente
406 reais (e6,006)16.

4.3.

Modelo Lin-Log
Da mesma forma que o modelo log-lin supe variaes relativas em Y dadas variaes

absolutas em X, podemos estabelecer o modelo lin-log pressupondo que Y apresente variaes


absolutas constantes dadas variaes relativas em X. Nesse caso teramos:

Yi = + ln( X i ) + ei

(6)

As relaes seriam, ento, dadas entre Y e ln(X):

16

Lembre-se que se trata de uma estimativa viesada do valor esperado de Y.

62

Econometria

Alexandre Gori Maia

Y
dY
d [ + ln( X )]
=
=
=
ln( X ) d ln( X )
d ln( X )

(7)

Cabe agora compreender a relao entre variaes em ln(X) e variaes em X, o que pode
ser feito atravs de desenvolvimento anlogo ao realizado para os coeficientes do modelo log-lin:
Y
Y
=
=
ln( X )
X / X i

pois

(8)

ln( X )
1
X
=
ln( X ) =
X
Xi
Xi

Isso significa que variaes absolutas em ln(X), ou seja, ln(X), representam variaes
relativas em X (X/Xi). Assim, o coeficiente angular representar variaes absolutas em Y
(Y) dada uma variao relativa de 100% em X (X/Xi=1=100%). Como o clculo diferencial
considera apenas variaes infinitesimais das variveis, no seria conveniente considerar 100%
de variao em X como uma variao marginal. Assim, em modelos lin-log, sempre
recomendado considerar que uma variao de 1% em X causar um impacto de /100 em Y (ou
seja, dividir os dois lados da relao por 100).

Exemplo 3. Para analisar a relao entre a jornada de trabalho (X, em h) e o rendimento hora do
trabalho (X, em R$/h) observou-se uma amostra de 92 ocupados com rendimentos positivos do
estado de So Paulo no ano de 2007. Pressupe-se que o aumento da renda tenha um efeito
positivo sobre a jornada de trabalho, j que o custo do lazer tornar-se-ia relativamente mais caro
para rendimentos mais elevados. Entretanto, essa relao no seria linear, j que medida que a
renda cresa indefinidamente, esperam-se variaes cada vez mais tnues sobre a jornada de
63

Econometria

Formas Funcionais

trabalho, j que reduziria, ao mesmo tempo, a disposio a trabalhos adicionais. O modelo


proposto o lin-log:

Yi = 30,799 + 4,790 ln (X i ) + ei

Assim, a princpio, o coeficiente angular sugeriria que, para cada variao relativa de 100% no
rendimento do trabalho (ln(X)=1), haveria um acrscimo mdio de 4,79 horas na jornada
semana de trabalho. Entretanto, como um incremento de 100% no rendimento no pode ser
considerado uma variao marginal, o correto seria afirmar que, para cada variao relativa de
1% no rendimento hora do trabalho, espera-se um incremento absoluto de 0,0490 horas (2,87
minutos) na jornada de trabalho do ocupado.

4.4.

Modelo Log-Log
Um modelo particularmente til em anlises econmicas o log-log, ou log-duplo. Este

assume que variaes relativas em X implicaro em variaes relativas constantes em Y e ser


representado por:
Yi = X i e ei
ou, com =ln():

(9)

ln(Yi ) = + ln( X i ) + ei

As relaes dos coeficientes seriam, ento, dadas com ln(Y) e ln(X):

64

Econometria

Alexandre Gori Maia

E[ln(Y ) / ln( X ) = 0] = + (0) =

e
ln(Y ) d ln(Y ) d [ + ln( X )]
=
=
=
ln( X ) d ln( X )
d ln( X )

(10)

Como, de (5) e (8), sabemos que variaes absolutas em ln(X) e ln(Y) representam,
respectivamente, variaes relativas em X e Y, o coeficiente angular representar as variaes
relativas em Y (Y/Yi) dada uma variao relativa de 100% em X (X/Xi=1). Entretanto, por
convenincia analtica, a interpretao correta que, dada uma variao de 1% em X, espera-se
uma variao de (/100)% em Y.

Y / Yi
ln(Y )
=
=
ln( X )
X / X i

(11)

A convenincia do modelo log-log que seu coeficiente uma medida constante da


elasticidade de Y em relao a X, ou seja, considera que as variaes relativas em Y dadas
variaes relativas em X sejam as mesmas para quaisquer valores de Xi e Yi.

Exemplo 4. Obteve-se uma amostra de 94 municpios brasileiros para analisar a relao entre a
taxa de visitao a um parque nacional (Y, em visitas/1000 habitantes) e o custo de viagem para
uma pessoa se deslocar do municpio de residncia ao parque (X, em R$). Espera-se que haja
uma elasticidade constante entre taxa de visitao e custo de viagem, ou seja, incrementos
percentuais no custo de viagem gerariam redues percentuais na taxa de visitao.

65

Econometria

Formas Funcionais

ln(Yi ) = 13,492 2,049 ln( X i ) + ei

O coeficiente angular sugere uma demanda relativamente elstica s variaes no custo de


viagem. Para cada aumento de percentual no custo de viagem, espera-se uma reduo mdia
2,05% na taxa de visitao.

Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:

52

104

122

141

166

254

487

615

950

1014

a. As estimativas para os coeficientes do modelo: ln(Y)= + ln(X) + e. Interprete os


resultados
b. As estimativas so significativas?
c. Qual a despesa esperada para uma famlia com renda equivalente a 1.000 reais?
2. Uma amostra de 4 anos forneceu os seguintes dados sobre a emisso de CO2 (Y, em ton) e
PIB (X, em bilhes de US$ correntes):

10

10

12

14

16

Suponha ainda que a relao entre as variveis seja dada por ln(Y)= + X + e. Pede-se:
a. Estime e interprete os coeficientes do modelo por MQO.
b. Calcule e interprete a significncia dos coeficientes estimados.
Utilize a seguinte tabela de converso dos valores:
66

Econometria

Alexandre Gori Maia

10

12

14

16

ln(Z)

1,6

1,9

2,2

2,3

2,5

2,6

2,8

Respostas
1) a. = 0,279 ; = 0,779 ; b. : p=0,688; : p=0,004; c. Y = 163,9 .
2) a. = 0,44 ; = 0,12 ; b. : t=1,926; p=0,194; : t=6,928; p=0,020

67

Econometria

Anlise de Varincia

3. Anlise de Varincia
Introduo
Um bom modelo de regresso aquele capaz de explicar em grande medida o
comportamento da varivel dependente Y. Portanto, para avaliar a qualidade de um ajuste, nada
mais natural que medir a parcela do comportamento de Y explicada pela varivel explanatria X,
comparando-a com a associada aos resduos do ajuste.
Passo fundamental para esse tipo de anlise foi dado por Ronald Fisher em 1925, com a
publicao do livro intitulado Statistical Methods for Research Workers. Para muitos, a obra
mais influente da estatstica moderna. Fisher desenvolveu o conceito de Anlise de Varincia, na
qual o comportamento de um resultado de interesse pode ser dividido entre aquele devido a
fatores controlados e aquele devido a fatores no controlados.
Para entender como o conceito de Anlise de Varincia pode ser aplicado RLS, sero
apresentadas algumas medidas simples e intuitivas de anlise do comportamento de uma varivel
para, ao final, sistematizar os resultados na Anlise de Varincia.

5.1.

Soma dos Quadrados


Na anlise de regresso, a diversidade de valores assumidos por Y representada por sua

variabilidade total. Esta variabilidade pode ainda ser decomposta em duas parcelas: i) uma
parcela que pode ser explicada pelo comportamento de X; ii) uma parcela no explicada por X,
que estar associada aos erros do modelo de regresso e se deve ao conjunto de fatores no
controlados que tambm influenciam Y alm de X.
Graficamente, o que a reta de regresso explica do comportamento de Y seria uma
medida da variabilidade de Y explicada por X, enquanto que os erros de previso, distncias dos
pontos observados reta, representariam a variabilidade de Y no explicada por X.

68

Econometria

Alexandre Gori Maia

(1)

A medida estatstica da variabilidade total de Y dada pela Soma Total dos Quadrados
(STQ) e ser calculada pela distncia quadrtica total dos valores de Y em relao mdia
aritmtica Y . Em outras palavras:
n

STQ = (Yi Y )2

(2)

i =1

Graficamente, a STQ representa a soma das distncias quadrticas de cada valor


observado de Y em relao sua mdia aritmtica, desconsiderando a existncia da linha de
regresso.

(3)

No difcil demonstrar que a STQ pode ser decomposta em dois fatores principais: um
associado aos desvios dos valores previstos do modelo em relao mdia de Y, ou seja, y i , e
outro associado aos resduos do modelo ei .
n

STQ = yi2 = ( y i + ei ) 2 = ( y i + ei ) 2
i =1
n

i =1

i =1

i =1

i =1

(4)

STQ = y + 2 y i ei + e = y + e
i =1

2
i

2
i

i =1

2
i

2
i

i =1

69

Econometria

Anlise de Varincia

Lembrando, a partir das propriedades dos estimadores de MQO, que os valores previstos
n

de Y no esto associados aos resduos de MQO ( y i ei = 0 ).


i =1

O primeiro fator dessa variabilidade total, ou distncia quadrtica total, corresponde


variabilidade explicada pela reta de regresso. Assim, a variabilidade de Y explicada por X ser
medida pela soma das distncias quadrticas entre os valores previstos ( Yi ) e a mdia aritmtica
de Y ( Y ). Em outras palavras, a Soma dos Quadrados da Regresso (SQReg) ser dada por:
n

i =1

i =1

SQ Re g = y i2 = (Yi Y )2

(5)

Graficamente, a SQReg representa a soma das distncias quadrticas dos pontos da reta
em relao mdia aritmtica.

(6)

A parcela da variabilidade de Y no explicada por X ser medida pela Soma dos


Quadrados dos Resduos (SQRes). Como o prprio nome diz, a SQRes ser dada pela soma
quadrtica dos resduos (Yi Yi ) ou, em outras palavras:
n

i =1

i =1

SQ Re s = ei2 = (Yi Yi )2

(7)

Graficamente, a SQRes representa a soma das distncias quadrticas dos valores


observados (Yi) em relao reta de regresso ( Yi ).

70

Econometria

Alexandre Gori Maia

(8)

Atravs de desenvolvimento algbrico, pode-se ainda chegar s seguintes expresses para


as somas dos quadrados, teis conforme a convenincia operacional:
n

i =1

i =1

STQ = (Yi Y )2 = yi2

(9)

i =1

i =1

i =1

2
SQ Re g = (Yi Y )2 = 2 xi = xi y i
n

i =1

i =1

i =1

i =1

2
SQ Re s = (Yi Yi )2 = ei = yi2 xi yi

(10)
(11)

Exemplo 1. Seja a relao entre consumo mensal de energia (Y, em kWh) e total de horas que o
ar condicionado permaneceu ligado (X, em h). Os valores observados para uma amostra de 21
domiclios foram:
i

kWh
(Y)

AC
(X)

1
2
3
4
5
6
7
8
9
10
11

35
17
57
63
66
33
79
43
33
78
82

1,5
2,0
2,5
4,5
5,0
5,0
6,0
6,0
6,0
6,5
7,5

kWh
(Y)

AC
(X)

12
13
14
15
16
17
18
19
20
21

77
62
65
66
65
75
94
85
94
93

7,5
7,5
7,5
8,0
8,0
8,0
8,5
12,0
12,5
13,5

Yi = 27,85 + 5,34 X i + ei

A variabilidade total do consumo mensal de energia ser dada por:


71

Econometria

Anlise de Varincia

STQ = (35 64,9) 2 + ... + (93 64,9) 2 = 9578,6


A variabilidade de Y explicada pelo ajuste ser dada por:
SQReg = (35,9 64,9) 2 + ... + (100,0 64,9) 2 = 5609,7
Lembrando que:

Y1 = 27,85 + 5,34(1,5) = 35,9

Y21 = 27,85 + 5,34(13,5) = 100,0


E, finalmente, a variabilidade no explicada pelo ajuste ser dada por:
SQRes = (35 35,9) 2 + ... + (93 100,0) 2 = 3968,9
De onde temos a igualdade:

STQ = SQReg + SQRes = 5609,7 + 3968,9 = 9578,6

5.2.

Coeficiente de Determinao
Um bom modelo de regresso aquele que ajuda a explicar em grande medida a

variabilidade de Y. Por outro lado, valores elevados para os resduos significariam um ajuste de
baixa qualidade. Assim, uma interpretao intuitiva das somas dos quadrados que, quanto
maior a SQReg em relao SQRes, maior a variabilidade explicada pelo modelo e,
consequentemente, melhor a qualidade do ajuste. Por outro lado, quando X no explica
significativamente Y, a SQRes (variabilidade no explicada pela varivel explanatria)
representar a maior parcela da variabilidade total de Y.

72

Econometria

Alexandre Gori Maia

Dessa anlise pode-se extrair uma medida simples e muito til de qualidade do ajuste, o
coeficiente de determinao (R2). O R2 estima a proporo da variabilidade da varivel
dependente que explicada pela varivel independente do modelo de regresso. Em outras
palavras:
n

SQ Re g
R2 =
=
STQ

y i2
i =1
n

y
i =1

(Y

=
2
i

Y )2

i =1
n

(Y

(12)
Y )

i =1

Conforme a convenincia operacional, o R2 pode ainda ser calculado por:


n

R2 = 1

ei2

i =1
n

yi2
i =1

= 2

xi2
i =1
n

yi2

(13)

i =1

O R assumir valores entre zero, quando a variabilidade explicada pelo modelo for nula,
e um, quando 100% da variabilidade total for explicada pelo modelo.

(14)

Como o coeficiente de correlao, o R2 uma medida de relao linear. Assim, embora


variveis independentes apresentem R2 nulo ou prximo de zero, a recproca no
necessariamente verdadeira, j que a relao entre Y e X pode ser no linear.

73

Econometria

Anlise de Varincia

Outra precauo em relao anlise do R2 refere-se ao fato de valores baixos para esta
estatstica no necessariamente significar um ajuste insatisfatrio. Algumas variveis, como, por
exemplo, a riqueza de uma pessoa, so muito difceis de serem determinadas quantitativamente e
mesmo uma baixa contribuio de um fator explanatrio pode nos dar uma importante fonte de
informao.

Exemplo 2. Calculadas as somas dos quadrados para o consumo de energia, o R2 ser facilmente
obtido por:
R2 =

9578,6
= 0,586
5609,7

Em outras palavras, 58,6% da variabilidade do consumo de energia eltrica explicada pelo total
de horas que o ar condicionado permanece ligado. Os demais 41,4% seriam determinados por
outros equipamentos ou mesmo por diferenas entre os ar condicionados.

5.3.

Anlise de Varincia (ANOVA)


Uma questo que surge da interpretao do R2 : quando este pode ser considerado

significativo? Em outras palavras, dada a variabilidade presente na amostra, o valor observado de


R2 pode ser considerado estatisticamente diferente de zero?
A anlise de varincia (ANOVA, de Analysi of Variance) responde essa questo
realizando um teste de significncia para as somas dos quadrados do ajuste de MQO. A
estatstica de teste utilizada a F, a qual, por definio, pode ser obtida a partir da razo entre
dois quadrados mdios (varincias amostrais).
Ponderando a SQReg e a SQRes pelos seus respectivos graus de liberdade, teremos as
medidas de seus respectivos quadrad os mdios. Assim, a estatstica F do teste da ANOVA ser
dada por:
F=

SQ Re g / 1
~ F1,n 2
SQ Re s /(n 2)

(15)

Conforme observado anteriormente, os graus de liberdade dos resduos so dados


por n 2 , j que duas restries so impostas ao resultado da SQRes. Em outras palavras,
sabemos, pela equao (11), que h dois parmetros necessrios ao clculo da SQRes, e .
Assim, no caso da SQRes, teramos n 2 observaes da amostra variando aleatoriamente e duas
74

Econometria

Alexandre Gori Maia

observaes com valores fixos para chegarmos s igualdades necessrias s estimativas dos
parmetros e . A SQReg, por sua vez, possui apenas 1 grau de liberdade j que, de acordo
com a equao (10), apenas o estimador de apresentaria variabilidade em funo da amostra
(lembre-se que os valores de Xi so considerados fixos). A estatstica F seguir, portanto, uma
distribuio F com 1 grau de liberdade no numerador e n 2 graus de liberdade no
denominador.
A razo da SQReg pelos seus respectivos graus de liberdade chamada de Quadrado
Mdio da Regresso e representa uma medida de variabilidade quadrtica mdia explicada pelo
modelo. Por sua vez, a razo da SQRes pelos seus respectivos graus de liberdade chamada de
Quadrado Mdio dos Resduos, que igual varincia da regresso ( 2 ) .
Sob a hiptese nula de que o modelo no contribui para explicar o comportamento de Y,
espera-se que a SQReg seja mnima e a SQRes seja mxima, fazendo com que a estatstica F
apresente valores baixos. O valor esperado da estatstica F na hiptese de contribuio nula do
modelo ser igual a 1, como demonstrado no Apndice A.
medida que o modelo contribua significativamente para explicar o comportamento de
Y, a SQReg tende a ser mxima e a SQRes mnima, fazendo com que a estatstica F apresente
valores elevados. Assim, quo maior o valor da estatstica F, mais evidncias teremos para
rejeitar a hiptese nula de que o modelo no contribui para explicar o comportamento de Y. O
valor p ser a medida da probabilidade de erro que estaremos sujeitos caso rejeitssemos H0, ou
seja, caso afirmssemos que o modelo contribui para explicar a variabilidade de Y.

(15)

Perceba ainda que, no caso da RLS, testar a hiptese nula de que o modelo no contribui
para explicar a variabilidade de Y a mesma coisa que testar se o coeficiente associado
varivel X () igual a zero. Isso porque, como s h uma varivel independente no modelo,
caso seja nulo significa que a melhor previso para Y seria sua mdia aritmtica, fazendo com
que SQT seja igual SQRes.
Uma sntese dos resultados dada pela Tabela ANOVA:
75

Econometria

Anlise de Varincia

(15)

Exemplo 3. A Tabela ANOVA sistematizando os resultados obtidos na anlise de variabilidade


do consumo de energia ser dada por:

Fonte
Regesso
Resduos
Total

Soma dos Quadrados


Mdios
Quadrados
1
5609,7
5609,7
19
3968,9
208,9
20
9578,6

gl

F
26,9

A estattsica F obtida pela razo entre os quadrados mdios ter 1 grau de liberdade no
numerador e 19 no denominador. Assim, a probabiliade de erro associada estimativa obtida
ser praticamente nula.

Em outras palavras, pode-se afirmar que o modelo ou, no caso, as horas de ar condicionado
ligado, contribua significativamente para explicar a variabilidade do consumo de energia. A
probabilidade de errro ao fazermos tal afirmao praticamente nula.

Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:
76

Econometria

Alexandre Gori Maia

52

104

122

141

166

254

487

615

950

1014

a. Calcule SQReg, SQRes e STQ.


b. Calcule e interprete o coeficiente de determinao.
c. Construa a tabela ANOVA.
d. Interprete o valor p obtido no teste F da tabela ANOVA.

Respostas
1) a. SQReg=6843,7; SQRes=552,3; STQ=7396; b. R2=0,925; d. p=0,009.

77

Econometria

Anlise de Varincia

Apndice A Valor Esperado das Somas dos Quadrados


Vamos demonstrar que o valor esperado da estatstica F para a anlise de varincia igual a 1.
Primeiro, seja a estatstica F:
F=

SQ Re g 1
SQ Re g (n 2)

Ento, devemos demonstrar que E ( F ) = 1 ou E ([ SQ Re g 1] = E[ SQ Re g ( n 2)]


Comecemos pela esperana da SQReg. Temos que:
n

i =1

i =1

( xi y i ) 2

SQ Re g = 2 xi 2 = xi yi =

i =1
n

xi 2
i =1

Podemos substituir yi por xi + ei e , pois:


y i = Yi Y = ( + X i + ei ) ( + X + e ) = ( X i X ) + ei e = xi + ei e
Continuando o desenvolvimento da SQReg, teremos ento:
n

[ xi ( xi + ei e )] 2
SQ Re g =

i =1

i =1

i =1
n

i =1

( xi2 + xi ei e xi ) 2

xi2
i =1
n

i =1

i =1
n

i =1

i =1

( xi2 + xi ei ) 2
i =1

i =1
n

xi2

xi2

i =1

i =1

2 ( xi2 ) 2 + 2 xi2 xi ei + ( xi ei ) 2
SQ Re g =

xi2
i =1

Pressupondo que os erros sejam no correlacionados aos valores de X (xiei=0) teremos:


n

2 ( xi2 ) 2 + 2 xi2 xi ei + ( xi ei ) 2
SQ Re g =

i =1

i =1
n

i =1

xi2
i =1

i =1

= 2 xi2 +
i =1

xi2 ei2
i =1
n

xi2
i =1

Pressupondo agora os valores de X fixos e varincia constante para os erros E (ei2 ) = 2 teremos:

78

Econometria

Alexandre Gori Maia


n

2 xi2

E ( SQ Re g ) = 2 xi2 +

i =1
n

xi2

i =1

= 2 xi2 + 2
i =1

i =1

Procedimentos anlogos devem agora ser realizados para a STQ (a SQRes ser obtida a partir da
diferena entre STQ e SQReg):
n

i =1

i =1

i =1

STQ = yi2 = ( xi + ei e ) 2 = [ 2 xi2 + 2 xi (ei e ) + (ei e ) 2 ]


n

i =1

i =1

i =1

i =1

i =1

i =1

i =1

STQ = 2 xi2 + 2 xi ei 2e xi + (ei e ) 2 = 2 xi2 + 2 xi ei + (ei e ) 2


n

O ltimo termo da expresso -

(ei e ) 2

- pode ainda ser dado por:

i =1
n

i =1

i =1

i =1

i =1

i =1

i =1

(ei e ) 2 = ei2 2e ei + e 2 = ei2 2e ei + ne 2

i =1

i =1

n
2 ei
i =1

i =1

i =1

i =1

(ei e )

ei2

n
n
n ei + n ei
i =1
i =1

n
n
n

n = ei2 2 ( ei ) 2 n + ( ei ) 2 n
i =1
i =1
i =1

(ei e ) 2 = ei2 ( ei ) 2 n
Voltando agora ao desenvolvimento da STQ, teremos:
n

i =1

i =1

i =1

i =1

STQ = 2 xi2 + 2 xi ei + ei2 ( ei ) 2 n


E o valor esperado dado por:
E ( STQ) =

xi2

i =1

i =1

+ 2 E ( xi ei ) + E (

i =1

ei2 )

E[( ei ) 2 n]
i =1

Pressupondo que os valores de X sejam no correlacionados aos erros e a varincia dos erros
seja constante, teremos:
n

i =1

i =1

E ( STQ) = 2 xi2 + n 2 n 2 n = 2 xi2 + (n 1) 2


Definidos os valores esperados para SQReg e STQ, calculamos agora para a SQRes:

79

Econometria

Anlise de Varincia
n

i =1

i =1

E ( SQ Re s ) = E ( STQ) E ( SQ Re g ) = [ 2 xi2 + (n 1) 2 ] [ 2 xi2 + 2 ]

E ( SQ Re s) = (n 2) 2
Finalmente, teremos o valor esperado para a estatstica F:
n

E ( F ) = E[

SQ Re g 1
]=
SQ Re g ( n 2)

2 xi2 + 2
i =1

Caso o valor de seja zero (hiptese nula do teste F para a Anlise de Varincia), teremos:
E ( F | = 0) =

2
=1
2

80

Econometria

Alexandre Gori Maia

PARTE II
Regresso Linear Mltipla

81

Econometria

Regresso Linear Mltipla

4. Introduo Regresso Linear Mltipla


Introduo
Embora a regresso com apenas uma varivel independente seja operacionalmente
simples e muito til para compreendermos conceitos e clculos, acaba, na prtica, sendo pouco
utilizada, j que mais de um fator explanatrio costuma afetar o comportamento de uma varivel
dependente. Ademais, como a presena nos erros de fatores relacionados varivel independente
tende a viesar as relaes de causa e efeito, o ideal seria tambm control-los como regressores
adicionais em nosso modelo. O modelo de regresso linear com mais de uma varivel
independente chamado de regresso linear mltipla (RLM).
O conceito de regresso mltipla foi introduzido por Karl Pearson em 1908 e vem sendo
constantemente aperfeioado. O MQO tambm pode ser utilizado para obter seus estimadores, os
quais apresentam procedimentos de clculos e propriedades muito semelhantes quelas da RLS.
Embora os clculos possam se tornar complexos, o emprego da lgebra matricial pode facilitar
seu desenvolvimento.
Uma das grandes virtudes da RLM permitir a anlise do efeito isolado de fatores
explanatrios sobre a varivel dependente. Em outras palavras, permite, por exemplo, verificar o
impacto da variao do preo sobre as vendas de uma mercadoria, desde que os preos de seus
substitutos no se alterem. Apresentaremos, neste captulo, os principais conceitos que envolvem
a RLM, assim como o clculo de seus estimadores pelo mtodo de MQO.

6.1.

Estimadores de MQO
Para compreender o conceito de regresso linear mltipla (RLM), vamos inicialmente

comparar um modelo com uma varivel independente (RLS) a outro com duas variveis
independentes (RLM). No modelo de RLS pressupomos que o comportamento de Y seja
linearmente determinado por uma nica varivel X. No caso da RLM com 2 variveis
independentes, pressupomos que o comportamento de Y seja linearmente determinado por X1 e
X2. Geometricamente, teramos uma reta representando o ajuste de RLS e uma superfcie plana
representando o ajuste de RLM:

82

Econometria

Alexandre Gori Maia

(1)

Yi = + 1 X 1i + 2 X 2i + ei

Yi = + X i + ei

Em ambas as situaes, o MQO pode ser empregado para obter os estimadores que
minimizam o erro quadrtico total (EQT), ou seja, a soma dos quadrados dos erros de previso.
No caso da RLS, o EQT ser funo das estimativas de e , pois:

EQT ( , ) = ei2 = [Yi ( + X i )]2

(2)

J no caso da RLM, o EQT depender das estimativas de , 1 e 2:


EQT ( , 1 , 2 ) = ei2 = [Yi ( + 1 X 1i + 2 X 2i )]2

(3)

Aplicando-se os conceitos de clculo diferencial, sabemos que os parmetros que


minimizam a funo de EQT so aqueles em que as respectivas derivadas parciais igualam-se a
zero. No caso da funo de EQT para a RLS (2), os estimadores de e seriam dados por:
EQT
= 0 = Y X

(4)

EQT
xi yi
= 0 =

xi2

E, no caso da funao de EQT para a RLM (3), teramos os seguintes estimadores de


MQO:
EQT
= 0 = Y 1 X 1 2 X 2

( yi x1i )( x22i ) ( yi x2i )( x1i x2i )


EQT
= 0 1 =
( x12i )( x22i ) ( x1i x2i ) 2

(5)

( yi x2i )( x12i ) ( yi x1i )( x1i x2i )


EQT
= 0 2 =
( x 2 )( x 2 ) ( x x ) 2

1i

2i

1i 2i

83

Econometria

Regresso Linear Mltipla

Em outras palavras, os estimadores obtidos em (4) so aqueles que minimizam o EQT do


modelo de RLS proposto em (1) e os estimadores obtidos em (5) so aqueles que minimizam o
EQT do modelo de RLM proposto tambm em (1).
Para interpretar os coeficientes dos modelos de RLS e RLM, podemos desenvolver
alguns simples exerccios matemticos. No caso do modelo de RLS, representar o valor
esperado de Y quando X for nulo e representar a variao marginal esperada em Y dada uma
variao unitria em X. Isso porque:
E[Y / X = 0] =

Y
=
X

(6)

A partir de desenvolvimento anlogo chegamos s interpretaes dos parmetros do


modelo de RLM (equaes 7). Neste caso, destaca-se o fato de as derivadas parciais
representarem as relaes entre as variaes marginais de duas variveis mantendo-se as demais
constantes. Assim, representar o valor esperado de Y quando ambos X1 e X2 forem nulos; 1
ser a variao marginal esperada em Y dada uma variao unitria em X1, mantendo-se X2
constante; e 2 ser a variao marginal esperada em Y dada uma variao unitria em X2,
mantendo-se X2 constante.

E[Y / X 1 = 0, X 2 = 0] =
Y
= 1
X 2

(7)

Y
= 2
X 2

Como as derivadas parciais (1 e 2) so constantes, dizemos ainda que a variao


marginal esperada em Y dada, por exemplo, uma variao unitria em X1 ser independente do
valor de X2 e vice-versa17. Graficamente, podemos observar que a inclinao do plano em (1) a
mesma para todos os valores de X1 e X2.

17

Nem sempre a variao marginal em Y ser independente dos valores dos regressores. Por exemplo, no modelo

Y = + 1 X 1 + 2 X 12 + e , a variao marginal em Y ser funo do valor de X1, ou seja, Y X 1 = 1 + 2 2 X 1

84

Econometria

Alexandre Gori Maia

O modelo de RLM com duas variveis independentes pode ser extrapolado para um
conjunto de k variveis independentes. Genericamente, um modelo de regresso linear mltipla
com k variveis independentes e p (p=k+1) parmetros ser dado por:

Yi = + 1 X 1i + 1 X 2i + ... + k X ki + ei

(8)

Onde:

o valor esperado de Y quando todos as variveis independentes forem nulas;


k a variao esperada em Y dado um incremento unitrio em Xk, mantendo-se
constantes todas as demais variveis independentes;
ei o erro no explicado pelo modelo.

Exemplo 1. Suponha dois modelos para prever o consumo de energia eltrica de domiclios
(Kwh):
Kwhi = + ACi + ei

Kwhi = + 1 ACi + 2 SECi + ei

O primeiro caso pressupe que o consumo de energia seja unicamente determinado pelas horas
de ar condicionado ligado (AC). Nesse caso, indicaria o consumo de energia esperado para
uma residncia em que o ar condicionao permanea desligado e indicaria o consumo de
energia adicional esperado para cada hora adicional com ar condicionado ligado.
No segundo, pressupe-se que o consumo de energia seja conjuntamente determinado por uma
funo linear das horas de ar condicionado e secadora (SEC) ligados. Neste caso, indicaria o
consumo esperado de energia quando ambos ar condicionado e secadora permaneam
desligados. O coeficiente 1 indicaria o aumento no consumo esperado de energia para cada hora
adicional com ar condicionado ligado, mantendo-se constante o tempo de uso da secadora.
Analogamente, o coeficiente 2 indicaria o efeito isolado de uma hora adicional com a secadora
ligada sobre o consumo esperado de energia.

6.2.

Estimadores de MQO a partir de notao matricial


Os clculos utilizados para obter os estimadores de MQO em (4) e (5) podem tornar-se

demasiadamente complexos medida que novas variveis independentes sejam incorporadas no


modelo de RLM. Para simplificar esse processo, trabalha-se com a notao matricial,
representando as equaes lineares a partir de funes matriciais.
85

Econometria

Regresso Linear Mltipla

Para compreender esse processo, suponha inicialmente um modelo de RLS com sua
equivalente representao matricial:

Yi = + X i + ei

y = X + e

ou

ou

Y1 = + X 1 + e1

Y1
X 1 e1
Y1 1
1




Y2
X 2 e2
Y2 1
1
... = ... + ... + ... ... = ...




1
Y
X e
Y 1

n
n n
n

Y2 = + X 2 + e2
...
Yn = + X n + en

X1
e1


X 2 e2
+
... ...


e
X n
n

(9)

A partir da funo linear em (9), sabemos que, para obter os estimadores de MQO,
devemos minimizar sua funo de EQT (equaes 2 e 4). Analogamente, podemos tambm
derivar a expresso matricial obtida em (9) para obter a notao matricial dos estimadores de
MQO. Neste caso, a funo de EQT ser expressa por:
EQT = e T e

(10)

Onde
e = y y
y = X

(11)

Aplicando clculo diferencial em funes matriciais chegaremos ao vetor de estimadores


que minimiza a funo EQT (o desenvolvimento desta derivada apresentado no Apndice A):
EQT
= 0 = ( X T X) 1 ( X T y )

(12)

A grande vantagem da expresso matricial para o clculo dos estimadores de e , no


caso, do vetor coluna , que este indiferente ao nmero de variveis. Assim, para o caso do
modelo de regresso mltipla com k variveis independentes e p coeficientes teramos:

86

Econometria

Alexandre Gori Maia

Yi = + 1 X 1 + 2 X 2 + ... + k X k + ei
ou
Y1 = + 1 X 11 + 2 X 21 + ... + k X k1 + e1
Y2 = + 1 X 12 + 2 X 22 + ... + k X k2 + e2

(13)

...
Yn = + 1 X 1n + 2 X 2n + ... + k X kn + en
Com a equivalente representao matricial:
y = X + e

ou
(14)

Sendo que o vetor de estimadores de MQO continua sendo dado por (12).
Importante ainda destacar que as pressuposies do modelo de regresso linear mltipla
para que os estimadores de MQO sejam os MELNV so muito semelhantes s do modelo
simples:
1. A v.a. Yi uma funo linear das variveis explanatrias (Xij, j=1..k);
2. Os valores de Xj so fixos (controlados) em repetidas amostras;
3. Esperana condicional dos erros igual a zero, ou seja, E(ei)=0;
4. Os erros so homocedsticos, ou seja, E( ei2 )=2;
5. Os erros so no-correlacionados, ou seja, E(eiej)=0, para ij;
E, para que tenhamos um modelo clssico de regresso linear (MCRL), devemos ainda
considerar que:
6. Os erros esto normalmente distribudos;
Combinando os pressupostos 4 e 5 teremos, em representao matricial:

87

Econometria

Regresso Linear Mltipla

e12

e e
E (ee T ) = E 2 1
...

en e1

e1e2
e22
...
e n e2

... e1en 2

... e2 en
=
... ... ...

... en2 0

...
0

0
= I 2

... ...

... 2
...
...

(15)

Em outras palavras, a matriz de varincias e covarincias ser uma matriz escalar, com
constantes (2) na diagonal principal, que representa a varincia para cada ponto observao i, e
valores nulos nas partes superior e inferior da matriz, que representam as covarincias entre ei e
ej.
importante tambm destacar que, caso o pressuposto 6 sej vlido (normalidade dos
erros) e tenhamos um MCRL, os estimadores de MQO tero varincia mnima entre quaisquer
estimadores no viesados de j, no apenas entre os estimadores lineares.
Exemplo 2. Em uma amostra de 4 ocupados, observaram-se o rendimento do trabalho em

nmero de salrios mnimos (Y, em SM), anos de estudo (X1) e idade (X2) da pessoa de referncia
na famlia.
Y (Renda)

X1 (Anos Estudo)

10

15

X2 (Idade)

21

30

40

50

Supe-se que a relao entre as variveis seja dada por:

Yi = + 1 X 1i + 2 X 2i + ei
Que, a partir da notao matricial, nos daria:
y = X + e

ou

Aplicando MQO para obter o vetor com os estimadores de , teramos:


= ( X T X) 1 ( X T y )

88

Econometria

Alexandre Gori Maia


1

1 5 21
4
1 1 1 1
1 1 1 1

1 10 30
6
= 5 10 15 0
5
10
15
0

1 15 40
8

21 30 40 50
21 30 40 50

1 0 50
6

30
141 24 0,829
4

= 30 350 1005 200 = 0,203


141 1005 5441 884 0,103

Assim, o ajuste de MQO seria dado por:

Yi = 0,829 + 0,203X 1i + 0,103X 2i + ei

Em outras palavras, espera-se, para cada ano adicional de estudo do ocupado, um aumento de
0,203 SM na renda do trabalho, mantendo-se constante a idade da pessoa. E, para cada ano de
idade adicional, espera-se um aumento de 0,103 SM na renda, independente dos anos de
escolaridade.
6.3.

O uso de variveis centradas

Os exaustivos clculos matriciais necessrios para obteno do vetor de estimadores de


podem ser facilitados com o emprego de variveis independentes centradas. Antes de verificar
sua aplicao na regresso linear mltipla, vamos compreender seus conceitos e consequncias
na anlise da RLS.

Varivel dependente e independente centradas

Suponha inicialmente que tenhamos um modelo de RLS de Y em funo de X:

89

Econometria

Regresso Linear Mltipla

Yi = + X i + ei
Onde:

= Y X
n

( X i X )(Yi Y )

i =1

xi yi

(Xi X )

(16)

i =1
n

xi

i =1

i =1

Se ajustarmos um novo modelo substituindo as variveis originais Yi e Xi pelas suas


respectivas variveis centradas yi e xi teremos:

yi = + xi + ei

(17)

Onde
y i = Yi Y

e xi = X i X

(18)

Geometricamente, isso significa que substituimos os eixos originais por aqueles


representando os valores mdios de Y e X. Assim, o novo modelo passar obrigatoriamente pela
origem sem, entretanto, qualquer mudana na inclinao ou qualidade do ajuste.

(19)

Para demostrar que o novo ajuste ter intercepto nulo e inclinao semelhante de (16),
basta lembrarmos que a soma dos desvios em relao mdia aritmtica igual a zero.
Consequentemente:
y=0 e x=0

(20)

E:

= y x = 0
n

( xi x )( yi y )

i =1

( xi x ) 2

i =1

xi y i
=

i =1
n

(21)

xi2

i =1

90

Econometria

Alexandre Gori Maia

Uma vez estimado o valor de (ou ), pode-se chegar a (da equao 16) atravs de:

= Y X = Y X

(22)

Varivel independente centrada

Raciocnio anlogo pode ser considerado para o modelo com varivel dependente
original e independente centrada:

Yi = + xi + ei

(23)

Nesse caso, apenas o eixo das ordenadas (Y) seria transposto para a mdia de X, como
pode ser observado pela Figura (24). Embora mude o intercepto do novo modelo, que passar
agora pelo valor mdio de Y, no h qualquer alterao na inclinao ou qualidade da reta de
regresso.

(24)

Para demostrar que o novo ajuste ter intercepto igual mdia de Y e inclinao
semelhante de (16), devemos desenvolver:

= Y x = Y
n

( xi x )(Yi Y )

i =1

( xi x ) 2

i =1

xi y i

i =1
n

(25)

xi2
i =1

A partir de pode-se ainda chegar a atravs de:

= Y X = Y X

(26)

Regresso linear mltipla com variveis independentes centradas

Para facilitar as operaes matriciais, sobretudo a inverso da matriz XTX, podemos


tambm trabalhar em regresso linear mltipla com variveis independentes centradas.

91

Econometria

Regresso Linear Mltipla

Duas matrizes utilizadas em muitas fases da anlise de regresso linear mltipla (por
exemplo, na equao 12) so:
n

X1
j
XT X =
...

X k
j

X1
X 12

X1
X1 X 2

...
X1j X k j

...
X2j Xkj

...

...
...
...

Xk
X1 X k
j

...
X k2J

Y j

X
Y

1
j
j
XT y =

...

X k Yj
j

(27)

Entretanto, se considerarmos um ajuste com variveis independentes centradas, onde:

x k i = X ki X k

(28)

O sistema de equaes ser dado por:


Y1 1 x11

Y2 1 x12
... = ... ...

Y 1 x
1n
n

... x k1 e1

... x k2 1 e2
+
... ... ... ...

... x kn k en

x 21
x 22
...
x 2n

(29)

Como:

j xk j = 0

(30)

Teremos:
n

0
T
X X=
...

0
x12J
...

1j

xk j

0
x1 j x2 j
...

...
...
...

0
x1 j xk j
...

...

2j

xk j

2
kJ

Y j

x1 j Y j

T
e X y = ...

xk Y j
j

(31)

Que mais fcil de ser invertida que a matriz XTX em (27). Assim como no ajuste de
variveis independentes centradas de RLS, o ajuste de RLM ter a mesma inclinao (s) e
qualidade do ajuste. Apenas o intercepto de (29) ser diferente do de (9), j que o primeiro
representar o valor mdio de Y (ver equao 26). Entranto, a estimativa do intercepto para o
modelo original pode facilmente ser obtido por:

= Y i i X i

(32)

92

Econometria

Alexandre Gori Maia

Exemplo 3. Poderamos chegar aos mesmos resultados do Exemplo 2 utilizando variveis


independentes centradas. Nesse caso, teramos:

X 1 = 7,5 e X 2 = 35,25
E os dados da amostra ficariam:

x1

-2,5

2,5

7,5

-7,5

x2

-14,25

-5,25

4,75

14,75

O ajuste seria ento com as variveis centradas x1 e x2:

Yi = + 1 x1i + 2 x2i + ei
Que, a partir da notao matricial, teramos:
y = X + e

ou

4 1 - 2,5 - 14,25 e1


6 1 2,5 - 5,25 e2
1 +
8 = 1 7,5
4,75 e3


6 1 - 7,5 14,75 2 e

4
Devemos ento calcular o vetor de estimadores de :
= ( X T X ) 1 ( X T y )

Resolvendo as operaes matriciais chegaremos a:


0
0
4

= 0 125 - 52,5
0 - 52,5 470,75

24 6

20 = 0,203
38 0,103

Note que a matriz XTX ficou muito mais fcil de ser invertida. O termo 4 na primeira linha e
primeira coluna pode ser invertido isoladamente e, invertendo a sub-matriz resultante, cujo
determinante 56088:

93

Econometria

Regresso Linear Mltipla

1/4
= 0

1
(470,75)
56088
-1
(52,25)
56088

24 6
-1
(52,25) 20 = 0,203

56088

38 0,103
1
(125)
56088

Falta apenas obter a constante do modelo com variveis originais, que, segundo equao (31),
ser dado por:

= 6 [0,203(7,5) + 0,103(35,25)] = 0,829


Chegando ao ajuste de MQO:

Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + ei


Exerccios

1. Observaram-se os gastos mensais com alimentao (Y, em 1000 reais), renda mensal (X1, em
1000 reais) e distncia da residncia ao supermercado mais prximo (X2, em km) de 4
domiclios:
Y

0,4

0,2

0,3

0,6

X1

X2

a) Estime e interprete os coeficientes do modelo de regresso linear mltipla para os


gastos mensais com alimentao em funo da renda mensal e tamanho da famlia;
2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:
Ano

1974

1975

1976

1977

Y (kg per capita)

74

82

84

110

X1 (1.000 R$)

10

X2 (R$ / kg)

0.8

1.2

1.2

1.0

a) Estime e interprete os coeficientes da funo demanda relacionando o consumo renda


e ao preo do frango;
b) Estime e interprete os coeficientes da funo demanda relacionando o log do consumo
ao log da renda e ao log do preo do frango;

94

Econometria

Alexandre Gori Maia

3. Uma amostra de 4 pases forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dlares) e nmero de
mdicos (X2, em mdios por 1000 habitantes):
Y

X1

10

12

13

16

X2

Suponha agora que a relao entre as variveis seja dada por:

Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a)

Estime os coeficientes do modelo por MQ;

b)

Interprete as estimativas dos coeficientes angulares;

Caso necessrio, trabalhe com os seguintes valores para o logaritmo natural:


Z

10

12

13

16

ln(Z)

0,7

1,1

1,4

1,6

1,9

2,1

2,3

2,5

2,6

2,8

4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhes de reais), investimento (X1, em milhes de reais)
e horas trabalhadas (X2, em mil horas):
ln(Y)

ln(X )

ln(X )

4,1

3,0

2,0

20

4,5

3,0

2,0

191

55

55

5,2

4,0

4,0

493

403

55

6,2

6,0

4,0

60

20

90

Suponha agora que a relao entre as variveis seja dada por:

ln(Yi ) = + 1 ln( X 1 ) + 2 ln( X 2 ) + ei


a) Estime os coeficientes do modelo por MQO e interprete as estimativas dos coeficientes
angulares;
5. (ANPEC, 1994) Considerando o modelo de regresso mltipla
95

Econometria

Regresso Linear Mltipla

Yi = 0 + 1 X 1i + 2 X 2i + K + k X ki + ei
Pode-se afirmar que:
a) O mtodo, dos mnimos quadrados ordinrios (MQO), usado para estimar os coeficientes

j , j = 0,1,K , k exige que o erro tenha distribuio normal.


b) Os estimadores de MQO dos coeficientes j , j = 0,1,K , k so no viciados (ou no
viesados).
c) Os coeficientes j , j = 0,1, K , k podem ser interpretados como as elasticidades entre os
regressores X j e a varivel Y.
6. (ANPEC, 1995) Em um modelo clssico de regresso linear mltipla:
a) Uma das hipteses estabelece que as variveis explicativas so linearmente independentes.
b) Cada uma das variveis explicativas tem distribuio normal.
c) A varincia da varivel dependente igual varincia do termo aleatrio.
Respostas

1) a. = (0,8; 0,1; 0,25)


2) a. = (35; 10,5; 30) ; b. = (2,52; 0,95; 0,39)
3) a. Yi = 91,5 30 ln( X 1i ) 6 X 2i + ei
4) a. ln(Yi ) = 2,4 + 0,5 ln( X 1i ) + 0,2 ln( X 2i ) + ei
5) a. F; b. F; c. F;
6) a. F; b. F; c. F;

96

Econometria

Alexandre Gori Maia

Apndice A Estimadores de MQO para Regresso Linear Mltipla

Seja o modelo de regresso linear mltipla populacional dado por:


y = X + e

A funo equivalente na amostra ser:


y = X + e

Onde
y = X

Ento, a funo EQT ser dada por:


EQT = e T e = ( y y ) T ( y y ) = ( y X ) T ( y X )

Desenvolvendo teremos:
EQT = y T y y T X T X T y + T X T X

Como os produtos das matrizes y T X e T X T y resultam em grandezas escalares e uma


transposta da outra, essas podem ser somadas:
EQT = y T y 2 T X T y + T X T X

Para encontrarmos o ponto de mnimo de EQT, devemos igualar a zero sua derivada em relao
a . Primeiro, a representao da derivada do escalar EQT em funo do vetor ser dada por:
EQT EQT
=

EQT

...

EQT

Antes de minimizarmos a expresso, devemos relembrar duas propriedades bsicas da


diferenciao matricial. Primeiro, seja aT uma vetor linha de constantes e w um vetor coluna
de variveis, ento:
(a T w )
=a
w

Considere agora a matriz definida por wTAw. Ento teremos:


( w T Aw )
= 2 Aw
w

Em forma de um vetor coluna, ou:


97

Econometria

Regresso Linear Mltipla

( w T Aw )
= 2w T A
w

Em forma de um vetor linha.


Ento, prosseguindo com a diferenciao da funo EQT, teremos:
EQT ( y T y 2 T X T y + T X T X )
=
= 2 X T y + 2 X T X

Para minimizarmos a funo de EQT, devemos igualar sua derivada a zero e teremos:
2 X T X = 2 X T y

Ou, simplesmente:
= ( X T X) 1 X T y

98

Econometria

Alexandre Gori Maia

Apndice B Exatido e Eficincia dos Estimadores de MQO

Devemos demonstrar que, caso os pressupostos (i) a (iii) do teorema de Gauss-Markov sejam
vlidos, os estimadores de MQO para a RLM so no viesados e que, caso os pressupostos (iv)
a (v) tambm sejam vlidos, os mesmos so tambm eficientes.
Primeiro, o estimador de MQO dado por:
= ( X T X) 1 X T y

Como y = X + e , teremos:
= ( X T X) 1 X T ( X + e) = ( X T X ) 1 ( X T X) + ( X T X) 1 X T e

E, como ( X T X ) 1 ( X T X) = I :
= + ( X T X) 1 X T e

Pressupondo que os valores de Xj sejam fixos (pressuposto ii) e que a esperana condicional dos
erros seja zero (pressuposto iii), o valor esperado de ser:
E ( ) = + ( X T X) 1 X T E (e)
E ( ) =

O prximo passo demonstrar que a varincia do estimador mnima entre os estimadores


lineares no viesados de . Primeiro, a matriz de varincias e covarincias de ser:
Var ( ) = E[( )( )T ] = E{[( X T X) 1 X T e][( X T X ) 1 X T e]T }
Var ( ) = E[( X T X ) 1 X T eeT X( X T X) 1 ]

Pressupondo que os valores de Xj sejam fixos (pressuposto ii), teremos:


Var ( ) = ( X T X) 1 X T E (eeT ) X ( X T X) 1

E, caso os erros sejam homocedsticos (pressuposto iv) e no autocorrelacionados (pressuposto


v), ento E(eeT)=2I e:
Var ( ) = ( X T X) 1 X T 2 IX ( X T X ) 1
Var ( ) = ( X T X ) 1 2

99

Econometria

Regresso Linear Mltipla

Vamos agora representar qualquer outro estimador linear de por:


= W T y

Onde W uma matriz de ordem n k com valores que definem uma combinao linear de y.
Considerando que y = X + e teremos:
= W T ( X + e) = W T X + W T e

E o valor esperado de ser:


E ( ) = E ( W T X + W T e) = W T X + W T E (e)

Pressupondo a esperana dos erros igual a zero (pressuposto iii):


E ( ) = E ( W T X + W T e) = W T X

Assim, para que seja no viesado, ou seja E ( ) = , devemos ter:


WT X = I

A varincia de , por sua vez, ser dada por:


Var ( ) = E[( )( ) T ] = E[( W T X + W T e )( W T X + W T e ) T ]

Assumindo W T X = I :
Var ( ) = E[( W T e)( W T e) T ] = E ( W T ee T W ) = W T E (ee T ) W = W T W 2

Comparando agora as varincias de e teremos:


Var ( ) Var ( ) = ( W T W ) 2 ( X T X) 1 2 = [( W T W ) ( X T X) 1 ] 2

Utilizando um malabarismo algbrico, inclumos W T X = I na equao:


Var ( ) Var ( ) = [ W T W W T X( X T X ) 1 X T W ] 2
Var ( ) Var ( ) = W T [I X( X T X) 1 X T ]W 2

A matriz X ( X T X ) 1 X T muito utilizada em econometria e denominada de matriz chapu


(hat matrix). O motivo o fato de esta ser tambm utilizada para a estimao dos valores
estimados da varivel dependente. Uma propriedade importante da matriz chapu que esta
idempotente, ou seja, quando multiplicada por si mesma, resulta em si mesma (AA=A). Se

100

Econometria

Alexandre Gori Maia

X ( X T X ) 1 X T idempotente, ento I X ( X T X) 1 X T tambm . Toda matriz idempotente

positiva semi-definida, ou seja, o produto W T [I X( X T X ) 1 X T ]W ser sempre maior ou igual


a zero. Assim, temos que:
Var ( ) Var ( ) 0

Ou seja, a varincia do estimador de MQO ser sempre menor ou igual de outro estimador
linear no viesado de .

101

Econometria

ANOVA para Regresso Linear Mltipla

5. Anlise de Varincia para Regresso Linear Mltipla


Introduo

Aps estimar e interpretar os coeficientes de um modelo de RLM pelo MQO,


necessrio iniciar a anlise da qualidade do ajuste. Em outras palavras, preciso verificar em que
medida podemos inferir sobre a relao linear entre as variveis na populao a partir do que
observamos na amostra.
Passos essencias para essa anlise so a elaborao da tabela ANOVA e o clculo do
coeficiente de determinao. Embora com procedimentos muito semelhantes aos da RLS, essa
anlise da variabilidade dos resduos com mltiplas variveis independentes possui algumas
peculiaridades e requer ateno na interpretao. Em especial, na compreenso dos efeitos
parciais e combinados das variveis independentes sobre a dependente.
7.1.

Coeficiente de determinao e estatstica F

Assim como em RLS, a anlise dos resduos fundamental para compreender a qualidade
do ajuste de RLM. O primeiro passo decompor a soma total dos quadrados (STQ) em: soma
dos quadrados da regresso (SQReg), e dos resduos (SQRes). Embora anloga da RLS,
ressalva-se o fato de que agora as distncias da soma dos quadrados (SQs) referem-se ao ajuste
de um plano de um espao de k+1 dimenses (k+1= k variveis independentes + 1 varivel
dependente), no mais simplesmente de uma reta em um espao de 2 dimenses.
As SQs em suas respectivas notaes matriciais sero dadas por18:
Soma Total dos Quadrados (STQ)

Representa variabilidade total da varivel depedente:


n

STQ = (Yi Y ) = yi = y y nY
2

i =1

(1)

i =1

Soma dos Quadrados da Regresso (SQReg)

Variabilidade da varivel dependente explicada pelo


conjunto das k variveis independentes do modelo:

(2)

SQ Re g = (Yi Y ) 2 = T X T y nY 2
i =1

18

O desenvolvimento algbrico dessas expresses pode ser acompanhado no Apndice A.

102

Econometria

Alexandre Gori Maia

Soma dos Quadrados dos Resduos (SQRes)

Variabilidade da varivel dependente no explicada pelo


conjunto das variveis independentes:

(3)

SQ Re s = (Yi Yi )2 = e T e = y T y T X T y
i =1

As SQs so medidas de varabilidade total e no consideram o nmero de observaes da


amostra (quanto maior o tamanho da amostra, maior a variabilidade total), nem o nmero de
variveis independentes (quanto maior o nmero de variveis independentes, maior tende a ser a
SQReg). Os quadrados mdios (QMs), por sua vez, permitem uma estimativa mdia das
variabilidades quadrticas ponderando as SQs pelos respectivos graus de liberdade (gl). Todos
esses resultados podem ser observados em uma verso prvia da tabela ANOVA:

(4)

Sabemos que os graus de liberdade da STQ so iguais a n1 pois, das n observaes da


amostra, uma apresentar valor fixo em funo da restrio imposta pela equao (Yi Y ) = 0 .
Os resduos, por sua vez, apresentaro n(k+1) graus de liberdade pois k+1 restries so
impostas s n observaes da amostra para obter os parmetros do modelo (pressupondo um
modelo de RLM com k coeficientes angulares e um intercepto)19. E a regresso apresentar
apenas k graus de liberdades, equivalentes ao nmero de coeficientes angulares que podem variar
aleatoriamente para obteno da SQReg.
Da tabela ANOVA derivam-se duas importantes estatsticas da qualidade do ajuste da
regresso linear: o coeficiente de determinao (R2) e a estatstica F. O coeficiente de
determinao uma medida descritiva da proporo da variabilidade da varivel dependente que
explicada pelo conjunto das k variveis independentes do modelo de regresso, sendo dado por:

19

As restries impostas SQRes referem-se soma zero dos resduos e ausncia de correlao entre os resduos e

cada uma das variveis independentes. Em outras palavras:

ei = 0 ; ei X 1

= 0 ; ...;

ei X k

=0

103

Econometria

ANOVA para Regresso Linear Mltipla

R2 =

SQ Re g
SQ Re s
= 1
STQ
STQ

(5)

A estatstica F, por sua vez, permite verificar se a variabilidade explicada pelo ajuste de
regresso significativa, ou seja, se o valor observado de R2 na amostra pode ser considerado
estatisticamente diferente de zero. A estatstica F ser dada pela razo entre os quadrados mdios
da regresso e dos resduos:
F=

SQ Re g / k
~ Fk ,n k 1
SQ Re s /(n k 1)

(6)

As propriedades da estatstica F para a RLM so semelhantes quelas da RLS. Sob a


hiptese nula de que o modelo no contribui para explicar o comportamento de Y, espera-se que
a SQReg seja mnima e a SQRes seja mxima, fazendo com que a estatstica F apresente valores
baixos. O valor esperado da estatstica F na hiptese de contribuio nula do modelo ser igual a
1.
medida que o modelo contribua significativamente para explicar o comportamento de
Y, a SQReg tende a ser mxima e a SQRes mnima, fazendo com que a estatstica F apresente
valores elevados. Assim, quo maior o valor da estatstica F, mais evidncias teremos para
rejeitar a hiptese nula de que o modelo no contribui para explicar o comportamento de Y. O
valor p ser a medida da probabilidade de erro que estaremos sujeitos caso rejeitemos H0.

(7)

Um detalhe importante desse teste F para a RLM que no rejeitar H0 implica afirmar
que nenhuma das k variveis independentes contribui para explicar a variabilidade de Y. Assim,
se o modelo no contribui para explicar Y, todos os coeficientes angulares sero iguais a zero, j
que nenhuma varivel independente seria necessria no modelo. Por outro lado, se o modelo
contribui para explicar Y, pelo menos um coeficiente angular seria diferente de zero. Ou seja,
pelo menos uma varivel independente seria necessria no modelo, no necessariamente todas.

104

Econometria

Alexandre Gori Maia

Uma representao esquemtica de possveis resultados para o ajuste de RLM com duas
variveis independentes Y = + 1 X 1 + 2 X 2 + e apresentada na Figura (8). Os trs primeiros
exemplos representam situaes em que pelos menos uma das variveis independentes contribui
para explicar a variabilidade de Y e, consequentemente, a hiptese nula deveria ser rejeitada. No
ltimo exemplo, nenhuma das variveis contribui para explicar a variabilidade de Y e a hiptese
nula no deveria ser rejeitada.

(8)

Pode-se ainda demonstrar que o teste F, ao medir a significncia geral da regresso


estimada, tambm um teste de significncia de R2. Em outras palavras, testar a hiptese nula de
que os coeficientes angulares so simultaneamente iguais a zero o mesmo que testar a hiptese
nula de que o R2 igual a zero. Para melhor compreender essa relao, podemos tambm
expressar a estatstica F como uma funo do R2:
F=

(n k 1) SQ Re g (n k 1) SQ Re g / SQT
=
k
SQ Re s
k
(1 SQ Re g / SQT )
(n k 1) R 2
R2 / k
F=
=
k
(1 R 2 ) (1 R 2 ) /(n k 1)

(9)

Exemplo 1. Vamos aproveitar os resultados obtidos no ajuste estabelecido para a relao linear
entre a varivel dependente rendimento familiar (Y) e as variveis independentes anos de estudo
(X1) e idade do responsvel pela famlia (X2), onde:

Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + ei


O primeiro passo na anlise da qualidade do ajuste obter as somas dos quadrados:

105

Econometria

ANOVA para Regresso Linear Mltipla

4

6
T
2
STQ = y y nY = (4 6 8 6) 4(6) 2 = 152 144 = 8
8

6

24

SQ Re g = T X T y nY 2 = (0,829 0,203 0,103) 200 4(6) 2 = 151,998 144 = 7,998


884

SQ Re s = STQ SQ Re g = 8 7,998
O coeficiente de determinao ser ento dado por:
R2 =

SQReg
= 0,9998
STQ

Significando que as variveis independentes anos de estudo e idade da pessoa responsvel pela
famlia explicam, conjuntamente, quase a totalidade (99,98%) da variabilidade observada para a
renda familiar na amostra.
Embora expressiva, essa contribuio no pode ser considerada estatisticamente significativa
sem a realizao do teste F da ANOVA. A estatstica F para testar a hiptese nula de que todos
os coeficientes angulares so iguais a zero ser dada pela razo entre os quadrados mdios da
regresso e dos resduos. Os resultados aparecem sistematizados na tabela ANOVA:

O valor p associado ao valor da estatstica F de 0,0149. Assim, h fortes evidncias para


afirmar que o modelo contribua para explicar a variabilidade da renda familiar. A probabilidade
de erro ao fazermos tal afirmao muito baixa, de aproximadamente 1,5%.

7.2.

Coeficiente de determinao ajustado


A incluso de variveis independentes adicionais em um modelo de RLM tender a

aumentar a SQReg e, consequentemente, o valor o R2. Na pior das hipteses, quando a


contribuio da varivel independente adicional for nula, a SQReg e o R2 permancero com o

106

Econometria

Alexandre Gori Maia

mesmo valor. Assim, modelos com mais variveis independentes tendem a apresentar valores
mais elevados para o R2. Por exemplo, sejam as medidas de qualidade do ajuste:
Yi = + 1 X 1i + 2 X 2i + ei

(10)

A incluso de uma varivel independente adicional (X3) iria, na pior das hipteses,
manter o mesmo valor para SQReg e R2 (R2y12, no exemplo) quando esta varivel no possuir
qualquer relao linear com Y:
Yi = + 1 X 1i + 2 X 2i + 3 X 3i + ei

(11)

Esse comportamento ocorre porque as estatsticas SQReg e R2 so medidas de


variabilidade total e no de variabilidades mdias. Nesse sentido, a soluo proposta pelo
coeficiente de determinao ajustado ( R 2 ) justamente ponderar o R2 pelos respectivos graus de
liberdade associados a cada SQ:
R 2 = 1

SQ Re s /[ n (k + 1)]
n 1
= 1 (1 R 2 )
STQ /(n 1)
n (k + 1)

(12)

O R 2 particularmente til quando desejamos comparar modelos de RLM para a mesma


varivel dependente, pois penaliza aquele modelo com maior nmero de variveis
independentes. Assim, quando novas variveis independentes so acrescentadas ao modelo de
regresso, o R2 sempre aumentar, equanto que o R 2 poder aumentar ou diminuir. Reduz-se,
dessa maneira, a tentao de incluir novas variveis independentes, muitas vezes, desnecessrias
ao modelo de regresso.
De maneira geral, podemos demonstrar que:
107

Econometria

ANOVA para Regresso Linear Mltipla

1. Se k=1, R2= R 2 ;
2. Se k>1, R2 R 2 ;
3. R 2 pode ser negativo.
Podemos ainda afirmar que, ao incluirmos uma varivel independente adicional no
modelo de RLM, o R 2 somente aumentar se a estatstica t associada a essa varivel for maior
que 1 em valor absoluto. Analogamente, ao incluirmos um conjunto de j variveis independentes,
o R 2 somente aumentar se a estatstica F associada contribuio conjunta dessas variveis for
maior que 1.

Exemplo 2. Aproveitando os resultados do ajuste estabelecido para a relao linear entre a


varivel dependente rendimento familiar (Y) e as variveis independentes anos de estudo (X1) e
idade do responsvel pela famlia (X2), teremos:
R 2 = 1 (1 0,9998 )

4 1
= 0,9996
4 (2 + 1)

Nesse caso, no h grande impacto do nmero de observaes sobre o coeficiente de


determinao, que mantm-se elevado mesmo ajustado para ponderar o nmero de observaes
da amostra e o nmero de variveis independentes.

Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e distncia ao supermercado mais prximo (X2, em km) de 4
famlias, pede-se:
Y

0,4

0,2

0,3

0,6

X1

X2

a) Calcule STQ, SQReg e SQRes;


b) Calcule e interprete R2 e R 2 ;
c) Construa tabela ANOVA e interprete o teste F.

108

Econometria

Alexandre Gori Maia

2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:

Ano

1974

1975

1976

1977

Y (kg per capita)

74

82

84

110

X1 (1.000 R$)

10

X2 (R$ / kg)

0.8

1.2

1.2

1.0

a) Estime e interprete os resultados da tabela ANOVA pressuponto que a relao entre as


variveis seja dada por Y = + 1 X 1 + 2 X 2 + e ;
b) Estime e interprete os resultados da tabela ANOVA pressuponto que a relao entre as
variveis seja dada por ln(Y ) = + 1 ln( X 1 ) + 2 ln( X 2 ) + e ;
c) Qual dos dois modelos voc considera mais apropriado para representar a relao entre as
variveis?
3. Uma amostra de 4 pases forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dlares) e nmero de
mdicos (X2, em mdios por 1000 habitantes):
Y

X1

10

12

13

16

X2

Suponha agora que a relao entre as variveis seja dada por:

Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a) Construa a tabela ANOVA e interprete o nvel de significncia do teste F;
b) Calcule e interprete o coeficiente de determinao e o coeficiente de determinao ajustado.
Caso seja necessrio, trabalhe com os seguintes valores para o logaritmo natural:
Z

10

12

13

16

ln(Z)

0,7

1,1

1,4

1,6

1,9

2,1

2,3

2,5

2,6

2,8

109

Econometria

ANOVA para Regresso Linear Mltipla

4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhes de reais), investimento (X1, em milhes de reais)
e horas trabalhadas (X2, em mil horas):

ln(Y)

ln(X1)

ln(X2)

4,1

3,0

2,0

20

4,5

3,0

2,0

55

55

5,2

4,0

4,0

6,0

4,0

60

20

90
191

493
403
55
6,2
Suponha agora que a relao entre as variveis seja dada por:

ln(Yi ) = + 1 ln( X 1 ) + 2 ln( X 2 ) + ei


a) Construa a tabela ANOVA e interprete o nvel de significncia do teste F;
b) Calcule e interprete o coeficiente de determinao e o coeficiente de determinao ajustado.
5. Considerando o modelo de regresso mltipla
Yi = 0 + 1 X 1i + 2 X 2i + K + k X ki + ei
Pode-se afirmar que:
a) (ANPEC, 1993) A anlise de varincia da regresso testa se todos os coeficientes estimados
da regresso ( $ j ) so significantes simultaneamente.
b) (ANPEC, 1993) O coeficiente de determinao mltipla corrigido para graus de liberdade
pode ser negativo.
c) (ANPEC, 1994) Se adicionarmos um novo regressor X k +1 equao acima, ento o
coeficiente de determinao R 2 pode ou no aumentar.
6. (ANPEC, 1995) Em um modelo clssico de regreso linear mltipla, a comparao do poder
explicativo de modelos envolvendo nmero diferente de variveis explicativas deve ser feita
com base no R 2 ajustado.

Respostas
1) a. STQ=0,0875; SQReg=0,0825; SQRes=0,005; b. R2=0,9429; R 2 =0,8286; c. F=8,25;
p=0,2391.
110

Econometria

Alexandre Gori Maia

2) a. STQ=731; SQReg=729; SQRes=2; F=182.25; p=0,0523; R2=0,9973; R 2 =0,9918; b.


STQ=0,0858; SQReg=0,0855; SQRes=0,0003; F=147,3; p=0,0582; R2=0,9966; R 2 =0,9899.
3) a. STQ=10; SQReg=9; SQRes=1; F=4,5; p=0,316; b. R2=0,9; R 2 =0,7.
4) a. STQ=2,54; SQReg=2,46; SQRes=0,08; F=15,375; p=0,1775; b. R2=0,97; R 2 =0,91.
5) a. F; b. V; c. V.
6) V.

111

Econometria

ANOVA para Regresso Linear Mltipla

Apndice A ANOVA em Regresso Linear Mltipla


Iremos iniciar o desenvolvimento das expresses matriciais para as somas dos quadrados da
regresso linear mltipla pela SQRes. Primeiro, de desenvolvimento anterior, sabemos que a
SQRes ser:
SQ Re s = y T y 2 T X T y + T X T X

Como = ( X T X ) 1 ( X T y ) , ento X T X = X T y e:
SQ Re s = y T y 2 T X T y + T X T y

Teremos, ento, a expresso matricial para a SQRes:


SQ Re s = y T y T X T y

Por sua vez, a STQ ser:


n

i =1

i =1

i =1

i =1

STQ = (Yi Y ) 2 = Yi 2Y Yi + nY 2 = Yi 2nY 2 + nY 2 = Yi nY 2


2

i =1

Como y T y = Yi 2 teremos a expresso matricial para a STQ:


i =1

STQ = y T y nY 2

A expresso matricial para a SQReg pode ser obtida a partir da diferena:


SQ Re g = STQ SQ Re s

Ento:
SQ Re g = T X T y nY 2

112

Econometria

Alexandre Gori Maia

6. Inferncia em Regresso Linear Mltipla


Introduo
A partir de algumas propriedades do modelo clssico de regresso linear, podemos
realizar inferncias para os coeficientes e esperanas condicionais do modelo de RLM. Para
viabilizar essas anlises, o primeiro passo estimar a varincia dos estimadores de MQO que,
sob as premissas do Teorema de Gauss-Markov, sero no viesados e de varincia mnima. O
segundo passo conhecer a distribuio de probabilidade dos estimadores que, sob a premissa de
normalidade dos erros, tambm estariam normalmente distribudos. A partir de ento, poderemos
realizar testes de hipteses para os desconhecidos parmetros da regresso ou estabelecer
intervalos de confiana para valores esperados da varivel dependente.

8.1.

Matriz de varincia e covarincia e teste t para k


Enquanto a anlise de varincia permite analisar a contribuio geral do modelo de

regresso mltipla, ou seja, se o conjunto das variaveis independentes contribui para explicar a
variabilidade de Y, o teste t permite verificar a significncia do efeito parcial de cada varivel
independente Xj sobre Y. Em outras palavras, significa verificar se, por exemplo, em um modelo
com duas variveis independentes, Y = + 1 X 1 + 2 X 2 + e , a contribuio da varivel X1,
desconsiderando-se a contribuio da varivel X2, diferente de zero. Esquematicamente:

(1)

Testar o efeito isolado de Xj sobre Y o mesmo que testar as hipteses:


H 0 : j = 0

H1 : j 0

(2)

Como j representa o efeito isolado de Xj sobre Y, depois de controlado o efeito das


demais variveis independentes, rejeitar a hiptese nula significa afirmar que Xj apresenta

113

Econometria

Inferncia em Regresso Linear Mltipla

relao linear isolada com Y ou, em outras palavras, que Xj contribua isoladamente para explicar
a variabilidade de Y.
Para testar a hiptese nula em (2) precisamos conhecer: i) a estatstica de teste
apropriada; ii) a distribuio de probabilidade dessa estatstica. Sob as premissas do modelo
clssico de regresso linear, o estimador j de MQO, que uma funo linear dos erros do
modelo20, ser o MELNV do parmetro j e ter distribuio normal. Em outras palavras,
teremos a seguinte distribuio para o estimador:

(3)

Para viabilizar a resoluo do teste de hipteses, , primeiro, necessrio conhecer a


Var( j ), ou 2 . Esta poder ser obtida a partir da matriz de varincias e covarincia dos
j

estimadores j , que, em notao matricial, ser dada por (ver Apndice B do Captulo 6):
Var ( ) = E[( )( )T ] = ( X T X ) 1 2

(4)

Essa matriz, que contm as varincias e covarincias dos parmetros do modelo, pode
ainda ser representada por:
Var ( )
Cov( , 1 )

Cov( 1 , )
Var ( 1 )
Var ( ) =
...
...

Cov( , ) Cov( , )
k
k
1

... Cov( , k )
... Cov( 1 , k )

...
...

...
Var ( k )

(5)

Para obter a matriz de varincias e covarincias, devemos conhecer a matriz (XTX)-1,


obtida na estimativa do vetor de coeficientes , e 2 , a varincia da regresso. Este ltimo,
embora desconhecido, pode ser estimado no tendenciosamente pelo QMRes presente na tabela
ANOVA, ou seja:

20

Sabemos, da demonstrao apresentada no Apndice B do Captulo 6, que = + ( XT X) 1 XT e . Sendo um

vetor de constantes e X uma matriz de valores fixos, temos que ser uma funo linear do vetor de variveis
aleatrias e.

114

Econometria

Alexandre Gori Maia

2 =

e T e
y T y T X T y
=
n (k + 1)
n (k + 1)

(6)

Teremos ento a matriz de estimadores de 2 dada por:

S 2 = ( XT X) 1 2

(7)

E representada por:
S2

S
S 2 = 1
...
S
k

S 2
1
...
S

k 1

S
k
... S
1 k
...
...
... S 2
k
...

(8)

Estimado o erro padro de j podemos dar continuidade ao teste de hipteses.


Pressupondo a veracidade de H0 em (2), teramos a seguinte distribuio de probabilidade da
estatstica de teste:
j ~N (0 , 2 )

(9)

O prximo passo estimar o valor p, ou probabilidade de erro ao rejeitar H0, associado ao


valor de j observado na amostra. Como a hiptese alternativa em (2) da diferena,
deveremos realizar um teste bicaudal:

(10)

O uso do estimador S em substituio ao parmetro na padronizao da estatstica


j

de teste em (9) exige a considerao de uma distribuio t de student. Os graus de liberdade


sero aqueles associados aos resduos, ou seja, n(k+1). Assim, o valor p obtido representar a
probabilidade mnima de erro que estaramos sujeitos caso rejeitssemos H0. Caso seu valor seja
inferior ao erro mximo tolerado pelo pesquisador (, ou nvel de significncia esperado21),

21

No confundir com constante do modelo de regresso, embora ambos sejam representados pela letra grega .

115

Econometria

Inferncia em Regresso Linear Mltipla

rejeitamos H0. Na ausncia de , fica a critrio do pesquisador considerar se o valor p


suficientemente pequeno para rejeitar H0.

Exemplo 1. A partir do ajuste estabelecido para a relao linear entre a varivel dependente
rendimento familiar (Y) e as variveis independentes anos de estudo (X1) e idade do responsvel
pela famlia (X2), vamos proceder com o teste de hipteses para os coeficientes do modelo. O
modelo ajustado foi:

Yi = 0,829 + 0,203 X 1i + 0,103 X 2i + ei


A matriz de estimativas das varincias e covarincias dos coeficientes ser dada por:
1

30
141
4

2
T
1 2
S = ( X X) = 30 350 1005 2
141 1005 5441

Onde:

2 =

0,002
e T e
=
= 0,002
n (k + 1) 4 (2 + 1)

Teremos ento:
S 2

0,0002 0,0002
3,986 0,096 0,086
0,007

= 0,096 0,008
0,009 0,002 = 0,0002 0,00001 0,000002
0,086 0,009
0,0002 0,000002 0,000004
0,002

Realizando os testes de hipteses para os dois coeficientes angulares do modelo teremos:

E:

Assim, a probabilidade de erro ao afirmarmos que a varivel anos de estudo do responsvel pela
famlia tenha relao linear isolada com a renda familiar de apenas 1,2% e podemos rejeitar H0.
116

Econometria

Alexandre Gori Maia

Resultado semelhante ocorre para o teste do coeficiente 2, associado varivel idade do


responsvel. Podemos afirmar que a idade tenha relao linear isolada com a renda familiar com
uma chance de erro de apenas 1,2%.

8.2.

Inferncia para combinao linear dos parmetros


Veremos agora como inferncias para dois ou mais parmetros, ou mesmo para os

valores previstos de um modelo de regresso mltipla (testes de hipteses ou intervalos de


confiana), podem ser realizados conhecendo-se uma propriedade simples dos estimadores.
Sabemos que a matriz de varincias e covarincias dos estimadores de um modelo de
regresso linear mltipla dada pela expresso (5). Agora suponha que, ao invs de desejarmos
analisar os parmetros isoladamente, interessemo-nos em estudar uma combinao linear dos
mesmos. Uma combinao linear dos parmetros, onde cada parmetro j seja multiplicado por
uma constante cj, seria dado por:

c0 + c1 1 + ... + c k k = (c0

c1



1
... ck ) = c T
...


k

(11)

Como veremos posteriormente, a combinao cT pode ser utilizada para testar


combinaes dos parmetros ou estabelecer previses para Y. Por hora, analisemos as
propriedades dessa combinao linear. A primeira diz que uma combinao linear dos
estimadores de MQO ser tambm um estimador no viesado da combinao dos parmetros.
Em outras palavras:
E (c T ) = c T E ( ) = c T

(12)

Podemos ainda demonstrar facilmente qual ser a varincia dessa combinao linear:
Var (c T ) = E[(c T c T )(c T c T ) T ] = c T ( X T X) 1 c 2

(13)

Como a varincia da regresso na populao 2 desconhecida, o estimador com base


nas informaes da amostra ser dado por:
S c2T = c T ( X T X ) 1 c 2

(14)

117

Econometria

8.3.

Inferncia em Regresso Linear Mltipla

Teste de hipteses para combinao linear dos parmetros


Uma das aplicaes da combinao linear dos parmetros a realizao de testes de

hipteses para mais de um parmetro populacional. Seja, por exemplo, o ajuste definido por:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei

(15)

Poderamos estar interessados em testar a hiptese da igualdade entre os parmetros 1 e

2:
H 0 : 1 = 2

H 1 : 1 2

(16)

Testar a hiptese nula H0 o mesmo que testar a nulidade da seguinte combinao linear:
(0) + (1) 1 + (1) 2 ... + (0) k = 0

(17)

(0 1 1 0 ... 0) 1 = cT = 0
...


k

(18)

Ou, matricialmente:

Neste caso, a estatstica de teste seria dada por:



(0 1 1 0 ... 0) 1 = cT
...


k

(19)

Como uma funo linear de variveis aleatrias normalmente distribudas tambm


apresenta uma distribuio normal, teremos a seguinte distribuio para a estatstica de teste:

cT ~ N (cT , c2T )

(20)

Sendo a varincia desta estatstica dada por (13) e o respectivo estimador dado por (14).
Conhecida a distribuio e estimada a varincia da estatstica de teste, podemos dar
continuidade resoluo do teste de hipteses. O prximo passo obter a probabilidade de erro
ao rejeitar H0 (valor p). Para isso, deve-se calcular a estatstica t, uma medida de quantos erros
padro o valor observado para c T na amostra encontra-se do valor central da distribuio (zero,
no caso).

118

Econometria

Alexandre Gori Maia

(21)

O valor p representar assim, a mnima probabilidade de erro que estaramos sujeitos


caso rejeitssemos H0 e dever ser a referncia para nossa deciso.

Exemplo 2. Aproveitando os resultados do ajuste estabelecido para a relao linear entre a


varivel dependente rendimento familiar (Y) e as variveis independentes anos de estudo (X1) e
idade do responsvel pela famlia (X2), podemos, por exemplo, testar a hiptese nula de que o
efeito isolado de um ano adicional de escolaridade sobre a renda familiar seja igual ao efeito
isolado de um ano adicional de idade, contra a hiptese alternativa de que o efeito isolado dos
anos de escolaridade seja maior que o da idade. Nesse caso, as hipteses seriam dadas por:

H 0 : 1 = 2

H 1 : 1 > 2
A hiptese nula pode tambm ser representada pela combinao linear:



(0) + (1) 1 + (1) 2 = 0 ou, matricialmente, (0 1 1) 1 = c T = 0

2
A estatstica de teste ser, por sua vez, dada por:


0,829

c = (0 1 1) 1 = (0 1 1) 0,203 = 0,10

0,103
2

Com varincia estimada por:

S c2T = c T ( XT X) 1 c 2
1

S c2T

30
141 0
4


= (0 1 1) 30 350 1005 1 0,002 = 0,0000156
141 1005 5441 1

Podemos, ento, dar continuidade ao teste de hipteses. Supondo a veracidade da hiptese nula, a
estatstica cT estar normalmente distribuda em torno de zero. O objetivo estimar a
119

Econometria

Inferncia em Regresso Linear Mltipla

probabilidade de erro (valor p) associado rejeio da hiptese nula. Como se trata de um teste
unicaudal, a regio de rejeio estar associada a valores positivos de cT ( 1 > 2 ):

O valor da estatstica observada na amostra (0,10) estaria 25,32 erros padro afastado do centro
da distribuio e a probabilidade de erro associada a esse valor de 1,3%. Em outras palavras, se
afirmarmos que o efeito isolado da escolaridade seja superior ao da idade da pessoa responsvel,
estaremos sujeitos a um erro de apenas 1,3%. H, assim, fortes evidncias estatsticas para
afirmar que o efeito parcial da escolaridade sobre a renda seja superior ao da idade.

8.3.

Intervalo de confiana para valor previsto

Uma segunda aplicao da combinao linear dos parmetros a realizao de intervalos


de confiana para previses do modelo de regresso mltipla. Seja, por exemplo, uma previso
estabelecida por:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki

(22)

Que nada mais que uma combinao linear dos parmetros :

Yi = x T = 1 X 1i

X 2i

... X ki



1
...


k

(23)

Lembrando que esta previso uma estimativa da real esperana condicional na


populao dada por:
E (Yi / X 1i ,..., X ki ) = + 1 X 1i + 2 X 2i + ... + k X ki

(24)

Ou, matricialmente:

E (Yi / X 1i ,..., X ki ) = x T = 1 X 1i

X 2i

... X ki



1
...


k

(25)

120

Econometria

Alexandre Gori Maia

Para estabelecermos uma estimativa por intervalo para E(Yi) precisamos conhecer a
distribuio da estatstica xT , ou simplesmente Yi . Esta, por ser uma combinao linear de
variveis normais, apresentar tambm distribuio normal:

x T ~ N (x T , x2T )

(26)

E j sabemos que a varincia de uma combinao linear ser dada por:

x2T = xT ( X T X) 1 x 2

(27)

Por trabalharmos, na prtica, com valores da amostra, o estimador da varincia ser:

S x2T = x T ( XT X) 1 x 2

(28)

Podemos, finalmente, realizar uma previso por intervalo para E(Yi). Dada uma confiana
igual a , e a estatstica t representar o nmero de erros padro a se deslocar do valor estimado
na amostra para a estatstica xT . Graficamente, teremos:

(29)

Assim, uma estimativa com confiana de para E(Yi) seria dada por:
IC[E(Yi ); ] = [ x T t x T ( X T X ) 1 x 2 ]

(30)

E significa que, em repetidas amostras de tamanho n, o intervalo definido por (30)


conter a real esperana condicional de Yi dado o conjunto de caractersticas do vetor x em das
situaes.
Exemplo 3. Uma famlia onde o responsvel tenha nvel superior completo (X1=15) e 30 anos de
idade (X2=30) teria uma renda familiar prevista pelo modelo do exemplo (1) de:
Yi = 0,829 + 0,203(15) + 0,103(30) = 6,983
Ou seja, 6983 reais. Esta estimativa poderia ainda ser representada matricialmente por:

121

Econometria

Inferncia em Regresso Linear Mltipla

0,829

Yi = x = (1 15 30 ) 0,203 = 6,983
0,103

Onde Yi seria uma v.a. com distribuio dada por:

Yi ~ N ( E (Yi ), x T ( XT X) 1 x 2 )
Com varincia estimada por:
1

S x2T

30
141 1
4


T
T
1
2
= x ( X X) x = (1 15 30) 30 350 1005 15 0,002 = 0,00127
141 1005 5441 30

Uma estimativa por intervalo com 95% de confiana seria, por exemplo, dada por:

Onde o valor da estatstica t com 1 grau de liberdade (resduos) representa o nmero de erros
padro a se deslocar direita e esquerda do valor previsto para que se tenham 95% de
probabilidade em um intervalo simtrico. Assim, a estimativa para o intervalo com 95% de
confiana para E(Yi) seria dada por:

IC[E(Yi );0,95 ] = [6,983 0,452]


E significaria a estimativa para o intervalo que conteria a real renda esperada de uma famlia
onde o responsvel tenha superior completo e 30 anos de idade em 95% das situaes (repetidas
amostras).

Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e distncia ao supermercado (X2, em nmero de integrantes) de 4
famlias, pede-se:
Y

0,4

0,2

0,3

0,6

X1

122

Econometria

Alexandre Gori Maia

X2

a. Obtenha e interprete os valores p associados ao teste de hipteses para os


coeficientes angulares do modelo.
b. H evidncias significativas para afirmar que o efeito conjunto de um integrante
adicional e um aumento de 1000 reais na renda sobre os gastos mensais com
alimentao seja negativo?
c. Estabelea e interprete uma estimativa por intervalo com 90% para os gastos
esperados de uma famlia com renda mensal de 5.000 reais e com 2 integrantes.
2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:

Ano

1974

1975

1976

1977

Y (kg per capita)

74

82

84

110

X1 (1.000 R$)

10

X2 (R$ / kg)

0.8

1.2

1.2

1.0

a. H evidncias significativas para afirmar que uma reduo de 3% no preo do


frango tenha um efeito marginal superior sobre o consumo de frango que o
acrscimo de 1% na renda disponvel?
3. Uma amostra de 4 pases forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dlares) e nmero de
mdicos (X2, em mdios por 1000 habitantes):
Y

X1

10

12

13

16

X2

Supondo que a relao entre as variveis seja dada por:

Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a. Estime e interprete um intervalo com 90% de confiana para a mortalidade
infantil de um pas com PIB per capita de 10 mil dlares e 1 mdico por 1000
habitantes.
Caso necessrio, trabalhe com os seguintes valores para o logaritmo natural:
123

Econometria

Inferncia em Regresso Linear Mltipla

10

12

13

16

ln(Z)

0,7

1,1

1,4

1,6

1,9

2,1

2,3

2,5

2,6

2,8

4. (ANPEC, 1992) Dada a funo de produo Pi = 0 K 1 L2 eui , tem-se que:


a. Para verificar se a funo homognea de grau 1 deve-se testar a hiptese de
que 1 + 2 = 1.
b. Se o teste t indicar que 1 no significante, a varivel K dever ser retirada do
modelo.
5. (ANPEC, 1995) Em um modelo de regresso linear mltipla, os testes t e F no so
equivalentes.

Respostas
1) a. 1: t=2; p=0,295; 2: t=-3,54; p=0,175; b. S c2T = 0,0075 ; t=--1,732; p=0,167; c.
IC[E(Yi);95%]=[0,80,999].
2) a. c T = 0,22 ; S c2T = 0,025 ; t=-1,368; p=0,201.
3) a. x T = 16,5 ; S x2T = 54,75 ; t=12,71; IC[E(Yi);95%]=[16,594,02].
4) a. V; b. F.
5) V.

124

Econometria

Alexandre Gori Maia

9. Contribuio Marginal
Introduo
A contribuio marginal mede a parcela da variabilidade de Y que explicada
exclusivamente por uma ou mais variveis independentes, aps considerada a contribuio das
demais variveis independentes do modelo. Em outras palavras, desejamos saber qual a parcela
da SQReg devida exclusivamente a uma varivel Xj, ou a um grupo de q variveis independentes.
Pode ser til, por exemplo, para decidirmos se necessria a incluso de uma varivel
independente (ou de um grupo de variveis) em um modelo de RLM aps a considerao dos
demais fatores explanatrios. Identificada esta contribuio marginal, podemos ainda realizar
inferncias para saber se essa parcela da variabilidade explicada pode ser considerada
siginificativa.
Para viabilizar essas anlises, veremos primeiramente como desagregar a variabilidade
total explicada pelo modelo entre as parcelas devidas s contribuies parciais (ou marginais) de
cada varivel independente e a parcela devida contribuio conjunta. Posteriormente, veremos
como o teste F pode ser aplicado para verificar a significncia destas contribuies marginais.

9.1.

ANOVA para contribuio marginal


Vamos supor um modelo de RLM com duas variveis independentes X1 e X2:

Yi = + 1 X 1i + 2 X 2i + ei

(1)

A SQReg do ajuste para esse modelo seria uma medida da variabilidade da varivel
dependente explicada pelas variveis X1 e X2 (Figura 2). Os graus de liberdade dessa SQReg

125

Econometria

Contribuio Marginal

seriam 2, j que h duas variveis independentes no modelo ou, em outras palavras, o valor da
SQReg dependeria da variao aleatria de 1 e 2 .

SQRegir

(2)

O modelo (1) ser, a partir de agora, denominado modelo irrestrito (ir), pois no so
feitas quaisquer restries sobre os valores dos coeficientes 1 e 2. Sua SQReg ser, agora,
representada por SQRegir.
Suponha agora que coloquemos a restrio de que o coeficiente 2 seja igual a zero.
Teramos ento o modelo restrito (r), ou seja, com restrio em um de seus coeficientes (2=0):

Yi = + 1 X 1i + ei

(3)

A SQRreg desse ajuste (SQRegr) seria, portanto, uma medida da variabilidade de Y


explicada exclusivamente por X1 (Figura 4). Teria apenas 1 grau de liberdade, j que sua
estimativa dependeria unicamente da variao aleatria de 1 :

SQRegr

(4)

A diferena entre a SQRegir e a SQRegr seria, portanto, uma medida da contribuio


marginal de X2 aps considerada a variabilidade j explicada por X1:

Contribuio X2= SQRegir - SQRegr

(5)

Podemos estender esse raciocnio para um ajuste de RLM com k variveis independentes
e verificar, por exemplo, se um subconjunto de q variveis independentes apresenta contribuio
significativa sobre Y. Nesse caso, o modelo irrestrito de RLM seria dado por:

Y = + 1 X 1 + 2 X 2 + ... + k X k + e

(6)

126

Econometria

Alexandre Gori Maia

Para calcularmos a contribuio de um grupo de q variveis independentes devemos


colocar restries aos seus respectivos parmetros. Suponha que, por simplicidade, as q variveis
que desejamos testar so as ltimas das k variveis do modelo irrestrito (a ordem, obviamente,
no faz importncia). Nosso modelo restrito seria dado por:
Y = + 1 X 1 + 2 X 2 + ... + k q X k q + e

(7)

Podemos, agora, verificar se a contribuio dessas q variveis significativa. Em outras


palavras, estaramos interessados em testar a hiptese nula de que os q coeficientes do modelo
irrestrito so nulos:
H 0 : k q +1 = 0, ..., k = 0

(8)

Analogamente ao teste F para a ANOVA irrestrita, o teste estatstico para restrio aos
parmetros consiste agora em verificar se a contribuio marginal dessas q variveis
significativa comparando-a com a variabilidade dos resduos do modelo irrestrito. A estatstica F
ser ento dada por:
F=

( SQReg ir SQReg r ) / q
SQResir /(n k 1)

ou F =

( SQRes r SQResir ) / q
SQResir /( n k 1)

(9)

Onde SQRegir e SQRegr so, respectivamente, a soma dos quadrados da regresso sem e
com restrio nos parmetros, SQResir e SQResr so a soma dos quadrados dos resduos da
regresso sem e com restrio. O nmero de graus de liberdade do numerador (contribuio
marginal) ser igual a q, nmero de coeficientes considerados na contribuio marginal, e o
nmero de graus de liberdade do denominador (resduos) ser igual a nk1, representando a
variabilidade aleatria dos resduos do modelo irrestrito em torno do plano ajustado.
Uma maneira alternativa de calcular a estatstica F para a contribuio marginal a partir
das diferenas entre os coeficientes de determinao do modelo irrestrito ( Rir2 ) e restrito ( Rr2 ).
Pode-se demonstrar facilmente que a equao (9) ser tambm igual a:
F=

( Rir2 Rr2 ) / q
(1 Rir2 ) /( n k 1)

(10)

A equao (10) particularmente til pois em muitos trabalhos no dispomos dos


resultados das somas dos quadrados, apenas dos coeficientes de determinao dos ajustes.
Entretanto, como o R2 refere-se ao percentual da variabilidade da varivel dependente explicada

127

Econometria

Contribuio Marginal

pelo modelo, a utilizao da equao (10) exige sempre supor que as variveis dependentes do
modelo restrito e irrestrito so as mesmas.
Sinteticamente, a tabela ANOVA para anlise da contribuio marginal das q variveis
independentes pode ser representada por:

(11)

Para testar a hiptese nula de que no h contribuio marginal (expresso 8), devemos
estimar a probabilidade de erro p associada ao valor estimado de F em (9), que ter distribuio

Fq,nk1. O valor p indicar a probabilidade de erro ao rejeitarmos H0, ou seja, a chance de erro ao
afirmarmos que o grupo de q variveis independente contribui para explicar a variabiliade de Y.

(12)

Exemplo 1. Dada a relao entre renda familiar (Y), anos de estudo (X1) e idade (X2) do
responsvel pela famlia, podemos afirmar que a contribuio marginal da idade seja
significativa?
Para identificar a contribuio marginal da idade, o primeiro passo verificar a contribuio do
conjunto de variveis independentes (X1 e X2) no ajuste para o modelo irrestrito:

128

Econometria

Alexandre Gori Maia

Yi = 1,9 + 1X 1i + 0,06 X 2i + ei
Cuja SQRegir como verificado anteriormente, seria dada por:

SQ Re g ir = 34,8
Como desejamos analisar a contribuio marginal de X2, a restrio ao seu respectivo parmetro
(2) levaria ao ajuste:

Yi = 2,714 + 1,286 X 1i + ei
Com respectiva SQReg dada por:

SQ Re g r = 34,714
Teramos, ento, a contribuio marginal de X2 dada por:

Contribuio X2= 34,8 34,714 = 0,086

Resumidamente, a Tabela ANOVA para a contribuio marginal seria dada por:

Onde os trs quadrados mdios da regresso apresentados na tabela representam a variabilidade


mdia explicada por cada componente da regresso restria (X1), contribuio marginal (X2) e
regresso irrestrita (X1 e X2). A estatstica F dada pela razo entre o quadrado mdio da
contribuio marginal e o quadrado mdio dos resduos permite testar a hiptese nula de que a
contribuio marginal de X2 igual a zero, ou seja:
H0 : 2 = 0

Como a contribuio marginal e os resduos apresentam, cada, apenas um grau de liberdade, a


estatstica F de teste teria distribuio F1,1 e o valor p associado ao valor observado na amostra
(0,430) seria de 0,430:

129

Econometria

Contribuio Marginal

Em outras palavras, no haveria evidncias para afirmar que a contribuio marginal da idade
sobre a variabilidade da renda familiar seja significativa. A probabilidade de erro ao fazermos tal
afirmao seria muito alta, de aproximadamente 63%.

9.2.

Correlao parcial
Da mesma forma que a desagregao da anlise de varincia permite considerar a

contribuio marginal de uma varivel explanatria, podemos estender o conceito de correlao


simples para estimar em que medida a varivel dependente e uma das variveis independentes
esto relacionadas, depois de isolados os efeitos das demais variveis explanatrias do modelo de
RLM. Seria o caso, por exemplo, de verificarmos o grau de associao linear entre renda e idade
para indivduos com o mesmo grau de escolaridade.
A representao da correlao parcial entre, por exemplo, Y e X1, mantendo-se constantes
os efeitos das k1 variveis independentes restantes, ser:

rY 1.23...k

(13)

Analogamente, rY21.23...k seria o respectivo coeficiente de determinao parcial, igual ao


quadrado da correlao parcial. Outras notaes utilizadas so: rY1, para a correlao simples
entre Y e X1, e rY21 , o respectivo coeficiente de determinao; r1k, a correlao simples entre X1 e

Xk, e r12k o respectivo coeficiente de determinao. Lembrando que o coeficiente de correlao


linear entre duas variveis dado por:
rYX

cov(Y , X )
=
=
SY S X

i =1 xi y i
n

i =1 xi2 i =1 yi2

(14)

Por simplicidade, veremos apenas os procedimentos para clculo da correlao parcial de


um ajuste de RLM com duas variveis independentes (1), embora a generalizao para um caso
com k variveis independentes possa ser feita sem grandes dificuldades.

130

Econometria

Alexandre Gori Maia

Para, por exemplo, calcular rY1.2 , primeiro devemos isolar a parcela de Y no associada a
X2. A parcela de Y no associada a X2 estaria contida nos resduos (Y2) do ajuste:

Yi = 0 + 1 X 2i + eY 2i

(15)

Posteriormente, devemos isolar a parcela de X1 no associada a X2, que estaria contida


nos resduos (12) do ajuste:
X 1i = 0 + 1 X 2i + e12i

(16)

Por sua vez, a correlao parcial entre Y e X1, isolando-se o efeito de X2, seria ento dada
pela relao entre os resduos dos dois ajustes:

rY 1.2 = reY 2e12

(17)

Embora trabalhosa, a vantagem dessa estimativa por etapas que pode ser facilmente
generalizada para o caso com k variveis independentes. Mas, no caso de duas variveis
independentes, pode-se demonstrar que o coeficiente de correlao parcial pode ser diretamente
obtido pela expresso:

rY 1.2 =

rY 1 rY 2 r12

(1 r122 )(1 rY22 )

e rY 2.1 =

rY 2 rY 1r12

(1 r122 )(1 rY21 )

(18)

Analogamente, o coeficiente de determinao parcial seria dado por:


r 2Y 1.2 =

R 2 rY22
1 rY22

(19)

Uma importante consequncia das expresses em (18) que, nem sempre, a correlao
parcial ter o mesmo sinal da correlao simples. Em outras palavras, duas variveis podem
estar, por exemplo, positivamente relacionadas, embora a correlao parcial entre essas, aps
isolado o efeito de outras variveis, seja negativa.
131

Econometria

Contribuio Marginal

Exemplo 2. Para obtermos diretamente, por exemplo, a correlao parcial entre renda familiar
(Y) e anos de estudo (X1), isolando-se o efeito da idade (X2), devemos calcular:

rY 1.2 =

rY 1 rY 2 r12

(1 r122 )(1 rY22 )

As correlaes simples necessrias para o clculo sero dadas por:


n

i=1 x1i yi
n
n
i=1 x12 i=1 yi2

rY 1 =

27
= 0 ,9959
(21)(35)

130
= 0 ,9827
(500)(35)

100
= 0,9759
(21)(500)

i=1 x2 i yi
n
n
i=1 x22 i=1 yi2

rY 2 =

i=1 x1i x2 i
n
n
i=1 x12 i=1 x22

r12 =

A correlao parcial ser, ento, dada por:


rY 1.2 =

(0,9959) (0,9827)(0,9757)
[1 (0,9759) 2 ][1 (0,9827) 2 ]

= 0,913

Ou seja, mesmo desconsiderando o efeito da idade, h uma coerelao extremamente forte entre
renda e anos de estudo.

Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e tamanho (X2, distncia ao supermercado) de 4 famlias, pede-se:

0,4

0,2

0,3

0,6

X1

X2

a. Analise a significncia da contribuio marginal da distncia ao supermercado


sobre os gastos com alimentao.
b. Calcule e interprete a correlao parcial entre gastos com alimentao e renda
mensal.

132

Econometria

Alexandre Gori Maia

2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:

Ano

1974

1975

1976

1977

Y (kg per capita)

74

82

84

110

X1 (1.000 R$)

10

X2 (R$ / kg)

0.8

1.2

1.2

1.0

a. Analise a significncia da contribuio marginal do logaritmo da renda sobre o


logaritmo do consumo de frango.
b. Calcule e interprete o coeficiente de determinao parcial entre o logaritmo da
renda e o logaritmo do consumo de frango.
3. Uma amostra de 4 pases forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dlares) e nmero de
mdicos (X2, em mdicos por 1000 habitantes):

X1

10

12

13

16

X2

Suponha agora que a relao entre as variveis seja dada por:

Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a. Qual a parcela da variabilidade da taxa de mortalidade que explicada
isoladamente pelo nmero de mdicos? H evidncias que essa parcela seja
significativa?
b. Calcule e interprete o coeficiente de determinao parcial entre a taxa de
mortalidade e o nmero de mdicos.
Caso necessrio, trabalhe com os seguintes valores para o logaritmo natural:
Z

10

12

13

16

ln(Z)

0,7

1,1

1,4

1,6

1,9

2,1

2,3

2,5

2,6

2,8

133

Econometria

Contribuio Marginal

Respostas
1) a. SQRegir-SQRegr=0,0825-0,02=0,0625; QMRegcontribuiao=0,0625; F=12,5; p=0,175; b.
rY1.2= 0,8944.
2) a. SQRegir-SQRegr=0,0855-0,0035=0,0821; QMRegcontribuio=0,0821; F=282,6; p=0,038; b.
r2Y2.1=0,996.
3) a.
r

SQRegir-SQRegr=9-3,769=5,231;

QMRegcontribuio=5,231;

F=5,231;

p=0,262;

b.

Y2.1=0,735.

134

Econometria

Alexandre Gori Maia

10. Multicolinearidade
Introduo
Como sabemos, um coeficiente angular de um modelo de regresso mltipla estima o
efeito marginal de uma varivel independente sobre a varivel dependente. Em outras palavras,
estima a variao esperada na varivel dependente caso haja uma variao unitria na referida
varivel independente, mantendo todas as demais constantes. Imagine agora uma siutuao em
que a variao unitria de um regressor implique necessariamente na variao de outro regressor.
Por exemplo, horas mdias trabalhadas por dia e horas mdias trabalhadas por semana. Como
poderamos identificar o efeito marginal isolado de cada varivel se no podemos variar uma
mantendo constante a outra?
Uma condio necessria para estimar os coeficientes do modelo de regresso que no
haja relao linear exata entre quaisquer variveis explanatrias do modelo. Quando h uma
relao linear exata dizemos que as variveis explanatrias so perfeitamente colineares, ou que
existe perfeita colinearidade. Seria o caso de tentarmos prever a renda de uma pessoa (Y) com
base na jornada mdia diria (X1) e na jornada mdia de uma semana de 5 dias (X2). Como as
variveis X1 e X2 so perfeitamente colineares (X2=5X1), seria impossvel determinar o efeito
isolado X2 sobre Y. Isso porque se mantermos X1 constante, X2 tambm permanecer constante e
ser impossvel medir seu efeito isolado sobre Y.
Na prtica, entretanto, a colinearidade exata ocorre raramente, muitas vezes por falhas na
especificao do modelo. Frequentemente nos deparamos com a situao de multicolinearidade,
na qual h uma elevada, mas no exata, relao linear entre duas ou mais variveis
independentes22. Embora a multicolinearidade no afete as propriedades dos estimadores de
MQO, pode dificultar a identificao do efeito isolado das variveis independentes, j que seria
muito difcil observar na amostra variaes isoladas de uma varivel aps mantidas constantes as
demais. Por exemplo, se a renda temporria (X1) e a renda permanente (X2) de um indivduo
apresentam relao de multicolinearidade, ser mais difcil observar variaes na renda

22

O termo multicolinearidade foi originalmente proposto por Ragnar Frisch em 1934 para designar a relao

colinear exata entre duas ou mais variveis independentes. Atualmente, refere-se a um conceito mais amplo, de
interrelao entre as varveis independentes, mas no de maneira exata.

135

Econometria

Multicolinearidade

temporria sem que haja, simultaneamente, variaes na renda permanente. Consequentemente,


seria difcil estimar, por exemplo, seu efeito isolado sobre o consumo do indivduo (Y).

10.1. Definio
Dizemos que h perfeita colinearidade entre as variveis explanatrias quando uma delas
(Xj) for definida por uma funo linear exata das demais:
X ji = 1 X 1i + 2 X 2i + ... + k X ki

(1)

Onde 1, 2,... k so constantes tais que nem todas so zero simultaneamente.


Entretanto, a chance de se observarmos uma amostra em que os regressores se relacionem
dessa maneira muito pequena. Usualmente ocorrer quando h falhas na especificao do
modelo. O que ocorre, na prtica, a relao de multicolinearidade, na qual as variveis
independentes esto interrelacionadas, no de maneira perfeita, mas com a incorporao de um
termo vi aleatrio.
X ji = 1 X 1i + 2 X 2i + ... + k X ki + vi

(2)

Exemplo 1. Suponha, por exemplo, a jornada mdia diria (X1) de um ocupado e sua equivalente
jornada mdia semanal (X2) considerando uma semana de 5 dias teis. H uma evidente
colinearidade exata entre X1 e X2 j que esta ltima foi obtida pela expresso X2=5X1.

X1

X2

X2*

20

22

30

38

40

44

10

50

50

J a varivel X2 representa a jornada efetivamente praticada em uma semana de referncia, ou


seja, a jornada diria multiplicada pelo nmero de dias da semana mais eventuais desvios devido
a ausncias ou horas extras de trabalho na semana: X2*=5X1+vi. Os desvios observados foram: 2,
8 4 e 0. Embora no haja uma relao exata entre X1 e X2*, h uma forte relao de
multicolinearidade, j que o coeficiente de correlao linear entre ambas de 0,965.

136

Econometria

Alexandre Gori Maia

No caso de perfeita colinearidade entre, por exemplo, X1 e X2 (X1=2X2), seria impossvel


estimar seus respectivos coeficientes de regresso em modelo de RLM. Como os coeficientes do
modelo de regresso estimam o efeito isolado de cada varivel independente sobre a varivel
dependente, no haveria, nesse caso, efeito isolado a ser identificado (figura 3).

(3)

Outra maneira de enxergar esse problema a partir de desenvolvimento algbrico.


Substituindo X1 por sua funo linear de X2 no ajuste de RLM teramos:
Yi = + 1 X 1i + 2 X 2i + ei
)
)
Yi = + 1 (2 X 2i ) + 2 X 2i + ei
)
)
Yi = + ( 12 + 2 ) X 2i + ei

(4)

)
Isso significa que, embora seja possvel estimar a funo dos coeficiente ( 12 + 2 ) ,
essa estimativa permitiria infinitas solues para 1 e 2 , j que teramos apenas uma equao
para duas incgnitas. Em outras palavras, na presena de perfeita colinearidade no haveria uma
soluo nica para os coeficientes isolados do modelo de regresso, embora seja possvel obter
uma resposta nica para uma combinao linear dos mesmos. Se tentarmos encontrar as
estimativas de MQO por = ( X T X) 1 ( X T y ) na presena de perfeita colinearidade, chegaremos
a uma matriz ( XT X) que singular e no-inversvel, inviabilizando nossas anlises (ver
apndice A)23.

23

Caso uma das variveis independentes seja uma funo linear exata de outra varivel independente, uma das

colunas da matriz XTX ser uma combinao linear exata de outra coluna. Nesse caso, a matriz XTX ser singular
(determinante igual a zero) e no-inversvel.

137

Econometria

Multicolinearidade

Por sua vez, a existncia de multicolinearidade entre as variveis independentes dificulta,


mas no inviabiliza, a estimativa dos coeficientes de regresso. Como estes coeficientes
pressupem, por definio, a variao marginal em Y dada uma variao unitria em Xj,
mantendo-se constantes as demais variveis independentes, seria muito difcil observarmos uma
mudana em Xj sem que haja mudanas nos demais fatores interrelacionados. Graficamente,
poderamos representar um efeito isolado inexpressivo de cada varivel independente ante o
efeito conjunto dessas (Figura 5).

(5)

Em outro extremo, teramos a situao de ausncia de qualquer relao linear entre X1 e


X2, ou seja, toda a contribuio do modelo para explicar a variabilidade de Y seria dada pelos
efeitos isolados de X1 e X2 (Figura 6). Nesta situao, os coeficientes do modelo de RLM seriam
exatamente os mesmos daqueles obtidos por RLS para cada uma das variveis independentes
separadamente (ver Apndice B).

(6)

importante lembrar que a ausncia de multicolinearidade no faz parte dos pressupostos


do Teorema de Gauss-Markov para que os estimadores de MQO sejam os MELNV. Em outras
palavras, a presena de multicolinearidade no implica que os coeficientes de MQO deixam de
ser no viesados e de mnima varincia. A multicolinearidade apenas dificulta a identificao dos
138

Econometria

Alexandre Gori Maia

efeitos isolados na amostra e, caso esta no seja suficientemente representativa dos inmeros
comportamentos das variveis (represente variaes conjuntas e isoladas dos regressores), no
permitir estimar coeficientes significativos para os efeitos marginais. Assim, o impacto da
multicolinearidade sobre as estimativas dos coeficientes depender tambm de outros fatores,
como o tamanho da amostra e a variabilidade do regressor. Por esse motivo, muitos autores
argumentam

que

multicolinearidade

trata-se,

na

verdade,

de

um

problema

de

micronumerosidade, ou seja, que a amostra no seria grande o suficiente para representar


significativamente o relacionamento entre as variveis em questo24.

10.2. Fator Inflacionrio da Varincia


Para melhor compreender o que acontece com a significncia dos coeficientes estimados
na presena de multicolinearidade, podemos representar a varincia de cada estimador como uma
funo de sua relao com as demais variveis independentes do modelo.
Sabemos que a matriz de varincias e covarincias dos estimadores de MQO dada pela
expresso:
Var ( ) = ( X T X ) 1 2

(7)

A partir de desenvolvimento algbrico, pode-se ainda chegar expresso para a varincia


de cada estimador j (ver Apndice C):
Var ( j ) =

2
n

i =1 x 2ji (1 R 2j )

(8)

Onde R 2j o coeficiente de determinao do ajuste de Xj em funo de todas as demais


variveis independentes, ou seja, do ajuste:
X ji = + 1 X 1i + ... + k 1 X ki + ei

(9)

Assim, a partir de (8), temos que quanto maior for a relao linear entre a varivel Xj e as
demais variveis independentes do modelo de RLM, maior ser R 2j e maior ser a varincia do

24

O conceito da micronumerosidade foi sugerido por Arthur Goldberger (1991), argumentando que o problema da

multicolinearidade deve-se, na verdade, pequena variabilidade dos regressores observados em uma amostra de
tamanho insuficiente. Segundo o autor, amostras de tamanho pequeno e baixa variabilidade dos regressores causam
problemas to graves quanto o da multicolinearidade.

139

Econometria

Multicolinearidade

estimador j (Figura 10). Consequentemente, mais dificl ser provarmos que o valor estimado
por j estatisticamente diferente de zero. medida que R 2j aproxima-se de 1 (perfeita
colinearidade), a varincia de j tende a infinito, tornando praticamente impossvel identificar
significncia no coeficiente estimado.

(10)

Para facilitar a identificao da multicolinearidade, comum representar a equao (8)


como uma funo de um termo denominado Fator de Inflacionrio da Varincia (FIV):
Var ( j ) =

1
2
=
FIV j
n
2
n
i =1 x 2ji (1 R j ) i =1 x 2ji

(11)

O termo FIV representa o quanto a varincia de j est sendo inflacionada pela relao
de multicolinearidade entre Xj e as demais variveis independentes do modelo. Quando no
houver relao entre as variveis independentes ( R 2j =0), o FIV ser igual a 1 e, medida que
aproximamo-nos de uma relao exata ( R 2j =1), o FIV tender a infinito. Para relaes
relativamente fortes ( R 2j superior a 0,8), o FIV ser igual ou superior a 5.
A partir da equao (11) podemos ainda derivar duas importantes propriedades da
varincia das estimativas dos coeficientes:

i)

quanto menor a disperso do erros em torno da regresso (menor 2 ), mais


precisa ser a estimativa de j ;

ii)

quanto maior a variabilidade da varivel Xj (medida por i =1 x 2ji ), maior ser a


representatividade dessa varivel na amostra e, consequentemente, mais precisa
ser a estimativa de j .
140

Econometria

Alexandre Gori Maia

Essas propriedades j nos permitem concluir algumas solues intuitivas para


compensarmos as consequncias da multicolinearidade sobre a varincia dos estimadores: i)
aumentar a representatividade da varivel independente na amostra, o que raramente possvel
em estudos no experimentais; ii) aumentar o tamanho da amostra; iii) reduzir a varincia dos
erro, por exemplo, incluindo regressores que contribuiam para explicar a variabilidade do
regressando e no estejam associados aos demais regressores do modelo.

10.3. Identificao da multicolinearidade


A partir das anlises apresentadas, podemos definir algumas regras muito simples de
identificao

da

multicolinearidade.

Antes,

porm,

importante

destacar

que

multicolinearidade uma caracterstica exclusiva da amostra, j que na populao os regressores


so considerados fixos, no estocsticos (no aleatrios). Assim, no seria prudente realizar
testes de inferncia estatstica para identific-la. Podemos, entretanto, observar alguns
comportamentos na amostra que sugerem sua presena e seus impactos sobre a significncia dos
coeficientes:
iii)

Estatsticas conflitantes: um R2 elevado em um modelo com poucas estatsticas t


significativas. Em um caso extremo, teramos uma estatstica F significativa sem
qualquer estatstica individual t significativa. Enquanto o R2 e a estatstica F
analisam o comportamento conjunto das variveis independentes, as estatsticas t
analisam o efeito isolado de cada uma. Assim, poderamos ter uma contribuio
conjunta significativa sem que as contribuies marginais o sejam (Figura 5).

iv)

Relacionamento

das

variveis

independentes:

um

elevado

grau

de

relacionamento entre uma varivel independente Xj e o conjunto das demais


(Equao 9) pode sugerir a presena de multicolinearidade. O R 2j costuma ser
utilizado como medida da presence de multicolinearidade;
v)

Fator Inflacionrio da Varincia: uma consequncia do relacionamento entre as


variveis independentes que se o valor de R 2j for elevado, o FIVj (Fator
Inflacionrio para a j-sima varivel independente) tambm o ser. Como S

141

Econometria

Multicolinearidade

cresce proporcionalmente com o FIVj, ser difcil provarmos a significncia de

. Assim, o FIV costuma ser utilizado como indicador da presena de


multicolinearidade na amostra. No h, entretanto, um padro estabelecido para
definir a partir de que valor o FIV indicar problemas com a multicolinearidade.
Um valor de FIVj superior a 10 (o que significa um R 2j superior a 0,9), por
exemplo, indica que a varincia de j 10 vezes maior que poderia ser na
ausncia de relao entre as variveis independentes. Entretanto, seus impactos
sobre a significncia do coeficiente j depender do tamanho da amostra, da
varincia dos erros e da variabilidade desse regressor.

10.4. Correo da multicolinearidade


Como a multicolinearidade representa, essencialmente, uma deficincia da amostra em
representar a relao entre as variveis, em muitas situaes no nos resta muito a fazer.
Sobretudo em estudos econmicos, quando frequentemente trabalhamos com fontes secundrias
de informaes. Entretanto, algumas possveis respostas presena de multicolinearidade so:
i)

Aumentar o tamanho da amostra: aumentando o tamanho da amostra estaremos


aumentando a variabilidade de Xj e, consequentemente, reduzindo a varincia do
estimador j . Podemos, assim, compensar o elevado valor de FIVj de tal forma
que a estimativa do coeficiente se torne significativa.

ii)

Transformar

as

variveis:

multicolinearidade

pode

ser

eliminada

transformando-se as variveis independentes. Por exemplo, se estamos estimando


o preo de venda da soja com base na rea e quantidade produzida, teremos
provavelmente uma relao de colinearidade entre rea e quantidade produzida.
Entretanto, se substituirmos ambas as variveis independentes pela varivel
produtividade (produo/rea), estaramos eliminando esse problema;
iii)

Excluso de variveis: uma soluo simples, mas perigosa, a excluso de uma


ou mais variveis que apresentam multicolinearidade. A excluso de variveis
essenciais para compreenso do problema pode, entretanto, gerar o chamado vis

142

Econometria

Alexandre Gori Maia

de especificao, que a falha na formulao apurada das relaes entre a


varivel dependente e independentes.
Esta ltima opo, excluso de variveis independentes, usualmente coloca o pesquisador
em um dilema entre a varincia e o vis dos estimadores. Suponha, por exemplo, que na real
relao da populao Y dependa de X1 e X2.
Y = + 1 X 1 + 2 X 2 + e

(12)

Caso X1 e X2 sejam correlacionados, ento a no considerao de, por exemplo, X2 no


ajuste gerar estimadores viesados para 1. Por outro lado, a manuteno de X2 no ajuste
inflacionar a varincia de 1. H, no mnimo, duas razes para preferir a manuteno de X2 no
ajuste. Primeiro, o vis gerado pela sua excluso no se reduz aumentando o tamanho da
amostra, ao passo que a varincia sim. Segundo, a excluso de X2 tender a aumentar a
variabilidade dos erros e, consequentemente a varincia de 1.

Exemplo. A tabela abaixo contm dados hipotticos sobre emisses de CO2 (CO2, em milhes
de toneladas), PIB (PIB, em bilhes de US$) e populao (Pop, em milhes de habitantes) para 8
pases.

CO2
PIB
Pop
1,5
13,2
3,2
8,7
197,0
35,5
2,8
128,6
19,1
9,4
286,4
40,4
4,4
72,6
3,1
8,4
167,8
22,3
3,2
114,4
8,4
0,9
58,0
9,0
Pressupe-se que as emisses cresam linearmente com o crescimento da economia e tambm da
populao, teremos:

CO 2 = 0 + 1 PIB + 2 Pop + e
Aplicando-se MQO, teremos o seguinte resultado para a tabela ANOVA:

143

Econometria

Multicolinearidade

Fonte
gl
SQ
QM
F
p
Regresso
2
63.9
31.9
8.80
0.023
Resduos
5
18.2
3.6
Total
7
82.0
Em outras palavras, o ajuste mostrou-se significativo. A probabilidade de erro ao afirmarmos que
as variveis PIB e Pop contribuem para expliciar a variabilidade do CO2 de apenas 0,02%.
Mais ainda, o R2 de 0,779 sugere que 78% da variabilidade do CO2 seja explicada pelas
variveis PIB e Pop.
Entretanto, se verificarmos as contribuies isoladas dos regressores, veremos que ambas so
insignificantes:

Varivel
t
p
Intercepto
0.472
1.328
0.356
0.737
PIB
0.030
0.025
1.226
0.275
Pop
0.028
0.150
0.183
0.862
A probabilidade de erro ao afirmarmos que o efeito isolado do PIB sobre o CO2 seja diferente de
zero de 27,5%. Para a varivel Pop, a probabilidade de erro de 86,2%. Esses resultados
sugerem a presena de colinearidade entre PIB e Pop, pois, embora o ajuste seja significativo no
conjunto, no est conseguindo estimar os efeitos isolados de cada varivel independente sobre o

CO2.
Como os coeficientes 1 e 2 estimam o efeito isolado das variveis PIB e Pop sobre o CO2, suas
estimativas estariam sendo insignificantes pois essas variveis representariam apenas uma
pequena parcela da variabilidade total explicada pelo ajuste. Em outras palavras, o efeito
conjunto do PIB e Pop representaria a maior parcela da variabilidade explicada pelo ajuste.
Para certificar-se da relao de colinearidade entre PIB e Pop, podemos analisar o modelo:

PIB = 0 + 1 Pop + e
Aplicando-se MQO, chegaremos a um R2 de 0,889 e uma estatstica F igual a 47,9, a qual
corresponde a uma probabilidade de erro inferior a 0,001% ao afirmarmos que haja relao linear
entre PIB e Pop.
Em outras palavras, h fortes indcios para suspeitar que a relao de colinearidade entre PIB e

Pop esteja comprometendo a significncia de seus estimadores na regresso para o CO2. As


varincias desses estimadores estariam sendo inflacionadas pela relao de colinearidade entre os

144

Econometria

Alexandre Gori Maia

regressores e a amostra no estaria sendo suficiente para captar os efeitos isolados de suas
respectivas variveis independentes.
Podemos ainda calcular o FIV para estimarmos em que medida as varincias esto sendo
inflacionadas pela relao de multicolinearidade. Como temos apenas uma relao linear simples
entre PIB e Pop, o R 2j e, consequentemente, o FIVj sero os mesmos para PIB e Pop. O FIV ser
dado por:
FIV j =

1
= 8,98
(1 0,889)

Em outras palavras, as varincias dos estimadores 1 e 2 so 9 vezes supeior ao que poderiam


ser na ausncia de relao linear entre as variveis independentes. Esse elevado valor do FIV est
sendo suficiente para tornar as estimativas insiginificantes, dada a baixa representatividade da
amostra. A soluo ideal para este problema seria obter uma amostra mais representativa
(maior). Excluir uma das variveis poderia comprometer a especificao terica das relaes, ou
seja, tornar tendenciosas as estimativas dos coeficientes. Transformaes podem ainda ser
sugeridas s variveis como, por exemplo, estimar as emisses per capita de CO2 como funo
do PIB per capita.

Exerccios
1. A tabela abaixo apresenta informaes sobre a renda (Renda), anos de idade (Idade), anos de
estudo (Escolaridade) de uma amostra de 6 ocupados. Na ausncia de informaes apuradas
sobre a experincia profissional dos ocupados, trabalha-se com uma aproximao dada pela
idade da pessoa menos a idade esperada de finalizao dos estudos. Supondo que o indivduo
ingresse na escola com 7 anos, teramos a varivel medindo a experincia profissional
(Experiencia) dada por:

Experiencia = Idade Escolaridade 7


Renda
1590
1340
1880
1600
1910
2190

Idade
25
24
32
31
36
40

Escolaridade Experiencia
15
3
12
5
18
7
15
9
18
11
20
13
145

Econometria

Multicolinearidade

Pressupe agora que a renda seja uma funo linear da escolaridade e da experincia
profissional, teramos o modelo de RLM:

Renda = + 1 Escolaridade + 2 Experiencia + e


a. Ajuste a regresso por MQO e analise a significncia dos coeficientes;
b. A colinearidade entre as variveis independentes poderia estar influenciando a
significncia dos coeficientes?
c. Estime as medidas utilizadas para analisar a magnitude da relao linear entre as
variveis (R2 e FIV) e interprete seus resultados;
d. Seria possvel incluir a varivel Idade no modelo de RLM? Por qu?
2. O arquivo VendaAutomoveis.xls contm informaes anuais sobre venda de novos
automveis de passeio (AUTO, em milhares de unidades), ndice de preo ao consumidor
geral (IPC, 1967=100), ndice de preo ao consumidor para automveis (IPCAuto, 1967 =
100) e renda pessoal disponvel (RENDA, em bilhes de dlares) nos EUA entre 1971 e
1986.
a. Ajuste a regresso para as vendas (AUTO) como uma funo linear do IPC,

IPCAuto e RENDA. Interprete os coeficientes;


b. A partir das estatsticas do ajuste, suspeitaria da existncia de multicolinearidade?
c. Estime as relaes entre as variveis independentes e identifique evidncias para
suspeitar da multicolinearidade.
d. Calcule o FIV de cada estimador dos coeficientes de regresso.
e. Proponha uma correo para o problema da multicolinearidade.
3. O arquivo TransporteColetivo.xls contm informaes sobre o nmero de viagens de nibus
(Y, em 000s passageiros / hora), tarifa do nibus (X1, em R$) e preo do litro de gasolina (X2,
em

R$).

Suponha

que

relao

entre

as

variveis

seja

dada

por:

ln(Y ) = + 1 ln( X 1 ) + 2 ln( X 2 ) + e .


a. H razes econmicas para suspeitar de multicolinearidade?
b. H evidncias estatsticas para suspeitar de multicolinearidade?

146

Econometria

Alexandre Gori Maia

4. (ANPEC, 2012) Suponha que o pesquisador esteja interessado em investigar os


determinantes da delinquncia juvenil e tenha acesso aos seguintes dados provenientes de
1000 cidades de um dado pas: A, o nmero de internaes por 1000 adolescentes; P, o
nmero de residncias por 1000 domiclios na cidade com renda abaixo da linha de pobreza;

S, o nmero de residncias por 1000 domiclios na cidade com apenas um dos pais. O
pesquisador estima a regresso: A = 1 + 2 P + 3 S + u
em que u um termo de erro que satisfaz todas as hipteses usuais do modelo de regresso.
A correlao populacional entre P e S 0,96.
Julgue as seguintes afirmativas:
a. A alta correlao populacional entre P e S dar origem ao problema conhecido
como multicolinearidade.
b. Multicolinearidade no torna viesados os estimadores de mnimos quadrados
ordinrios dos coeficientes, mas faz com que eles sejam inconsistentes.
c. As estimativas dos desvios padro sero viesadas e provavelmente subestimaro
os valores verdadeiros.
d. Na presena de multicolinearidade, os testes t e F no so vlidos.
e. Se, ao invs de uma alta correlao populacional entre P e S, houvesse uma alta
correlao populacional entre A e P ou entre A e S, o problema da
multicolinearidade seria ainda maior.
5. (ANPEC, 1992) Dada a funo de produo Pi = 0 K 1 L2 eui , se houver correlao linear
perfeita entre K e L, necessariamente o modelo no poder ser estimado.
6. (ANPEC, 1993) Considerando o modelo de regresso mltipla

Yi = 0 + 1 X 1i + 2 X 2i + K + k X ki + ei
Pode-se afirmar que para estimar os parmetros j da regresso necessrio que as
variveis explicativas sejam independentes entre si.
7. Para um modelo de RLM com k variveis independentes, corretor afirmar que:

147

Econometria

Multicolinearidade

a. Caso a relao linear simples entre X1 e cada uma das outras k1variveis
independentes seja no perfeita, ento no haver multicolinearidade perfeita
entre X1 e as demais variveis independentes conjuntamente;
b. Caso a varincia para um coeficiente estimado seja elevada, significa que h
necessariamente multicolinearidade;

Respostas
1) a. Renda = 128 + 95 Escolaridade + 9 Experiencia + ; F = 129.47; p = 0.001; S =9,67;
1

t=9.83; p=0,002; S =7,43; t=1,21; p=0,312; c. R2=0,553; FIV=2,237.


2

2) a. AUTO = 10650,4 + 87,4 IPC 137,9 IPCAuto + 8,8RENDA + e ; F=10,78; p=0,001; t1=1,53;
2
p1=0,151; t2=-4,40; p2<0,001; t3=4,70; p3<0,001; c. R123
= 0,994 ; F123=1138,7; p123<0,001;
2
R213
= 0,994 ;

F213=1128,2;

p213<0,001;

2
R312
= 0,984 ;

F312=406,1;

p312<0,001;

d.

FIV123=176,2; FIV213=174,6; FIV312=63,5.


3) b.

ln(Y ) = 7,42 1,52 ln( X 1 ) + 4,80 ln( X 2 ) + e ; F=5,75; p=0,033; t1=-2,36; p1=0,050;

2
t2=1,068; p2=0,320; R12
= 0,212 ; F12=2,15; p12<0,181; FIV12=1,268.

4) a. V; b. F; c. F; d. F; e. F.
5) V.
6) F.
7) a. F; b. F.

148

Econometria

Alexandre Gori Maia

Apndice A Estimativas de MQO na presena de colinearidade perfeita


Seja, por exemplo, um modelo de RLM com duas variveis independentes:
Yi = + 1 X 1i + 2 X 2i + ei

Podemos ainda represent-lo como uma funo dos desvios:


yi = 1 x1i + 2 x 2i + ei

E os estimadores de MQO sero dados por:


= ( X T X ) 1 ( X T y )

Onde:
x12J
X X=
x 2 x1
j
j

x x
x
1j

2j

2
2J

O determinante desta matriz ser:


X

x
X=
x x
2
1J

2j

x x
x
1j

1j

2j

2
2J

= x12J x22J ( x1 j x2 j ) 2

No caso de colinearidade perfeita entre X1 e X2, teremos que:

r122 =

x x
x x
1j

2
1J

2j

2
2J

( x1 j x2 j ) 2

=1
=
x12J x22J

Onde r122 o quadrado do coeficiente de correlao linear entre x1 e x2, ou o coeficiente de


determinao da relao linear simples entre essas variveis.
Desenvolvendo teremos:
( x1 j x2 j ) 2 = x12J x22J
E, consequentemente, o determinante da matriz XTX ser nulo:

XT X = 0

Em outras palavras, a matriz XTX ser singula e no inversvel, no sendo possvel obter os
estimadores de MQO para 1 e 2.

149

Econometria

Multicolinearidade

Apndice B Estimativas de MQO na ausncia de relao linear entre os regressores

Seja, por exemplo, o caso do modelo de RLM com duas variveis independentes X1 e X2,
representado pela funo das variveis centradas:
yi = 1 x1i + 2 x 2i + ei

Se ajustssemos Y como funo simples de cada varivel independente teramos:


yi = 1 x1i + e1i
y i = 2 x 2i + e 2 i

Sabemos que o vetor de estimadores de MQO para a RLM ser:

x2
= ( X T X) 1 ( XT y ) = 1J
x 2 x1
j
j

x1 x2
x22
j

x1 j y j

x2 y j
j

E que os estimadores de MQO para os modelos de RLS sero:

1 =

x1 y j
x12j
j

e 2 =

x2 y j
x22 j
j

Entretanto, caso as variveis X1 e X2 sejam independentes, teremo que

x1 x2
j

= 0 e,

consequentemente:
x12
J
=
0

2
x2 j
0

x1 j y j x1 j y j

=
x2 y j x2 y j
j
j

x12
x22

Ou seja, os estimadores do modelo de RLM equivalem-se aos estimadores dos modelos de


RLM.

150

Econometria

Alexandre Gori Maia

Apndice C Varincias das Estimativas de MQO na presena de multicolinearidade

Considerando o exemplo do model de RLM com duas variveis independentes:


yi = 1 x1i + 2 x 2i + ei

A matriz de varincias e covarincias dos estimadores dos coeficientes ser:


Var ( ) = ( X T X ) 1 2

Para invertermos a matriz XTX teremos:


x12J
( X X) =
x 2 x1
j
j

x x
x
1j

2
2J

2j

= 1

XT X

x 22J

x2 x1
j
j

x1 j x2 j

2
x
1J

Para simplificar as representaes, definiremos as seguintes expresses:

S11 = x12 ;

S 22 = x 22 ; S12 = S 21 = x1 x 2 .Teremos ento:


( X T X) 1 =

S 22

2
S11 S 22 S12 S12
1

S12 S 22 ( S11 S 22 S122 ) S12 ( S11 S 22 S122 )


=

S11 S12 ( S11S 22 S122 ) S11 ( S11 S 22 S122 )

Se dividirmos todos os termos por S11S22 teremos:


`1
S2
S
S2

(1 12 )
(1 12 )
12
S11
S11 S 22
S11S 22
S11 S 22
( XT X) 1 =
2

S12
S12
S122
1
(1
)
(1
)

S11 S 22
S 22
S11 S 22
S11 S 22

Se considerarmos que r122 = S122 S11 S 22 , podemos simplificar (XTX)1 por:

S
1

12
(1 r122 )
2
S11 S 22
S11 (1 r12 )

( XT X) 1 =

S
1
(1 r122 )
12

S 22 (1 r122 )
S11 S 22
Finalmente, teremos:

S
1

12
(1 r122 )
2
S11 S 22
S11 (1 r12 )
2
Var( ) =

S12
1
(1 r122 )

S 22 (1 r122 )
S11 S 22
Ou seja:

151

Econometria

Multicolinearidade

Var ( 1) =
Var ( 2) =
Cov( 1, 2) =

2
S11 (1 r122 )

2
S 22 (1 r122 )
S12 2
S11 S 22 (1 r122 )

Assim, quanto maior for a relao linear entre X1 e X2, maior ser r122 e, consequentemente,
maiores sero as varincias de 1 e 2 .Quando o valor de r122 aproximar-se de 1, as varincias
tendero a infinito.
A demonstrao para o caso de k variveis independente semelhante, embora mais trabalhosa.
De maneira geral, teremos:

Var ( j ) =

2
S j (1 R 2j )

Onde Sj a soma dos quadrados dos desvios de Xj e R 2j o coeficiente de determinao de Xj


em funo das demais variveis independentes.

152

Econometria

Alexandre Gori Maia

11. Variveis Binrias


Introduo
As variveis utilizadas em anlises estatsticas podem ser classificadas em quatro grupos
principais, segundo suas escalas de medidas:
i)

Escala nominal: valores representam categorias (nomes) e no se pode estabelecer


uma hiearquia entre esses, ou seja, no se pode falar que um valor seja maior que o
outro. Exemplo: sexo, cor, religio;

ii)

Escala ordinal: valores representam uma hierarquia de posies, mas no se pode


falar quo maior um valor em relao a outro. Exemplo: classe social, avaliao
de satisfao (timo, bom, mdio, ruim, pssimo);

iii)

Escala intervalar: valores representam ordem e possvel mensurar intervalo entre


esses, embora no se possa dizer quantas vezes um maior que outro. Exemplo:
perodo medido em anos.

iv)

Escala de razo: valores representam ordem, possvel mensurar intervalo entre


esses e quantificar grandezas em uma escala de razo. Exemplo: renda, peso, idade.

Os modelos de RLM usualmente consideram que tanto as variveis dependentes quanto


as independentes representam grandezas quantitativas, as quais apresentam escala intervalar ou
de razo. Entretanto, muitas vezes dispomos de informaes qualitativas, ou seja, categorias de
valores sem qualquer associao de ordem ou proporcionalidade entre essas (escalas nominal e
ordinal).
Neste captulo, veremos o uso e aplicaes de variveis independentes qualitativas em
ajustes de RLM a partir de sua representao por variveis binrias. Por sua vez, o uso de
variveis dependentes qualitativas exige modelos especiais de regresso que esto alm do
presente objetivo25.

25

Os modelos de regresso logstica, por exemplo, so indicados para ajustes com varivel dependente nominal.

153

Econometria

11.1.

Variveis Binrias

Variveis binrias para representar 2 categorias


Uma representao usual para variveis independentes qualitativas atravs de variveis

binrias (varivel dummy). Uma varivel binria (D) pode representar dois estados possveis:

0, na ausncia da caracterstica de interesse (fracasso)


Di =
1, na presena da caracterstica de interesse (sucesso)

(1)

A escolha de qual categoria representar sucesso (D=1) apenas uma questo de


interpretao do problema, sem qualquer resultado prtico sobre a qualidade do ajuste (caso haja
inverso na definio das categorias, apenas o sinal do coeficiente associado varivel binria
ser invertido). Definidas as variveis binrias, essas podem ser incorporadas como regressores
em modelos de regresso da mesma forma que fazemos com qualquer varivel quantitativa.
Exemplo 1. Seja uma amostra de 4 observaes com informaes sobre o nmero de filhos de

um casal (Y), anos completos de escolaridade da esposa (X) e se o domiclio onde residem assina
televiso a cabo:
Y

TV?

15

Sim

Sim

No

No

Podemos definir a varivel binria D para representar a posse (1) ou no (0) de televiso:
0, se domiclio no assina TV a cabo
Di =
1, se domiclio assina TV a cabo
E estabelecer a seguinte relao linear

Yi = + 1 X i + 2 Di + ei
Onde o modelo a ser ajustado, em notao matricial, seria dado por:
e1
0 1 15 1

e2
2 1 8 1

+
y = X + e =
1
4
1 5 0 e3


6 1 3 0 2 e

Como em qualquer ajuste de RLM, as estimativas de MQO para esse modelo seriam dadas por:
154

Econometria

Alexandre Gori Maia

= ( X T X ) 1 ( X T y )
1

1 15 1
0
1 1 1 1
1 1 1 1

1 8 1
2
15
8
5
3
= 15 8 5 3

1 5 0
4

1 1 0 0
1 1 0 0

1 3 0
6

4 31 12 12 6,36

= 31 323 23 54 = 0,34
12 23 2 2 - 1,45

Que nos daria o seguinte ajuste:


Yi = 6,36 0,34 X i 1,45 Di + ei
Percebam, pela figura abaixo, que o ajuste estabelecido permite a representao de um plano
para quaisquer valores de D, embora, na prtica, esta representao seja vlida apenas para os
valores 0 e 1:

Para melhor compreendermos a interpretao do coeficiente associado varivel binria, vamos


ver o que acontece com a funo estimada quando modificamos o valor de D. Quando o
domiclio no assinar TV a cabo (D=0), a funo para o nmero de filhos ser dada por:
Yi = 6,36 0,34 X i + ei
E quando o domiclio assinar TV a cabo (D=1), a funo ser.
Yi = (6,36 1,45) 0,34 X i + ei
Em outras palavras, independente dos anos de escolaridade da mulher (X), casais com TV a cabo
no domiclio teriam, em mdia, 1,45 filhos a menos que casais sem TV no domiclio. Outra
forma de representarmos a relao grfica acima seria atravs de duas retas, com as mesmas

155

Econometria

Variveis Binrias

inclinaes em relao aos anos de estudo, mas com deslocamentos (interceptos) diferentes para
domiclios com TV e sem TV a cabo.

11.2.

Variveis binrias para representar mltiplas categorias

Para melhor compreendermos a interpretao de modelo com variveis independentes


binrias, seja, inicialmente, uma varivel binria DA representando duas categorias (A e B):
Categoria

DAi

(2)

E o modelo de RLM dado por:


Yi = + 1 X i + 2 D Ai + ei

(3)

Nessa situao o coeficiente 2 indicaria quanto Y seria, em mdia, maior (ou menor)
para a categoria A (DA=1) que a categoria de referncia B (DA=0), independente do valor de X.
Isso porque seria o mesmo que analisarmos dois modelos possveis para Y:

(4)

Dizemos, nessa situao, que a categoria B nossa referncia de anlise, pois o


coeficiente 2 nos indicaria um maior ou menor valor esperado de Y em relao ao observado
para B.
A incluso de uma segunda varivel binria para representar a categoria B (por exemplo,
DB) na equao (3), alm de redundante, inviabilizaria a estimativa de MQO. Isso porque a
primeira coluna de nossa matriz X, contendo os valores unitrios associados ao intercepto,
passaria a representar uma funo linear perfeita das duas varivels binrias: 1=DA+DB. Uma
alternativa seria ajustarmos um modelo sem interceptos e com duas binrias representando cada
um das duas categorias:
Yi = 0 D Ai + 0 DBi + 1 X i + ei

(5)

156

Econometria

Alexandre Gori Maia

Percebam que agora os coeficientes 0 e 1 representam, respectivamente, os interceptos


para as categorias A e B. Em outras palavras: 0 = ( + ) e 1 = . No h diferenas na
qualidade do ajuste e nos efeitos marginais obtidos pelas equaes (3) ou (5). A escolha
depender, sobretudo, da praticidade analtica de cada modelo.
Da mesma forma que uma varivel binria suficiente para representar duas categorias
nominais (sucesso ou fracasso), utilizamos k1 variveis binrias para representar k categorias
nominais. A incluso de uma k-sima varivel binria implicaria em redundncia e linearidade
perfeita entre as colunas da matriz X, uma vez que: 1 = D1 + D2 + ... + Dk.
Suponha, por exemplo, que agora tenhamos 3 categorias nominais (A, B e C) e duas
binrias (DA e DB) para represent-las. Por exemplo, sendo DA igual a 1 para a categoria A e DB
igual a 1 para a categoria B, teramos:
Categoria

DAi

DBi

(6)

E o modelo com duas binrias dados por:

Yi = + 1 X i + 2 D Ai + 3 DBi + ei

(7)

Verifique que, quando o i-simo indivduo pertencer categoria C, as duas binrias


assumiriam valor 0 e o modelo resumir-se-ia a: Yi = + 1 X i + ei . Dizemos, nessa situao, que
a categoria C nossa referncia de anlise e que os coeficientes 2 e 3 indicariam
deslocamentos em relao aos valores de referncia para C. Assim, o coeficiente 2 indicaria
quanto Y seria, em mdia, maior (ou menor) para a categoria A (DA=1) em relao categoria de
referncia C (DA=0 e DB=0), independente do valor de X. O coeficiente 3, da mesma forma,
indicaria quanto Y seria, em mdia, maior (ou menor) para a categoria B (DB=1) em relao
categoria de referncia C. Essa relao pode ser representada pela Figura (8):

157

Econometria

Variveis Binrias

(8)

Exemplo 2. Seja uma amostra com informaes sobre a renda (Y), anos de estudo (X) e posio

na ocupao (empregado; autnomo ou empregador) de seis trabalhadores, e duas variveis


binrias (D1 e D2) para representar trs categorias ocupacionais (empregado, autnomo e
empregador):
Yi

Xi

Posio Ocupao

D 1i

D2i

100

Empregado

200

Empregado

400

Empregado

400

Autnomo

500

Autnomo

600

Empregador

Onde:
1, se Autnomo
1, se Empregador
e D2i =
D1i =
0, c.c.
0, c.c.

A categoria ocupacional empregado seria, assim, a referncia de anlise e o modelo de regresso


proposto seria dado por:

Yi = + 1 X i + 2 D1i + 3 D2i + ei
Em notao matricial, a funo na amostra corresponderia a:

158

Econometria

Alexandre Gori Maia

100 1


200 1
400 1

y = X + e
400 1


500 1
600 1

0
e1

0 e2

0 1 e3

+
0 2 e4

8 1 0 3 e5
e
0 0 1
6

0
4
8
4

0
0
0
1

Aplicando MQO chegaramos s estimativas:


= ( X T X ) 1 ( X T y )
1

6 24 2 1 2200 93,3

24
160
12
0
9600
35

=
=

2 12 2 0
900
146,7

1
0
0 1 600 506,7

Que sugeririam o ajuste:

Yi = 93,3 + 35 X i + 146,7 D1i + 506,7 D2i + ei


Assim, independente dos anos de escolaridade, o rendimento mdio dos autnomos seria 146,7
reais superior ao dos empregados e o dos empregadores 506,7 superior ao dos empregados. A
figura abaixo representa graficamente essa relao:

11.3.

Interpretao de coeficientes de binrias em equaes semi-logartmicas

Cuidados especiais devem ser tomados na interpretao de coeficientes associados a


variveis binrias quando a varivel dependente encontra-se na forma logartmica. Suponha, por
simplicidade, um modelo de regresso para o logaritmo de Y como funo de uma nica varivel
binria D:

159

Econometria

Variveis Binrias

ln(Yi ) = + Di + ui

(9)

Em outras palavras, o valor esperado de ln(Y) seria unidades superior para D=1 em
comparao categoria de referncia (D=0), j que para D=0 a E[ln(Y)]= e para D=1 a
E[ln(Y)]=+. Baseado no que aprendemos sobre a interpretao de coeficientes em modelos

logartmicos, seramos tambm levados a afirmar que o valor esperado de Y para D=1
(chamaremos de Y1) seria 100% superior ao valor para D=0 (chamaremos de Y0), pois:
Y
Y0 Y1 Y0
ln(Y )
=
=
=
D
1 0
Y0

(10)

Entretanto, a relao estabelecida em (10) apenas vlidas quando as variaes em ln(Y)


e D forem infinitesimais, o que no necessariamente o caso quando comparamos categorias
nominais, sobretudo quando o valor de no for suficientemente pequeno. Para obtermos a real
variao relativa em Y quando comparamos as categorias D=1 e D=0, podemos realizar o
caminho inverso do desenvolvimento em (10), ou seja, estimar o valor para

Y1 Y0
. O primeiro
Y0

passo estimar a relao entre Y e D, que representada pela funo no linear:


Yi = e + Di +ui

(11)

Em seguida, calculamos a variao relativa em Y por:

160

Econometria

Alexandre Gori Maia

Y1 Y0 e + e e e e
=
=
= e 1

Y0
e
e

(12)

Em outras palavras, para obtermos a variao relativa em Y quando mudamos da


categoria D=0 para a categoria D=1, devemos calcular e1. Quando o valor de for
suficientemente pequeno, ou seja, quando podemos considerar que as variaes em ln(Y) so
infinitesimais, as equaes (10) e (12) se equivalem e a transformao acaba sendo
desnecessria. Na dvida, entretanto, sempre recomendvel utilizar a expresso (12) quando
temos coeficientes associados a variveis binrias em equaes semi-logartimicas.

11.4.

Outras aplicaes das variveis binrias

Nos exemplos anteriores, consideramos o uso de variveis binrias apenas para


determinar deslocamentos na reta de regresso (diferentes interceptos). Entretanto, as variveis
binrias possuem vrias outras aplicaes, duas das quais so ilustradas na figura 13:
Y = + 1 D + 2 X + 3 D X + e

Y = + 1 X + 2 ( X X *) D + e

(13)

No primeiro exemplo, teramos diferentes interceptos e diferentes inclinaes para a


regresso de Y em funo de X. Em outras palavras, quando D=0 a relao seria dada por

Y = + 2 X + e enquanto que para D=1 a relao seria Y = ( + 1 ) + ( 2 + 3 ) X + e .


Na segunda situao, consideramos uma mudana na inclinao da reta de regresso para
valores de X superiores a determinado limite (X>X*), quando a varivel binria D passaria de 0
para 1. Em outras palavras, quando D=0 a relao seria dada por Y = + 1 X + e , enquanto que
para D=1 a relao seria Y = ( 2 X *) + ( 1 + 2 ) X + e .
Este ltimo modelo pode ainda ser generalizado para permitir vrias mudanas de
inclinaes e chamado de modelo de regresso poligonal. Pressupondo, por exemplo, um
modelo com p mudanas de inclinaes (vrtices), teramos:

161

Econometria

Variveis Binrias
p

Y = + X + j ( X X *j ) D j + e
j =1

(14)

Onde X *j o valor correspondente j-sima mudana de inclinao e Dj uma varivel


binria que assume 1 quando X > X *j e 0 caso contrrio. Assim, o coeficiente j indicar a
mudana de inclinao para cada segemento poligonal.
Exemplo 3. Seja uma amostra com informaes sobre renda (Y), anos de estudo (X) e sexo de

seis ocupados:
Yi

Xi

Sexo

100

Mulher

250

Mulher

300

Mulher

200

Homem

400

Homem

500

Homem

Definimos a varivel binria D para identificar o sexo da pessoa:

1, Homem
D=
0, Mulher
Para considerar que as mulheres ganham, em mdia, menos que os homens, independente da
escolaridade, e que os retornos marginais da escolaridade sobre a renda sejam diferentes entre os
sexos, podemos propor o seguinte modelo:
Yi = + 1 X i + 2 Di + 3 Di X i + ei

Onde a varivel DiXi simplesmente o produto de Di por Xi. Para compreender seu significado,
vejamos o que acontece com a reta de regresso para homens e para mulheres:

162

Econometria

Alexandre Gori Maia

Para mulheres (D=0): Yi = + 1 X i + ei


Para homens (D=1): Yi = ( + 2 ) + ( 1 + 3 ) X i + ei
Assim, seria a renda esperada de uma mulher quando X=0. Para homens, essa renda esperada
seria 2 unidades superior (ou inferior se 2<0). O coeficiente 1, por sua vez, indicaria a
variao marginal na renda da mulher para cada ano adicional de escolaridade. Para homens,
essa variao marginal seria 3 unidades superior (ou inferior se 3<0). O pressuposto desta
anlise que os retornos marginais de escolaridade sejam diferentes para homens e mulheres.
Com os dados da amostra, a representao matricial para o problema seria:
0 0 0
e1

4 0 0 e 2

8 0 0 1 e 3

+
0 1 0 2 e 4

4 1 4 3 e 5
e
8 1 8
6

100 1


250 1
300 1
=
y = X + e
200 1
400 1


500 1


E as estimativas de MQO:

= ( X T X ) 1 ( X T y )

6 24 3

24 160 12
=
3 12 3

12 80 12

12

80
12

80

1750 116,7

9000 25
1100 = 100

5600 12,5

Teramos, ento, o seguinte ajuste:

Yi = 116,7 + 25 X i + 100Di + 12,5Di X i + ei


Isso significa que, para ocupados sem escolaridade, o rendimento mdio dos homens seria 100
reais superior ao das mulheres. A variao marginal da escolaridade para os homens seria ainda
12,5 reais superior das mulheres, ou seja, o efeito da escolaridade seria maior para os homens.
A figura abaixo representa graficamente essa relao:

163

Econometria

Variveis Binrias

Exemplo 4. Sejam os seguintes dados amostrais para a renda (Y) e anos de estudo (X) de seis

ocupados:
Yi

Xi

100

250

300

450

10

700

13

800

15

Supe-se que o retorno marginal da escolaridade sobre a renda seja diferente para aqueles com
at o 1 grau (X8) e aqueles com 2 grau ou mais de escolaridade (X>8). Uma maneira de
expressar essa relao seria, primeiramente, definindo a varivel binria D para discriminar dois
grupos de escolaridade:

0, se X i 8
Di =
1, se X i > 8
Posteriormente, estabeleceramos a relao:
Yi = + 1 X i + 2 ( X i 8) Di + ei

Em outras palavras, 1 seria a variao marginal na renda para cada ano adicional de
escolaridade at o 8 ano de escolaridade. A partir do 2 grau (X>8 e D=1), a variao marginal
na renda seria de 1+2 para cada ano adicional de escolaridade.
Com os dados da amostra, a representao matricial para o problema seria:

164

Econometria

Alexandre Gori Maia

e1
100 1 0 0


e2
250 1 4 0
300 1 8 0 e
1 + 3
=
y = X + e
450 1 10 2 e4


2 e
700
1
13
5
5

800 1 15 7
e


6
E as estimativas de MQO:
= ( X T X ) 1 ( X T y )
1

6 50 14 2600 116,6

= 50 574 190 29000 = 25,1


14 190 78 10000 46,2

Teramos, ento, o seguinte ajuste:


Yi = 116,6 + 25,1X i + 46,2( X i 8) Di + ei

Isso significa que, at o 8 ano de escolaridade (D=0), seria esperada uma variao marginal de
25,1 reais na renda para cada ano adicional de escolaridade. Por sua vez, o retorno marginal da
educao na renda seria, em mdia 46,2 reais superior aps o 8 ano de escolaridade. A figura
abaixo permite ainda visualizar graficamente essa relao:

11.5.

Teste de mudana estrutural

Como sabemos, o teste F pode ser aplicado para verificar se a contribuio marginal de q
variveis independentes na explicao da variabilidade de Y significativa, isolando-se o efeito
da variabilidade j explicada pelas demais kq variveis independentes. Raciocnio anlogo pode
ser aplicado para verificar se a incluso da varivel binria, ou da combinao desta com o
regressor X, contribuem conjuntamente para explicar a variabilidade de Y. Em outras palavras,
podemos aplicar o teste F para verificar se dois grupos da populao, definidos pelas categorias
165

Econometria

Variveis Binrias

da varivel binria, apresentam a mesma funo de regresso. Esse tipo de teste denominado
teste de mudana estrutural, pois, uma vez provada a relevncia da varivel binria no modelo,
significa afirmar que h mudanas significativas na estrutura da funo de regresso (mudana
do intercepto e/ou inclinao da reta) aps a considerao de algum atributo qualitativo de
interesse.
Para visualizarmos a aplicao do teste de mudana estrutural, suponha inicialmente que
tenhamos a seguinte especificao do modelo de regresso:
Yi = 0 + 1 X i + ei

(15)

Vamos agora considerar um modelo com mudana de intercepto e de inclinao da reta


em funo de um atributo qualitativo de interesse, discriminado pela varivel binria D:
Yi = 0 + 1 X i + 2 Di + 3 Di X i + ei

(16)

Caso o atributo qualitativo incorpore alguma informao relevante ao modelo original


(15), devemos esperar que haja mudana no intercepto e/ou inclinao da reta. Em outras
palavras, esperamos que haja uma mudana estrutural em virtude da considerao da varivel
binria D em (16), situao caracterizada pelas trs ltimas regresses em (17):
Regresses
Coincidentes

Regresses
Paralelas

Regresses
Concorrentes

Regresses
Dissimilares

(17)

Testar se h mudana estrutural significa testar se pelo menos um dos coeficientes


associados binria, 2 ou 3, diferente de zero. Em outras palavras:

H 0 : 2 = 3 = 0

H 1 : 2 0 e / ou 3 0

(18)

A hiptese nula deste teste o da estabilidade da regresso, ou seja, quando as relaes


entre X e Y so as mesmas (constantes) para as duas categorias de anlise. A hiptese alternativa
a da diferena da relao de regresso para as categorias.
Este teste de hipteses corresponde quele utilizado para a contribuio marginal das
variveis associadas aos coeficientes 2 e 3. Assim, podemos aplicar um teste de restrio aos
166

Econometria

Alexandre Gori Maia

parmetros, onde o modelo irrestrito seria definido pela equao (16) e o modelo restrito pela
equao (15). A estatstica de teste seria a F, com graus de liberdade do numerador definidos
pelo nmero de restries impostas aos parmetros (no caso, 2) e, no denominador, com os
mesmos graus de liberdade dos resduos do modelo irrestrito:
F=

( SQReg ir SQReg r ) / 2
( SQRes r SQResir ) / 2
ou F =
SQResir /( n 4)
SQResir /( n 4)

(19)

Caso a hiptese nula seja rejeitada pelo teste F, ou seja, caso o valor p associado
estatstica F seja suficientemente pequeno, dizemos que h mudana estrutural na relao entre Y
e X. Para saber se a mudana se deve variao no intercepto, no coeficiente angular ou nos
dois, podemos verificar os resultados dos testes t isolados para cada coeficiente.
O teste de mudana estrutural com variveis binrias uma alternativa quele conhecido
na literatura como teste de Chow26. Neste teste, so ajustadas duas regresses independentes para
cada categoria de anlise e seus resultados comparados atravs de uma mesma estatstica F com
os resultados obtidos para um ajuste com as populaes das duas categorias conjuntamente. A
principal vantagem do teste com variveis binrias que este tambm permite identificar em que
coeficiente se d a mudana estrutural (intercepto ou coeficiente angular). A principal
desvantagem que a especificao do modelo com variveis binrias pode ficar demasiadamente
extensa quando estamos analisando as interaes com inmeras variveis independentes X.
Exemplo 4. Seja a mesma amostra com informaes sobre renda (Y), anos de estudo (X) e sexo

de seis ocupados:

26

Yi

Xi

Sexo

100

Mulher

250

Mulher

300

Mulher

200

Homem

400

Homem

500

Homem

Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models. Econometrica,

1960, p. 591-605.

167

Econometria

Variveis Binrias

E a varivel binria D para identificar o sexo da pessoa:

1, Homem
D1 =
0, Mulher
O modelo irrestrito, com a considerao da mudana estrutural imposta pela considerao do
sexo da pessoa, seria:
Yi = + 1 X i + 2 Di + 3 Di X i + ei

Aplicando MQO, chegaramos ao ajuste:


Yi = 116,7 + 25 X i + 100 Di + 12,5 Di X i + ei

Com soma dos quadrados da regresso (SQRegir) igual a 98750 e soma dos quadrados dos
resduos (SQResir) igual a 3333,3.
Por sua vez, o modelo restrito seria aquele sem a considerao de mudana estrutural entre os
sexos, ou seja, com restrio aos parmetros 2 e 3 do modelo. Seria, ento, definido por:
Yi = + 1 X i + ei

E com estimativas de MQO dadas por:

Yi = 166,7 + 31,25 X i + ei
Nesse caso, a soma dos quadrados da regresso (SQRegr) seria igual a 62500.
A representao do modelo restrito e irrestrito pode ser observada no grfico abaixo:

E, para testar a hiptese nula de ausncia de mudana estrutural, utilizamos a estatstica F


estimada por:
F=

( SQ Re g ir SQ Re g r ) / 2 (98750 62500) / 2
=
= 10,875
SQ Re sir /( n 4)
3333,3 / 2

Onde o valor p associado a 10,875 em uma distribuio F com 2 graus de liberdade no


numerador e denominador de 0,084. Ou seja, se afirmarmos que h mudana estrutural em
relao ao sexo estaremos sujeito a uma probabilidade de erro de 8,4%.
168

Econometria

Alexandre Gori Maia

Exerccios

1. Observaram-se informaes sobre o preo (X) e a quantidade ofertada (Y) de determinado


produto nos 6 bimestres de um ano (t):
Y

2,0

1,5

2,5

3,0

5,5

6,5

a. Ajuste a regresso linear da quantidade ofertada em funo do preo pressupondo


deslocamentos da funo de um semestre para outro sem, entranto, mudanas na
declividade. Interprete os coeficientes estimados.
b. Os coeficientes de regresso estimados so significativos?
c. Ajuste a regresso pressupondo agora que haja tambm mudana na declividade
da funo de um semestre para outro;
d. Ajuste uma regresso poligonal pressupondo que haja mudana na declividade da
funo quando o preo for maior que 2 unidades.
2. O arquivo SalariosProfessores.xls contm informaes referentes ao salrio de professores
(US$ por ano), anos de docncia aps doutorado (anos) e Universidade em que trabalham (A,
B ou C). Supondo que o salrio seja linearmente determinado pelos anos de docncia, pedese:
a. Considere interceptos diferentes para a universidade A e as demais;
b. Considere interceptos diferentes para cada uma das universidades;
c. Considere intercepto e variao marginal diferente para a universidade A em
relao s demais;
d. Verifique a existncia de quebra estrutural das relaes entre a universidade A e
as demais;
e. Considere retornos marginais diferentes a partir de 30 anos de docncia.
3. (ANPEC, 2012) Usando uma base de dados que tem informao de 65.535 trabalhadores,
queremos verificar se existe desigualdade salarial entre setores da economia. Consideremos
169

Econometria

Variveis Binrias

que a economia est dividida em 4 setores: indstria, comrcio, servios e construo. Cada
um dos trabalhadores est em um dos quatro setores e eles so mutuamente exclusivos. Seja
Yi o salrio mensal do trabalhador i e definimos para cada setor uma varivel binria que

igual a 1 se o trabalhador est em determinado setor e 0 caso contrrio. Estimando um


modelo linear de regresso, obtemos o seguinte resultado:

em que educ representa o nmero de anos de estudos de cada trabalhador, idade medida
em anos, Homem uma varivel binria que assume valor igual a 1 se i homem e 0 caso
contrrio, DI representa a dummy para indstria, DC para o comrcio e DCons para o setor
de construo. Entre parnteses encontra-se o erro padro.
Baseado nas informaes acima, julgue as seguintes afirmativas:
[ Para a resoluo desta questo talvez lhe seja til saber que se Z tem distribuio Normal
Padro, ento Pr(|Z|>1,645)=0,10 e Pr(|Z|>1,96)=0,05.]
a. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio do setor da indstria igual ao salrio do setor de
servios para trabalhadores com o mesmo nvel educacional, a mesma idade e do
mesmo sexo. A hiptese alternativa que os salrios nestes setores sejam
diferentes;
b. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio no setor da construo igual ao salrio no setor
de comrcio, mantendo educao, idade e sexo fixos. A hiptese alternativa que
os salrios nestes setores sejam diferentes;
c. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio nos 4 setores da economia so iguais, mantendo
constante educao, idade e sexo;
d. Os resultados do modelo acima permitem testar a hiptese de que o retorno
salarial entre homem e mulher diferente para cada nvel educacional, ao nvel de
5% de significncia;

170

Econometria

Alexandre Gori Maia

e. Com base nos resultados acima, podemos testar a hiptese de que o intercepto do
modelo linear de salrio em funo da educao, idade e setor para homem
diferente do intercepto do mesmo modelo linear de salrio para mulher;

Respostas

1) a.

Y = 0 + X + 3D ;

b.

1:

t=2;

p=0,139;

2:

t=0,816;

p=0,035;

c.

Y = 1,5 + 0,25 X + 3D + 1,5 D X ; d. Y = 3 + X + 0 D ( X 2)

2) a.

Y = 51,7 + 1,58 Anos + 17,54 A ;

b.

Y = 48,1 + 1,73 Anos + 33,18 A 0,83 A Anos ;

F2,40 =

Y = 53,7 + 1,53 Anos + 16,42 A 6,71B ;

d.

c.

Y = 60,2 + 1,39 Anos ;

(12.138 9.302) / 2
= 4,28 ; p=0,021; e. Y = 59,14 + 1,46 Anos 0,43( Anos 29) D
13.270 / 40

3) a. V; b. F; c. F; d. F.; e. V;

171

Econometria

Heterocedasticidade

12. Heterocedasticidade
Introduo
Passaremos agora a verificar as consequncias da ausncia de algum dos pressupostos do
Teorema de Gauss-Markov sobre os estimadores de mnimos quadrados. Um desses pressupe
que a varincia do erro ( 2 ) seja a mesma para todos os valores condicionais de X. Em outras
palavras, pressupe a homocedasticidade (ou homocedasticia) dos erros, palavra de origem
grega que significa igual (homo) disperso (skedasis).
Na presena de heterocedasticidade, a varincia dos erros ser diferente para cada valor
de X e os estimadores de MQO, embora permaneam no viesados e consistentes, deixam de ser
eficientes, ou seja, deixam de apresentar varincia mnima. Neste captulo, alm da definio de
heterocedasticidade, veremos quais suas causas, consequncias, como detect-la e quais as
possveis medidas corretivas.

12.1.

Definio
Dado o modelo de RLM:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei

(1)

Um dos pressupostos para que os estimadores de MQO dos parmetors e s sejam os


MELNV que a varincia dos erros e, condicional aos valores das variveis explanatrias, seja
constante. Em outras palavras, a homocedasticidade define-se por:
Var (ei / X 1i , X 2i ,..., X ki ) = 2

(2)

Isso quer dizer que a disperso dos erros ser a mesma em qualquer ponto de regresso
em relao Xj, como esquematiza a figura (3).

(3)

172

Econometria

Alexandre Gori Maia

Por outro lado, na presena de hetocedasticia, a varincia dos erros ser diferente para
cada valor condicional de Xj. Esse comportamento pode ser representado pela expresso (4) e
figura (5).
Var (ei / X 1i , X 2i ,..., X ki ) = i2

(4)

(5)

Na presena de heterocedasticidade os estimadores de MQO deixaro de ser eficientes


(mesmo para amostras relativamente grandes), ou seja, no mais apresentaro varincia mnima,
embora permaneam no viesados e consistentes.
A hetocedasticidade pode ocorrer devido a uma srie de fatores, entre os quais podemos
destacar:

Natureza das variveis: alguns relacionamentos apresentam naturalmente tendncia


heterocedasticia. Por exemplo, renda e poupana. Pessoas de baixa renda so
limitadas pela renda ao poupar e possuem pouca disperso em relao ao valores
mdios de seu grupo econmico. J entre os ricos, o comportamento mais disperso:
h aqueles que poupam boa parcela de seus ricos rendimentos, at aqueles que nada
poupam. Analogamente, pessoas com menor escolaridade podem apresentar
rendimentos baixos e mais homogneos, enquanto que a heterogeneidade seria maior
entre pessoas mais escolarizadas;

Valores extremos: a ocorrncia de um valor extremo (muito superior ou muito inferior


aos demais valores da amostra) pode inflacionar a variabilidade em um determinado
ponto do ajuste;

Falhas na especificao do modelo: a heterocedasticidade pode tambm encobrir


problemas mais graves do modelo, como a omisso indevida de algum importante
regressor. Por exemplo, a ausncia de um termo quadrtico para a idade em uma
173

Econometria

Heterocedasticidade

funo de rendimentos pode implicar em maior variabilidade dos erros para valores
intermedirios da idade, onde o rendimento seria maior;

Transformao dos dados: a transformao das variveis (por exemplo, proporo ao


invs de valores absolutos) ou da forma funcional (modelo log-duplo ao invs de
linear) pode eliminar ou atenuar a heterocedasticidade.

Alm de os estimadores de MQO no serem mais eficientes na presena de


heterocedasticidade, podemos tambm demonstrar que os estimadores de suas varincias
passam a ser viesados. Por simplicidade, vamos considerar um modelo de regresso linear
simples:
Yi = + X i + ei

(6)

Sabemos, de desenvolvimento anterior, que a varincia de ser dada por27:


n

Var ( ) = Var ( + i =1

x 2Var (ei ) i =1 xi2Var (ei )

i =1 i
) = Var ( ) +
=
n
n
n
(i =1 xi2 ) 2
(i =1 xi2 ) 2
i=1 xi2
xi ei

(7)

Agora comparemos como ficariam a varincia de na presena de homocedasticidade e


heterocedasticidade.

Homocedasticidade

Heterocedasticidade

Var (ei ) = 2

Var (ei ) = i2

Var ( ) =

Var ( ) =

i=1 xi2

i=1 xi2 i2

(8)

(i =1 xi2 ) 2

Em outras palavras, as varincias sero diferentes desde que 2 i2 . Assim, o


estimador de MQO para a varincia de ( S 2 =

2
n

i=1 xi2

) seria no viesado na presena de

homocedasticidade e viesado na presena de heterocedasticia. Consequentemente, a estatstica t


para o coeficiente e a estatstica F para a contribuio conjunta dos coeficientes deixariam de
27

Ver Apndices A e B do Captulo 2.

174

Econometria

Alexandre Gori Maia

ser vlidas na presena de heterocedasticidade, no mais apresentando distribuio t de student


ou F, mesmo para amostras grandes.

12.2.

Identificao

Caso no haja conhecimento a priori da existncia de heterocedasticidade em um modelo


de regresso populacional, pode-se analisar o comportamento dos resduos na regresso amostral
para inferir sobre sua existncia e forma de relacionamento com as variveis independentes.
Veremos quatro tcnicas bem populares de identificao: i) anlise grfica; ii) teste de GoldfeldQuandt; iii) teste de Breush-Pagan; iv) teste de White.

12.2.1. Anlise Grfica

Uma forma simples e intuitiva para detertar a heterocedasticidade analisando a


disperso dos resduos em funo dos valores das variveis independentes. O ideal seria
relacionarmos graficamente cada valor de Xi respectiva varincia dos resduos ( i2 ).
Entretanto, como nem sempre dispomos de mais de uma observao amostral para cada valor
controlado de Xi, o que inviabilizaria a estimativa de i2 , na prtica trabalhamos com uma
aproximao para a varincia condicional: o quadrado dos resduos ( ei2 ). Assim, visualizando a
disperso dos resduos quadrticos ei2 em funo dos valores de Xi, podemos identificar
possveis padres de associao de 2 s variveis independentes.
A figura (9) apresenta alguns padres caractersticos de disperso dos resduos
quadrticos em funo da varivel dependente. O primeiro grfico sugere erros homocedsticos,
j que o comportamento dos resduos quadrticos o mesmo para quaisquer valores de Xi. Por
sua vez, os trs ltimos grficos sugerem erros heterocedsticos, com diferentes padres de
associao dos resduos quadrticos aos valores de Xi.
No caso de RLM, essa anlise deve-se repetir para cada uma das variveis independentes
para sabermos em funo de qual dessas ocorre a heterocedasticidade. Alternativamente,
podemos tambm analisar a disperso dos resduos em funo dos valores previstos da varivel
dependente (Y ), j que esses referem-se a uma funo linear das variveis independentes
( Y = + 1 X 1 + ... + k X k ).
175

Econometria

Heterocedasticidade

(9)

Exemplo 1. O ajuste linear dos gastos com alimentao (Gasto Aliment, em R$) em funo

renda (Renda, em R$) em uma amostra de 40 famlias forneceu o seguinte resultado:


Gasto Aliment i = 40,8 + 0,13 Rendai + ei

A disperso dos valores em torno da reta de regresso j sugere que, medida que a renda
cresce, a disperso dos erros tambm aumenta, indicando a presena de heterocedasticidade.
Essa anlise complementada pelo grfico abaixo, entre o quadrado dos resduos e a varivel
independente renda. Seria natural supor a existncia de heterocedasticidade nesse problema, j
que famlias pobres esto limitadas economicamente a gastos fixos bsicos com alimentao
(feijo com arroz), enquanto famlias ricas podem optar por uma alimentao bsica (gastos

176

Econometria

Alexandre Gori Maia

relativamente baixos) ou gostos extravagantes com alimentao (foie gras e vinho RomaneConti).

A partir do padro de disperso observado, podemos ainda sugerir que a variabilidade dos erros
em funo da renda siga um formato linear, que poderia ser representado pela expresso:
i2 = 2 X i

12.2.2. Teste de Goldfeld-Quandt

O teste de Goldfeld-Quandt verifica se a varincia da regresso a mesma em


subjconjuntos da amostra, definidos por maiores e menores valores de X. Caso haja
heterocedasticidade, definida, por exemplo, por i2 = 2 X i , espera-se que cada subconjunto de
valores de X apresente um erro padro diferente para a reta de regresso.
Os passos para realizao do teste de Goldfeld-Quandt so:
i)

Ordenar as observaes da amostra de acordo com o valores da varivel X com a


qual se pressupe a relao de heterocedasticidade.
Y1

Y2

...

Yn

X1

X2

...

Xn

Onde X1 X2 ... Xn.


ii) Omitir c observaes centrais para dar mais poder ao teste (por exemplo, c costuma

ser igual a 4 para n=30 e igual a 10 para n=60)28 e separar observaes em duas
28

Goldfeld e Quandt sugerem que, quando a relao de heterocedasticidade definida por i2=2Xi2, o poder de

teste ser maior quando c for igual a n/4.

177

Econometria

Heterocedasticidade

subamostras de (nc)/2 observaes. A omisso objetiva acentuar a diferena entre o


grupo com varincia pequena ( 12 ) e varincia grande ( 22 ). Em outras palavras,
dizemos que o teste torna-se mais poderoso, ou seja, aumenta a chance de se rejeitar
a hiptese da igualdade das varincias quando essas so de fato diferentes;
iii) Ajustar uma regresso para cada subamostra (considerando um modelo de RLM,

cada regresso ter as mesmas k variveis independentes) e obter seus respectivos


quadrados mdios dos resduos. Para cada subamostra j teremos:

2j = QMRes j =

SQRes j
gl

onde gl =

nc
(k + 1)
2

(10)

Onde gl sero os graus de liberdade dos resduos em cada ajuste.


iv) Testar a hiptese da igualdade das varincias utilizando a estatstica F:

H 0: 12 = 22
22

F
=

12
H1: 12 < 22

onde F ~ Fgl , gl

(11)

Colocando no denominador da estatstica F a estimativa da subamostra com maior


varincia ( 22 ), garante-se um valor de F superior a 1 e permite-se, assim, um teste
unicaudal para hiptese da igualdade das varincias. O valor p associado a esse teste
unicaudal indicar a probabilidade de erro ao afirmarmos que h heterocedasticidade
no resduos ( 12 < 22 );
Esquematicamente, teremos:

(12)

No caso de um modelo de RLM (k>1), a mesma anlise pode-se repetir para cada
varivel independente.
178

Econometria

Alexandre Gori Maia

Exemplo 2. O teste de Goldfeld-Quandt foi aplicado para encontrar evidncias formais da

existncia de heterocedasticidade na relao entre gastos com alimentao e renda. Aps ordenar
as 40 observaes da amostra segundo os valores da renda (X), foram eliminadas 6 observaes
centrais para acentuar a diferena entre o grupo com varincia pequena (SQReg1) e com
varincia grande (SQReg2). Restaram dois subconjuntos com 17 observaes cada. Para cada
subconjunto, ajustou-se uma regresso por MQO e calculou-se o respectivo quadrado mdio dos
resduos:

Amostra 1

Amostra 2

Gasto Aliment i = 12,6 + 0,18 Rendai + ei

Gasto Aliment i = 75,1 + 0,09 Rendai + ei

Para testar a hiptese nula de igualdade entre as varincias das regresses, utilizamos a estatstica
F. Colocando a maior varincia no numerador (amostra 2), podemos realizar um teste unicaudal
com probabilidade de erro associada rea no extremo direito da distribuio F.

H 0: 12 = 22

H1: 12 < 22

22 2629,9
com estatstica de teste: F = 2 =
= 4,99
526,7
1

A probabilidade de erro associada ao valor 4,99 em uma distribuio F com 15 graus de


liberdade no numerador e 15 graus no denominador (graus de liberdade dos resduos de cada
sub-ajuste) ser de 0,17%. Em outras palavras, h fortssimas evidncias para afirmarmos que os
erros so heterocedsticos.

179

Econometria

Heterocedasticidade

12.2.3. Teste de Breusch-Pagan

Partindo do pressuposto que a heterocedasticidade significa a relao entre a


variabilidade dos erros e as variveis independentes do modelo, o teste de Breush-Pagan analisa
sua presena relacionando o quadrado dos resduos estimados (uma aproximao para a
variabilidade dos erros) como funo das variveis independentes.
Em outras palavras, seja o modelo de RLM com duas variveis independentes:
Yi = + 1 X 1i + 2 X 2i + ei

(13)

Aps ajustar o modelo em (13) por MQO, o teste de Breusch-Pagan verifica se os


resduos quadrdicos ( ei2 ) possuem relao linear com as variveis independentes do modelo.
Essa relao definida pelo modelo auxiliar:
ei2 = 0 + 1 X 1i + 2 X 2i + ui

(14)

A hiptese nula de homocedasticidade ser dada por:


H 0 : 1 = 2 = 0

(15)

Importante destacar que, para testar a hiptese de homocedasticidade dos erros a partir de
(15), consideramos que os erros (ei) no estejam associados s variveis independentes, ou seja,
que a relao a ser testada seja unicamente entre o quadrado dos erros ( ei2 ) e as variveis
independentes. Assim, para testar a hiptese de homocedastidade (15), podemos utilizar a
estatstica F da tabela ANOVA ou a estatstica LM, que o produto do nmero de observaes
da amostra pelo coeficiente de determinao do ajuste auxiliar obtido em (14). As duas
estatsticas dependem do coeficiente de determinao do modelo e, mesmo que os resduos i no
estejam normalmente distribudos, ambas se justificam assintoticamente, ou seja, apresentam as
distribuies de probabilidade esperadas para amostras relativamente grandes. Originalmente, o
teste de Breusch-Pagan baseia-se no resultado da estatstica LM, que ter distribuio 2 com
graus de liberdade dados pelo nmero de variveis independentes do modelo (k):

180

Econometria

Alexandre Gori Maia


2
n Raux
~ k2

(16)

2
Onde Raux
o coeficiente de determinao do modelo auxiliar (14). Assim, quanto

melhor for a qualidade do ajuste, maior ser o valor de LM e mais evidncias teremos para
rejeitar a hiptese nula da homocedasticidade. A probabilidade de erro ao rejeitarmos a hiptese
nula ser dada pela regio crtica representada pelo valor p na Figura (17):

(17)

Uma vantagem do teste de Breusch-Pagan em relao ao de Goldfeld-Quandt que o


mesmo pode analisar a relao entre a variabilidade dos erros e uma srie de variveis
independentes com um nico ajuste de regresso auxiliar. No h, portanto, a necessidade de
mltiplas segmentaes da amostra quando temos mais de uma varivel independente. Se
suspeitamos que a relao de heterocedasticidade se d unicamente em funo de um
subconjunto de variveis independentes, podemos ainda adaptar a equao (14) para considerar
apenas as variveis de interesse.
Exemplo 3. Aps encontrarmos evidncias significativas de heterocedasticidade pelo teste de

Goldfeld-Quandt para a relao entre gastos com alimentao e renda, testaremos agora a
hiptese de homocedasticidade pelo teste de Breush-Pagan.
A disperso dos quadrados dos resduos em funo da varivel independente Renda ilustrada
no exemplo 1. A ideia agora analisarmos a qualidade do ajuste dos quadrados dos resduos
como funo da varivel Renda, o nico regressor do modelo de regresso original. O modelo
auxiliar a ser ajustado ser dado por:
ei2 = 0 + 1 Rendai + ui
Estimando por MQO teremos:
ei2 = 2279,5 + 5,21Rendai + ui
Para testar a hiptese nula de homocedasticidade, utilizamos a eststica LM dada pelo produto
entre o nmero de observaes e o coeficiente de determinao do ajuste acima. Como temos

181

Econometria

Heterocedasticidade

apenas uma varivel independente no modelo (Renda), a hiptese nula equivale igualdade a
zero do nico coeficiente angular do modelo (1). Assim, teremos:
H 0: 1 = 0
2
com estatstica de teste: n Raux
= 40 0,301 = 12,0

H
:

0
1 1

Tambm pelo fato de termos apenas uma varivel independente no modelo, a distribuio de
probabilidade da estatstica LM ser uma 2 com 1 grau de liberdade. A probabilidade de erro
associada ao valor 12,0 em uma distribuio 2 com 1 grau de liberdade ser de 0,05%. Em
outras palavras, h fortssimas evidncias para suspeitarmos que os erros sejam heterocedsticos.

12.2.4. Teste de White

O teste proposto por White (1980) permite analisar outras formas de relao entre o
quadrado dos resduos e as variveis independentes. Alm da relao linear com as variveis
independentes Xj propostas pelo teste de Breusch-Pagan, o teste de White tambm considera que
a variabilidade possa estar associada ao quadrado dos regressores ( X 2j ) e a seus produtos
cruzados (XjXp).
Em outras palavras, seja o ajuste de RLM com duas variveis independentes:
Yi = + 1 X 1i + 2 X 2i + ei

(18)

Aps ajustar a equao (18) por MQO, o teste de White analisar a qualidade de um
ajuste auxiliar para o quadrado dos resduos:
ei2 = 0 + 1 X 1i + 2 X 2i + 3 X 1i X 2i + 4 X 12i + 5 X 22i + u i

(19)

A hiptese nula de homocedasticidade ser dada por:


H 0 : 1 = 2 = ... = h = 0

(20)

Onde h o nmero de variveis independentes do modelo (19). Analogamente ao teste de


Breusch-Pagan, essa hiptese pode ser testada pela estatstica F ou a estatstica LM.
Originalmente, o teste de White baseia-se na estatstica LM, que ter distribuio 2 com h graus
de liberdade:
182

Econometria

Alexandre Gori Maia


2
n Raux
~ h2

(21)

Assim, quanto melhor for a qualidade do ajuste, maior ser o valor de LM e mais
evidncias teremos para rejeitar a hiptese nula da homocedasticidade. A probabilidade de erro
ao rejeitarmos a hiptese nula ser dada pela regio crtica representada pelo valor p na figura
(22):

(22)

Uma vantagem do teste de White em relao ao teste de Breusch-Pagan que o primeiro


considera formas mais abrangentes de relaes heterocedsticas entre os erros e as variveis
independentes. Este teste tambm menos sensvel premissa de normalidade dos erros.
Entretanto, merece cuidados adicionais na interpretao. Ao considerar regressores adicionais no
ajuste auxiliar (o quadrado das variveis independentes e seus produtos cruzados), o teste de
White pode indicar, na verdade, falhas na especificao do modelo original (ausncia de
regressores ao quadrado, por exemplo).
Exemplo 4. Vamos agora aplicar o teste de White para identificar a presena de

heterocedasticidade na relao entre gastos com alimentao e renda. Alm da varivel


independente do modelo original (Renda), consideraremos tambm seu quadrado (Renda2) como
segundo fator explantrio. A existncia de apenas uma varivel independente no modelo original
elimina a necessidade da considerao do produto cruzado entre as variveis independentes
como regressores do modelo de White. Assim, o modelo auxiliar a ser ajustado ser:
ei2 = 0 + 1 Rendai + 2 Rendai2 + ui
Estimando por MQO:
ei2 = 1923,5 7,42 Rendai + 0,01Rendai2 + u i
Para testar a hiptese nula de homocedasticidade, considerou-se a eststica LM dada pelo produto
entre o nmero de observaes e o coeficiente de determinao do ajuste acima:
H 0: 1 = 2 = 0
2
com estatstica de teste: n Raux
= 40 0,366 = 14,6

H 1: 1 0 ou 2 0

183

Econometria

Heterocedasticidade

A probabilidade de erro associada ao valor 14,6 em uma distribuio 2 com 2 graus de liberdade
ser de 0,08%. Em outras palavras, h fortssimas evidncias para suspeitarmos que os erros
sejam heterocedsticos.

12.3.

Mnimos Quadrados Ponderados

Uma vez identificada a existncia de heterocedasticidade, podemos corrigir


algebricamente o modelo para que seus estimadores sejam os MELNV. Vermos aqui a proposta
do mtodo de Mnimos Quadrados Ponderados (MQP), um caso especfico de uma tcnica mais
abrangente, denominada de Mnimos Quadrados Generalizados (MQG).
De maniera geral, o MQG consiste em aplicar transformaes algbricas s variveis
originais do modelo de regresso para que a relao entre as variveis transformadas passe a
atender s premissas do MCRLN e, ento, possa-se aplicar o MQO. O MQP um caso
especfico, quando as variveis originais so ponderardas por um fator proporcional a
variabilidade dos erros.
Para compreender o princpio dessa tcnica, suponha que a varincia dos erros do modelo
de RLM (1) possa ser representada por um termo constante (2) multiplicado por um fator vi que
indica como varia a varincia para cada observao i:
Var (ei ) = E (ei2 ) = 2 vi

(23)

Matricialmente, essa relao seria dada por:


v1 0
0 v
2
Var (e) = E (eeT ) =
0 0

0 0

0
0 0 2
= V 2
... 0

0 vn

(24)

Se conhecermos vi podemos demonstrar que, ao ponderar o modelo pela raiz quadrada de


vi, chegaremos aos MELNV. Em outras palavras, o modelo corrigido seria dado por:

184

Econometria

Alexandre Gori Maia

X1
Xk
Yi
e
1
=
+ 1 i + ... + 2 i + i
vi
vi
vi
vi
vi

(25)

Sendo que a varincia dos erros desse modelo transformado ( ei

vi ) seria a constante

2, pois:
2

1
e
i
= E (ei2 ) = 2
E

vi vi

(26)

A equivalente da equao (25) em representao matricial seria:


1 v1

0
y = X + e onde =
0

0
1

v2
0
0

0
0
...
0

0 1 v 2

(27)

Sendo a matrix diagonal com os fatores de ponderao de cada observao.


Analogamente, os erros de (27) seriam homocedsticos, pois:
E ( ee T ) = V 2 = I 2

(28)

Chegaramos ento ao modelo homocedstico y = X + e, o qual ser utilizado para


estimar a matriz de coeficientes de maneira precisa e no viesada. Assim, podemos
simplesmente aplicar a tcnica de MQO para obter os estimadores , sendo y nosso vetor com
os valores das variveis dependentes e X a matriz com os valores das variveis independentes.
O nome de estimadores de MQP decorre justamente do fato de os estimadores a serem obtidos
para a euqao (27) serem aqueles que minimizaro a soma dos erros quadrticos ponderados
(
e).
A nova expresso para os estimadores do modelo, denominados agora de estimadores de
MQP ser:
= (X T X)1 X T y = (X T V 1 X)1 X T V 1y

(29)

Analogamente ao procedimento adotado em (29) para ponderar os estimadores, a


respectiva matriz de varincias e covarincias para ser dada pelas ponderaes:

2 = ( XT X) 1 2 = ( XT V 1X) 1 2

(30)

E seu respectivo estimador dado por:


185

Econometria

Heterocedasticidade

S 2 = ( XT V 1X) 1 2

(31)

Onde:
)

2 =
T

SQRes
n - (k + 1)
T

(32)
T

SQRes = y V y X V y

A questo que agora fica como estabelecer a matriz de fatores V e sua equivalente
matriz de ponderaes . Veremos a seguir duas situaes: i) quando a relao de
heterocedasticidade conhecida; ii) quando a relao de heterocedasticadade desconhecida e
devemos trabalhar com estimativas obtidas a partir de comportamentos observados na amostra.
12.3.1. Funo de heterocedasticidade conhecida

Quando conhecemos a relao de heterocedasticidade podemos definir previamente a


matriz de ponderaes V e obter diretamente os estimadores de MQP pela equao (29). Por
exemplo, um caso caracterstico de heterocedasticidade ocorre quando a varincia dos erros
proporcional aos valores de uma das variveis independentes Xj (segundo exemplo da Figura 2).
Nessas circunstncias teramos:
X j1
0
T
Var (e) = E (ee ) =
0

0
X j2
0
0

0
0
0 2
= V 2
... 0

0 X jn

(33)

E a matriz de ponderaes seria:


1 X j
i

0
=
0

X j2
0

0
...

0
0

0 1

X jn

(34)

Importante destacar que todos os valores de Xj devem, necessariamente, ser positivos.


Caso contrrio, teramos valores negativos para a varincia.

186

Econometria

Alexandre Gori Maia

Exemplo 5. Partindo do pressuposto que a varincia dos erros da relao entre gastos com

alimentos e renda seja proporcioanl ao valor de X (Renda), podemos obter estimativas de mnima
varincia aplicando a tcnica de MQP. A varincia dos erros seria dada por:
2

Var (ei ) = X i

X 1 ... 0
ou Var (e) = ... ... ... 2 = V 2
0 ... X 40

Os estimadores de MQP seriam:


31,9
= ( X T V 1 X) 1 X T V 1y =

0,14
Graficamente podemos perceber que o ajuste de MQP (em azul) aproxima-se mais do
comportamento observado para as observaes de baixa variabilidade (menores rendas) do que
aquele obtido com MQO (tracejado em vermelho):

Podemos ainda testar a significncia dos estimadores de MQP. O primeiro passo obter as
estimativas de suas varincias:
323,5 0,46
S 2 = ( X T V 1 X) 1 2 =

0,46 0,0007
Onde:

2 =

SQRes y T V 1y T X T V 1y
=
= 1,808
n k 1
38

Teremos, ento, as seguintes estatsticas para testar as hipteses nulas de de que os coeficientes
so, individualmente, iguais a zero:

187

Econometria

Heterocedasticidade

t =
0

t =
1

0 0
S

1 0
S

3,19
= 1,77
323,5
0,14
= 5,22
0,0007

p = 0,084

p = 6 10 6

Considerando uma chance mxima de erro de 10%, podemos afirmar que os dois coeficientes
so significativos, ou seja, que so diferentes de zero.
12.3.2. Funo de heterocedasticidade desconhecida Mnimos Quadrados Generalizados
Factveis

Quando desconhecemos a relao de heterocedasticidade, podemos estim-la a partir de


comportamentos observados na amostra. Em outras palavras, estimamos os valores de vi a partir
de uma funo v(xi) que relaciona a varincia dos resduos s k variveis independentes do
modelo de RLM. Entre as vrias propostas de especificao da funo v(xi), podemos destacar:
Var (e | x) = v(x) 2 = e 0 +1X1+...+ k X k 2

(35)

v ( x) = e 0 +1X1+...+ k X k

(36)

Ou seja:

A opo pela forma exponencial proposta em (36), em detrimento das forma linear
proposta pelo teste de Breusch-Pagan (14), ou mesmo da forma quadrtica proposta pelo teste de
White (18), justifica-se, entre outros motivos, pelo fato de essa garantir que os valores estimados
para vi em (36) sejam todos positivos. Como sabemos, a varincia no pode assumir valores
negativos, o que no seria garantido caso os mesmos sejam fossem etimados, por exemplo,
segunda a funo linear proposta pelo teste de Breusch-Pagan.
Utilizando o quadrado dos erros como aproximao para a varincia, podemos propor o
seguinte modelo de relacionamente entre a variabilidade dos erros e as variveis independentes:
ei2 = e

0 +1 X1i +...+ k X ki

ui

(37)

Ou, a partir da equivalente funo linear:


ln(ei2 ) = 0* + 1 X 1i + ... + k X ki + ui*

(38)

Onde 0* e u * representam, respectivamente, o novo intercepto e erro do modelo linear.


Como o valor do erro no observado, trabalhamos com os resduos da amostra:
188

Econometria

Alexandre Gori Maia

ln(ei2 ) = 0* + 1 X 1i + ... + k X ki + ui*

(39)

Uma vez estimado o modelo (39) por MQO, podemos estimar o fator vi para cada
observao da amostra por:
vi = e

0* +1X1i +...+k X ki

(40)

O fator vi pode ento ser substitudo na matriz de ponderaes em (27) para obter os
estimadores de MQP, agora denominados de estimadores de Mnimos Quadrados Generalizados
Factveis (MQGF). Uma considerao importante sobre a propriedade dos estimadores de
MQGF que, pelo fato de substituirmos vi por vi , esses acabam viesados, embora sejam
consistentes e assintoticamente mais eficientes que os estimadores de MQO.
Exemplo 6. Para obtermos os estimadores de MQGF da relao entre renda e consumo de

alimentos, o primeiro passo estimar, por MQO, a relao entre o quadrado dos resduos do
modelo orignal e a nica varivel independente segundo a funo:

ln(ei2 ) = 3,363 + 0,004Rendai + ui


Assim, a relao de heterocedasticidade estimada para os erros ser dada por:

vi = e 3,363+0,004 Rendai
A partir desses resultados, nossa matriz de ponderao V ser estimada por:

v1 ... 0
v1 ... 0

2
= ... ... ...
Var (e) = ... ... ... onde V

0 ... v
0 ... v
40
40

Os estimadores de MQGF seriam:


1X) 1 XT V
1y = 22,6
= ( XT V
0,16

As estimavas diferem marginalmente das obtidas por MQO e MQP. Devemos, entretanto,
considerar que o MQGF seria apropriado, sobretudo, para amostras relativamente grandes, j que
seus estimadores so viesados para amostras pequenas.

189

Econometria

12.4.

Heterocedasticidade

Estimadores Robustos da Varincia


Uma limitao do mtodo de MQP a necessidade de se conhecer (ou estimar pelo

mtodo de MQGF) a forma de relacionamento entre os erros e as variveis independentes para se


obter novos estimadores dos coeficientes e de suas varincias. Como a heterocedasticidade no
implica em vis nos estimadores dos coeficientes de MQO, uma alternativa simples seria
corrigirmos apenas as estimativas das varincias. Em outras palavras, obteramos estimadores
das varincias que seriam robustos presena de heterocedasticidade e igualmente vlidos na
presena de homocedasticidade, pelo menos para amostras grandes.
Para compreendermos esse procedimento, vamos inicialmente considerar o caso de uma
RLS:
Yi = + X i + ei

(41)

De desenvolvimento anterior, sabemos que a varincia do coeficiente angular na presena


de heterocedasticidade ser dada por:
n

Var ( ) =

i=1 xi2 i2
n
(i =1 xi2 ) 2

(42)

Precisamos agora de um estimador para essa varincia, ou seja, um estimador que seja
robusto presena de heterocedasticidade. De acordo com White (1980), essa varincia pode ser
estimada consistentemente por:
n

S 2

x 2 e 2

i =1 i i
=
n
(i =1 xi2 ) 2

(43)

Onde ei2 so os resduos obtidos pelo ajuste da equao (42) por MQO.
De maneira genrica, podemos considerar um modelo de RLM dado por:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei

(44)

O estimador robusto heterocedasticidade para a varincia do coeficiente j ser, neste


caso:
n

S 2
j

u 2 e 2

i =1 j i
=
n
(i =1 u 2j ) 2
i

(45)

190

Econometria

Alexandre Gori Maia

Onde u 2j corresponde aos resduos estimados do ajuste de Xj em funo das demais


variveis independentes. A raiz quadrada do estimador S 2 conhecida como erro padro
j

robusto heterocedasticidade e sua autoria atribuda Halbert White. Seu uso justifica-se
quando trabalhamos com amostras grandes, j que assintoticamente no viesado, ou seja,
converge, em amostras grandes, para a a real varincia na presena de heterocedasticidade (42).
Analogamente, as estatsticas t e F baseadas no estimador de White tambm se justificam apenas
assintoticamente.
A grande vantagem desse procedimento que no necessita estabelecer premissas sobre a
forma de heterocedasticidade dos erros (como o MQP), tampouco gera estimadores viesados dos
coeficientes para amostras pequenas (como os MQGF). A desvantagem que, para amostras
relativamente pequenas, as estatsticas t e F baseadas nas varincias robustas no apresentaro as
respectivas distribuies de probabilidade t e F.
Exemplo 7. O ajuste de MQO para a relao entre gastos com alimentao e renda forneceu as
seguintes estimativas:
Gasto Aliment i = 40,8 + 0,13 Rendai + ei

A estimativa de MQO para a varincia do estimador de seria:

S 2 =

2
n

x2
i =1 i

1.429
= 0,00093 = 0,0312
1.532.463

O estimador da varincia robusto heterocedasticidade seria, por sua vez:


n

S 2

i=1 xi2 ei2 = 3.421.453.919 = 0,0015 = 0,0382


=
n
(1.532.463) 2
(i =1 xi2 ) 2

Como pode-se observar, a estimativa do erro padro robusto heterocedasticidade superior


estimativa de MQO. No se pode, entretanto, garantir que as estimativas de MQO iro sempre
subestimar a varincia dos coeficientes na presena de heterocedasticidade.
O teste t para a significncia do coeficiente angular seria ento:

t=

0,13
= 3,36
0,038

191

Econometria

Heterocedasticidade

O valor p associado esta estimativa seria 0,00178. Em outras palavras, considerando o erro
padro robusto heterocedasticidade, haveria apenas 0,2% de chance de erro se afirmssemos
que h relao significativa entre renda e gastos com alimentao.

Exerccios
1. O arquivo DistanciaPercorridaFerias.XLS contm informaes sobre a distncia percorrida
por famlias em frias (Dist, em km), renda mensal (Renda, em reais) e idade do chefe da
famlia (Idade). Pressupe-se que a distncia percorrida seja uma funo linear da renda e da
idade do chefe da famlia.
a. Sem qualquer tipo de anlise prvia, h motivos para suspeitar de
heterocedasticidade nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existncia de heterocedasticidade a partir da anlise grfica.
d. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
e. Teste a existncia de heterocedasticidade a partir do teste de White.
f. Pressupondo que a varincia dos resduos seja proporcional renda, obtenha os
estimadores de MQP.
g. Analise a significncia das estimativas obtidas em (f).
2. O arquivo FuncaoInvestimaneto.XLS contm informaes sobre o investimento de uma
firma (Inv em milhes de US$), seu valor em aes (V, em milhes de US$) e capital da
firma (K, em milhes de US$). Supondo que o investimento seja linearmente determinado
pelo valor da firma e seu capital, pede-se:
a. Obtenha os estimadores de MQO.
b. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
c. Teste a existncia de heterocedasticidade a partir do teste de White.
d. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
empresa, ajuste a regresso por MQP.
e. Analise a significncia das estimativas obtidas em (d).

192

Econometria

Alexandre Gori Maia

3. Uma amostra de 6 famlias forneceu as seguintes informaes sobre gastos com alimentos
(Gasto em mil reais) e renda (Renda, em mil reais):
Gasto

0,4

0,6

2,8

1,2

4,2

2,2

Renda

Supondo que os gastos sejam linearmente determinados pela renda das famlias, pede-se:
a. Obtenha os estimadores de MQO.
b. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
Tendo em vista o limitado tamanho da amostra, no elimine observaes centrais
para realizao do teste.
c. Teste a existncia de heterocedasticidade a partir do teste de Breusch-Pagan.
d. Teste a existncia de heterocedasticidade a partir do teste de White.
e. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
renda, ajuste a regresso por MQP.
f. Analise a significncia das estimativas obtidas em (d).
g. Obtenha as estimativas de MQGF.
4. (ANPEC, 2010) Considere as seguintes afirmaes referentes ao modelo de regresso linear
clssico com regressores estocsticos:

yi = 0 + 1 x1i + 2 x 2i + i , i=1..n
em que E[ i | x1 , x2 ] = 0 e Var[ i | x1 , x 2 ] = 2 . Ento, se a hiptese de homoscedasticidade
for violada, os estimadores de mnimos quadrados ordinrios de 0, 1 e 2 sero viesados.
5. (ANPEC, 2009) Considere o seguinte modelo de regresso linear: y = 0 + 1 x + u , em que

u o erro da regresso, y a varivel dependente e X a varivel explicativa. Caso o erro


seja heterocedstico, a estatstica t usual para testarmos a hiptese H0: 1=0 contra a
alternativa H1: 10 no mais vlida.
6. (ANPEC, 2008) Na presena de heterocedasticidade nos erros de um modelo de regresso
linear, os estimadores de mnimos quadrados ordinrios so ineficientes.

193

Econometria

Heterocedasticidade

Respostas
1) b. Dist = 5,52 + 0,27 Renda + 11,07 Idade + e ;
e. e 2 = 3375 + 163Renda 2556 Idade 0,02 Renda 2 + 44,7 Idade 2 2, ,45Renda Idade + u ;

nR2=7,99; p=0,157; f. Dist = 100,9 + 0,24 Renda + 9,66 Idade + e ; g. 0 : t=-0,798; p=0,461;

1 : t=-3,831; p=0,012; 2 : t=-3,226; p=0,023;


2) b. Inv = 25,6 + 0,03V + 0,16 K + e ;
e. e 2 = 750,2 0,48V 8,69 K 0,0001V 2 0,01K 2 + 0,008V K + u ; nR2=6,35; p=0,274; f.

Inv = 17,9 + 0,028V + 0,156 K + e ; g. 0 : t=-0,629; p=0,549; 1 : t=-2,150; p=0,069; 2 :


t=-2,492; p=0,041;
3) a. Gasto = 0,08 + 0,52 Renda + ; b. F=6,267, p=0,242; c. nR2= 60,4778=2,866; p=0,090; c.

nR2= 60,628=3,768; p=0,152; e. Gasto = -0,16 + 0,59 Renda + ; f. t0=0,23; p=0,83; .


t1=2,46; p=0,07; g. Gasto = 0,005 + 0,542 Renda + ;
4) F.
5) V.
6) V.

194

Econometria

Alexandre Gori Maia

13. Autocorrelao
Introduo
Os dados utilizados em anlises economtricas podem ser classificados em trs grupos
principais: i) dados de corte transversal (cross section): quando indivduos independentes so
observados em um mesmo ponto do tempo (por exemplo, dados sobre a renda e escolaridade de
um grupo de pessoas em um determinado perodo); ii) dados de sries temporais (time series):
quando um mesmo indivduo observado em perdos consecutivos de tempo (por exemplo,
dados sobre o consumo e renda de um pas entre 1981 e 2010); iii) dados em painel (panel data):
quando um grupo de elementos amostrais observado em perodos consecutivos de tempo (por
exemplo, dados sobre o consumo e renda para cada um dos pases da Amrica do Sul entre 1981
e 2010).
Uma caracterstica da anlise de dados de sries temporais que valores de perodos
correntes tendem a estar associados a valores de perodos passados. Seria o caso, por exemplo,
da rea plantada em determinado ano que dependeria da rea plantada no ano anterior, ou do
consumo em determinado trimestre, que dependeria no somente da renda presente como da
renda nos trimestres anteriores. Para contornar esse problema, modelos com dados de sries
temporais costumam conter valores defasados (de perodos anteriores) das variveis Y e X entre
os regressores.
Entretanto, quando a relao entre valores presentes e passados reproduz-se nos erros do
modelo, quebrada uma das premissas do MCRL, a ausncia de autocorrelao nos erros. Da
mesma forma que ocorre com a heterocedasticidade, na presena de autocorrelao os
estimadores de MQO deixam de ser eficientes, embora permaneam no viesados e consistentes.
Adicionalmente, o estimador de MQO para a varincia dos coeficentes do modelos passa a ser
tendencioso. Neste captulo, alm da definio de autocorrelao, discutiremos quais suas
consequncias, determinantes, tcnicas para detect-la e as principais medidas corretivas.
13.1.

Definio
Seja o modelo de RLM para um conjunto de dados de sries temporais:

Yt = + 1 X 1t + 2 X 2t + ... + k X kt + et

(1)

195

Econometria

Autocorrelao

Dizemos que h autocorrelao (ou correlao serial) quando os erros associados a


observaes em um dado perodo de tempo se mantm por transferncia nos perodos de tempo
futuros. Em outras palavras, significa afirmar que valores presentes e passados (ou futuros) dos
erros esto correlacionados, o que pode ser representado por:

Cov(et , et + s ) = E (et et s ) 0

(2)

Perceba que as notaes ts e t+s se equivalem no conceito de covarincia.


Embora as anlises aqui apresentadas refiram-se exclusivamente autocorrelao em
estudos de sries temporais (correlao serial), esta pode ainda ocorrer em dados espaciais de
corte transversal (correlao espacial), quando indicadores de localidades espacialmente
prximas tendem a estar autocorrelacionados.
O caso mais comum de autocorrelao aquele em que os erros presentes dependem dos
valores imediamente anteriores, segundo um processo denominado de autorregressivo de 1
ordem, AR(1):

et = et 1 + ut

(3)

Onde o denominado coeficiente de autocorrelao dos erros (1 < < 1)29 e ut so os


erros no autocorrelacionados e com as propriedades j conhecidas dos erros de um MCRL, ou
seja:

E (u t ) = 0

E (ut2 ) = u2

E (u t u t s ) = 0

(4)

Graficamente, a autocorrelao nos erros significa que esses apresentaro um padro


sistemtico ao longo do tempo, enquanto que, na ausncia de autocorrelao, sua disperso ao
longo do tempo ser indiscernvel:

No Autocorrelacionado

Autocorrelacionado

(5)

29

Embora o coeficiente de autocorrelao possa tambm assumir o valor 1 ou 1, veremos adiante que esse

resultado implicaria em um problema mais srio no modelo de regresso: no estacionariedade dos erros.

196

Econometria

Alexandre Gori Maia

So vrios os motivos que podem levar autocorrelao no erros, entre os quais podemos
destacar:

Inrcia: comum que sries temporais econmicas apresentarem ciclos, ou seja,


perodos de crescimento ou decaimento. Mudanas em uma tendncia temporal
costumam ocorrer lentamente. Quando esse comportamento se reflete nos erros de um
modelo de regresso, esses tendero a estar autocorrelacionadas, ou seja, erros
positivos tendero a estar prximos em perodos de crescimento, assim como erros
negativos tendero a estar prximos em perodos de retrocesso. Por exemplo, se a
declarao de otimismo da populao em relao economia est, em um
determinado perodo, acima do que se esperaria para a respectiva taxa de crescimento
econmico por fatores no observveis, natural supor que esse comportamento se
mantenha em perodos subsequentes, mesmo com tendncia de convergncia ao
padro histrico de relacionamento ao longo do tempo;

Falhas de especificao: a autocorrelao pode ser devida ausncia de uma


importante varivel no modelo de regresso ou transformao das variveis
existentes. Os erros expresariam, assim, um padro sistemtico devido ausncia
dessas informaes. Por exemplo, omitir o preo de um substituto em uma funo de
demanda pode sujeitar os erros a um comportamento sistemtico. Analogamente,
ajustar uma funo linear a uma relao quadrtica tambm poderia sujeitar os
resduos a um padro sistemtico.

Defasagens: as decises econmicas em um perodo t dependem, muitas vezes, de


informaes defasadas do perodo t1. Desconsiderar esse tipo de relao sujeitaria
os erros correlao serial. Por exemplo, o otimismo da populao pode ser
influenciada no apenas pelo crescimento da economia no perodo presente, mas
tambm pelo comportamento da econmia nos perodos anteriores. Analogamente, o
consumo pode depender, alm da renda presente, do consumo e da renda nos perodos
anteriores;

Assim como ocorre na heterocedasticidade, na presena de autocorrelao os estimadores


de MQO continuam sendo no viesados e consistentes, mas deixam de ser eficientes (ou seja,
no possuem mais varincia mnima). Outra consequncia importante da autocorrelao o fato
197

Econometria

Autocorrelao

de os estimadores das varincias dos coeficientes serem viesados. Assim, estatsticas de teste
baseadas na variabilidade dos coeficientes, como as estatsticas t e F, deixariam de ser vlidas.
Para melhor compreender esse problema, suponha que estejamos trabalhando com um modelo de
RLS:

Yt = + X t + et

(6)

Onde sabemos que os estimadores de MQO sero:


n

= t =1

xt yt

S 2

t =1 xt2

2
n

t =1 xt2

(7)

Agora comparemos algumas propriedades do modelo na presena e ausncia de


autocorrelao (ver demostrao no Apndice A):
No Autocorrelacionado

Autocorrelacionado

Var (et ) = 2

Var (et ) =

Cov(et , et +s ) = 0

Cov (et , et + s ) = s

Var ( ) =

x2
t =1 i

Var ( ) =

x2
t =1 i

+2

1 2

2
1 2

(8)

n 1 n t

s xt xt + s

x 2 t =1 s =1
t =1 i

O fato de a varincia dos erros ser diferente de 2 e de as covarincias serem diferentes


de zero no modelo autocorrelacionado implica em uma nova varincia para . Comparando o
estimador de MQO (7) com a real varincia de (8), podemos observar que o primeiro
desconsidera o segundo componente de Var ( ) , que a fonte de vis do estimador. Como, na
maioria dos estudos economtricos de sries temporais, tanto a correlao serial quanto a relao
entre os regressores costumam ser postivias (sxtxt+s>0), o estimador de MQO usualmente
subestima a real varincia de .

198

Econometria

13.2.

Alexandre Gori Maia

Identificao
Caso no haja conhecimento a priori da existncia de autocorrelao nos erros, deve-se

analisar o comportamento dos resduos para inferir sobre sua existncia. Veremos quatro formas
principais de anlise: i) anlise grfica; ii) teste t para regressores estritamente exgenos; iii)
teste de Durbin-Watson para o MCRL; iv) teste de Breusch-Godfrey para ordens superiores e
regressores no estritamente exgenos.

13.2.1. Anlise Grfica


Uma forma simples e intuitiva para suspeitar da existncia de autocorrelao nos erros
analisando a disperso dos resduos em funo do tempo de observao dos valores. Uma
disperso aleatria e no sistemtica dos resduos ao longo do tempo sugeriria a ausncia de
autocorrelao, como mostra a primeira representao (a) da figura 9. Por outro lado, padres
sistemticos de disperso sero indcios da existncia de autocorrelao, como ocorrem nas
demais trs representaes (b, c, d) da figura 9:

(a)

(b)

(c)

(d)

(9)

Exemplo 1. Observou-se, durante 34 trimestres, a relao entre rea plantada (rea, em mil
hectares) e preo (Preo, em reais por tonelada) da cana-de-aucar em determinada regio. A

199

Econometria

Autocorrelao

disperso dos valores observados e o ajuste de MQO estabelecido, com seus respectivos erros
padro (em parnteses), so apresentados abaixo:
reat =

2,54
(17,8)

4,79
(0,63)

Preot + t

Quando se observa a distribuio dos resduos (t) ao longo do tempo, observa-se um provvel
padro cclico, o que sugeriria a existncia de autocorrelao nos erros do modelo.

Afinal, natural supor que a rea plantada no trimestre t no dependa apenas do preo no ano t,
mas tambm de informaes observadas em perodos anteriores. A rea plantada em um
trimestre pode ser influenciada tanto pela rea plantada no trimestre anterior, pelo preo pago
pela cana-de-aucar no perodo anterior, como por outros fatores no previstos pelo ajuste
(poltica de incentivos do governo, previses sobre os preos futuros e expectativas sobre o
estabelecimento de usinas na regio, por exemplo) que tenham lento amortecimento no tempo.
Ademais, o prprio ajuste da oferta pelo produtor em funo de variaes no preo da cana
podem ser pouco flexveis e, consequentemente, tambm gerar um lento amortecimento no
tempo.
200

Econometria

Alexandre Gori Maia

13.2.2. Teste t para regressores estritamente exgenos


A anlise grfica pode sugerir padres de autocorrelao, mas no oferece evidncias
formais de sua existncia na populao. Devemos, ento, realizar testes de hipteses para inferir
sobre a presena de autocorrelao nos erros do modelo populacional a partir de evidncias
observadas na amostra. Vamos supor que os erros sigam o caso mais simples e usual de
autocorrelao, o de um processo autorregressivo de primeira ordem, AR(1):
et = et 1 + ut

(10)

As hipteses a serem testadas seriam:

H 0: = 0

H1: > 0

(11)

A hiptese nula corresponde hiptese da ausncia de autocorrelao, j que implicaria a


inexistncia de relao entre os erros presentes (et) e passados (et1). Como a correlao serial
usualmente positiva, limitamo-nos a realizar um teste unicaudal para o ceficiente de
autocorrelao ().
Um procedimento natural seria substituirmos et pelos resduos t de MQO e estimarmos o
coeficiente tambm por MQO. Teramos ento o estimador e a respectiva estatstica t para
testar as hipteses em (11) dados por:
n

et et 1
= t =2 2
n
t =2 e t 1
Sendo S =

2
n

t =2 e

e t=

(12)

u
e 2 = t =2 t 1

(n 1) 1

os estimadores de MQO para o erro padro do

t 1

coeficiente e para a varincia da regresso. Perceba que a primeira observao perdida em


funo de a defasagem et1 no existir para t=1. Ademais, como o modelo possui apenas 1
coeficiente (), teremos (n1)1 graus de liberdade para a soma do quadrado dos resduos e para
a estatstica t. O problema que, ao substituirmos os valores no obervados de et pelas
estimativas de MQO t, no podemos garantir que a estatstica t tenha distribuio t de Student.
Segundo Wooldridge (1991), a distribuio t no ser afetada pela substituio caso tenhamos
uma amostra razoavelmente grande e os regressores sejam estritamente exgenos. Em outras
201

Econometria

palavras, o estimador

Autocorrelao

ser um estimador consistente caso os erros et no sejam

correlacionados a quaisquer valores presentes ou futuros dos regressores Xs. A exogeneidade


estrita pode genericamente representada pela esperana condicional dos erros:
E (et | X s ) = 0 onde st

(13)

Adicionalmente, para a validade teste t, precisamos assumir como premissas bsicas de


uma funo de autocorrelao de primeira ordem dos erros que:
Var (ut ) = u2 e E (ut | et 1 , et 2 ,...) = 0

(14)

Exemplo 2. Para testar a presena de autocorrelao de 1 ordem no modelo para a rea plantada
em funo do preo da cana-de-aucar, ajustamos o seguinte modelo por MQO:
et = 0,252et 1 + ut
A estatstica t associada ao coeficiente de autocorrelao foi estimada por:
t=

0,252
= 1,443
0,175

Das 34 observaes originais, a primeira foi perdida em funo da ausncia de uma estimativa
para t1 quando t=1. Considerando ainda o nico coeficiente do modelo, teremos 32 graus de
liberdade para a estatstica t e o valor p associado ao teste unicaudal ser dado por:

Em outras palavras, se rejeitarmos a hiptese de ausncia de autocorrelao pelo teste t,


estaremos sujeitos a um erro de 7,9%. A validade do teste depende, entretanto, de dois
pressupostos fundamentais. Primeiro, devemos pressupor que no haja correlao entre os erros
et e os valores defasados do preo da cana-de-aucar. Segundo, como o tamanho da amostra no
razoavelmente grande, no podemos garantir que a estatstica t estimada tenha de fato uma
distribuio t de Student ao utilizarmos os resduos t de MQO em substituio aos valores no
observados de et. Testes adicionais podem auxiliar na deciso.

202

Econometria

Alexandre Gori Maia

13.2.3. Teste de Durbin-Watson para um MCRL


O teste mais utilizado para identificar autocorrelao foi proposto em 1950 por James
Durbin e Geoffrey Watson. As hipteses a serem testadas so anlogas ao do teste t:

H 0: = 0

H1: > 0

(15)

A estatstica de Durbin-Watson (DW) proposta para testar essas hipteses ser dada por:
n

(e et 1 ) 2

t =2 t
DW =
n
t =1 et 2

(16)

Onde t so os resduos obtidos no ajuste de MQO. Perceba que, como desconhecemos a


defasagem (t1) para o primeiro perodo (t=1), a expresso no numerador considera apenas o
comportamento para n1 observaes. Podemos ainda demonstrar que existe uma estreita relao
entre a estimativa de DW e o coeficiente de autocorrelao dos resduos. Desenvolvendo a
expresso (11) teremos:
n

2
2
e 2t =2 et et 1 + t =2 et 1

t =2 t
DW =
(17)
n
2

e
t =1 t
Quando n for relativamente grande, teremos et2 aproximadamente igual a et21 e a

equao poder ser representada por:


n

et et 1
DW 2(1 t =n2 2 )
t =1 et

(18)

Perceba ainda que o componente

t =2 et et 1 ,
n
t =1 et 2

tambm representado por ,

aproximadamente igual ao estimador de MQO para o modelo autorregressivo de primeira


ordem dos resduos (equao 12). A diferena encontra-se no denominador, que, no caso da
expresso (18), tambm considera a primeira observao da amostra. Como assintoticamente os
dois estimadores so semelhantes, teremos:
DW 2(1 )

(19)

A partir de (19), notamos que a estatstica DW assumir valores entre 0 e 4. Na ausncia


de autocorrelao, o valor de DW ser prximo de 2. Quo mais prxima de 0, mais evidncias
203

Econometria

Autocorrelao

teremos para rejeitar a hiptese nula, sugerindo a existncia de correlao serial positiva. Embora
possvel, valores de DW prximos de 4 dificilmente ocorrem, pois implicariam correlao serial
negativa, fenmeno pouco comum em sries temporais.
Os valores crticos da tabela de Durbin-Watson apresentam uma importante
peculiaridade. Diferentemente das estatsticas de teste padro, como t e F que se baseiam em
valores observados na amostra, a estatstica DW baseia-se em valores estimados a partir da
amostra (t). Essa peculiaridade condiciona sua distribuio de probabilidade aos valores
observados para as variveis independentes (X) na amostra. Para contornar essa limitao,
Durbin e Watson propuseram uma tabela com possveis valores extremos de DW em funo do
nmero de variveis independentes (k) e observaes da amostra (n).
Assim, dados os valores de n e k, pode-se consultar o valor crtico inferior (dI) e superior
(dS) para DW supondo que sua distribuio esteja, respectivamente, o mais concentrado possvel
esquerda ( DWnI,k ) e direita ( DWnS,k ), como mostra a Figura 13:

(20)

A novidade nessa anlise a existncia de uma zona de indeciso, entre dI e dS, onde no
se pode rejeitar nem aceitar H0, j que cada distribuio extrema proporcionaria uma deciso
diferente:
(21)
Alguns autores sugerem, entretanto, que o limite superior da tabela (ds) seja uma boa
aproximao para o real valor crtico da distribuio na maioria das situaes.
Em comparao ao teste t, a vantagem da estatstica de Durbin-Watson o fato de
apresentar uma distribuio especfica de probabilidade, no dependendo apenas de
aproximaes assintticas. Entretanto, a validade do teste de Durbin-Watson tambm depende de
algumas consideraes importantes. Primeiro, o teste depende fundamentalmente das premissas
do MCRL, como a homocedasticidade e normalidade dos erros. O teste tambm limita-se ainda
deteco de esquemas autorregressivos de 1 ordem (et=et1+ut). Ademais, todos os regressores
204

Econometria

Alexandre Gori Maia

devem ser no aleatrios, o que no ocorrer, por exemplo, quando temos um componente
autorregressivo de Y entre as variveis explanatrias.

Exemplo 3. Voltando ao caso da rea plantada de cana em funo do preo, utilizamos a


estatstica DW para testar a existncia de autocorrelao de 1 ordem no modelo. A partir dos
resduos obtidos pelo ajuste de MQO, o coeficiente de autocorrelao dos resduos foi estimado
por:
n

t =2 et et 1 = 0,2419
2
n
t =1 et

Um coeficiente de correlao relativamente baixo, que implicar na seguinte estimativa para


DW:
n

(e et 1 ) 2

t =2 t
DW =
= 1,4745
n
2

e
t =1 t
Para conhecermos os pontos crticos da tabela DW, devemos considerar os valores inferior e
superior para uma amostra com 34 observaes (n=34) e apenas a varivel Preo como regressor
(k=1).

Como o valor de DW obtido para os resduos (1,4745) est na regio de indeciso, o teste
inconclusivo, ou seja, no h evidncias, a 5% de significncia, para rejeitar ou no H0. Em
outras palavras, no podemos afirmar se os erros so ou no autocorrelacionados para uma
significncia de 5%.

13.2.4. Teste de Breusch-Godfrey para ordens superiores


Duas importantes limitaes dos testes t e DW so: i) apenas identificam autocorrelaes
de primeira ordem; ii) so inconsistentes quando as variveis independentes no so estritamente
exgenas, como nas situaes em que os regressores contm variveis dependentes defasadas.
Apresentaremos agora o teste conhecido como teste de Breusch-Godfrey (BG) , ou teste LM, que

205

Econometria

Autocorrelao

considera tanto a presena de regressores estocsticos como esquemas autorregressivos de


mltiplas defasagens.
Por exemplo, suponha que desejamos verificar se os erros seguem um esquema
autorregressivo de 2 ordem, AR(2):
et = 1et 1 + 2 et 2 + ut

(22)

As hipteses a serem testadas seriam:

H 0: 1 = 2 = 0

H 1: 1 0 ou 2 0

(23)

O procedimento usual seria substituirmos et pelos resduos de MQO t e estimarmos o


modelo:
et = 1et 1 + 2 et 2 + ut

(24)

Entretanto, para permitirmos que os erros defasados correlacionem-se com os


regressores, consideramos esses tambm na equao (24), assim como o intercepto. No caso de
um modelo de RLS, teremos:
et = 0 + 1 X t + 1et 1 + 2 et 2 + ut

(25)

Os regressores includos na equao acima podem conter valores defasados de X ou Y.


Esse procedimento permite que Xt seja correlacionado a ets e, consequentemente, que o teste seja
vlido mesmo na ausncia de exogeneidade estrita.
O teste pode ainda ser facilmente generalizado para autocorrelaes de mltiplas ordens,
AR(q). Neste caso, teramos:
et = 1et 1 + ... + q et q + ut

(26)

H 0: 1 = ... = q = 0

H1: j 0

(27)

As hipteses seriam:

Supondo agora um modelo de RLM com k regressores, a equao a ser estimada seria:
et = 0 + 1 X 1t + ... + k X kt + 1et 1 + ... + q et q + ut

(28)

Para testarmos a hiptese de ausncia de autocorrelao de ordem q (27), tanto a


estatstica F para a contribuio marginal dos q coeficientes como a estatstica LM se justificam
assintoticamente. O teste de BG baseia-se na estatstica LM, que ser dada por:
206

Econometria

Alexandre Gori Maia

LM = (n q) Re2

(29)

Onde R2 o coeficiente de determinao do ajuste para a equao (28). A estatstica LM


ter uma distribuio qui-quadrado com q graus de liberdade ( q2 ) e o valor p representar a
probabilidade do extremo superior da distribuio:

(30)

Exemplo 4. Utilizando o teste de BG, testaremos a existncia de autocorrelao de 1 ordem no


modelo para a relao entre rea e preo da cana-de-aucar. O modelo ajustado por MQO foi:
et = 0,043 + 0,022 Precot 1 + 0,253et 1 + ut
A estatstica LM associada ao coeficiente de autocorrelao foi estimada por:
LM = (n q ) Re2 = (34 1)0,061 = 2,023
Como consideramos apenas a autocorrelao de 1 ordem (q=1), a estatstica LM ter distribuio
qui-quadrado com 1 grau de liberdade:

Em outras palavras, se rejeitarmos a hiptese de ausncia de autocorrelao pelo teste BG,


estaremos sujeitos a um erro de 15,5%.

13.3.

Mnimos Quadrados Generalizados


Uma vez pressuposta a autocorrelao nos erros ou detectada a partir do comportamento

dos resduos, necessrio aplicar uma outra tcnica para obter estimadores que sejam os
MELNV. Analogamente ao procedimento aplicado para a heterocedasticidade, trabalharemos
com o mtodo de Mnimos Quadrados Generalizados (MQG). Neste caso, o MQG transformar
as variveis do modelo original de tal forma que o modelo transformado apresente erros no
autocorrelacionados e possa ser estimado por MQO de maneira eficiente e no viesada.
207

Econometria

Autocorrelao

Seja, por exemplo, o modelo de RLM dado por:

Yt = + 1 X 1t + ... + 2 X kt + et

(30)

Onde a autocorrelao se expressaria por:


et = et 1 + ut

(31)

O objetivo demonstrar como, atravs de transformaes algbricas, podemos estimar os


coeficientes do modelo original (30) a partir de um modelo transformado e no
autocorrelacionado. Como o modelo proposto em (30) vlido para todos os perodos, teremos a
seguinte relao no perodo t1:

Yt 1 = + 1 X 1t 1 + ... + 2 X kt 1 + et 1

(32)

Agora, subtraindo-se da equao (30) a equao (32) multiplicada pela constante ,


chegaremos ao modelo transformado:

(Yt Yt 1 ) = (1 ) + 1 ( X 1t X 1t 1 ) + ... + k ( X kt X kt 1 ) + (et et 1 )

(33)

Perceba que este modelo apresenta os mesmos coeficientes de (30), que podem, agora,
ser obtidos a partir de MQO, j que os erros transformados (ut=etet1) so, por definio, no
autocorrelacionados (ver equao 31). Perceba ainda que, em substituio s variveis originais,
utilizam-se, agora, as variveis transformadas:

Yt* = (Yt Yt 1 ) e X *jt = ( X jt X jt 1 )

(34)

Simplificadamento, teremos:

Yt* = * + 1 X 1*t + ... + k X k*t + ut

(35)

Sendo * = (1 ) o intercepto do modelo transformado.


Os estimadores de MQO para a equao (35) ainda no so, entretanto, os MELNV, pois
a primeira observao contendo os valores de Y1* e X 1* perdida em funo da ausncia das
defasagens Y0 e X0. Este problema pode ser facilmente corrigido transformando separadamente
os valores de Y1* e X 1* . A maneira mais simples de compreender essa transformao utilizando
algebra matricial.
A transformao equivalente em notao matricial consiste em encontrar a matriz de
varincias e covarincias dos erros e adotar procedimentos anlogos aos realizados para
heterocedasticidade. No caso da autocorrelao, entretanto, a matriz de varincias e covarincias
208

Econometria

Alexandre Gori Maia

ter diagonal principal constante (varincias homogneas) e as partes inferior e superior


diferentes de zero (covarincias diferentes de zero). Para autocorelao de 1 ordem, por
exemplo, essa matriz ser dada por:

1 2
T
Var (e) = E (ee ) =

1 2
...
n1

...

...

n 2

n 3

... n 1

... n 2
2
2
... n 3 = V

...
...
...
1

(36)

Para melhor compreender essa estrutura de varincias e covarincias, reveja as


propriedades apresentadas em (8).
Se conhecemos essa estrutura de varincias e covarincias, podemos aplicar o mesmo
racioccio do MQP para corrigir a matriz de valores de X e Y e chegarmos a um modelo com
erros de varincia constante e no autocorrelacionados. Em outras palavras, os estimadores
MELNV de MQG sero obtidos pelo modelo:
y = X + e

(37)

T = V 1

(38)

Onde:
A partir de desenvolvimento algbrico, podemos chegar matriz V1:

V 1

0
1
1 + 2

= 0
1+ 2

...
...
...
0
0
...

...

0
... 0
... 0

... ...
1

(40)

E matriz :
1 2


= 0

...

0
1 ... 0

... ... ... ...

0 ... 1
0
1

0
0

...
...

(39)

Perceba que os produtos y e X nos daro, para t2, as variveis transformadas

Yt* = (Yt Yt 1 )

X *jt = ( X jt X jt 1 ) .

Para

t=1,

teremos

Y1* = Y1 1 2

e
209

Econometria

Autocorrelao

X *j1 = X j1 1 2 . Ademais, a primeira coluna da matriz X continha originalmente valores


unitrios constantes associados ao intercepto (). Agora a matriz X conter valores variveis,
sendo 1* = 1 2 para a primeira observao (t=1) e * = (1 ) para as demais
observaes (t2).
Assim como ocorre no caso da heterocedasticidade, a questo que fica como estabelecer
a matriz de correes das covarincias V e a resepectiva matriz de transformao . Veremos a
seguir duas situaes: i) quando o coeficiente de autocorrelao conhecido; ii) quando o
coeficiente de autocorrelao desconhecido e trabalhamos com estimativas obtidas a partir de
comportamentos observados na amostra.

13.3.1. Coeficiente de autocorrelao conhecido


Embora seja pouco usual na prtica, podemos definir a priori o valor de a partir de
pressuposies sobre a forma de relacionamento dos erros na populao. Nesse caso,
conheceremos a matriz V e as estimativas de MQG podero ser obtidas diretamente por:
= ( X T V 1 X) 1 X T V 1 y

(40)

E a respectiva estimativa da matriz de varincias e covarincias dos coeficientes por:

S 2 = ( X T V 1 X) 1 2

(41)

Onde:

2 =

y T V 1y T X T V 1y
n (k + 1)

(42)

Exemplo 3. Vamos pressupor que o coeficiente de autocorrelao de primeira ordem entre os


erros do modelo para a rea plantada de cana-de-aucar como funo de seu preo seja
conhecido e igual a 0,5. Em outras palavras, vamos considerar que a funo de autocorrelao
seja dada por:
et = 0,5et 1 + ut
Isso significa que a matriz de varincias e covarincias dos erros ser:

210

Econometria

Alexandre Gori Maia

0,5
1 2
Var (e) =
0,5
1 0,5 2
...
0,5 33

0,5

0,5 2

0,5
1

...
0,5 32

...
0,5 31

... 0,5 33

... 0,5 32
2
2
... 0,5 31 = V

...
...
...
1

E a inversa de V:

V 1

0
0,5
1
0,5 1 + 0,5 2
0,5

= 0
0,5 1 + 0,5 2

...
...
...
0
0
...

...

0
...
0
...
0

... ...
0,5 1

Os estimadores de MQG sero, portanto:


3,34
= ( XT V 1X) 1 XT V 1y =

5,056
Area = 3,34 + 5,056 Precot + et

Embora no haja diferenas expressivas entre a reta de MQO (linha tracejada) e MQG (linha
contnua), devemos considerar que as estimativas das varincias de MQO sero viesadas. No
caso do MQG, as varincias estimadas sero obtidas da matriz:
727,4 21,35
S 2 = ( XT V 1X) 1 2 =

21,35 0,823
Onde:

2 =

SQRes
y T V 1y T X T V 1y
=
= 1563,9
n k 1
32

211

Econometria

Autocorrelao

As estatsticas t para a anlise de significncia dos coeficientes parciais seriam:


3,34
= 0,124
727,4

t =
t =

5,056
= 5,572
0,823

O valor p associado ao teste t para o intercepto () de 0,90 e o valor p para o coeficiente


angular () menor que 0,001.

13.3.2. Coeficiente de autocorrelao desconhecido


Como dificilmente conhecemos o real valor do parmetro , um procedimento usual
estim-lo a partir de comportamentos observados na amostra. Podemos, por exemplo, estimar o
valor de a partir do ajuste de MQO para a funo de autocorrelao de 1a ordem:
et = et 1 + ut

(43)

Neste caso, a estimativa para a matriz V seria dada por:



0
1
1 + 2

V = 0
1 + 2

...
...
...
0
0
...

...

0
... 0
... 0

... ...
1

(44)

De maneira similar ao MQG, os estimadores de MQGF seriam agora obtidos pela


expresso:
1 X ) 1 X T V
1y
= ( X T V

(45)

Com a respectiva estimativa da matriz de varincias e covarincias dos coeficientes dada


por:

1X) 1 2
S 2 = ( XT V

(46)

Onde:

2 =

1y T XT V
1y
yT V
n (k + 1)

(47)

A nica diferena em relao aos estimadores de MQG (expresses 40, 41 e 42) a


1 . A consequncia imediata da substituio de
substituio da matriz V 1 pela sua estimativa V
212

Econometria

Alexandre Gori Maia

por , entretanto, que os estimadores de MQGF sero viesados, embora permaneam


consistentes. Em outras palavras, devemos ter muito cuidado ao analisar os estimadores de
MQGF quando trabalhamos com amostras finitas (pequenas), j que suas estimativas tendem a
ser viesadas. Para amostras grandes, os estimadores de MQGF so os MELNV e mais eficientes
que os estimadores de MQO.
H vrias propostas alternativas para estimao de . Theil (1971), por exemplo, sugere
uma correo pelos graus de liberdade do estimador de associado estatstica DW (equao
18). Por sua vez, os procedimentos iterativos de Cochrane-Orcutt e Prais-Winstem estimam
atravs de inmeras aproximaes. Primeiramente, os estimadores do modelo so obtidos por
MQGF. As estimativas de MQGF permitiro estimar novos resduos t e, consequentemente, um
novo valor para . O procedimento se repete at que haja convergncia nas estimativa de . As
propriedades dos estimadores que utilizam de processos iterativos so as mesmas dos
procedimentos que utilizam apenas uma iterao, ou seja, ambos so vlidos assintoticamente.
Procedimentos adicionais so tambm propostos para considerar autocorrelaes de ordem mais
elevada, AR(q), tanto para os mtodos iterativos como para os mtodos de uma nica etapa.

Exemplo 6. Para obtermos os estimadores de MQGF da relao entre rea e preo da cana-deaucar, o primeiro passo estimar, por MQO, a funo de autcorrelao de 1 ordem para os
resduos:
et = 0,252et 1 + ut
A partir da estimativa = 0,252 , termos a seguinte estimativa para a matriz de transformao
das covarincias dos erros:
1

0,252
1
=
0,252 2
V
1 0,252 2
...
0,25233

0,252

0,252 2

0,252
1

...
0,25232

...
0,25231

... 0,25233

... 0,25232
... 0,25231

...
...
...
1

E para a inversa V 1 :

213

Econometria

Autocorrelao

0
0,252
1
0,252 1 + 0,252 2
0,252

V = 0
0,252 1 + 0,252 2

...
...
...
0
0
...

...

0
...
0
...
0

...
...
0,252 1

Os estimadores de MQGF sero, portanto:


0,007
= ( XT V 1X) 1 XT V 1y =

4 ,903
Area = 0,007 + 4,903Precot + et

As diferenas entre as retas de MQO (vermelho tracejado) e MQGF (roxo contnuo) so quase
imperceptveis. Assintoticamente, as estimativas de MQGF seriam mais eficientes que as de
MQO, embora sua exatido possa ser discutvel em razo do nmero razoavelmente pequeno de
observaes na amostra.

13.4.

Estimadores Robustos da Varincia


Uma limitao da tcnica de MQGF que suas estimativas para os coeficientes do

modelo podem ser tendenciosas para amostras pequenas e vlidas apenas para amostras grandes.
Por outro lado, embora os estimadores dos coeficientes de MQO sejam ineficientes na presena
de autocorrelao, permanecem no viesados. Assim, uma alternativa simples seria corrigirmos
apenas os estimadores das varincias de MQO, obtendo estimadores robustos presena de
autocorrelao.
Primeiro, vamos relembrar a varincia do estimador do coeficiente angular de um modelo
de RLS na presena de autocorrelao:
214

Econometria

Alexandre Gori Maia

Var ( ) =

x2
t =1 t

+2

n 1 n t

s xt xt +s

x 2 t =1 s=1
t =1 t

(48)

Um estimador robusto para essa varincia poderia ser obtido, por exemplo, substituindo
e 2 pelos seus respectivos estimadores:
Var ( ) =

x2
t =1 t

+2

n 1 n t

s xt xt +s

x 2 t =1 s=1
t =1 t

(49)

Uma limitao desse procedimento que considera apenas autocorrelaes de 1a ordem e


que os erros sejam homocedsticos. O procedimento proposto por Newey e West permite um
trantamento mais abrangente, considerando tanto autocorrelaes de ordem mais elevada como
erros heterocedsticos. Embora a lgebra deste procedimento seja mais complexa, a idia
mesma: manter os estimadores dos coeficientes de MQO e obter erros padro que sejam robustos
presena de autocorrelao (ou heterocedasticidade). Como todos esses mtodos trabalham
com estimativas para os relacionamentos observados na amostra, so vlidos assintoticamente e
podem no ser apropriados para amostras pequenas.

Exerccios
1. O arquivo FuncaoCobbDouglas.XLS contm informaes anuais sobre produto bruto real
(Y), dias trabalhados (L) e insumos de capital real (K) em Taiwan entre 1958 e 1972.
Suponha que a relao entre as variveis seja dada por:

ln(Yt ) = + 1 ln(Lt ) + 2 ln(K t ) + et


a. Sem qualquer tipo de anlise prvia, h motivos para suspeitar de autocorrelao
nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existncia de autocorrelao a partir da anlise grfica.
d. Verifique a existncia de autocorrelao a partir do teste de Durbin-Watson.
e. Pressupondo que o coeficiente de autocorrelao dos erros seja de 0,4, obtenha os
estimadores de MQG. Analise suas propriedades em comparao s do MQO.
f. Analise a significncia das estimativas obtidas em (e).

215

Econometria

Autocorrelao

2. O arquivo PrecoCobre.XLS contm informaes anuais sobre preo mdio do cobre nos
EUA (Preco, em US$/libra) e PIB (em bilhes de dlares). Suponha que a relao entre as
variveis seja dada por:

ln(Preco) = + ln(PIB) + et
a. Sem qualquer tipo de anlise prvia, h motivos para suspeitar de autocorrelao
nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existncia de autocorrelao a partir da anlise grfica.
d. Verifique a existncia de autocorrelao a partir do teste de Durbin-Watson.
e. Pressupondo que o coeficiente de autocorrelao dos erros seja de 0,2, obtenha os
estimadores de MQG. Analise suas propriedades em comparao s do MQO.
f. Analise a significncia das estimativas obtidas em (e).
3. O arquivo PescaDias.XLS contm informaes anuais sobre o total de peixes pescados
(Pesca, em mil toneladas) e dias dedicados pesca (Dias, em mil unidades). Suponha que a
relao entre as variveis seja dada por:

Pesca = + Dias + et
a. Obtenha os estimadores de MQO.
b. Analise a existncia de autocorrelao pelo teste t.
c. Analise a existncia de autocorrelao a partir do teste de Durbin-Watson.
d. Analise a existncia de autocorrelao de 2a ordem pelo teste de BreuschGodfrey.
e. Obtenha os estimadores de MQGF.
f. Analise a significncia das estimativas obtidas em (e).
4. (ANPEC, 2010) Considere as seguintes afirmaes referentes ao modelo de regresso linear
clssico com regressores estocsticos:
yi = 0 + 1 x1i + 2 x 2i + i , i=1..n

216

Econometria

Alexandre Gori Maia

em que E[ i | x1 , x 2 ] = 0 e Var[ i | x1 , x 2 ] = 2 . Ento, os estimadores de mnimos


quadrados ordinrios dos parmetros no so eficientes se a hiptese de ausncia de
autocorrelao dos erros for violada.
5. (ANPEC, 2005) A respeito do modelo de regresso mltipla:
Yi = 0 + 1 X 1i + 2 X 2i + ei , i=1..n
em que et tem mdia zero e varincia 2 . Ento, se os erros so autocorrelacionados, ainda
assim os estimadores de Mnimos Quadrados Ordinrios de 1 e 2 so lineares e no
tendenciosos.

Respostas
1) b. ln(Yt ) = 3,34 + 1,50 ln(Lt ) + 0,49 ln(K t ) + et ; d. = 0,366 ; DW1,269;
e. ln(Yt ) = 2,54 + 1,26 ln(Lt ) + 0,54 ln(K t ) + et ; f. : t=-0,851; p=0,412; 1: t=2,039;
p=0,064; 2: t=4,750; p<0,001;
2) b. ln( Precot ) = 0,824 + 0,682 ln(PIBt ) + et ; d. = 0,215 ; DW1,570;
d. ln(Precot ) = 0,922 + 0,695 ln(PIBt ) + et ; f. : t=-1,487; p=0,161; : t=8,087; p<0,001
3) a. Pescat = 5,648 + 1,068Diast + et ; b. t= 0,658; p=0,539; c. = 0,230 ; DW=1,539;
d.LM=1,793; p=0,408; r. Pescat = 9,366 + 0,841Diast + et ; : t=1,026; p=0,344; : t=1,453;
p=0,196;
4) V.
5) V.

217

Econometria

Autocorrelao

Apndice A Varincia dos estimadores de MQO na presena de autocorrelao


Por simplicidade analtica, vamos inicialmente considerar um modelo de RLS:
Yt = + X t + et

Caso os erros sejam autorrelacionados segundo um processo AR(1) teremos:


et = et 1 + ut

Sendo ut um rudo branco, ou seja, com mdia zero, homocedstico e no autocorrelacionado:


E (u t ) = 0

E (ut2 ) = u2

E (u t u t s ) = 0

A partir dessas premissas, vamos, primeiro, calcular a varincia dos erros et (2):

2 = Var (et ) = E (et2 ) = E ( et 1 + ut ) 2 = 2 E (et21 ) + E (et 1ut ) + E (ut2 )


Como o erro ut deve ser no correlacionado ao regressor (et 1) de seu modelo, teremos:

2 = 2 2 + u2
Finalmente:

u2
Var (et ) = =
1 2
2

Por sua vez, a covarincia entre os erros et e et1 ser:


Cov(et , et 1 ) = E (et et 1 ) = E[( et 1 + ut )(et 1 )] = E (et21 ) + E (ut et 1 )
Como E (ut 1et ) = 0 , teremos:
E (et et 1 ) = E (et21 )
E, finalmente:

u2
Cov(et , et 1 ) =
= 2
2
1
Se utilizarmos o mesmo racioccio para calcularmos a covarincia entre et e et2 teremos:
E (et et 2 ) = E[( et 1 + ut )(et 2 )] = E[( 2 et 2 + ut + ut 1 )(et 2 )] = 2 E (et22 )
E, sucessivamente, para a covarincia entre et e ets teremos:

218

Econometria

Alexandre Gori Maia

Cov(et , et s ) = s

u2
= s 2
2
1

Podemos, agora, desenvolver a varincia de na presena de autocorreo. A partir de


desenvolvimento anterior (ver Apndices A e B do Captulo 2), sabemos que a varincia de
ser dada por:
n

Var ( ) = Var ( + t =1

xt et

t =1 xt2

xt et ) 2
) = E ( t =n1
t =1 xt2
n 1

Var ( ) =

n t

E (t =1 xi2 ei2 + 2t =1 s =1 xt xt + s et et + s )
n

(t =1 xt2 ) 2
n 1

n t

x 2 E (et2 ) + 2t =1 s=1 xt xt + s E (et et + s )

t =1 t

Var ( ) =
n
(t =1 xt2 ) 2
Var ( ) =

E (et2 )
n

t =1 xt2

n 1

n t

2t =1 s =1 xt xt + s E (et et + s )
n

(t =1 xt2 ) 2

Como, no caso de erros autocorrelecionados segundo um AR(1), teremos E (et2 ) = 2 e


E (et et s ) = E (et et + s ) = s 2 , a varincia de ser dada por:

Var ( ) =

n
2
t =1 xt

+2

n 1n t

s xt xt + s

n
2
t =1 xt t =1s =1

219

Econometria

Equaes Simultneas

14. Equaes Simultneas


Introduo
Boa parte das relaes economtrica pode ser representada por apenas uma equao de
regresso, onde se supe que a relao de causa e efeito seja unidirecional, ou seja, os
regressores (variveis independentes) determinam ou causam efeitos sobre o regressando
(varivel dependente). Entretanto, pode haver situaes em que um regressor determina e, ao
mesmo tempo, determinado pelo regressando. Seria o caso, por exemplo, do preo de um
produto, que, ao mesmo tempo, determinaria a quantidade consumida (preos maiores reduzem a
demanda) e seria determinado pela quantidade produzida (aumento da oferta reduz os preos).
Ou da jornada de trabalho, que determinaria a remunerao do trabalho (pessoas que trabalham
mais so mais experientes e tendem a ganhar mais) e seria determinada pela remunerao
(acrscimos controlados na renda tendem a aumentar a disposio a trabalhar horas adicionais).
Como ser visto a seguir, esse tipo de relao de reciprocidade, ou simultaneidade, entre
variveis dependentes e independentes, ocorre em situaes de quebra de um dos pressupostos
do Teorema de Gauss-Markov, aquele que diz que os valores de X so controlados em repetidas
amostras. Uma consequncia importante da simultaneidade que os erros passam a apresentar
relao com a varivel independente, implicando na tendenciosidade e inconsistncia dos
estimadores de MQO.
A simultaneidade entre as variveis exige a considerao de um sistema de equaes, ou
equaes simultneas, onde cada varivel endgena (aquela que apresenta relao de
simultaneidade) seja representada por um modelo individual de regresso, e todos os modelos
individuais estejam interconectados atravs de um sistema de equaes. O conceito de equaes
simultneas que veremos nesta seo foi desenvolvido nos anos 40, por econometristas da
Cowles Foundation at the University of Chicago. Alm da definio e implicaes da
simultaneidade, veremos as duas principais tcnicas para estimao de seus coeficientes
(Mnimos Quadrados Indiretos e Mnimos Quadrados em 2 Estgios), as condies impostas
para a identificao de estimadores consistentes e um teste estatstico para verificao da relao
de endogeneidade.

220

Econometria

14.1.

Alexandre Gori Maia

Origem do problema
Um dos pressupostos do MCRL que, controlando o valor de X (varivel independente),

possvel observar variaes aleatrias da varivel dependente (Y). Entretanto, sabemos que, em
muitas situaes, no podemos facilmente controlar o valor de X, como o clima que determina a
produtividade agrcola ou a sade do trabalhador que determina a disponibilidade e a renda do
trabalho.
Caso os valores de X no sejam fixos, mas comportem-se como uma varivel aleatria,
com probabilidades associadas ocorrncia de cada valor, ser necessrio verificar um outro
pressuposto, o da ausncia de correlao entre as variveis independentes (X) e os erros (e) do
modelo. Em outras palavras, devemos observar se:
Cov(ei , X i ) = 0 ou E (ei X i ) = 0

(1)

Quando X controlado, consideramos seus valores constantes e, dessa forma, no haveria


como supor relao com os erros, que variam aleatoriamente. Entretanto, quando X observado
e no controlado em repetidas amostras, ele tambm se comportar como uma varivel aleatria.
Nessas condies, caso haja relao entre os erros e os valores de qualquer uma das variveis
independentes do modelo, os estimadores de MQO deixaro de ser os MELNV, passando a ser
viesados e inconsistentes, ou seja, viesados mesmo para amostras grandes. De acordo com
Hoffmann (2006), essa tendenciosidade ser positiva, ou seja, os estimadores de MQO tendero
a superestimar o valor de .
No caso da relao entre a produtividade agrcola e o clima, seria difcil imaginar um
fator no observado que, ao mesmo tempo afete a produtividade e o clima. Assim, embora o
clima no seja controlado, provavelmente no apresentar relao com os erros do modelo. Por
outro lado, na relao entre renda e sade, h fatores no observados, ou no mensurados, como
hbitos e comportamentos, que podem afetar ao mesmo tempo ambas as variveis,
caracterizando o problema de relao entre variveis independentes e erros.
Talvez o exemplo mais ilustrativo dessa situao seja a relao entre as funes de
demanda e oferta de um determinado produto. Sabemos, pela teoria microeconmica, que

221

Econometria

Equaes Simultneas

medida que o preo de um produto aumenta, os consumidores deixaro de adquiri-lo. A funo


demanda relacionando o preo (P) quantidade demandada (Qd) pode ser representada por30:
Q d = 0 + 1 P + e d

(2)

Mas tambm sabemos que, pela mesma teoria microeconmica, medida que o preo de
um produto aumenta, o produtor sentir-se- mais estimulado a produzi-lo, aumentando sua
oferta. A funo oferta relacionando o preo da mercadoria (P) quantidade ofertada (Qo) pode
ser representada por:
Q o = 0 + 1 P + e o

(3)

Pressupondo que preo e quantidade sejam determinados conjuntamente pelo equilbrio


entre as funes de demanda e oferta, o preo observado no mercado ser aquele dado pela
interao entre as foras de consumidores e produtores, ou seja, pelo ponto onde as funes de
demanda e oferta se encontram. Esse esquema analtico exige a considerao de um sistema de
equaes em que haja interao entre as funes de demanda e oferta, no qual a quantidade
ofertada seja a mesma demandada:
Q d = 0 + 1 P + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q = Q

(4)

Embora o sistema de equaes em (4) no evidencie a relao de simultaneidade


abertamente, podemos desenvolver conceitualmente a interdepedncia entre preo e quantidade.
Como mostra a figura (5), se, por exemplo, a demanda aumentar de Q0 para Q1 em decorrncia
de uma variao positiva de ed (outros fatores que no o preo, como mudanas na renda ou no
gosto da populao), o preo tambm aumentar pois os produtores no estaro dispostos a
aumentar a oferta sem variao do preo. Em outras palavras, a funo de demanda deslocarse-

30

Embora a representao grfica no condiga com a funo estatstica (Q no eixo das abscissas), essa a forma

usual de representao da funo demanda.

222

Econometria

Alexandre Gori Maia

para cima, pois os consumidores estariam dispostos a pagar um pouco mais pela mesma
quantidade demandada.
Raciocnio anlogo vlido para a funo oferta. Se, por exemplo, a quantidade ofertada
reduzir de Q0 para Q2 por fatores alheios ao preo (efeito de eo, tais como greve ou fatores
ambientais), o preo tambm aumentar para ajustar-se demanda. Haveria, pois, um
deslocamento da funo oferta para cima, j que a manuteno de uma oferta superior s seria
possvel a um custo superior.

(5)

De maneira geral, podemos dizer que variaes de ed iro afetar tanto Q quanto P, assim
como eo tambm afetar ambas as variveis. Em outras palavras, P e Q so conjuntamente
dependentes e tanto ed quanto eo possuem relao com P.

14.2.

Definio
Um sistema de equaes simultneas representa a relao de mtua determinao entre

variveis endgenas (aquelas que so conjuntamente determinadas dentro do sistema) e seus


determinantes exgenos (aqueles que so determinados fora do sistema). Em outras palavras, seja
o sistema:

Y1i = 0 + 1Y2i + 2 X 1i + e1i

Y2i = 0 + 1Y1i + 2 X 1i + e2i

(6)

Onde Y1 e Y2 se determinam simultaneamente, ou seja, so mutuamente dependentes, ou


ditas variveis endgenas. X1 uma varivel predeterminada ou exgena, ou seja, varivel
controlada externamente que determinar os valores das variveis endgenas31. Esse esquema de
relacionamento entre variveis endgenas, exgenas e erros de previso pode tambm ser
representado pelo seguinte diagrama de influncias:
31

Variveis predeterminadas consideram, alm das variveis exgenas, variveis endgenas de perodos defasados

(t1). Supe-se que essas sejam determinadas no perodo t.

223

Econometria

Equaes Simultneas

(7)

A existncia de relao mtua entre Y1 e Y2 faz, por exemplo, com que fatores no
explicados pelo modelo da primeira equao (e1) afetem, simultaneamente, Y1 e Y2, causando
correlao entre os erros e1 e a varivel independente Y2. Da mesma forma, haver relao linear
entre a varivel independente Y1 e os erros aleatrios da segunda equao (e2). Com a quebra do
pressuposto da ausncia de relao entre erros e variveis independentes, a regresso por MQO
traria estimadores viesados e inconsitentes.

Exemplo 1. Vamos, inicialmente, considerar apenas a relao estabelecida pela funo demanda
isoladamente. Supondo que, alm do preo (P), a renda (R) tambm influencie a quantidade
demandada (Qd), teremos:

Q d = 0 + 1P + 21R + e d
Nessa representao isolada pressuporamos que, dados os valores do preo (P) e da renda (R)
seriam determinados exogenamente e, em adio ao erro aleatrio no explicado pelo modelo
(ed), determinariam a demanda (Qd).
Por outro lado, teramos a funo oferta relacionando preo quantidade ofertada (Qo):

Q o = 0 + 1P + e o
Nessa representao isolada, o preo (P) seria considerado um fator exgeno que, em conjunto
com o erro aleatrio no explicado pelo modelo (eo), determinaria a oferta da mercadoria.
Considerando agora o equilbrio do mercado, teramos no somente que Qd=Qo (genericamente
Q), mas tambm que fatores no explicados pelas equaes (ed e eo), como mudanas climticas

ou nos padres de consumo, causariam impactos simultneos em Q e P:

224

Econometria

Alexandre Gori Maia

Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q

Assumindo que haja retro-alimentao entre P e Q, ou seja, que P e Q sejam conjuntamente


determinados no sistema, teremos um nico fator exgeno: a renda R. Em outras palavras, Q e P
seriam variveis endgenas, determinadas internamente no sistema de equaes pela nica
varivel exgena R.

Exemplo 2. Vamos agora considerar um modelo simplificado de determinao do consumo (C) e


da renda (Y) de uma economia. Inicialmente, considerando apenas a funo para o consumo, este
dependeria de vrios fatores mas, principalmente, da renda:

C = 0 + 1Y + e

Segundo a relao estabelecida, dada uma variao na renda Y, as pessoas aumentariam o


consumo segundo uma propenso marginal equivalente a 1. Nessa representao isolada, Y seria
considerado uma varivel exgena que determina a varivel endgena C. Os erros e indicariam
fatores alheios renda que determinariam o consumo, tais como otimismo.
Por outro lado, teramos uma funo identidade para a determinao da renda. Pressupondo uma
economia fechada, pode-se, simplificadamente, supor que a renda nacional seja igual ao
consumo mais investimentos (I):

Y =C+I

A funo identidade define a renda como soma do consumo mais investimento. No h erro
aleatrio nessa representao pois no se trata de um modelo estatstico, mas sim de uma relao
matemtica determinstica.

225

Econometria

Equaes Simultneas

A partir das relaes estabelecidas, fica claro que o consumo dependeria da renda, da mesma
forma que a renda dependeria do consumo. Essa interao entre as funes de consumo e renda
pode ser representada por:

C = 0 + 1Y + e

Y = C + I

Pela funo consumo, variaes em C devido a fatores alheios renda (e) tambm afetariam a
renda, at se chegar a um novo ponto de equilbrio da economia entre consumo e renda. C e Y
seriam ento consideradas variveis endgenas, ou seja, determinadas internamente no sistema
de equaes. I seria a nica varivel exgena do sistema.

14.3.

Mnimos Quadrados Indiretos


Seja o sistema de equaes simultneas em sua forma estrutural, isto , aquela definida a

partir de pressuposies sobre as relaes de causa e efeito entre as variveis:

Y1i = 0 + 1Y2i + 2 X 1i + e1i

Y2i = 0 + 1Y1i + 2 X 1i + e2i

(8)

Como visto anteriormente, a relao de mtua causalidade entre as variveis Y1 e Y2


inviabilizaria a estimao por MQO, que geraria estimadores viesados e inconsistentes. Uma
maneira intuitiva de resolver o problema seria, como em qualquer sistema de equaes,
desenvolver algebricamente as equaes. Por exemplo, substituindo a igualdade da segunda
equao para Y2 na primeira equao para Y1 teramos:
Y1 = 0 + 1[ 0 + 1Y1 + 2 X 1 + e2 ] + 2 X 1 + e1
Y1 =

0 + 1 0 1 2 + 2
e + 1e2
+
X1 + 1
1 11
1 11
1 11

(9)

Em outras palavras, fazendo-se as devidas transformaes algbricas, conseguiramos


representar Y1 em funo apenas da varivel exgena X1. Transformao anloga pode ser feita
para a segunda equao, substituindo agora Y1 na segunda equao pelo resultado obtido em (9).
Fazendo-se as devidas transformaes, chegaramos a um novo sistema de equaes, em que

226

Econometria

Alexandre Gori Maia

cada varivel endgena seria representada por uma funo nica e exclusiva das variveis
exgenas ou predeterminadas, no caso, somente X1:

0 + 1 0 1 2 + 2
e1 1e2
Y1 =
+
X1 +

1 1 1 1 1 1
1 1 1

Y = + 0 + 1 0 + + 1 2 + 2 X + e + e1 1e2
1
1
1
2
1 2

2 0
1 1 0
1 1 0
1 1 1

(10)

Para simplicar as representaes, podemos criar funes dos coeficientes s e s e dos


erros e1 e e2:

Y1 = 1 + 2 X 1 + u1

Y2 = 3 + 4 X 1 + u 2

(11)

Onde:

1 =

0 + 1 0
1 1 1

e 2 =

3 = 0 + 1

0 + 1 0
1 1 0

e 4 = 2 + 1

u1 =

e1 1e2
1 11

1 2 + 2
1 1 1

e u 2 = e2 + 1

1 2 + 2
1 1 0

(12)

e1 1e2
1 1 1

O sistema obtido em (11), em que cada varivel endgena representada por uma funo
das variveis exgenas (ou predeterminadas) do sistema, chamado de sistema de equaes da
forma reduzida. Os parmetros s so chamados parmetros da forma reduzida. Os erros u1 e u2

so chamados de erros da forma reduzida.


Como no h problema de endogeneidade nas equaes da forma reduzida, seus
parmetros (s) podem ser obtidos pelo MQO. Para obter os estimadores consistentes dos
parmetros da forma estrutural (s e s) bastaria, posteriormente, desenvolver o sistema de
equaes obtido em (12). Em outras palavras, estimar os coeficientes s e s como funes dos
coeficientes s. Esse procedimento denominado Mnimos Quadrados Indiretos (MQI).
Antes de resolvermos o sistema de equaes necessrio, entretanto, saber se os
coeficientes da forma estrutural podero ser identificados a partir dos coeficientes da forma
reduzida. Em outras palavras, precisamos saber se partir dos coeficientes s conseguiremos
estimar todos os coeficientes da forma estrutura. Essa anlise pode ser feita previamente e
denominada identificao.
227

Econometria

14.4.

Equaes Simultneas

Identificao
Em sistemas de equaes simultneas, o conceito de identificao est associado

possibilidade de obtermos estimativas consistentes para os parmetros da forma estrutural.


Atravs de algumas regras bsicas, prodemos definir a priori se os parmetros de uma equao
da forma estrutural podero ser identificados, ou seja, se podero ser estimados
consistentemente. Antes de analisarmos essas regras, vamos relembrar algumas propriedades de
um sistema de equaes. Sabemos que, para estimarmos k incgnitas em um sistema de
equaes, precisamos de pelo menos k equaes independentes. Quando o nmero de equaes
idntico ao nmero de incgnitas, podemos chegar a solues nicas para as incgnitas (por
exemplo, a+b=3 e 2a+b=5). Quando o nmero de equaes superior ao de incgnitas,
poderemos ter mltiplas solues para cada incgnita (por exemplo, a=6 e a=5). Quando o
nmero de equaes inferior ao nmero de incgnitas (por exemplo, a+b=2), teremos uma
infinidade de solues e o sistema ser indeterminado.
Em sistemas de equaes simultneas, a estimativa dos coeficientes da forma estrutural
(equao 8) a partir do sistema de equaes da forma reduzida (equao 12) tambm exige que o
nmero de equaes seja, no mnimo, igual ao nmero de incgnitas (coeficientes estruturais).
Em outras palavras, necessrio que o nmero de coeficientes da forma reduzida seja, no
mnimo, igual ao nmero de coeficientes da forma estrutural. O problema que, muitas vezes,
como no caso ilustrado em (12), o nmero de incgnitas supera o nmero de equaes, ou seja,
no possvel estimar todos os parmetros da forma estrutural.
Analisaremos a seguir duas regras bsicas para sabermos a priori se os coeficientes de
uma equao podem ser identificados: i) condio de ordem, uma condio necessria mas no
suficiente para a estimao; ii) condio de posto, uma condio suficiente para a estimao.

14.4.1. Condio de ordem


Uma regra simples para identificarmos, a priori, a possibilidade de estimativa dos
coeficientes das equaes estruturais dada pela condio de ordem. Seja M o nmero total de
variveis endgenas do sistema de equaes, m o nmero de variveis endgenas em dada
equao, K o nmero de variveis predeterminadas do sistema e k o o nmero de variveis

228

Econometria

Alexandre Gori Maia

predeterminadas em dada equao. Ento, uma condio necessria (mas no suficiente) para a
identificao dos coeficientes de cada equao do sistema :

Se K k = m 1, a equao exatamente identificada, ou seja, h uma soluo


nica para os parmetros da forma estrutural;

Se K k > m 1, a equao superidentificada, ou seja, h estimativas


mltiplas para os parmetros da forma estrutural;

Se K k < m 1, a equao subidentificada, ou seja, no possvel obter


estimativas para os parmetros da forma estrutural;

Basicamente, a condio de ordem especifica que, para que os coeficientes de uma dada
equao estrutural possam ser estimados, o nmero de variveis predeterminadas do sistema
excludas na respectiva equao seja igual ou superior ao nmero de variveis endgenas
includas como independentes na mesma equao. Apenas as equaes exatamente identificadas
podem ser resolvidas por MQI. Equaes superidentificadas podem ser resolvidas por Mnimos
Quadrados em 2 Estgios, a ser apresentado posteriormente.

Exemplo 3. Seja o sistema de equaes simultneas para as funes de demanda e oferta de um


produto:
Q d = 0 + 1 P + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q

Nessa representao, o sistema como um todo apresenta duas variveis endgenas e nenhuma
varivel predeterminada (K=0). A equao para a demanda (Qd) possui 2 variveis endgenas
(m=2) e no h nenhuma varivel predeterminada ausente (Kk=0). portanto, uma equao
subidentificada (Kk < m1). A equao para a oferta (Qo) tambm no pode ser identificada
pois possui 2 variveis exgenas (m=2) e nenhuma varivel predeterminada ausente (Kk=0).
Para

melhor compreender

a indeterminao

dessas equaes,

podemos realizar o

desenvolvimento algbrico das expresses. Igualando a funo demanda funo oferta


chegaremos forma reduzida de P. Posteriormente, substituindo P na funo de demanda (ou
oferta) pela sua equao da forma reduzida, chegaremos forma reduzida de Q. As duas
equaes da forma reduzida seriam ento dadas por:
229

Econometria

Equaes Simultneas

0 0 eo ed
P
=

+
1 1 1 1

1 0 0 1 1e o 1e d

Q
=

1 1 1 1

De maneira simplificada, teremos:


P = 1 + u p

Q = P = 2 + u q

onde

1 =

0 0
1 1

e 2 =

1 0 0 1
1 1

Ou seja, restaram 2 equaes para determinar 4 coeficientes estruturais. Nem todos os


coeficientes da forma estrutural poderiam ser estimados. Como h subidentificao nas duas
equaes, no ser possvel estimar nenhum dos coeficientes da forma estrutural.
Outra maneira de enxergarmos essa subidentificao a partir da representao grfica. Cada
ponto observado na amostra refere-se ao preo e quantidade obtidos a partir de uma condio de
equilbrio do mercado. Ou seja, sabemos qual o ponto de equilbrio, mas no conseguimos
determinar as inclinaes das curvas de demanda e oferta.

Exemplo 4. Vamos agora considerar que, alm do preo, a renda (R) tambm determine a
demanda de um produto:
Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q

No sistema como um todo, temos agora duas variveis endgenas (M=2) e uma varivel exgena
(K=1). A equao da demanda (Qd) possui duas variveis endgenas (m=2) e uma varivel
exgena (k=1), sendo subidentificada (Kk < m-1). Na equao da oferta (Qo), a ausncia da
varivel exgena renda (k=0) permite esta seja exatamente identificada (Kk=m1).
Fazendo-se os devidos desenvolvimentos algbricos, chegaremos s representaes:

230

Econometria

Alexandre Gori Maia

P = 1 + 2 R + u p

Q = 3 + 4 R + u q

Onde:

1 =
3 =

0 0
1 1

1 0 0 1
1 1

e 2 =

2
1 1

e 4 =

2 1
1 1

Restaram 4 equaes para determinar 5 coeficientes estruturais. Embora no seja possvel uma
soluo nica para todos os coeficientes, pode-se chegar, aps as devidas transformaes, a
solues nicas para 0 e 1:

0 = 3 1 1 e 1 = 4 2
Em outras palavras, apenas os parmetros estruturais da funo oferta podem ser identificados.
Para melhor compreender a identificao da funo oferta, lembre-se que, pela teoria econmica,
um aumento na renda deslocar a curva de demanda para cima. Da mesma forma, uma reduo
na renda descolar a curva de demanda para baixo. Com diferentes valores observados para a
renda na amostra, e pressupondo equilbrio das foras de oferta e demanda no mercado, ser
possvel estabelecer a relao entre P e Q para a funo de oferta:

Exemplo 5. A partir do desenvolvimento elaborado no Exemplo 4, estimaremos os coeficientes


da forma estrutural de um sistema de equaes simultneas pelo mtodo de MQI. Suponha que o
ndice de consumo per capita de alimentos (Q) dependa, na demanda, da razo entre o ndice de
preos dos alimentos e o ndice geral de preo (P) e da renda da populao (R). Na oferta, a
quantidade dependeeria basicamente do ndice de preos P:

231

Econometria

Equaes Simultneas

Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q

Como visto anteriormente, a funo da oferta poder ser exatamente identificada enquanto que a
funo da demanda subidentificada.
A partir de uma amostra observada para 20 perodos, ajustaram-se por MQO as seguintes
equaes da forma reduzida:
P = 1 + 2 R + u p

Q = 3 + 4 R + u q

P = 72,3392 + 0,2838R + u p

Q = 77,0146 + 0,2449 R + u q

O prximo passo resolver, para os coeficientes da nica funo identificvel (funo oferta), as
estimativas de MQI a partir das igualdades previamente estabelecidas (Exemplo 4):

0 = 3 11 = 77,0146 1 72,3392 = 14,5966

1 = 4 2 = 0,2449 / 0,2838 = 0,8629


Assim, a estimativa de MQI para a funo oferta ser dada por:
Q o = 14,5966 + 0,8629 P + u q

Para a funo demanda no possvel obter as estimativas j que esta subidentificada.

Exemplo 6. Podemos ainda supor (e ter informaes suficientes para isso) que, alm do preo
corrente (Pt) e da renda (Rt), a riqueza (RQt), sendo o patrimnio uma boa aproximao, seja
outro fator a ser considerado na funo demanda. Na funo oferta, poderamos supor que, alm
do preo corrente do produto, o preo do perodo anterior (Pt1) tambm influencie a oferta do
produto no perodo corrente. Teramos ento:
Q td = 0 + 1 Pt + 2 Rt + 2 RQt + e td

o
o
Q t = 0 + 1 Pt + 2 Pt 1 + et
d
o
Q t = Q t

Nesse sistema h 2 variveis endgenas (M=2: Qt e Pt) e 3 variveis predeterminadas (K=3: Rt,
RQt e Pt1). Embora Pt seja endgeno, Pt-1 conhecido (predeterminado) no perodo t. A equao

da demanda seria exatamente identificada (Kk=m1) e a equao da oferta seria


superidentificada (Kk>m1).
232

Econometria

Alexandre Gori Maia

Desenvolvendo a igualdade entre as equaes ( Qtd = Qto ), chegaremos ao sistema de equaes


reduzidas:
Pt = 1 + 2 Rt + 3 RQt + 4 Pt 1 + utp

Qt = 5 + 6 Rt + 7 RQt + 8 Pt 1 + utq

Ou seja, restaram 8 coeficientes reduzidos para determinar 7 coeficientes estruturais. Com o


devido desenvolvimento algbrico, chegaremos concluso de que todos os coeficientes
estruturais apresentam mais de uma possvel soluo. Esse sistema superidentificado, ou seja,
no h uma soluo algbrica nica para quaisquer das equaes do sistema.

0 0
3
2
2
2 =
4 =
3 =
1 1
1 1
1 1
1 1
0 1



6 = 2 1 7 = 3 1 8 = 1 2
5 = 1 0
1 1
1 1
1 1
1 1
1 =

Geometricamente, a relao estabelecida significa que, com variaes da renda (Rt) e da riqueza
(RQt), seria possvel identificar deslocamentos da funo demanda e, consequentemente, estimar
a funo oferta. Por sua vez, com descolamentos da fun oferta em funo de variaes no
preo defasado (Pt1) seria possvel determinar a funo demanda.

Embora no haja uma soluo algbrica nica para o sistema de equaes dos coeficientes da
forma reduzida, esses podero ser estimados pela tcnica de Mnimos Quadrados em dois
Estgios.

14.4.2. Condio de posto


Embora seja simples e necessria, a condio de ordem no garante a identificao em
todos os casos. Uma condio suficiente dada pela condio de posto. Assim, uma vez
verificada a identificao pela condio de ordem, o ideal seria confirm-la pela condio de
posto.

233

Econometria

Equaes Simultneas

Em um sistema com apenas duas equaes, a condio de posto resume-se a exigir que,
para que os coeficientes de uma dada equao sejam identificados, pelo menos uma das variveis
exgenas ausentes em sua especificao apresente coeficiente diferente de zero na outra equao.
Em outras palavras, no basta excluir uma varivel exgena de uma equao para que esta possa
ser identificada, necessrio que a varivel excluda apresente de fato contribuio parcial na
outra equao.
Embora essa regra seja fcilmente verificada em um sistema com duas equaes,
precisamos de um procedimento mais sistemtico para verific-la em um sistema com mltiplas
equaes. Vamos ilustrar os passos da anlise para um sistema hipottico para trs variveis
endgenas (M=3):

Y1 = 1 + 11 X 1 + 13 X 3 + e1

Y2 = 2 + 23Y3 + 22 X 2 + 22 X 2 + e2
Y = + Y + X + X + e
3
31 1
31 1
33 3
3
3

(13)

Segundo a condio de ordem, todas as equaes seriam identificveis. A primeira seria


superidentificada, a segunda e a terceira seriam exatamente identificadas. Para confirmarmos a
identificao pela condio de posto, devemos seguir os seguintes passos:
1 Passo

Estruturar as equaes de forma que todas as variveis, endgenas e predeterminadas,


apaream do lado esquerdo da igualdade:

1
2
3

+ Y1

11 X 1
+ Y2

31Y1

23Y3
+ Y3

21 X 1
31 X 1

13 X 3

= e1

33 X 3

= e2
= e3

22 X 2

(14)

Em seguida, escrever o sistema em forma tabular:


Equao Intercepto

Y1

Y2

Y3

X1

X2

X3

(1)

11

13

(2)

23

21

22

(3)

31

31

33

(15)

2 Passo

234

Econometria

Alexandre Gori Maia

A partir da tabela (15), elaborar uma matriz para a equao que se deseja analisar a
identificao. Nessa matriz, devero ser desconsideradas: i) a linha correspondente equao
analisada; e ii) todas as colunas que contenham valores diferentes de zero nessa respectiva linha.
Por exemplo, a matriz correspondente equao 3 (Y3) ser dada por:
0
0
A3 =

1 22

(16)

Observe que essa matriz A3 conter todos os coeficientes das variveis includas no
sistema mas no inseridas na equao em anlise (Y3).
3 Passo

Aplicar a condio de posto matriz obtida. Ou seja, identificar todas as submatrizes de


ordem (M1)(M1) da matriz obtida e calcular seus determinantes. Se pelo menos um
determinante for diferente de zero, ento a equao ser identificada (exatamente ou
superidentificada).
Por exemplo, a nica submatriz de ordem (M1)(M1) (ordem 22) que podemos obter
da matriz A1 ela mesma (sua ordem igual a 22). Assim, a equao no identificada pois seu
determinante igual a zero.

det A 3 =

0
0
= (0) ( 22 ) (0) (1) = 0
1 22

(17)

Embora a terceira equao no possa ser identificada segundo a condio de posto, a


condio de ordem sugeriu indevidamente sua identificao. Perceba que a varivel exgena
excluda da terceira equao (X2) no apresenta consta entre os regressores da varivel endgena
Y1. Assim, embora tenhamos excludo um regressor exgeno na terceira equao, este no

apresenta relao diferente de zero com o regressor endgeno dessa mesma equao.
O nome posto desta condio de identificao deriva do conceito de posto de uma
matriz. Ou seja, a ordem da maior submatriz quadrada cujo determinante diferente de zero.
Embora seja uma condio necessria e suficiente, na prtica, a condio de posto raramente
empregada. A condio de ordem muito mais simples e apenas em casos excepcionais no ser
suficiente para a identificao da equao.

235

Econometria

14.5.

Equaes Simultneas

Estimao por Variveis Instrumentais


Uma tcnica muito utulizada para resolver ou, pelo menos minimizar, o problema da

relao entre regressor e erros do modelo o uso de variveis instrumentais (VI). Alm de sua
aplicao em equaes simultneas, o mtodo de VI pode tambm ser empregado para resolver o
problema de endogeneidade que surge quando h omisso de importantes regressores ou quando
esses apresentam erros de mensurao.
O mtodo de VI consiste, basicamente, em encontrar uma nova varivel Z que seja
altamente relacionada com a varivel independente X e, ao mesmo tempo, no seja relacionada
aos erros e do modelo. Suponha, por exemplo, que desejamos estudar a relao entre X e Y dada
por:
Yi = + X i + ei

(18)

A varivel Y pode ser, por exemplo, o rendimento e X a escolaridade. Uma condio


necessria para que os estimadores de MQO sejam no viesados que:

Cov( X , e) = 0

(19)

Caso a premissa (19) no seja satisfeita, temos um problema de endogeneidade do


regressor X. Imagine, por exemplo, a habilidade da pessoa, que alm de determinar a renda,
tambm estaria associada educao alcanada. No modelo proposto em (18), a habilidade, por
no constar entre os regressores, estaria contida nos erros e e, assim, esses apresentariam relao
com a varivel independente X. Essa relao representada esquematicamente pela Figura (20),
em que uma parcela de X aparece contaminada pela associao com os erros e do modelo.

(20)

A proposta do mtodo de VI encontra um instrumento, ou varivel instrumental Z, que


seja relacionado X e no aos erros e. Em outras palavras, procuramos um Z tal que:

Cov( Z , X ) 0 e Cov( Z , e) = 0

(21)

No nosso exemplo da relao entre renda e escolaridade, um intrumento Z para a


escolaridade do indivduo poderia ser, por exemplo, a escolaridade da me, que estaria associada
escolaridade do filho X mas no sua habilidade.
236

Econometria

Alexandre Gori Maia

Uma vez identificado o instrumento Z, uma tcnica simples e muito utilizada para obter
os coeficientes da equao (18) a de Mnimos Quadrados em Dois Estgios (MQ2E). Como o
prprio nome sugere, h dois processos de estimao, ambos aplicando MQO. No primeiro
estgio, identificamos a parcela de Z associada X ajustando o modelo:
X i = 0 + 0 Z i + ui

(22)

O valor previsto de X pelo ajuste do modelo (22), ou X i = 0 + 1Z i , conteria a parcela


de Z associada X (representao inferior de Z na figura 23), eliminando qualquer interferncia
da parcela de X associada aos erros e (representao superior de X na figura 23).

(23)

No segundo estgio, utilizamos X como intrumento para a varivel endgena X na


equao original:
Yi = + X i + ei

(24)

O estimador de da equao (24) denominado de estimador de variveis instrumentais,


ou estimador de MQ2E. Uma vez eliminada a parcela de X contaminada pela associao com os
erros e (ver representao na Figura 25), este estimador pode ser obtido por MQO.

(25)

O racioccio do mtodo de MQ2E pode ser facilmente extendido quando temos 2 ou mais
fatores exgenos que podem ser utilizados como instrumento para uma varivel endgena. Por
exemplo, poderamos utilizar a escolaridade da me (Z1) e do pai (Z2) como instrumentos para a
escolaridade do filho (X). Nesse caso, nossa varivel instrumental X seria dada por:

X i = 0 + 1Z1i + 2 Z 2i

(26)

Caso Z1 e Z2 sejam ambos no correlacionados aos erros e, ento qualquer funo linear
desses (equao 26) tambm no seria relacionada a e.
237

Econometria

Equaes Simultneas

Podemos ainda pensar no caso de um modelo de regresso mltipla para Y onde, alm da
endgena X, tenhamos um ou mais regressores exgenos (W, por exemplo):
Yi = + X i + Wi + ei

(27)

Cov( X , e) 0 e Cov(W , e) = 0

(28)

Onde:

Neste caso, todos os estimadores de MQO para a equao (27) seriam viesados e
inconsistentes, no apenas aquele associado endgena X.
Como a varivel exgena W aparece como regressor na equao da forma estrutural (27),
no pode ser utilizado como instrumento para X. Agora nossos instrumentos (Z1 e Z2, por
exemplo), alm de no constarem como regressores na equao da forma estrutural, precisam
apresentar correlao parcial significativa com X. Em outras palavras, seja a equao para X
como funo das variveis exgenas:
X i = 0 + 1Z1i + 2 Z 2i + 3Wi + ui

(29)

Para que X ( X i = 0 + 1Z1i + 2 Z 2i + 3Wi ) seja um varivel instrumental vlida de X,


necessrio que 10 ou 20.
A identificao do instrumento adequado permitiria obter estimativas consistentes dos
parmetros, embora essas possam ser viesadas para amostras pesquenas. Por isso, os estimadores
de MQ2E devem ser analisados com muita cautela quando no dispomos de um nmero
razoavalmente grande de observaes na amostra.

14.6.

Mnimos Quadrados em dois Estgios (MQ2E)


O MQ2E, introduzido na sesso anterior, permite estimar coeficientes estruturais de

equaes exatamente identificadas ou superidentificadas. A ideia eliminar a relao entre o


regressor endgeno e erros, substituindo esses primeiros por VIs, ou seja, variveis que
apresentam forte relao com os regressores endgenos mas sejam no relacionadas aos erros da
forma estrutural.
Para compreender sua aplicao, suponha o seguinte sistema de equaes simultneas:

Y1i = 0 + 1Y2i + 2 X i + e1i

Y2i = 0 + 1Y1i + e2i

(30)

238

Econometria

Alexandre Gori Maia

A partir da condio de ordem, sabemos que a primeira equao subidentificada


(nenhuma varivel predeterminada excluda) e a segunda exatamente identificada (X foi
excludo). Desenvolvendo algebricamente as equaes do sistema, chegaremos ao seguinte
sistema de equaes reduzidas:

(31)

Ou, simplificadamente:

Y1i = 1 + 2 X i + u1i

Y2i = 3 + 4 X i + u 2i

(32)

Como pode ser observado a partir da relao algbrica expressa para a equao de Y1 na
forma reduzida (equao 31), parte do comportamento total de Y1 devida influncia da
varivel exgena X e parte devida influncia conjunta de e1 e e2 (u1). Assim, a varivel Y1no
poderia ser utilizada para prever Y2 na forma estrutural, pois carregaria consigo uma parcela
associada aos erros e2.
A proposta do MQ2E substituir a varivel independente Y1 da forma estrutural por uma
varivel instrumental, ou seja, uma aproximao para Y1 que elimine a interferncia de e2 e acabe
com a relao entre regressor e erros. No caso do MQ2E, essa varivel ser dada pelo valor
previsto de Y1 na forma reduzida.
Em outras palavras, para estimar os coeficientes da segunda equao por MQ2E, o
primeiro estgio consiste em estimar os coeficientes da forma reduzida por MQO e,
posteriormente, estimar os valores previstos de Y1 e Y2:

Y1i = 1 + 2 X i

Y2i = 3 + 4 X i

(33)

Verifique que o valor previsto de Y1 mantm a relao com X, mas elimina o componente
associado a e1 e e2.
O segundo estgio consiste em substituir os valores originais das variveis endgenas das
equaes estruturais identificveis (no nosso exemplo, apenas a segunda equao), pelos seus
valores previstos:
239

Econometria

Equaes Simultneas

Y2i = 0 + 1Y1i + e2i

(34)

O MQO pode ento ser aplicado para estimar 0 e 1, j que Y1 no apresenta relao
com e2. Assim como no MQI, os estimadores de MQ2E so consistentes, embora tendam a ser
viesados para amostras pequenas.

Exemplo 7. Vamos agora supor que as funes de demanda e oferta de alimentos sejam dadas
pelas seguintes equaes:
Q td = 0 + 1 Pt + 2 Rt + e td

o
o
Q t = 0 + 1 Pt + 2 P1t + e
d
o
Q t = Q t

Onde Pt a razo entre o ndice de preos dos alimentos e o ndice geral de preos, Rt a renda
mdia dos consumidores e P1t o ndice de preos no ano anterior. Temos 2 equaes com 2
variveis endgenas (M=2: Qt e Pt), e 2 variveis predeterminadas (K=2: Rt e P1t). H omisso
de 1 varivel predeterminada na equao para a demanda (P1t) e de 1 varivel exgena na
equao para a oferta (Rt). Assim, as duas equaes so exatamente identificadas (Kk=1).
Ambas as equaes podem ser estimadas por MQ2E.
O primeiro passo para obter os estimadores de MQ2E elaborar as equaes da forma reduzida,
representando cada endgena como funo das variveis exgenas do sistema:
Pt = 1 + 2 Rt + 3 P1t + utp

Qt = 4 + 5 Rt + 6 P1t + utq

A partir dos valores observados na amostra, aplicamos MQO para obtermos as estimativas dos
valores previstos das endgenas:
Pt = 85,18 + 0,43Rt 0,29 P1t

Q t = 71,73 + 0,18 Rt + 0,12 P1t

Finalmente, substitumos os valores originais dos regressores endgenos na forma estrutural


pelos seus respectivos valores previstos (no caso, substitumos apenas Pt por Pt ). Aplicando
MQO chegaremos s estimativas:

240

Econometria

Alexandre Gori Maia

Q td = 106,79 0,41Pt + 0,36 Rt + etd

o
o
Q t = 35,90 + 0,42 Pt + 0,24 P1t + e

14.7.

Teste de endogeneidade
Os formuladores originais da ideia simultaneidade, da Cowles Foundation, defendiam

que a exogeneidade no poderia ser testada. O pesquisador deveria definir a priori, com
embasamento terico, eventuais relaes de simultaneidade entre as variveis. Entretanto, testes
desenvolvidos recentemente permitem verificar se, uma vez identificados regressores exgenos
em uma equao identificvel, as variveis consideradas endgenas nas especificaes so de
endgenas.
Entre esses testes de endogeneidade, uma soluo relativamente simples dada pelo teste
de especificao de Hausman. Para compreender o princpio do teste, devemos antes saber que,
caso o regressor seja de fato endgeno, as estimativas de MQO sero viesadas e inconsistentes,
enquanto que as estimativas de MQ2E sero consistentes. Caso no haja endogeneidade, as duas
estimativas sero consistentes, mas as de MQO sero mais eficientes. A ideia central do teste de
Hausman comparar as estimativas de MQO e MQ2E: caso haja diferenas significativas,
podemos suspeitar da existncia de endogeneidade no regressor, ou seja, as estimativas de MQO
seriam viesadas.
Para compreender a operacionalidade do teste, considere o seguinte sistema de equaes
simultneas e o respectivo diagrama de influncias:

Y1i = 0 + 1Y2i + 2 X i + e1i

Y2i = 0 + 1Y1i + e2i

(35)

O que nos levaria s seguintes representaes para a forma reduzida:

(36)

Ou, simplificadamente:
241

Econometria

Equaes Simultneas

Y1i = 1 + 2 X i + u1i

Y2i = 3 + 4 X i + u 2i

(37)

Aplicando MQO a essas equaes, chegaramos s estimativas dos coeficientes da forma


reduzida:

Y1i = 1 + 2 X i + u1i

Y2i = 3 + 4 X i + u 2i

Y1i = Y1i + u1i

Y2i = Y2i + u 2i

(38)

Em outras palavras, o comportamento de Y1i poderia, por exemplo, ser decomposto em


uma parcela associada varivel exgena X (estimada na forma reduzida por Y1 ) e outra parcela
associada conjuntamente a e1 e e2 (estimada por u1 ). Esquematicamente teramos:

(39)

A ideia central que, caso Y1 seja de fato endgeno, os erros da forma reduzida u1 estaro
associados aos erros da forma estrutural e2 (j que essas apresentariam uma parcela de e2 em sua
composio). Caso contrrio, o nico componente de u1 seria o erro e1 e no observaramos a
relao entre u1 e e2. Em outras palavras, podemos representar e2 por

e2i = u1i + v2i

(40)

Sendo v2 a parcela de e2 no associada aos erros u1. Caso =0, significa que u1 e e2 so
independentes e, consequentemente, a varivel Y1 no endgena. Uma maneira simples de
testarmos essa hiptese incorporar o erro u1 como regressor na equao para Y2 e analisarmos a
significncia do coeficiente estimado para . Entretanto, como no observamos u1, na prtica
trabalhamos com os resduos 1:

Y2i = 0 + 1Y1i + u1i + v2i

(41)

Podemos agora utilizar a estatstica t associada a para testar a hiptese nula de que

=0. Caso a estimativa seja significativo, haver indcios de endogeidade para Y1 e,


consequentemente, de simultaneidade entre Y1 e Y2.
242

Econometria

Alexandre Gori Maia

Exemplo 8. Suponha a mesma especificao do exemplo 7 para a relao entre demanda e oferta
de alimentos:
Q td = 0 + 1 Pt + 2 Rt + e td

o
o
Q t = 0 + 1 Pt + 2 P1t + e
d
o
Q t = Q t

Com a respectiva relao na forma reduzida para a endgena Pt dada por:


Pt = 1 + 2 Rt + 3 P1t + utp

Caso haja de fato relao de endogeneidade para P, espera-se que os erros da forma reduzida utp
estejam relacionados aos erros da forma estrutural eo e ed. Para analisarmos, por exemplo, a
relao de endogeneidade na funo oferta, vamos considerar que:
eto = utp + vt

Em que vt a parcela de eo no associada a up. Para testarmos essa relao, analisaremos a


significncia da estimativa de no ajuste do modelo:
Q to = 0 + 1 Pt + 2 P1t + utp + vt

Aplicando MQO, chegaremos s estimativas:


Q to = 35,90 + 0,42 Pt + 0,24 P1t 0,67utp + vt

A estatstica t associada ao coeficiente igual 4,30 e o valor p do teste menor que 0,1%. Em
outras palavras, h evidencias significativas que a varivel Pt comporte-se como varivel
endgena na equao de oferta.

Exerccios
1. O arquivo ConsumoAlimentos.XLS contm informaes anuais sobre o ndice de consumo
per capita de alimentos (Q), a razo entre o ndice de preo dos alimentos e ndice geral de
preos (P), renda pessoal disponvel (R), a razo entre os ndices de preos dos anos
anteriores (P1) e ano (t=1..20). Suponha agora as seguintes equaes para a funo demanda
e oferta de alimentos:

243

Econometria

Equaes Simultneas

Qid = 0 + 1 Pi + 2 Ri + eid
o
Qi = 0 + 1 Pi + eio

a. Analise a identificao das equaes.


b. Obtenha as estimativas por MQI.
2. Suponha agora as seguintes equaes para a funo demanda e oferta de alimentos:
Qid = 0 + 1 Pi + 2 Ri + eid
o
Qi = 0 + 1 Pi + 2 P1i + 3Ti + eio

a. Analise a identificao das equaes.


b. Obtenha as estimativas por MQ2E.
c. Analise a simultaneidade entre quantidade e preo pelo teste de Hausman.
3. (ANPEC, 2011) Considere o seguinte modelo de equaes simultneas:
y1 = 1 z + u1

y 2 = 1 y1 + 2 z + u 2

(1)
( 2)

em que
E[u1 ] = E[u 2 ] = 0
E[u12 ] = 12 , E[u 22 ] = 22 , E[u1 u 2 ] = 12 0
E[u1 z ] = E[u 2 z ] = 0

correto afirmar que:


a. O estimador de mnimos quadrados ordinrios de 1 na equao (1) consistente.
b. Os estimadores de mnimos quadrados ordinrios de 1 e 2 na equao (2) so
no viesados.
c. A equao (1) exatamente identificada e a equao (2) sobreidentificada.
d. Se 12 =0, tanto a equao (1) quanto a equao (2) so exatamente identificadas.
e. Se 12 =0, os estimadores de mnimos quadrados ordinrios de 1 e 2 na equao
(2) so consistentes.

244

Econometria

Alexandre Gori Maia

4. (ANPEC, 2010) Considere o seguinte modelo de equaes simultneas:


q d = 1 p + 2 z + 3 y + 1

q s = 1 p + 2
q = q = q
s
d

(demanda )
(oferta )
(equilbrio)

com
E[ 1 | z , y ] = E[u 2 | z , y] = 0
E[ 12 | z , y ] = 12 , E[ 22 | z , y ] = 22 , E[ 1 2 ] = 12 0

correto afirmar que:


a. Os estimadores de mnimos quadrados ordinrios dos parmetros das equaes de
oferta e de demanda so inconsistentes;
b. A equao de demanda satisfaz a condio de ordem para identificao, ao
contrrio da equao de oferta;
c. A equao de oferta sobreidentificada e a equao de demanda
subidentificada;
d. Suponha que 2 = 0. Ento, tanto os parmetros da equao de demanda, quanto
da equao de oferta, podem ser estimados consistentemente.

Respostas
1) b. Qio = 14,60 + 0,86 Pi + eio
Q d = 94,63 0,24 Pi + 0,32 Ri + eid
2) b. i
Qio = 49,53 + 0,24 Pi + 0,26 P1i + 0,25Ti + eio

c. Q id = 94,63(***) 0,24 Pi(**) 1,12uip (***) + 0,31Ri(***)


3) a. V; b. F; c. F; d. V; e. V
4) a. V; b. F; c. V; d. F

245

Econometria

Anlise de Sries Temporais

PARTE III
Introduo Anlise de Sries Temporais

246

Econometria

Alexandre Gori Maia

15. Estacionariedade
Introduo
Srie temporal um conjunto de valores coletados em perodos regulares ou no de
tempo. Por exemplo, o conjunto de valores anuais da renda de uma populao, do lucro de uma
empresa ou do preo de uma mercadoria. Alm de essas sries serem utilizadas para elaborar
modelos estruturais de causa (varivel independente) e efeito (varivel dependente), so tambm
muito utilizadas para elaborar modelos univariados ou multivariados de previso. Nos modelos
univariados de previso, por exemplo, a previso de um valor futuro de uma varivel dada
unicamente em funo dos valores passados da mesma. Em outras palavras, a partir do
comportamento passado da srie procuramos inferir seu provvel comportamento futuro.
Modelos univariados de previso so particularmente teis em anlises de sries financeiras,
eliminando, por exemplo, a difcil tarefa de se prever valores futuros das variveis independentes
(Xt+s) para se estimar o valor futuro de uma varivel dependente (Yt+s).
A anlise de sries temporais exige, entretanto, cuidados adicionais em relao queles
necessrios em anlises de dados de corte transversal (dados coletados em um nico perodo de
tempo). Em especial, deve-se verificar se o comportamento da srie o mesmo ao longo do
tempo, ou seja, se esta apresenta uma estrutura que possa ser caracterizada e descrita. A anlise
da relao entre duas sries que apresentam comportamentos no sistemticos pode levar a
concluses totalmente equivocadas. Analogamente, a previso de uma srie que apresenta
importantes mudanas estruturais no tempo a partir de seu comportamento passado seria algo
provavelmente ineficaz.
Quando trabalhamos com modelos de regresso para dados de corte transversal,
pressupomos que nossa amostra contenha valores extrados aleatoriamente de uma populao e,
consequentemente, os valores sejam no correlacionados. Entretanto, em sries temporais os
valores esto usualmente correlacionados no tempo. Nessas circunstncias, a consistncia das
anlises depender fundamentalmente da velocidade com essa correlao tende a zero para
observaes de perodos distintos. Sries temporais com correlao serial elevada exigem
cuidados especiais nas anlises.
O objetivo desta seo justamente apresentar o conceito de estacionariedade, uma
propriedade fundamental para anlises estruturais de relao de causa e efeito ou para modelos
247

Econometria

Estacionariedade

de previso de sries temporais. Apresentaremos ainda outros importantes conceitos e tcnicas


para anlise de sries temporais, como a definio de processo estocstico, funo de
autocorrelao e o teste de raiz unitria.

15.1.

Processos estocsticos
Sries temporais apresentam algumas definies peculiares. Dizemos, por exemplo, que

toda srie temporal pode ser considerada como gerada por um processo estocstico, ou processo
aleatrio, com uma estrutura que pode ser caracterizada e descrita. Em termos mais formais,

podemos definir um processo estocstico Y como Y={ Yt, t=1,2,...,n}, onde Yt uma varivel
aleatria. Em outras palavras, supomos que cada valor de Y1, Y2, ..., Yn na srie seja extrado
aleatoriamente de um conjunto finito ou infinito de valores, com uma determinada distribuio
de probabilidade.
Uma amostra deste processo estocstico considerada uma realizao e a partir desta
que fazemos inferncia sobre a natureza do processo gerador da srie temporal. Por exemplo, do
nascimento at o presente, uma pessoa teria inmeras possibilidades de trajetrias de vida a
trilhar, as quais seriam representadas pelo processo estocstico. A trajetria de fato vivenciada
pela pessoa seria uma realizao do processo estocstico. Fazendo uma analogia aos dados de
corte transversal, o processo estocstico representaria o conjunto de valores da populao
enquanto a realizao seria o conjunto de dados da amostra.
Graficamente, podemos representar o processo estocstico como aquele conjunto de
possveis trajetrias para Yt (linhas tracejadas na Figura 1). A realizao ser uma trajetria
observada para a srie (linha slida). Assim, embora, na prtica, observemos apenas um valor de
Y em um dado perodo t (Yt), devemos considerar que este poderia assumir infinitas

possibilidades de ocorrncia, segundo uma dada distribuio de probabilidade.

(1)

248

Econometria

15.2.

Alexandre Gori Maia

Estacionariedade

15.2.1. Definio
Uma propriedade desejvel de uma srie temporal que esta apresente um
comportamento constante no tempo, ou seja, seja estacionria. Por exemplo, caso o
comportamento da srie seja no estacionrio, ou seja, mude com o tempo, seria muito difcil
estabelecermos um modelo de previso para seus valores futuros baseado no seu comportamento
passado. Analogamente, seria muito difcil estabelecermos uma relao de determinao para
uma varivel dependente em funo de variveis independentes caso essa relao apresente
importantes quebras estruturais com o tempo.
O conceito mais abrangente de estacionariedade, ou estacionariedade estrita, supe que a
distribuio conjunta para todos os Yt no mude com o tempo, ou seja, a distribuio conjunta de
Y1, Y2, ..., Yk seja, por exemplo, igual de Y1+s, Y2+s, ..., Yk+s. Entretanto, como na prtica

impossvel conhecer todas as distribuies conjuntas de Y1, Y2, ..., Yk, restringimo-nos ao
conceito de estacionariedade fraca. Uma srie ser fracamente estacionria se:
i)

Apresentar mdia constante: E (Yt ) = ;

ii)

Apresentar varincia constante: Var (Yt ) = 2 = 0 ;

iii)

A covarincia entre dois valores de Y (Yt e Yt+s, por exemplo) depende apenas da
distncia s entre esses, ou seja, no importa qual sej o perodo t, a covarincia
entre Yt e Yt+s ser sempre a mesma Cov(Yt , Yt + s ) = s ;

Em um processo estacionrio, o valor de Y tende a convergir para uma mdia constante,


sua variabilidade no muda com o tempo e a relao entre, por exemplo, o valor presente Yt e seu
valor defasado Yt1 ser a mesma em todos os pontos de t. Em processos no estacionrios, o
valor esperado de Yt diferente em cada perodo, sua varincia no constante no tempo e/ou as
relaes entre os valores presentes e defasados se modificam com o tempo.

249

Econometria

Estacionariedade

(2)

Em modelos de previso, a estacionariedade importante, primeiro, porque supe que o


relacionamento entre Yt e seus valores defasados Yts seja o mesmo em todos os perodos t.
Segundo, porque sinaliza a convergncia da srie para uma mdia histrica segundo uma
distribuio de probabilidade previsvel. Em modelos de RLM, a no estacionariedade pode
implicar na instabilidade dos coeficientes angulares, assim como pode se refletir nos erros do
modelo que, alm de poderem no apresentar uma mdia constante, tenderiam a apresentar uma
variabilidade crescente no tempo. Nesse caso, os estimadores de MQO deixariam de ser
consistentes.
A estacionariedade tambm importante para a compreenso das relaes econmicas.
Por exemplo, se a inflao segue um processo no estacionrio, os efeitos de um choque
(aumento do preo do tomate, por exemplo) tendem a ser permanentes, no se dissipando mesmo
depois de vrios perodos.

Exemplo 1. A srie de valores mensais do ndice Nacional de Preos ao Consumidos (INPC)


entre janeiro de 2004 e dezembro de 2010 apresentou um comportamento aparentemente
estacionrio. Seus valores convergiram para uma mdia prxima de 0,4% a.m. e a variabilidade
no se modificou substancialmente no perodo, com valores entre 0% e 1% a.m.:

250

Econometria

Alexandre Gori Maia

Exemplo 2. No mesmo perodo, a cotao internacional para o barril do petrleo apresentou um


comportamente tipicamente no estacionrio. Combinou perodos de semi-estacionariedade com
perodos de crescimento e queda substancial. Com esse tipo de comportamento, a variabilidade
da srie tende a crescer indefinidamente, pois no haveria um limite para os valores mximos e
mnimos a serem alcanados. Ademais, a relao entre os valores passados e presentes muda
com o tempo, dificultando previses baseadas no comportamento histrico da srie.

15.2.2. Raiz Unitria


Uma caracterstica de uma srie no estacionria que, ao represent-la por um modelo
de regresso de Yt em funo de seus valores defasados (Yt1, Yt2, ...), a soma dos coeficientes
associados s variveis defasadas ser igual a 1. Para as sries estacionrias, a soma desses
coeficientes ser inferior a 1.
A representao mais simples para esse processo seria dada por um processo com apenas
uma defasagem para Y. Tambm chamado de modelo autorregressivo de 1 ordem, ou AR(1), a
especificao deste processo seria dada por:
Yt = Yt 1 + et

(3)

O coeficiente , tambm denominado de inrcia, ou coeficiente de autocorrelao de 1


ordem, indica a capacidade de assimilao temporal, ou seja, a parcela do valor defasado (Yt1)
que absorvido no presente (Yt). Caso <1, ento podemos afirmar que a srie ser estacionria.
Caso =1, ento a srie ser no estacionria. Em teoria, pode assumir valores negativos, mas
na prtica isso raramente ocorre em anlises economtricas.

251

Econometria

Estacionariedade

O erro et tambm denominado de rudo branco32 e representa uma srie com mdia
igual a zero, varincia constante e no autocorrelacionada. Em outras palavras:
E (et ) = 0

Var (et ) = 0 = 2

Cov(et , et + k ) = k = 0

(4)

Adicionalmente ao processo sem constante com componente autorregressivo (equao 3),


podemos ainda considerar dois outros tipos principais de processos definidores de uma srie
quando analisamos sua estacionariedade:
Yt = + Yt 1 + et
Yt = + t + Yt 1 + et

(5)

O primeiro considera, alm do coeficiente associado ao componente autorregressivo, a


constante na especificao do processo. O segundo incorpora um tendncia determinstica
especificao do processo. Em todas as situaes, o processo ser considerado estacionrios
quando <1.

Exemplo 3. Suponha que o processo definidor de um ndice de inflao seja dado pelo seguinte
modelo autorregressivo de 1a ordem:
Yt = 0,5Yt 1 + et

Considere agora, por exemplo, que no ms 1 a inflao fora igual a 0% (Y1=0) e que, no
ms 2, houve um choque no esperado (alta dos combustveis, por exemplo) que elevou a
inflao para 2% (Y2=0,02). Segundo a especificao do modelo, esse comportamento seria
expresso por:
Y1 = 0
Y2 = 0,5Y1 + e2 = 0,5 0 + 0,02 = 0,02

A idia central que, segundo a especificao do processo, com coeficiente associado


varivel defasada Yt1 inferior a 1, esse choque de 0,02 seria amortecido com o tempo e a srie
convergiria naturalmente sua mdia histrica. Para visualizarmos esse comportamento, basta
supormos que no haja mais choques (negativos ou positivos) e verificarmos que o valor de Yt
convergir para prximo de 0 (sua mdia histrica):
32

O termo rudo branco deriva da acstica, utilizado para representar um tipo de rudo produzido pela combinao

simultnea de sons de todas as frequncias sonoras. O adjetivo branco uma analogia luz branca, j que esta
obtida pela combinao simultnea de todas as frequncias cromticas.

252

Econometria

Alexandre Gori Maia

Y3 = 0,5Y2 + e3 = 0,5 0,02 + 0 = 0,01


Y4 = 0,5Y3 + e4 = 0,5 0,01 + 0 = 0,005
Y5 = 0,5Y4 + e5 = 0,5 0,005 + 0 = 0,0025

Graficamente, teramos:

Exemplo 4. Suponha agora o caso do preo de uma commodity (preo do barril do petrleo, por
exemplo), com processo definido pelo seguinte modelo autorregressivo de 1a ordem:
Yt = Yt 1 + et

Imagine, por exemplo, que at o ms 1 o preo tenha oscilado em torno de 1 unidade


(Y1=1). No ms 2 h um choque, aumentando o preo em 0,5 unidade (de 1 para 1,5 unidade):
Y1 = 1
Y2 = Y1 + e2 = 1 + 0,5 = 1,5

Em sries no estacionrias, eventuais choques sero assimilados eternamente pela


varivel. Neste exemplo, dado um choque positivo no ms 2, a tendncia que nos demais anos
este preo seja mantido. Em outras palavras, na ausncia de um novo choque que reverta a
tendncia da srie, esta no voltar naturalmente sua mdia histrica:
Y3 = Y2 + e3 = 1,5 + 0 = 1,5
Y4 = Y3 + e4 = 1,5 + 0 = 1,5
Y5 = Y4 + e5 = 1,5 + 0 = 1,5

Graficamente, teramos:

253

Econometria

Estacionariedade

Alm das simulaes e representaes grficas, podemos demonstrar algebricamente que


processos autorregressivos com inrcia igual a 1 (=1) no satisfazem pelo menos uma das duas
primeiras propriedades das sries fracamente estacionrias: valor mdio constante e varincia
constante. Por exemplo, vamos supor um processo definido pelo modelo autorregressivo sem
constante:
Yt = Yt 1 + et

(6)

Ento, por desenvolvimento algbrico, teramos:


Y1 = Y0 + e1
Y2 = Y1 + e2 = Y0 + [e1 + e2 ]

(7)

Yt = Y0 + i =1 ei
t

A partir da, podemos calcular o valor esperado e a varincia de Yt:


E (Yt ) = E (Y0 + i =1 ei ) = Y0
t

Var (Yt ) = Var (Y0 + i =1 ei ) = Var (Y0 ) + Var (i =1 ei ) = t 2


t

(8)

Ou seja, embora a valor mdio da srie convirja para uma constante, igual ao seu valor
inicial (Y0), sua varincia tende a aumentar com tempo. A representao grfica de uma possvel
realizao desse processo dada por:

(9)

254

Econometria

Alexandre Gori Maia

Vamos agora analisar os dois primeiros momentos (mdia e varincia) de outro processo
no estacionrio, dado pelo modelo autorregressivo com constante :
Yt = + Yt 1 + et

(10)

Nesse caso, teramos por desenvolvimento algbrico:


Y1 = + Y0 + e1
Y2 = Y1 + e2 = [ + ] + Y0 + [e1 + e2 ]
t

(11)

Yt = Y0 + i =1 + i =1 ei

O valor esperado e a varincia de Yt seriam ento dados por:


t

E (Yt ) = E (Y0 + + i =1 ei ) = Y0 + t
t

Var (Yt ) = Var (Y0 + i =1 + i =1 ei ) = t 2

(12)

Neste caso, tanto o valor mdio da srie como sua varincia tendero a crescer com o
tempo. A representao grfica de uma possvel realizao desse processo dada por:

(13)

Uma varincia que cresce com o tempo pode trazer srias implicaes para um ajuste de
regresso. Caso esse comportamento se reproduza nos erros do modelo, esses deixariam de
apresentar varincia finita e os estimadores de MQO no seriam mais consistentes.
15.2.3. Terminologia

Alguns processos estocsticos apresentam denominaes prprias, que caracterizam sua


natureza estacionria e os componentes que fazem parte de sua especificao. Entre as
denominaes para processos estacionrios, podemos destacar os seguintes casos:
Rudo branco: Yt = et

255

Econometria

Estacionariedade

o caso mais simples de processo estacionrio. Possui mdia zero, varincia constante
(2) e no autocorrelacionado serialmente. O erro do modelo clssico de regresso linear , por
definio, um rudo branco, independente e identicamente distribudo de maneira normal:
et ~ IIDN (0, 2 ) . A Figura 13 apresenta uma realizao de um rudo branco.

(13)

Tendncia determinstica: Yt = + t + et

Embora a mdia no seja constante, pode ser prevista com exatido conhecendo-se o
valor de t. tambm chamado de processo estacionrio em tendncia ou estacionrio psremoo de tendncia. Em outras palavras, uma srie que apresenta comportamento
estacionrio em cima de uma tendncia no tempo. A Figura 14 apresenta um exemplo de
realizao de tendncia determinstica definida pelo processo Yt = 0,5 + 0,1t + et .

(14)

Tendncia

determinstica

com

componente

autorregressivo

estacionrio:

Yt = + t + Yt 1 + et , < 1

Choques so absorvidos com o tempo ( <1) e o processo tende a ser estacionrio em


torno de uma tendncia determinstica (t). Em relao ao processo anterior (tendncia
determinstica), apresenta um comportamento mais errtico, com magnitude que depender da

256

Econometria

Alexandre Gori Maia

inrcia do componente autorregressivo (). A Figura 15 apresenta uma realizao definida pelo
processo Yt = 0,5 + 0,05t + 0,7Yt 1 + et .

(15)

J, entre os processos no estacionrios, podemos destacar:


Passeio aleatrio sem deslocamento: Yt = Yt 1 + et

Choques ocorridos no presente sero absorvidos integralmente nos perodos posteriores.


Assim, a srie apresentar um comportamento totalmente imprevisvel, com varincia que tende
a explodir com o tempo (ver demonstrao 7). Embora o processo gerador da srie Y no seja
estacionrio, podemos chegar, a partir de transformaes da varivel Yt, a uma nova srie que
seja estacionria. Esta ser dada pela primeira diferena de Y: Yt = Yt Yt 1 = et . A Figura 16
apresenta um exemplo de uma realizao de um passeio aleatrio sem deslocamento.

(16)

Passeio aleatrio com deslocamento: Yt = + Yt 1 + et

Alm de absorver integralmente choques passados, apresenta uma tendncia constante de


variao em cada perodo (). Mdia e varincia variam com o tempo (ver demonstrao 11).
Pode, todavia, ser transformada para gerar uma srie estacionria: Yt = + et . A Figura (17)

257

Econometria

Estacionariedade

apresenta uma realizao de um passeio aleatrio com descolamento definido pelo processo
Yt = 0,1 + Yt 1 + et .

(17)

Passeio aleatrio com deslocamento e tendncia determinstica: Yt = + t + Yt 1 + et

Apresenta comportamento errtico, imprevisvel, em torno de uma tendncia


determinstica (t). Pode, atravs de transformao algbrica, gerar um processo estacionrio em
tendncia: Yt = + t + et . A Figura 18 apresenta uma realizao de um passeio aleatrio com
deslocamento e tendncia determinstica definida pelo processo Yt = 0,1 + 0,002t + Yt 1 + et .

(18)

15.3.

Funo de autocorrelao

A funo de autocorrelao descreve os padres de relacionamento entre valores


presentes e defasados de Y, permitindo identificar a presena de estacionariedade em um
processo estocstico. A partir das correlaes entre valores observados em um perodo base (t) e
seus valores defasados (tk), possvel verificar em que medida os valores de um perodo base
influenciam ou so influenciados por valores defasados da srie.
A funo de autocorrelao, k, dada por:

258

Econometria

Alexandre Gori Maia

k =

Cov(Yt , Yt k )
Cov(Yt , Yt k ) k
=
=
DP (Yt ) DP (Yt k )
Var (Yt )
0

(19)

O grfico de k em funo de k chamado correlograma.


Em processos no estacionrios, valores presentes (t) e defasados (tk) de Y tendem a
apresentar elevada autocorrelao, pois choques observados no perodo t so totalmente
assimilados para o perodo t+1 e assim sucessivamente. Em processos estacionrios, a correlao
entre valores presentes (t) e defasados (tk) tende a desaparecer medida que aumentamos a
defasagem k, pois choques observados no perodo t tendem a ser amortecidos rapidamente com o
tempo.
Para demonstrarmos essa propriedade, vamos considerar, por exemplo, o processo
definido por:
Yt = Yt 1 + et

(20)

Substituindo repetidamente, chegaremos seguinte representao:


Yt = ( Yt 2 + et 1 ) + et = 2Yt 2 + et 1 + et
Yt = 2 ( Yt 3 + et 2 ) + et 1 + et = ... = k Yt k + et k + ... + et 1 + et

(21)

Agora, para calcularmos a covarincia entre Yt e Ytk, ou seja, Cov(Yt , Yt k ) = E (Yt Yt k ) ,


basta obtermos o valor esperado do produto entre a ltima equao de (21) e Ytk:
E (Yt Yt k ) = k E (Yt 2k ) + E (Yt k et k ) + ... + E (Yt k et 1 ) + E (Yt k et )

(22)

Pressupondo regressores estritamente exgenos, ou seja, que os erros no estejam


relacionados a quaisquer defasagens de Yt, teremos:
Cov(Yt , Yt k ) = E (Yt Yt k ) = k E (Yt 2k ) = k y2

(23)

A correlao, por sua vez, ser:


Corr (Yt , Yt k ) =

k y2
y y

= k

(24)

O que as equaes (23) e (24) nos dizem que, embora os valores de um processo
estacionrio (||<1) estajam autocorrelacionados no tempo, esta correlao tende zero medida
que nos afastamos no tempo (k relativamente grande).

259

Econometria

Estacionariedade

Exemplo 5. O quadro abaixo apresenta as autocorrelaes para 6 defasagens do ndice de preos

e o respectivo correlograma direita.


k

0,0748

1,0000

0,0414

0,5531

0,0085

0,1137

-0,0115

-0,1531

-0,0142

-0,1899

-0,0098

-0,1306

-0,0056

-0,0754

Os valores estimados para a autocorrelao sugerem um comportamento estacionrio da srie do


ndice de preos. Para um processo estacionrio, a autocorrelao fica prxima de zero em vrias
defasagens, j que valores defasados apresentam pouca ou quase nenhuma relao com valores
presentes. A correlao de Yt com seus prprios valores (defasagem 0) ser, naturalmente, igual a
Exemplo 6. Anlise anloga foi realizada para o preo do barril do petrleo:
k

470,4

1,0000

438,7

0,9325

387,8

0,8244

323,4

0,6874

257,0

0,5463

195,5

0,4155

142,0

0,3019

Os valores estimados para a autocorrelao sugerem um comportamento no estacionrio da


srie do preo do barril do petrleo. Para um processo no estacionrio, a tendncia que a
autocorrelao seja elevada para vrias defasagens, j que variaes (choques) em t sero
repercutidas integralmente no prximo perodo e, consecutivamente, nos perodos posteriores.
15.4.

Teste de raiz unitria

Adicionalmente anlise grfica e anlise descritiva da funo de autocorrelao,


podemos realizar um teste estatstico para encontrar evidncias formais da presena de
estacionariedade em uma srie temporal. O teste de estacionariedade usual, proposto por Dickey
260

Econometria

Alexandre Gori Maia

e Fuller em 1979, consiste em verificar se a inrcia () associada ao componente autorregressivo


de 1 ordem (Yt1) possui raiz unitria. Veremos duas maneiras de realizarmos o teste de DickeyFuller: i) teste de Dickey-Fuller; ii) teste de Dickey-Fuller aumentado.
15.4.1. Teste de Dickey-Fuller

Para realizarmos o teste de Dickey-Fuller, deveramos conhecer, priori, a especificao


do processo estocstico gerador da srie Y. Em outras palavras, saber qual dos seguintes modelos
define o processo estocstico em questo:
i)

Sem constante: Yt = Yt 1 + et

ii)

Com constante: Yt = + Yt 1 + et

iii)

Com constante e tendncia determinstica: Yt = + t + Yt 1 + et

Por exemplo, se sabemos que um processo estocstico apresenta termo contante e


tendncia determinstica, devemos verificar se o componente do termo autorregressivo da
especificao (iii) apresenta raiz unitria para classific-lo como no estacionrio. Em outras
palavras, gostaramos de testar as hiptes:
H 0 : = 1 {no estacionrio}

H 1 : < 1 {estacionrio}

(25)

Para testar essas hipteses, pensaramos, intuitivamente, em aplicar MQO s equaes (i),
(ii) ou (iii) e utilizar a estatstica t. O problema que, sob a hiptese nula de que =1, o
estimador de MQO ser tendencioso em direo zero, podendo nos levar a rejeitar
indevidamente a hiptese de no estacionariedade.
O teste introduzido por David Dickey e Wayne Fuller em 1979 consiste inicialmente em
transformar a equao do processo, subtraindo o termo Yt1 nos dois lados da igualdade para que
tenhamos regressandos estacionrios. Assim, a equao transformada para cada especificao
seria dada por:
i)

Yt = Yt 1 + et Yt Yt 1 = ( 1)Yt 1 + et Yt = Yt 1 + et

ii)

Yt = + Yt 1 + et Yt = + ( 1)Yt 1 + et Yt = + Yt 1 + et

261

Econometria

iii)

Estacionariedade

Yt = + t + Yt 1 + et Yt = + t + ( 1)Yt 1 + et Yt = + t + Yt 1 + et

A partir das equaes transformadas, testar a hiptese nula de que =1 seria, agora,
equivalente a testar a hiptese de que =0. Ou seja, as novas hipteses seriam:
H 0 : = 0 {no estacionrio}

H 1 : < 0 {estacionrio}

(26)

Agora, mesmo sob a veracidade da hiptese nula, a varivel dependente Yt ser


estacionria e poderemos aplicar MQO. O problema que, em funo da no estacionarieade da
varivel independente Yt1, a estatstica t obtida para o coeficiente ( t = S ) no apresentar
mais a distribuio t de Student, mesmo em amostras grandes. Para contornar esse problema,
Dickey e Fuller definiriam uma nova distribuio de probabilidade para essa estatstica, tambm
denominada de (tau). A distribuio da estatstica depender do tamanho da amostra e
tambm da especificao utilizada para o processo estocstico. Isso quer dizer que, para cada
especificao que adotemos para o processo estocstico (i, ii ou iii), teremos uma distribuio
distinta de probabilidade.
A tabela 27 apresenta valores crticos de a 5% para diferentes tamanhos de amostra (n) e
diferentes especificaes do processo estocstico. Como o teste unicaudal, devemos encontrar
um valor de inferior aos valores crticos da tabela para termos evidncias para rejeitar H0
(afirmar que a srie estacionria).
Valores crticos de a 5% para teste de raiz unitria
n

25
50
100
250
500

Sem
Constante
1,95
1,95
1,95
1,95
1,95
1,95

Com
Constante
3,00
2,93
2,89
2,88
2,87
2,86

Constante e
Tendncia
3,60
3,50
3,45
3,43
3,42
3,41

(27)

Exemplo 7. Podemos aplicar o teste de Dickey-Fuller para testar a estacionariedade da srie para

o preo do petrleo (Y). O ideal seria, priori, conhecer a especificao do processo gerador da
srie (sem constante, com constante ou com constante e tendncia). Como este , na prtica,
262

Econometria

Alexandre Gori Maia

deconhecido, iremos realizar o teste para os trs processos e arriscar, posteriormente, uma
especificao a partir de evidncias observadas na amostra. Aplicando MQO, teremos:
i)

Yt = 0,004Yt 1 + et

ii)

Yt = 4,244 0,054Yt 1 + et

iii)

Yt = 4,218 + 0,027t 0,071Yt 1 + et

Como perdemos a primeira observao para calcularmos Yt e Yt1, nossa amostra final contm
84 observaes (fevereiro de 2004 a dezembro de 2010). Os valores crticos aproximados com
5% de significncia para cada especificao seriam, respectivamente: 1,95; 2,89; 3,45. Por
sua vez, os valores de associados a cada coeficiente do termo atuorregressivo foram: 0,430;
1,633; 1,757. Como nenhum dos valores de se encontra na regio crtica, qualquer que seja o
processo considerado, no possvel rejeitar H0 em nenhuma das circunstncias, ou seja, a srie
no estacionria.
15.4.2. Teste de Dickey-Fuller aumentado

Uma limitao do teste de Dickey-Fuller apresentado anteriormente que no considera


situaes em que os erros et sejam autocorrelacionados. Como sabemos, nessas situaes o
estimador de MQO para a varincia do coeficiente ser viesado.
Dickey-Fuller tambm desenvolveram um teste conhecido como teste de Dickey-Fuller
aumentado, que considera defasagens da varivel dependente Yt entre os regressores como

forma de controlar a autocorrelao nos erros et. Assim, a equao transformada para cada
especificao seria dada por:
p

i)

Yt = Yt 1 + Yt j + et
j =1

ii)

Yt = + Yt 1 + Yt j + et
j =1
p

iii)

Yt = + t + Yt 1 + Yt j + et
j =1

263

Econometria

Estacionariedade

O nmero de defasagens p a ser considerada , na maioria dos casos, um problema


emprico. O ideal incluir tantas defasagens quanto forem necessrias para que o erro et deixe de
apresentar correlao serial.
As hipteses do teste de Dickey-Fuller aumentado so as mesmas do teste de DickeyFuller (26). Assintoticamente, a estatstica ( = S ) tambm apresentar a mesma
distirbuio de probabilidade do teste anterior, com valores crticos definidos pela da tabela (27).
Exemplo 8. Para identificar a presena de autocorrelao nos erros dos ajustes realizados no

exemplo 7 para os testes de Dickey-Fuller, estimamos o coeficiente de autocorrelao de 1


n

et et 1 . Os valores obtidos foram para cada ajuste:


ordem dos erros por e = t =n2
t =1 et 2
i)

Yt = 0,004Yt 1 + et e = 0,486

ii)

Yt = 4,244 0,054Yt 1 + et e = 0,491

iii)

Yt = 4,218 + 0,027t 0,071Yt 1 + et e = 0,497

O ideal seria realizarmos o teste de de Durbin-Watson para comprovarmos se os valores obtidos


so significativos. Entretanto, iremos considerar que a magnitude das estimativas de e sejam
indcios suficientes da existncia de autocorrelao nos erros para ilustrarmos a aplicao do
teste de Dickey-Fuller aumentando. Considerando agora uma defasagem de Yt entre os
regressores, teremos:
i)

Yt = 0,002Yt 1 + 0,496Yt 1 + et e = 0,082

ii)

Yt = 5,291 0,074Yt 1 + 0,516Yt 1 + et e = 0,126

iii)

Yt = 5,206 + 0,051t 0,106Yt 1 + 0,537 Yt 1 + et e = 0,157

As magnitudes das estimativas das autocorrelaes nos erros se reduziram substancialmente em


mdulo. Nesse teste de Dickey-Fuller aumentado, os valores de associados a cada coeficiente
do termo atuorregressivo foram, respectivamente: 0,164; 2,546; 3,029. Os valores crticos
so os mesmos do exerccio anterior: 1,95; 2,89; 3,45. Embora agora estejamos mais
prximos de rejeitar a hiptese de no estacionariedade, ainda no temos evidncias suficientes a

264

Econometria

Alexandre Gori Maia

um nvel de significncia de 5%. Ou seja, nossa concluso que a srie seria gerada por um
processo no estacionrio, independente da especificao proposta.
Exerccios

1. O arquivo ProducaoAutosAco.XLS contm informaes mensais sobre a produo de


automveis (unidades) e ao (toneladas) no Brasil, entre janeiro de 1990 e agosto de 2008.
Pede-se:
a. Analise a estacionariedade da produo de automveis e de ao a partir da anlise
grfica e da funo de autocorrelao.
b. Analise a estacionariedade das sries a partir do teste de Dickey-Fuller.
2. O arquivo EmpregoExportacao.XLS contm informaes mensais o emprego com carteira de
trabalho nas regies metropolitanas (ocup, em mil ocupados) e exportaes de produtos
industrializados (exp, em milhes de US$) no Brasil em 2008. Pede-se:
a. Verifique se as ocupaes podem ser consideradas como geradas por um processo
com componente autorregressivo estacionrio a partir do teste de Dickey-Fuller.
b. Verifique se as exportaes podem ser consideradas como geradas por um
processo com componente autorregressivo estacionrio a partir do teste de
Dickey-Fuller aumentado. Considere apenas a primeira ordem para o componente
autorregressivo.
3. (ANPEC, 2011) Suponha que
yt = yt1 + ut , ut ~ N(0, ), t=1,...,T.

Ento yt um processo estacionrio de segunda ordem se = 1.

4. (ANPEC, 2011) No passeio aleatrio com drift, yt = c + yt1 + t , y0 = 0, em que t um


rudo branco com mdia zero e varincia , a mdia de yt varia com t.
5. (ANPEC, 2008) Julgue as afirmativas:
a. O teste de Dickey-Fuller monocaudal.
265

Econometria

Estacionariedade

b. Um passeio aleatrio um processo estacionrio.


Respostas

1) a. Automveis: 1=0,923; 2=0,874; 3=0,830; 4=0,776; 5=0,753; Ao: 1=0,886;

2=0,854; 3=0,805; 4=0,780; 5=0,757; b. Autost = 0,0002 Autost 1 + et ( = 0,022 );


Autost = 6746,8 0,048 Autost 1 + et ( = 2,057 );
Autost = 11286,9 + 132,6t 0,209 Autost 1 + et ( = 4,879 ); Aot = 0,0003 Aot 1 + et
( = 0,061 ); Aot = 216,4 0,092 Aot 1 + et ( = 3,066 );
Aot = 744,6 + 1,997t 0,423 Aot 1 + et ( = 7,603 )
2) a. Ocupt = 540,2 0,048Ocupt 1 + et ; = 0,309 ;
b. Expt = 430,4 0,421t 1 + 0,304Expt 1 + et ; = 1,526
3) F.
4) V.
5) a. V; b. F.

266

Econometria

Alexandre Gori Maia

16. Cointegrao
Introduo

Um problema frequente quando relacionamos sries que no apresentam comportamentos


estacionrios o fenmeno da relao espria. Em outras palavras, a anlise estatstica sugeriria
falsamente uma associao significativa entre as sries, quando na verdade no haveria nenhuma
relao de causa e efeito entre essas.
Quando trabalhamos com dados de corte transversal, a relao espria ocorre nas
situaes em que a relao entre o regressor Y e o regressando X se deve exclusivamente ao fato
de essas variveis serem relacionadas a uma terceira varivel Z, no considerada na especificao
do modelo. Em outras palavras, a relao desapareceria se inclussemos a varivel Z no modelo.
Em anlise de sries temporais, a relao espria frequente quando no consideramos a
tendncia comum de crescimento (ou decaimento) no tempo para regressor e regressandos.
Ademais, relacionamentos entre sries que so passeios aleatrios usualmente resultam em
estatsticas significativas, mesmos que essas no apresentem deslocamentos em comum.
Nesse mdulo, veremos como identificar a relao espria e trs maneiras distintas de
evitar sua ocorrncia: i) incluindo o componente tempo na especificao do modelo (modelo de
tendncia estacionria); ii) transformando as sries originais (no estacionrias) em sries
estacionrias (modelo de diferenas estacionrias)); iii) trabalhando com sries no estacionrias
que sejam cointegradas.
16.1.

Relao espria

Seja a relao entre duas sries temporais Y e X:


Yt = + X t + et

(1)

Suponha ainda que no haja nenhuma relao de causalidade entre as sries, mas que
ambas apresentem comportamentos no estacionrios no tempo, como mostra a figura abaixo:

267

Econometria

Cointegrao

(2)

Caso as sries Y e X sejam no estacionrias a associao estatstica entre as variveis


pode falsamente indicar uma relao significativa, embora no haja nenhuma relao de
causalidade entre as variveis. Pressupondo que as sries sejam passeios aletrios com
deslocamento ( Yt = y + Yt 1 + ut e X t = x + X t 1 + vt ), esse problema poderia ser devido ao
fato de desconsiderarmos um descolamento comum das sries no tempo. Em outras palavras, os
valores esperados das duas sries seriam uma funo do tempo: E (Yt ) = Y0 + t y e
E ( X t ) = X 0 + t x . Nessa situao, valores baixos de X estariam associados a valores baixos de
Y, assim como valores elevados de X estariam associados a valores elevados de Y. Ou seja, uma

falsa relao de causa e efeito.


Mesmo que as sries no estacionrias no apresentem deslocamentos no tempo, o
relacionamento entre essas resultaria usualmente em uma estatstica t indevidamente
significativa. Por exemplo, vamos supor que as duas sries sejam passeios aleatrios sem
deslocamento, ( Yt = Yt 1 + ut e X t = X t 1 + vt ). Sabemos ainda que esses mesmos passeios
t

aleatrios podem ser representados por33: Yt = Y0 + i =1 ui e X t = X 0 + i =1 vi . Quando


realizamos o teste t para o coeficiente da equao (1), nossa hiptese nula H 0 : = 0 .
Entretanto, pressupondo a veracidade da hiptese nula, teramos que:
Yt = + et

(3)

Que ser equivalente a afirmarmos que:


t

= Y0 e et = i =1 ui

33

(4)

O desenvolvimento encontra-se no Captulo 15.

268

Econometria

Alexandre Gori Maia

Em outras palavras, et ser um passeio aleatrio com varincia tendendo a explodir com o
tempo: Var (et ) = t u2 . Fato que viola as premissas do Teorema de Gauss-Markov para que os
estimadores de MQO para sejam no tendenciosos e eficientes.
Exemplo 1. Sejam as sries anuais para o nmero de vacas ordenhadas (Y, em mil cabeas) e o

nmero de mdicos (X, em mil mdicos) no Brasil entre 1996 e 2008:

As sries apresentam comportamento aparentemente no estacionrios, j que no apresentam


um valor mdio constante no tempo. Caso ajustemos o modelo:
ln(Yt ) = + ln( X t ) + et
Chegaremos s estimativas de MQO:
ln(Yt ) = 6,97 + 0,52 ln( X t ) + et
O coeficiente angular significativo a 0,1% e o R2 de 0,98, sugerindo um relao altamente
significativa. Entretanto, sabemos que no h relao causal alguma entre nmero de mdicos e
vacas ordenhadas, ou seja, estamos em um caso tpico de relao espria.
16.2.

Modelo de tendncia estacionria

Em muitos casos, a relao espria deve-se ao fato de as sries no estacionrias


apresentarem tendncias determinsticas comuns (ou opostas) no tempo (crescimento ou
decrescimento). Nesses casos, uma soluo simples para evitar o problema de relao espria
seria a incluso da varivel explanatria tempo (t) no modelo de regresso. Caso as sries sejam
geradas por processos estacionrios em tendncia, a varivel tempo permitir isolar o efeito da
tendncia de crescimento e indentifcar o efeito isolado do regressor sobre o regressando.
Em outras palavras, suponha que a relao entre as variveis Y e X seja dada por:
269

Econometria

Cointegrao

Yt = + 1 X t + 2 t + et

(5)

Onde Yt e Xt so processos estacionrios em tendncia. A omisso da varivel t do


modelo, como sugere a equao (1), implicaria na relao entre regressor e erros e,
consequentemente, em estimativas viesadas e inconsistentes pelo MQO. Por outro lado, a
considerao da varivel t permitiria identificar o efeito de X sobre Y, isolando a tendncia de
ambas as sries no tempo.
Exemplo 2. Se incluirmos a varivel tempo (t=1..13) no modelo proposto no exemplo 1

terermos:
ln(Yt ) = + 1 ln( X t ) + 2 t + et
E as respectivas estimativas de MQO:
ln(Yt ) = 9,18 + 0,10 ln( X t ) + 0,02t + et
O impacto do nmero de mdicos sobre as vacas ordenhadas (1) passou a ser insignificante a
5% e o R2 passou a 0,99. Esses resultados sugerem que o comportamento do nmero de vacas
ordenhadas seja exclusivamente determinado pela tendncia temporal. Para reforarmos essa
anlise, podemos ajustar o logaritmo do nmero de vacas com funo linear simples do tempo:
ln(Yt ) = 9,68 + 0,02t + et
O R2 permaneceu inalterado (0,99) e o coeficiente estimado para o tempo continuou com o
mesmo valor e significativo a 0,1%. Em ouras palavras, aps isolado o efeito do tempo sobre a
dinmica do nmero de vacas ordenhadas, o nmero de mdicos no agrega qualquer tipo de
informao.
16.2.1. Coeficiente de determinao para regressando com tendncia

O coeficiente de determinao (R2) de ajustes de sries temporais so usualmente bem


elevados em comparao queles de dados em corte transversal. Um dos motivos o fato de o
regressando apresentar usualmente alguma tendncia no tempo, fazendo com que sua
variabilidade total (SQT) seja bem elevada em relao variabilidade dos resduos (SQRes).
Para compreendermos melhor, sabemos que o R2 dado por:
R2 =

SQReg
SQRes
=1
STQ
STQ

(6)

270

Econometria

Alexandre Gori Maia

Como a STQ mede as distncias quadrticas dos valores de Yt em relao sua mdia
constante ( Y ), seu valor tende a crescer substancialmente com o tempo quando Yt apresenta
tendncia. O resultado que a STQ e o R2 acabam superestimados.
Para contornar esse problema, sugere-se que, quando a varivel dependente apresenta
alguma tendncia, o ideal seja isolarmos o efeito do tempo antes de calcularmos o R2. A proposta
trabalhar com uma varivel dependente com remoo de tendncia ( Yt* ). Para calcularmos Yt* ,
o primeiro passo ajustar a relao entre Yt e t:

Yt = 0 + 1t

(7)

Em seguinda, removemos o efeito do tempo em Yt por:

Yt* = Yt Yt = Yt ( 0 + 1t )

(8)

Sendo que Yt* nada mais que os resduos do ajuste em (6).


O R2 com remoo de tendncia ser ento estimado a partir do modelo:

Yt* = + 1 X t + 2t + et

(9)

A ideia que o R2 do modelo (8) melhor reflete a contribuio de Xt para explicar a


variabildiade de Yt, j que desconsidera a contribuio da tendncia.
Exemplo 3. No exemplo 2, verificamos que o ajuste para o logaritmo do nmero de vacas

ordenhadas como funo do logaritmo do nmero de mdicos resultou em um R2 igual a 0,99.


Boa parte desse valor deve-se, provavelmente, ao fato de a varivel dependente apresentar um
tendncia de crescimento no tempo. Para removermos o efeito da tendncia sobre o regressando
e calcularmos um novo R2, o primeiro passo ajustar o logaritmo do nmero de vacas
ordenhadas como funo do tempo:
ln(Yt ) = 9,68 + 0,02t + et
Em seguida, removemos o efeito da tendncia sobre o regressando por:
ln(Yt )* = ln(Yt ) (9,68 + 0,02t )
Finalmente, o ajuste da varivel dependente com remoo de tendncia pelas variveis
independentes originais ser:
ln(Yt )* = 0,50 + 0,10 ln( X t ) 0,004t + et

271

Econometria

Cointegrao

O R2 desse modelo de apenas 0,08, bem inferior ao valor obtido anteriormente. Se


considerarmos ainda a margem de erro da amostra da pequena amostra, chegaremos concluso
que se trata de um valor insignificante.
16.3.

Modelo de diferena estacionria

Outra maneira de nos resguardarmos em relao presena relao espria


transformando as sries no estacionrias em sries estacionrias. Em muitas situaes, uma
srie no estacionria Yt pode gerar uma srie estacionria em primeira diferena, ou seja, a
varivel Yt=YtYt1 seria estacionria. Seria o caso, por exemplo, de um processo um passeio
aleatrio com deslocamento:

Yt = y + Yt 1 + et

(10)

Que, em primeira diferena, ficaria:


Yt = y + et

(11)

Ou seja, pressupondo que et seja um rudo branco, a srie Yt seria estacionria, variando
aleatoriamente em torno de uma constante y. Entretanto, como na prtica desconhecemos o
processo que define a srie Yt, o ideal seria realizarmos um teste de estacionariedade srie Y
para nos certificarmos que a diferenciao de fato eliminou a no estacionariedade.
Quando a srie Yt se torna estacionria a partir da primeira diferena, dizemos que ela
um processo integrado de ordem um, ou I(1)34. Isso significa que ela gerada a partir de uma
nica integrao (o oposto de diferenciao) de um processo estacionrio, que no caso seria Yt.
Caso a srie Yt seja estacionria, dizemos que ela um I(0). E, caso sejam necessrias d
diferenciaes para ela se tornar estacionria, dizemos que ela um I(d).
Alm de poder transformar uma srie no estacionria em estacionria, a diferenciao
tambm remove qualquer tendncia linear que a srie apresente no tempo. Por exemplo, caso a
srie Yt apresente uma tendncia definida por:

Yt = 0 + 1t + et

(12)

Ento a primeira diferena gerar a srie:


Yt = Yt Yt 1 = ( 0 0 ) + 1[t (t 1)] + (et et 1 ) = 1 + et

34

(13)

Os processos integrados sero discutidos com maiores detalhes no Captulo 17.

272

Econometria

Alexandre Gori Maia

Que apresenta valor esperado constante igual a 1.


Assim, ao invs de analisarmos a relao entre Yt e Xt, que podem apresentar no
estacionariedade, podemos analisar a relao entre Yt e Xt:
Yt = + X t + et

(14)

A diferena entre o modelo para as variveis originais este para as suas diferenas que,
enquanto o primeiro capta relaes de longo prazo, o segundo capta relaes de curto prazo
(mudanas de um perodo para outro). O problema que muitas vezes o pesquisador est
interessado em captar o efeito de longo prazo das relaes, que no possvel com o modelo de
diferenas estacionrias.
Exemplo 3. Para eveitar o problema de relao espria entre nmero de vacas ordenhadas (Y) e

nmero de mdicos (X), podemos trabalhar as primeiras diferenas de seus logaritmos:


ln(Yt ) = ln(Yt ) ln(Yt 1 )

ln( X t ) = ln( X t ) ln( X t 1 )

Embora o ideal seja realizar um teste de estacionariedade nas sries Y e X, vamos pressupor
que essas sejam de fato estacionrias e ajustar o modelo:
ln(Yt ) = + ln( X t ) + et
As estimativas de MQO seriam:
ln(Yt ) = 0,02 0,01 ln( X t ) + et
A relao entre nmero de mdicos e vacas ordenhadas passa a ser insignificante a 10%, assim
como o R2 do ajuste (0,001). Em outras palavras, eliminando o problema da no
estacionariedade, constatamos que a variao de curto prazo (anual) no nmero de mdicos no
possui qualquer relao com a variao (anual) no nmero de vacas ordenhadas.
16.4.

Cointegrao

Mesmo no estacionrias, duas sries podem apresentar relao de causa e efeito caso
essas sejam cointegradas. Duas sries que apresentam a mesma ordem de integrao sero
denominadas cointegradas caso apresentem comportamentos semelhantes no tempo, que tendem
a convergir em longo prazo. como se uma srie puxasse a outra, produzindo um efeito elstico
na relao entre essas.

273

Econometria

Cointegrao

Para compreendermos melhor o conceito de cointegrao, vamos supor o exemplo da


relao entre os preos de dois substitutos: arroz e macarro. Suponha ainda que os preos desses
produtos sejam no estacionrios, j que alguns choques, como aumento da demanda e dos
custos de produo, no seriam facilmente assimilados com o tempo. Caso a relao entre as
duas sries de preos seja de no cointegrao, a diferena entre as elas tenderia a crescer com o
tempo. Entretanto, esse resultado seria pouco factvel do ponto de vista econmico. Caso, por
exemplo, o arroz se torne substancialmente mais caro que o macarro, as pessoas tenderiam a
consumir mais macarro. Consequentemente, o preo do macarro tenderia a aumentar,
aproximando novamente as duas sries de preos. Em outras palavras, embora desvios de uma
srie em relao a outra sejam esperados em um curto perodo de tempo, no de se esperar que
essas diferenas cresam substancialmente com o tempo.
Assim, para sabermos se a relao entre duas sries no estacionrias espria ou de
cointegrao, nada mais natural que analisarmos o comportamento dos resduos do ajuste de
regresso. Uma regresso entre duas sries cointegradas gerar erros estacionrios, que
convergem rapidamente para a mdia zero. Em outras palavras, seja o modelo:

Yt = + X t + et

(15)

Caso Y e X sejam cointegradas, os erros et desse modelo sero estacionrios. Como, na


prtica, no observamos e, analisamos a relao de cointegrao a partir dos resduos t. A figura
(16) representa um ajuste com variveis cointegradas e resduos estacionrios.

(16)

Por outro lado, caso as sries no estacionrias no sejam cointegradas, os resduos de


seu ajustes sero no estacionrios, como representa da Figura (17).

(17)

274

Econometria

Alexandre Gori Maia

Alm de analisarmos graficamente o comportamento de t, podemos realizar o teste da


raiz unitria para encontrarmos evidncias formais da presena de estacionariedade nos erros et,
consequentemente, de relao de cointegrao entre as sries temporais. Caso os erros fossem
observados, poderamos aplicar diretamente o teste de Dickey-Fuller, ou Dickey-Fuller
aumentado. Em outras palavras, desejaramos analisar a relao:

et = et 1 + ut

(18)

E testar as hipteses de que o coeficiente igual a 1 (H0: no estacionrio) ou inferior a


1 (H1: estacionrio). Entretanto, como, na prtica, o ajuste ser feito a partir dos resduos t,
consideramos a seguinte especificao:

et = et 1 + ut

(19)

O primeiro passo seria realizarmos a transformao do modelo para que, sob a veracidade
da hiptese nula, tenhamos um modelo com regressor estacionrio:
et = et 1 + ut

(20)

E verificar se a estimativa de MQO para o coeficiente estatisticamente igual a 0


(hiptese nula) ou inferior a 0 (hiptese alternativa). No teste de Dickey-Fuller, utilizamos a
estatstica = S com distribuio tau ou de Dickey-Fuller. O problema agora que estamos
trabalhando com valores estimados (t e t1) em substituio aos valores observados (et).
Ademais, sob a veracidade da hiptese nula, essas estimativas seriam obtidas atravs de um
estimador inconsistente, j que a relao seria de no cointegrao. Consequentemente, os
valores criticos da estatstca de Dickey-Fuller no seriam mais apropriados para o teste.
Para contornar esse problema, Davidson e Mackninnon propuseram novos valores
crticos para o teste de cointegrao. Esses valores consideram ainda duas possibilidades de
especificao: i) relaes de cointegrao com constante (equao 15); ii) relaes de
cointegrao em tendncia (equao 22).

Yt = + 1 X t + 2 t + et

(22)

Os valores crticos propostos por Davidson e Mackninnon para cada especificao so


apresentados na tabela 23:

275

Econometria

Cointegrao

Signifincia

Com
Constante

1%

3,90

Com
Constante e
Tendncia
4,32

5%

3,34

3,78

10%

3,04

3,50

(23)

Uma vez rejeitada a hiptese nula, ou seja, identificada a estacionariedade dos erros,
podemos afirmar que h relao de cointegrao entre as sries.
Exemplo 4. Podemos verificar a cointegrao das sries dos logaritmos do nmero de vacas

ordenhadas e de mdicos analisando os resduos do ajuste:


ln(Yt ) = 6,97 + 0,52 ln( X t ) + et
O primeiro passo analisar o comportamento grfico dos resduos:

O comportamento presente (t) parece estar fortemente associado ao comportamento passado


(t1). Entretanto, para encontrarmos evidncias formais da existncia de no estacionariedadade
e, consequentemente, de ausncia de cointegrao, devemos avaliar o coeficiente associado ao
termo autorregressivo do modelo:

et = et 1 + ut
O teste da raiz unitria consiste em verificar se h evidncias para afirmar que <1, ou seja, que
os resduos so estacionrios. Testar a hiptese nula de que =1 o mesmo que testar se =0,
sendo o coeficiente do modelo:
et = et 1 + ut
Aplicando MQO, chegaremos estimativas:
276

Econometria

Alexandre Gori Maia

et = 0,512et 1 + ut
A estimativa do erro padro de foi de 0,248 e da estatstica foi de 2,067. Como o valor de

no inferior ao valor critico da tabela de Davidson e Makninnon para 10% de significncia


em um ajuste sem intercepto (3,50), no rejeitaramos a hiptese nula de no estacionariedade
dos resduos. Ou seja, o teste sugeriria que os resduos so no estacionrios e,
consequentemente, que a relao entre as variveis no seja de cointegrao.
Exemplo 5. Vamos agora analisar a relao entre renda disponvel no Brasil (X, em mil reais) e

consumo final das famlias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63).

Embora as duas sries sejam aparentemente no estacionrias, a relao linear entre essas seria
consistente caso essas sejam cointegradas. O modelo proposto dado por:
ln(Yt ) = + ln( X t ) + et
Aplicando MQO chegaremos a:
ln(Yt ) = 0,07 + 0,98 ln( X t ) + et
A elasticidade renda consumo significativa a 1% e o R2 do modelo (sem remoo de tendncia)
de 0,998. Como pde ser observado visualmente, consumo e renda compartilham tendncias
estocsticas (aleatrias) semelhantes. Essas sries no divergem muito uma da outra, e
compartilham de um equilbrio a longo prazo.Os resduos obtidos no ajuste foram:

277

Econometria

Cointegrao

Embora a disperso dos resduos no tempo sugira um comportamento aleatrio, devemos realizar
o teste da raiz unitria para nos certificarmos da presena de estacionariedade nos resduos.
Aplicando MQO, chegaremos s estimativas:
et = 0,625et 1 + ut
A estimativa do erro padro de foi de 0,120 e da estatstica foi de -5,211. Como o valor de

inferior ao valor critico da tabela de Davidson e Makninnon para 1% de significncia em um


ajuste sem tendncia (3,90), encontramos evidncias fortssimas para rejeitar a hiptese nula de
no estacionariedade dos erros. Ou seja, sujeitos a um erro inferior a 1%, afirmaramos que a
relao entre o logaritmo da renda e do consumo de cointegrao.
16.4.1. Modelo de correo de erros

importante destacar que a cointegrao significa uma relao de longo prazo, ou de


equilbrio, entre as sries. No curto prazo, porm, pode haver desequilbrios entre as sries.
Assim, embora o modelo (15) possa ser apropriado para representar relaes de longo prazo
entre duas sries cointegradas, relaes de curto prazo devem ser analisadas atravs do
denominado modelo de correo de erros. Uma representao simplicada do modelo de correo
de erros pode ser dada por:
Yt = 0 + 1X t + et 1 + ut

(22)

et 1 = Yt 1 ( + X t 1 )

(23)

Onde et dado por:

O termo et1 denominado de componente de correo de erro. Espera-se que <0 para
que este componente funcione como um termo de equilbro. Por exemplo, caso haja um desvio
positivo no perodo anterior (et1>0), o termo et1 ser negativo para forar a srie Yt a retornar
278

Econometria

Alexandre Gori Maia

ao equilbro. Assim, a constante determinar a velocidade com que a srie retornar ao ponto
de equilbro aps desvios ocorrerem no perodo anterior.
Como, na prtica, no observamos os valores de et, trabalhamos com os resduos
estimados t para o modelo de cointegrao. Assintoticamente, o uso de estimativas t obtidas
por MQO ou outra tcnica de estimao no afetar os coeficientes do modelo correo de erros.
O modelo de correo de erros permite analisar a relao de curto prazo entre duas sries
cointegradas. Alguns modelos de correo de erros incorporam ainda defasagens do regressor
Xt e do regressando Yt, que so particularmente teis em modelos de previso de sries
temporais ou quando desejamos analisar o comportamento dinmico das sries temporais.
Exemplo 6. No exemplo 5, identificamos uma relao de cointegrao entre renda disponvel (X,

em mil reais) e consumo final das famlias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63) no
Brasil. O ajuste para a relao de longo prazo foi dado por:
ln(Yt ) = 0,07 + 0,98 ln( X t ) + et
Para estabelecermos a relao de curto prazo entre as sries, podemos considerar o seguinte
modelo de correo de erros:
ln(Yt ) = 0 + 1 ln( X t ) + et 1 + ut
Como os valores de et no so observados, trabalharemos com as estimativas dadas pelo ajuste
de cointegrao:

et 1 = ln(Yt 1 ) [0,07 + 0,98 ln( X t 1 )]


Assim, as estimativas para o modelo de correo de erros foram:
ln(Yt ) = 0,01 + 0,88 ln( X t ) 0,07et 1 + ut
A estimativa de negativa, como esperado, mas no significativa a 5% (seu erro padro igual
a 0,12). O ajuste sugere, portanto, que o consumo se ajusta renda no mesmo perodo. Ademais,
enquanto a elasticidade obtida no exemplo 5 (0,98) refere-se propenso marginal a consumir de
longo prazo, a elasticidade de curto prazo estimada pelo modelo de correo de erros igual a
0,88 e significativa a 0,1%.

279

Econometria

Cointegrao

Exerccios

1. O arquivo ProducaoAutosAco.XLS contm informaes mensais sobre a produo de


automveis (unidades) e ao (toneladas) no Brasil, entre janeiro de 1990 e agosto de 2008.
Pede-se:
a. Analise a relao entre a produo de ao (Y) e de automveis (X). H motivos
para suspeitar de relao espria?
b. Analise os resultados de um modelo de tendncia estacionria.
c. Analise os resultados de um modelo de diferena estacionria.
d. Analise a realo de cointegrao entre as sries.
2. O arquivo SuinoMilho.XLS contm informaes mensais o preo de atacado da saca de 60
kg de milho (milho, em R$) e o preo mdio do kg da carcaa de suno (suino, em R$) no
estado do Paran entre janeiro de 2009 e dezembro de 2010. Pede-se:
a. Ajuste um modelo para o logaritmo do preo do suno como funo do logaritmo
do preo do milho. Voc suspeitaria de relao espria?
b. Analise a relao de cointegrao no model ajustado em (a).
c. Considere agora um componente de tendncia determinstica para a relao
estabelecida em (a).
d. Analise a relao de cointegrao do modelo ajustado em (c)
e. Pressupondo que haja relao de cointegrao no modelo ajustado em (c),
proponha um modelo de correo de erros.
3. O arquivo MoedaPIB.XLS contm informaes anuais sobre a quantidade de papel-moeda
em poder pblico (M1) e o PIB (PIB) no Brasil, entre 1994 e 2008. Pede-se:
a. Sem qualquer resultado estatstico prvio, voc acredita que o ajuste da srie M1
em funo da srie PIB pode gerar uma relao espria?
b. Analise os resultados de um modelo de tendncia estacionria.
c. Analise os resultados de um modelo de diferena estacionria.
d. Analise a realo de cointegrao entre as sries.
e. Que outro tipo de problema pode estar envolvido na regresso da oferta de moeda
como funo do PIB?
280

Econometria

Alexandre Gori Maia

4. (ANPEC, 2008) A regresso entre duas variveis no estacionrias sempre espria.


5. (ANPEC, 2007) Sejam Yt e Xt duas sries temporais. Considere os resultados dos seguintes
modelos de regresso estimados por mnimos quadrados ordinrios (MQO):
e
Considere tambm os resultados da regresso de Yt em Xt

em que t o resduo. Finalmente, considere a seguinte regresso:

Os nmeros entre parnteses so os valores do teste t de significncia individual dos


parmetros. Dado que o valor crtico a 5% da estatstica de Dickey-Fuller 2,938, correto
afirmar que:
a) Yt e Xt so sries temporais integradas de ordem 1.
b) A regresso de Yt em Xt espria.
c) A hiptese de cointegrao entre Yt e Xt rejeitada pois os resduos da regresso de Yt em

Xt so no-estacionrios.
d) Para que duas variveis sejam cointegradas necessrio que ambas tenham a mesma
ordem de integrao.
e) A rejeio da hiptese nula do teste Dickey-Fuller implica que a varivel em questo
no-estacionria.
Respostas

1) a. Aot = 1524,5 *** + 0,006 *** Autos t + et ;


b. Aot = 1629,3*** + 0,003*** Autos t + 3,079t *** + et ;
c. Aot = 4,6 + 0,002** Autost + et ;
d. et = 0,034 0,383*** et 1 + u t

281

Econometria

Cointegrao

2) a. ln( suinot ) = 0,16 + 0,533*** ln(milhot ) + et ;


b. et = 0,150et 1 + ut ; = 0,999 ;
c. ln(suinot ) = 0,245 + 0,538*** ln(milhot ) + 0,006*** t + et ;
d. et = 0,483et 1 + ut ; = 2,894 ;
e. ln(suinot ) = 0,004 + 0,328** ln(milhot ) 0,580*** et 1 + vt
3) b. M 1t = 10314,5*** + 0,035*** PIBt 258,0t + et ;
c. M 1t = 2177,1 + 0,020 + PIBt + et ;
d. et = 504,8 0,885** et 1 + ut
4) F
5) a. V; b. F (questo anulada); c. F (questo anulada); d. V; e. F

282

Econometria

Alexandre Gori Maia

17. Modelos ARIMA


Introduo

O proeminente trabalho de Box e Jenkins em 1970, intitulado Time series

analysis:forecasting and control, revolucionou o estudo sobre previso de sries temporais. Os


autores propuseram uma nova metodologia para prever os valores futuros de uma srie tempo a
partir de seus valores passados. A idia central dessa proposta, tambm denominada de
metodologia de Box e Jenkins, deixar que os dados falem por si mesmos.
Nesse mdulo, veremos as principais formulaes propostas por Box e Jenkins. Em
especial, veremos a definio de 4 tipos de modelos: i) autorregressivos; ii) mdia mvel; iii)
autorregressivo de mdia mvel; iv) autorregressivo integrado de mdia mvel. A metodologia
completa de previso no ser, entretanto, abordada nesta apresentao. Esta exige uma literatura
especfica e programas estatsticos apropriados para o desenvolvimento das anlises.
17.1.

Modelo Autorregressivo (AR)

Podemos pressupor que o valor previsto da varivel Yt seja dado exclusivamente pelo seu
valor defasado Yt1. Nesse caso, o modelo de previso seria dado por:

Yt = + Yt 1 + et

(1)

Esse modelo denominado de autorregressivo de ordem 1, ou AR(1), pois considera


apenas a primeira defasagem de Yt como varivel explicativa. Podemos generalizar esse modelo
para inmero defasagens. Assim, em um processo autorregressivo de ordem p, ou AR(p), a
observao corrente de Yt gerada por uma mdia ponderada de p observaes passadas mais
uma perturbao aleatria no perodo corrente. Em outras palavras:

Yt = + 1Yt 1 + 2Yt 2 + ... + p Yt p + et

(2)

Outra maneira de representar esse processo utilizando o operador de defasagem B. Seja


o operador definido por:

283

Econometria

Modelos ARIMA

B k (Yt ) = Yt k

(3)

Ento, o processo AR(2) definido em (2) poderia tambm ser representado por:
(1 1 B1 ... p B p )Yt = + et

(4)

Ou ainda, mais simplificadamente:

( B)Yt = + et

(5)

A partir da especificao do modelo AR(p) (equao 2), podemos calcular o valor


esperado de Yt, ou seja, descobrir para qual valor mdio a srie convergir. Considerando que

= E (Yt ) = E (Yt p ) , ento:


E (Yt ) = E ( + 1Yt 1 + 2Yt 2 + ... + p Yt p + et )
E (Yt ) = + 1 E (Yt 1 ) + 2 E (Yt 2 ) + ... + p E (Yt p )

(1 1 ... p ) =
=

(6)

(1 1 ... p )

Ou seja, conhecendo a especificao do modelo AR(p), conseguiremos calcular


facilmente o valor mdio da srie (equao 6). Outro resultado interessante desse
desenvolvimento que, para que a srie apresente um valor constante e definido, o denominador
no pode ser igual a zero. Ou seja:

1 + ... + p < 1

(7)

284

Econometria

Alexandre Gori Maia

Esse resultado nada mais que uma generalizao do conceito de raiz unitria aplicado
ao modelo AR(1). Ou seja, o modelo de previso AR(p) ser estacionrio, com mdia definida e
constante, caso ( 1 + ... + p < 1 ). Caso contrrio ( 1 + ... + p = 1 ), a srie ser no estacionria e
no apresentar valor mdio definido.
Exemplo 1. Sejam os dados trimestrais, em dlares constantes de 1987, para investimento em

estoques no agrcolas. Aparentemente, um processo estacionrio:

Podemos pressupor que o investimento em estoque seja gerado por um AR(1), ou seja, que o
valor da srie para o perodo t seja dado com no valor de sua primeira defasagem (t1) mais um
erro aleatrio et. Teramos, ento, o seguinte ajuste para o modelo:

Yt = 9,80 + 0,54Yt 1 + et
A comparao entre os valores observados e previsto de Yt pelo AR(1) (linha tracejada em
vermelho) dada pelo grfico:

Percebam que, para os perodos contidos na amostra, os valores previstos pelo AR(1) se
aproximam muito daqueles observados. Para previses futuras, entretanto, a tendncia de que a
previso convirja para o valor esperado de Yt. Esse valor esperado, por sua vez, ser dado por:

E (Yt ) = E (9,80 + 0,54Yt 1 )

= 9,80 + 0,54

285

Econometria

Modelos ARIMA

17.2.

9,80
= 21,3
1 0,54

Modelo de Mdias Mveis (MA)

Podemos tambm considerar a previso de uma srie temporal a partir de uma mdia
ponderada das perturbaes aleatrias presentes e passadas. Se o processo estocstico em
questo estacionrio, os erros estariam identificando variaes em torno de uma mdia
constante devido a fatores diversos no explicados pelo modelo.
Genericamente, um processo de mdias mveis de ordem q, ou MA(q), pressupe que
cada observao corrente de Yt seja gerada por uma mdia invarivel no tempo ( ), mais uma
soma ponderada de q observaes defasadas das perturbaes aleatrias, mais a perturbao do
perodo corrente. Em outras palavras::

Yt = + et 1et 1 2 et 2 ... q et q

(8)

Que tambm pode ser representado pelo operador de defasagem B:

Yt = + (1 1 B 1 2 B 2 ... q B q )et

(9)

Os parmetros s podem ser positivos ou negativos. A representao pelo sinal negativo


apenas uma prtica frequente, embora no seja universal. Por sua vez, o termo mdia mvel
est associado ponderao dos parmetros s, embora no essa ponderao no se trate
necessariamente de uma mdia. No h qualquer restrio que limite os parmetros i a valores
positivos ou que a soma de seus valores seja igual a 1.
No caso de um processo MA(q), podemos demonstrar facilmente que o valor esperado da
srie ser dado pelo parmetro do modelo :

E (Yt ) = E ( + et 1 et 1 2 et 2 ... q et q ) =

(10)

286

Econometria

Alexandre Gori Maia

Exemplo 2. Vamos agora considerar a investimento em estoque em um perodo t seja dado por

uma soma ponderada de uma perturbao aleatria presente e outra passada, ou seja, um MA(1).
O ajuste para o modelo proposto seria dado por:

Yt = 21,64 + et + 0,48et 1
fcil identificarmos que o valor esperado da srie ser dado pelo termo constante 21,64. Assim,
o investimento em estoque para o perodo t seria previsto com base na mdia constante 21,64
mais uma soma ponderada do resduo presente e do resduo passado.
Graficamente, observamos que previses futuras dos valores de Yt convergiro rapidamente para
a mdia histrica 21,64:

17.3.

Modelo Autorregressivo e de Mdias Mveis (ARMA)

Em muitas situaes, um processo estocstico pode no ser modelado puramente como


de mdias mveis ou puramente como autorregressivo, mas sim como uma combinao dos dois.
Em um processo autorregressivo e de mdias mveis de ordem (p, q), ou ARMA(p, q),
considera-se que cada observao corrente Yt seja gerada por uma combinao de um processo
autorregressivo de ordem p e um processo de mdias mveis de ordem q. Em outras palavras:

Yt = 1Yt 1 + 2Yt 2 + ... + pYt p + + et 1et 1 2et 2 ... q et q

(11)

Que tambm pode ser representado pelo operador de defasagem B:


(1 1B1 2 B 2 ... p B p )Yt = + (1 1B1 2 B 2 ... p B p )et

(12)

O valor esperado deste processo ser semelhante ao do AR(p), ou seja:


287

Econometria

Modelos ARIMA

E (Yt ) = E (1Yt 1 + 2Yt 2 + ... + p Yt p + + et 1et 1 2 et 2 ... q et q )

(1 1 ... p ) =
=

(13)

(1 1 ... p )

Ou seja, o modelo de previso ARMA(p, q) ser estacionrio, com mdia definida e


constante, caso ( 1 + ... + p < 1 ).

Exemplo 3. Vamos agora supor que o investimento em estoque no perodo corrente seja definido

por uma combinao do investimento no perodo anterior e uma defasagem da flutuao


aleatria em torno de uma mdia constante. A estimativa para o modelo ARMA (1,1) proposto
seria dada por:

Yt = 21,72 + 0,63Yt 1 + et 0,13et 1


Segundo as especificaes propostas, o processo convergeria para uma mdia constante dada
por:

21,72
= 58,7
1 0,63

E o comportamento grfico dos valores observados, previstos e extrapolaes futuras seria:

17.4.

Modelo Autorregressivo Integrado e de Mdias Mveis (ARIMA)

Uma limitao dos modelos AR, MA e ARMA que estes aplicam-se apenas a sries
estacionrias. Assim, caso uma srie seja no estacionria, ser antes necessrio transform-la
em uma srie estacionria para podermos aplicar um modelo de previso.
288

Econometria

Alexandre Gori Maia

O processo utilizado para transformar uma srie no estacionria em estacionria


denomina-se diferenciao. Por exemplo, a primeira diferena de uma srie Yt (Yt) ser dada
por:
Yt = Yt Yt 1

(13)

Caso a nova srie Yt no seja estacionria, aplicam-se novas diferenas at se chegar a


uma srie estacionria. Por exemplo, a segunda diferena da srie Yt (2Yt) ser dada por:
2 Yt = Yt Yt 1

(14)

Usualmente, a primeira diferena suficiente para transformar um srie no estacionria


em estacionria. Teoricamente, podemos diferenciar uma srie quantas vezes forem necessrias
para transform-la em estacionria. A d-sima direrena da srie Yt (dYt) ser dada por:
d Yt = d 1Yt d 1Yt 1

(15)

A d-sima diferena estacionria de uma srie poder ser utilizada em modelos de


previso ARMA ou outros modelos economtricos. Aps previso da srie dYt, podemos
retornar aos valores da srie original atravs do processo denominado integrao. Por exemplo,
desenvolvendo a expresso (13), chegaremos srie Yt integrando uma vez os valores de Yt
( Yt ):

Yt = Yt + Yt 1 = Yt + Yt 1 + Yt 2 = ... = Yt

(16)

Analogamente, desenvolvendo a equao (14), podemos chegar srie Yt integrando a


srie 2Yt:
Yt = 2Yt + Yt 1 = 2 Yt + 2 Yt 1 + Yt 2 = ... = 2 Yt

(17)
289

Econometria

Modelos ARIMA

Por sua vez, igualando as equaes (16) e (17) teremos que integrando duas vezes a srie
2

2Yt ( 2 Yt ) chegaremos srie Yt:

Yt = Yt = 2 Yt = 2 Yt

(18)

Genericamente, teramos que integrar d vezes a srie dYt para se chegar srie Yt:
d

Yt = Yt = 2 Yt = ... d Yt = d Yt

(19)

Diz-se que um processo integrado de ordem d, ou I(d), quando, ele se torna estacionrio
aps ser diferenciado d vezes. Em outras palavras:

Se Yt estacionrio ento Yt uma srie integrada de ordem 0, ou I(0);

Seno, se Yt estacionrio ento Yt um I(1) e Yt um I(0);

Seno, se 2Yt estacionrio ento Yt um I(2);

Seno, se dYt estacionrio ento Yt um I(d).

Aps diferenciar uma srie no estacionria Yt um total de d vezes para torn-la


estacionria e, sendo dYt um processo ARMA (p, q), ento dizemos que Yt um processo
autorregressivo integrado e de mdias mveis de ordem (p, d, q), ou simplesmente
ARIMA( p, d , q) . Em outras palavras:

d Yt = 1 d Yt 1 + 2 d Yt 2 + ... + p d t p + + et 1et 1 2 et 2 ... q et q

(20)

Que tambm pode ser representado pelo operador de defasagem B:


(1 1B1 2 B 2 ... p B p )d Yt = + (1 1B1 2 B 2 ... p B p )et

(21)
290

Econometria

Alexandre Gori Maia

Ou simplesmente:

( B )d Yt = + ( B)et

(22)

Seguindo a metodologia proposta por Box e Jenkins, possvel elaborar modelos


ARIMA e, desta maneira, realizar previses de Yt a partir de valores defasados do prprio Yt e
seus erros aleatrios. Aps elaborar um modelo de previso com base na d-sima diferena de
Yt, dYt, possvel retornar srie original Yt a partir do operador de soma d.
Exemplo 4. Seja a srie Yt reprsentada no grfico abaixo, com comportamento claramente no

estacionrio:

O primeiro passo para o procedimento de previso seria transform-la em uma srie estacionria.
Aplicando a primeira diferena, obteramos a srie Yt, com comportamento expresso
graficamente por:

Assumindo que a srie Yt seja estacionria (os testes usuais de estacionariedade seriam
necessrios), podemos prev-la pelo modelo ARIMA. Como foi necessria uma diferenciao
para transform-la em um srie estacionria, sabemos que o parmetro d ser igual a 1, ou seja, a
srie Yt um I(1).

291

Econometria

Modelos ARIMA

Pressupondo agora que o valor de Yt seja uma funo de um componete autorregressivo (p=1) e
dois componentes de mdias mveis (d=2), teramos um modelo ARIMA(1,1,2) , expresso por:

Yt = 1 d Yt 1 + + et 1et 1 2 et 2
Uma vez estimado os valores de Yt, podemos estimar os valores de Yt integrando uma vez a
srie Yt:
Yt = Yt

Exemplo 5. Seja agora a srie Yt dada por:

O primeiro passo seria diferenciarmos a srie Yt quantas vezes forem necessrias para
transform-la em estacionria. Como pode ser observado nos grficos abaixo, esta tornar-se-
estacionria partir da segunda diferena, ou seja, Yt um I(2):

O prximo passo encontrar os parmetros p e q do modelo ARIMA, os quais deveriam ser


obtidos seguindo a metodologia de Box e Jenkins. Neste exerccio, vamos supor como dados p=2
e q=0. Teramos ento um ARIMA(2,2,0) expresso por :

2 Yt = 1 2Yt 1 + 1 2 Yt 2 + + et
Aps realizadas as previses de 2Yt, podemos estimar os valores de Yt integrando duas vezes a
srie 2Yt:

Yt = Yt = 2 Yt

292

Econometria

Alexandre Gori Maia

Exerccios

1. (ANPEC, 2012) Suponha que Yt pode ser representado pelo seguinte processo:

Yt = et 0,6et 1 , para t=1


Yt = Yt 1 + et 0,6et 1 , para t 2
em que et, t=1,2,... uma sequncia de variveis aleatrias independentes e identicamente
distribudas com mdia igual a 0. Se Yt=10, quando t=0, calcule o valor da E(Y3).
2. (ANPEC, 2011) Suponha que Yt = Yt 1 + et , ento Yt um processo estacionrio de segunda
ordem se =1.
3. (ANPEC, 2009) correto afirmar que:
a. No processo AR(1), Yt = 0 + 1Yt 1 + et , em que 1 < 1 e et um rudo branco
de mdia nula e varincia 2, a mdia de Yt ser igual a 0.
b. O processo MA(1), Yt = et + et 1 , em que et um rudo branco de mdia nula e
varincia constante, ser estacionrio mesmo que > 1 .

Respostas

1) 10
2) Falso.
3) a. Falso; b. Verdadeiro.

293

Econometria

Alexandre Gori Maia

Referncias

Box, G.; Jenkins, G. Time series analysis: Forecasting and control, San Francisco: Holden-Day,
1970.
Breusch, T.S. Testing for autocorrelation in dynamic linear models. Australian Economic
Papers, v. 17, 1979, pp. 334355.

Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models.
Econometrica, 1960, p. 591-605.

Davidson, R.; Mackinnon, J. Estimation and inference in econometrics. New York, Oxford
University Press, 1993.
Dickey, D. A.; Fuller, W. A. Distribution of the estimators for autoregressive time series with a
unit root. Journal of the American Statistical Association, v. 74, 1979, pp. 427431.
Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, I.
Biometrika, v. 37, 1950, pp. 409428.

Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, II.
Biometrika, v. 38, 1951, pp. 159179.

Engle, R. F.; Granger, C. W. J. Co-integration and error correction: representation, estimation,


and testing. Econometrica, v. 55, n. 2, 1987, pp. 251-276.
Frisch, R. Statistical confluence analysis by means of complete regression systems. Institute
of Economics, University of Oslo, 1934.
Godfrey, L.G. Testing against general autoregressive and moving average error models when the
Regressors Include Lagged Dependent Variables. Econometrica, v. 46, 1978, pp. 12931302.
Goldfeld, S. M.; Quandt, R. E. Some Tests for Homoscedasticity. Journal of the American
Statistical Association, v. 60, n. 310, 1965, pp. 539547.

Galton, F. Regression towards mediocrity in hereditary stature. Journal of the Anthropological


Institute of Great Britain and Ireland, v. 15, 1886, pp. 246-263.

Goldberger, A. S. A course in econometrics. Cambridge, Mass: Harvard University Press, 1991.


Gujarati, D. Econometria Bsica: Rio de Janeiro: Elsevier, 2006.
Hoffmann, R. Anlise de regresso: uma introduo econometria. So Paulo: Hucitec,
2006.
Maddala, G. S. Introduction to econometrics. Englewood Cliffs: Prentice Hall, 1992.

294

Regresso Linear Simples

Alexandre Gori Maia

Murray, M. P. A drunk and her dog: an illustration of cointegration and error correction. The
American Statistician, v. 48, n. 1, 1994, pp. 37-39.

Pindyck, R. S.; Rubinfeld, D. L. Econometria: modelos & previses. Rio de Janeiro: Elsevier,
2004.
Shao, S. P. Estadistica para economistas y administradores de empresas. Mexico: Herrero
Hermanos, 1970.
Theil, H. Principles of econometrics. New York, John Wiley, 1971.
White, H. A heteroskedasticity-consistent covariance matrix estimator and a direct test for
heteroskedasticity. Econometrica, v. 48, n. 4, 1980, pp. 817-838.
Wooldridge, J. M. Introductory Econometrics: a modern approach. Thomson Learning,
2002.
Wooldridge, J. M. On the application of robust regression-based diagnostics to models of
conditional means and conditional variances. Journal of Econometrics, v. 47, 2001, pp. 5-46.

295

You might also like