Professional Documents
Culture Documents
Instituto de Economia
Sumrio
1.
Correlao ........................................................................................................................ 9
1.2.
1.3.
1.3.1.
Definio ................................................................................................................. 19
1.3.2.
1.3.3.
Exerccios .................................................................................................................................. 23
Respostas................................................................................................................................... 24
2.
2.2.
2.3.
2.4.
2.5.
2.6.
Exerccios .................................................................................................................................. 37
Respostas................................................................................................................................... 38
3.
3.2.
3.3.
3.4.
Exerccios .................................................................................................................................. 55
Respostas................................................................................................................................... 55
4.
4.1.
4.2.
4.3.
4.4.
Exerccios .................................................................................................................................. 66
Respostas................................................................................................................................... 67
5.
5.2.
5.3.
Exerccios .................................................................................................................................. 76
Respostas................................................................................................................................... 77
6.
6.2.
6.3.
Exerccios .................................................................................................................................. 94
Respostas................................................................................................................................... 96
7.
7.2.
8.2.
8.3.
8.3.
9.2.
10.2.
10.3.
10.4.
11.2.
11.3.
11.4.
11.5.
12.2.
12.2.1.
12.2.2.
12.2.3.
12.2.4.
12.3.
12.3.1.
12.3.2.
Funo
de
heterocedasticidade
desconhecida
Mnimos
Quadrados
13.2.
13.2.1.
13.2.2.
13.2.3.
13.2.4.
13.3.
13.3.1.
13.3.2.
Coeficiente
de
autocorrelao
desconhecido
Mnimos
Quadrados
14.2.
14.3.
14.4.
14.5.
14.6.
14.7.
15.2.
15.2.1.
15.2.2.
15.2.3.
15.3.
15.4.
15.4.1.
15.4.2.
16.2.
16.2.1.
16.3.
16.4.
16.4.1.
17.1.
17.2.
17.3.
17.4.
PARTE I
Regresso Linear Simples
Econometria
1.1.
Correlao
Uma tcnica simples para identificar possveis padres de associao entre duas variveis
quantitativas o diagrama de disperso. A Figura 1 apresenta trs diagramas com diferentes
padres de disperso entre duas variveis X e Y. No primeiro observa-se uma tendncia de
associao linear positiva, ou seja, aumentando o valor de X, o valor de Y tambm tende a
aumentar. No segundo, a associao assemelha-se a uma parbola, ou seja, Y aumenta com X at
determinado ponto, quando, ento, passa a diminuir. No ltimo no h associao aparente entre
as variveis Y e X, pois os pontos no apresentam qualquer tendncia particular.
1
Medocre no sentido de mdio ou mediano, algo que est entre pequeno e grande, segundo definio do dicionrio
Econometria
(1)
Entre os muitos tipos de associaes entre duas variveis, a mais simples e frequente a
linear. A associao de dependncia linear pode ser positiva, quando os valores de Y e X so
diretamente proporcionais2, ou negativa, quando os valores de Y e X so inversamente
proporcionais.
Uma medida simples para quantificar a relao de dependncia linear entre X e Y a
covarincia. Dado N pares de valores de uma populao (X1, Y1), ..., (XN, YN), a covarincia entre
X e Y ser dada por:
N
( X i X )(Yi Y )
XY =
i =1
(2)
XY =
( X i X )(Yi Y )
i =1
(3)
n 1
y i = (Yi Y )
(4)
10
Econometria
xi y i
XY =
(5)
i =1
n 1
(6)
Observe agora que, no diagrama formado pelos eixos x e y, pontos com padro de
associao linear positiva tendem a concentrar-se no 1 e 3 quadrantes, onde as coordenadas
apresentam o mesmo sinal e, portanto, o produto xiyi, ou ( X i X )(Yi Y ) , ser sempre positivo.
Ou seja, a covarincia ser positiva.
Analogamente, pontos com padro de associao linear negativa concentrar-se-o no 2 e
4 quadrantes, onde as coordenadas apresentam sinais diferentes e o produto xiyi, ser sempre
negativo (primeiro grfico da Figura 7). Na ausncia de padres de associao linear (segundo e
terceiro grficos da Figura 7), produtos com sinais negativos tendem a compensar aqueles com
sinais positivos e a covarincia ser prxima de zero.
(7)
11
13
15
15
240
240
440
300
640
870
700
1800
2400
240
11
Econometria
XY =
XY =
21135
= 2348,3
9
2900
2
XY =
XY =
11
= 1,2
9
Embora o valor da covarincia seja positivo, ele baixo e, visualmente, observa-se que a
associao entre as variveis no linear, mas sim quadrtica.
Embora a covarincia permita identificar a presena e o sentido da associao linear, no
permite avaliar seu grau de associao, ou seja, o quo prximo os pontos esto de uma reta. Isso
porque a amplitude de variao da covarincia depende das escalas de medida de X e Y e,
consequentemente, de seus desvios em relao s respectivas mdias (x e y). Por exemplo, no
primeiro exemplo tnhamos uma covarincia dada pelo produto de anos (escolaridade) por reais
(rendimento) e, no segundo caso, pelo produto de reais (rendimento) por uma escala de
felicidade (0..10). No poderamos, portanto, comparar as duas covarincias e afirmar qual delas
12
Econometria
apresenta o maior grau de associao linear. A medida derivada do produto de variveis com um
maior grau de disperso tenderia, naturalmente, a apresentar um maior valor de covarincia.
Para contornar esse problema e medir o grau de associao linear entre duas variveis,
utilizamos a correlao linear. A correlao () uma medida padronizada (adimensional) de
associao linear entre duas variveis, obtida ao se ponderar a covarincia pelo produto dos
desvios padro de X e Y (X e Y, respectivamente):
XY
XY
(8)
Outra maneira de enxergar a correlao como uma mdia do produto dos desvios
padronizados de X e Y. Em outras palavras, de (2), (4) e (8) teremos:
N
xi y i
i =1
XY
xi y i 1
i =1
XY N
1 N xi y i
N i =1 X Y
(9)
Que pode ainda ser expressa apenas em funo dos valores xi, yi e seus respectivos
quadrados:
N
i=1 xi yi
=
N
N
i=1 xi2
i=1 yi2
i=1 xi yi
N
N
i=1 xi2 i=1 yi2
(10)
XY
(11)
S X SY
Ou ainda:
1 n xi y i
r=
=
n 1 i =1 S X S Y
i =1 xi yi
n
n
i =1 xi2 i =1 yi2
(12)
13
Econometria
(13)
(14)
XY
S X SY
2348,3
= 0,628
(5,1)(739,3)
14
Econometria
XY
S X SY
1,2
= 0,001
(928,4)(2,5)
1.2.
Embora a correlao seja uma medida til do grau de associao entre duas variveis, no
explica algumas questes fundamentais, como: i) qual seria a variao em Y dada uma variao
em X? ii) Qual o valor esperado de Y dado um de X? Para responder essas e outras questes,
devemos realizar uma anlise de regresso linear.
A regresso linear simples pressupe que a relao entre Y e X na populao seja dada
pela equao3:
Yi = + X i + ei
(15)
O termo linear refere-se aos coeficientes unitrios dos parmetros e . Modelos em que os coefecientes no
15
Econometria
(16)
(17)
Exemplo 5. Podemos pressupor que rendimento mensal (Y) seja determinado pelos anos de
escolaridade (X) segundo a relao linear:
Yi = + X i + ei
Assim, pressupomos que o rendimento de um ocupado seja dado em funo (linear) de seus anos
de escolaridade mais um fator no observado ei. Os erros ei representam outras informaes no
previstas pelo modelo que tambm afetam o rendimento, tais como experincia profissional,
aptido, tipo de ocupao e caractersticas socioeconmicas do local de moradia.
Um pressuposto central da anlise de regresso que a reta de regresso representa a
esperana condicional de Y dado um valor de X. Em outras palavras, representa o valor mdio de
Y caso o valor de X seja igual a Xi (Figura 16). A representao formal para essa esperana
condicional ser dada por:
16
Econometria
E (Y / X i ) = + X i ou E (Yi ) = + X i
(18)
(19)
E (ei | X i ) = E (ei ) = 0
Esse pressuposto denominado de mdia condicional zero dos erros, segundo o qual os
erros no esto associados aos valores das variveis independentes. Para compreendermos seu
significado, vamos supor uma aplicao da anlise de regresso onde a varivel Xi representa os
anos de escolaridade de um ocupado e Yi seu rendimento. Poderamos ter um comportamento no
observado nos erros (ei), aptido, por exemplo, que seja maior para pessoas com elevada
escolaridade e menor para pessoas com baixa escolaridade. Em outras palavras, teramos E(ei)>0
para valores elevados de Xi e E(ei)<0 para valores baixos de Xi, ou seja E(ei|Xi)0. O problema
que, quando formos analisar um modelo de regresso, no saberemos se os rendimentos mais
elevados se devem a uma maior escolaridade ou uma maior aptido. A relao de determinao
entre escolaridade e renda poderia, assim, estar viesada.
Compreendido esse pressuposto muito importate da anlise de regresso (que ser ainda
abordado futuramente), voltemos agora anlise da reta de regresso. A equao (15) permite
uma interpretao muito intuitiva da relao entre Y e X. O intercepto , por exemplo, representa
o valor esperado de Y quando o valor controlado de X for nulo. O coeficiente angular , por sua
vez, representa a variao marginal no valor esperado de Y dada uma variao unitria em X. Isso
porque, se desejamos estimar a variao marginal no valor esperado de Y - E(Y) - dada uma
variao infinitesimal em X - X - basta calcularmos a derivada de E(Y/X) em funo de X:
E (Y / 0) = + (0) =
e
(20)
E (Y | X ) E (Y | X ) ( + X )
=
=
=
X
X
X
17
Econometria
Uma diferena importante entre regresso e correlao est na forma com que as
variveis so tratadas. Na regresso, pressupomos que a varivel dependente seja, assim como os
resduos, de natureza estocstica. J a varivel independente considerada como um valor fixo,
controlado pelo pesquisador. Seria o caso, por exemplo, de controlarmos o nvel de fertilizante
em um solo (varivel independente) e verificarmos a produtividade resultante (varivel
dependente). Para cada nvel de fertilizante teramos variaes aleatrias na produtividade, das
quais poderamos estimar os valores mdios. No seria adequado, por sua vez, tentarmos
controlar a produtividade para verificarmos as variaes no nvel de fertilizante. A correlao,
por sua vez, no estabelece qualquer distino entre as variveis X e Y.
Quando trabalhamos com dados de uma amostra, a representao da funo de regresso
(amostral) ser dada por:
Yi = + X i + ei
(21)
(22)
Exemplo 6. Seja a relao do rendimento mensal (Y) com funo dos anos de escolaridade (X):
Yi = + X i + ei
Assim, o rendimento esperado para aqueles trabalhadores no remunerados seria dado por e,
para cada ano adicional de escolaridade, haveria uma variao marginal de reais no rendimento
esperado.
1.3.
O termo erro costuma ser reservado funo de regresso da populao e resduo para a funo de regresso da
amostra.
18
Econometria
1.3.1. Definio
Seja um conjunto de observaes (Yi) e uma funo matemtica f() utilizada para prever
os valores de Yi na populao Em outras palavras:
Yi = f ( ) + ei
(23)
(24)
O mtodo de mnimos quadrados estimar o parmetro de tal forma que a soma dos
erros de previso ei ao quadrado seja mnima. Para isso, o primeiro passo obter a funo que
define a soma dos erros ao quadrado que, assim como f(), tambm depender de . Essa funo
chamada de Erro Quadrtico Total (EQT):
n
i =1
i =1
(25)
19
Econometria
para cima5, seu valor mnimo ser obtido igualando-se a primeira derivada da funo em relao
ao parmetro a zero.
dEQT ( )
=0
d
(26)
EQT = ei
i =1
n
EQT = [Yi Yi ] 2
(27)
i =1
n
EQT = [Yi ( + X i )] 2
i =1
Para minimizar a funo de EQT, deve-se igualar a zero as derivadas parciais em relao
a e .
d EQT
= 2in=1[Yi ( + X i )](1) = 0
d
(28)
d EQT
= 2in=1[Yi ( + X i )]( X i ) = 0
(29)
20
Econometria
= Y X
(30)
X i Yi n X Y
i =1
n
2
Xi nX
(31)
i =1
X iYi n X Y
i =1
n
Xi
nX
i =1
n
i =1
n
i =1
n X iYi X i Yi
=
n X i ( X i )
i =1
i =1
( X i X )(Yi Y ) xi yi
=
i =1
i =1
(Xi X )
i =1
=
2
i =1
n
xi
(32)
2
i =1
Conforme a convenincia analtica, pode-se demonstrar que pode ainda ser dado por:
n
xi yi X i yi xiYi
i =1
n
xi
i =1
=
2
i =1
n
xi
i =1
=
2
i =1
n
xi
(33)
2
i =1
Exemplo 6. A partir das informaes da amostra apresentas no Exemplo (1), podemos estimar os
parmetros para o ajuste de regresso linear entre o rendimento mensal (Y) e os anos de
escolaridade (X):
Yi = + X i + ei
Onde:
xi y i
i =1
n
xi
=
2
21135
= 91,69
230,5
i =1
Dica: faa o caminho contrrio da demostrao, partindo da forma simplificada, para facilitar a compreenso.
21
Econometria
Em outras palavras, o rendimento esperado para quem no possui escolaridade seria de 7,62 reais
e, para cada ano adicional de escolaridade, espera-se um acrscimo de 91,69 reais no rendimento.
1.3.3. Propriedades dos Estimadores de Mnimos Quadrados Ordinrios
n
i =1[Yi
Yi ] = in=1 ei = 0
(34)
i =1 (ei e )( X i X ) = 0
Como a soma dos resduos igual a zero, teremos simplesmente que provar:
n
i =1 (Yi
Yi )( X i ) = in=1 (ei )( X i ) = 0
(35)
22
Econometria
Das equaes (22) e (30) podemos demonstrar que, quando o valor controlado de Xi for
equivalente mdia de X, o valor esperado de Yi ser igual mdia de Y.
Yi = + X i
Yi = Y X + X i
(35)
Yi = Y X + X
Yi = Y
(36)
Exerccios
52
104
122
141
166
254
487
615
950
1014
23
Econometria
3. Uma amostra de quatro anos de uma economia fictcia forneceu os seguintes dados:
Y (Consumo, bilhes de US$)
2) b. XY=13180; r=0,96; c. = 30,80 ; = 0,13 ; e. i=-11,8; 10,0; 11,4; -13,1; 3,6; f. 290,4
3) a. = 8,5 ; = 1 ; c. Yi = 4,5
4) a. F; b. V; c. F.; d. V
24
Econometria
Teorema de Gauss-Markov
(1)
Em primeiro lugar, devemos estar cientes que uma populao pode gerar amostras
diferentes. Assim, embora na populao os valores de e sejam constantes, ou seja, h apenas
uma reta para o conjunto de dados da populao, na amostra estaremos sujeitos aleatoriedade
da seleo e, assim, as estimativas dos coeficientes e podero assumir quaisquer valores
segundo uma dada distribuio de probabilidade. Em outras palavras, poderemos ter retas
diferentes dependendo da amostra selecionada (Figura 2).
25
Econometria
(2)
Em segundo lugar, devemos considerar que, para uma dada amostra selecionada, outras
tcnicas poderiam ser aplicadas para obter os estimadores dos coeficientes e , no apenas o
MQO7, as quais no necessariamente chegariam aos mesmos resultados. Em outras palavras,
para uma dada amostra, poderamos ter diferentes retas amostrais, dependendo da tcnica
utilizada. O que garante que os estimadores de MQO sero melhores que outros estimadores
uma srie de condies estabelecidas pelo Teorema de Gauss-Markov.
Segundo o Teorema de Gauss-Markov, cinco pressupostos bsicos devem ser satisfeitos
para que os estimadores de MQO sejam os Melhores Estimadores Lineares No Viesados
(MELNV) ou, em ings, Best Linear Unbiased Estimator (BLUE). Ser linear, significa que os
estimadores de e sero funes lineares da varivel aleatria Y8. Ser no viesado significa
que o valor esperado do estimador de MQO ser igual ao parmetro da populao (3) e ser o
melhor estimador significa que sua variabiliadde ser a mnima possvel (4).
E ( ) = e E ( ) =
(3)
V ( ) < V ( ) e V ( ) < V ( )
(4)
i)
Entre as tcnicas alternativas, destaque para o Mtodo de Mxima Verossimilhana e o Mtodo de Momentos.
Pressupondo que os valores de X sejam controlados (no aleatrios), fcil demonstrar que os estimadores de
26
Econometria
A relao entre Y e X na populao pode ser representada por uma funo com
coeficientes (parmetros) lineares9. A linearidade nas variveis, por sua vez, no
necessria, j que estas podem ser algebricamente transformadas em novas
variveis que apresentem relao linear entre si. Por exemplo, o modelo
ii)
iii)
27
Econometria
iv)
v)
Os erros so no autocorrelacionados:
Em outras palavras, Cov(ei,ej)=E(eiej)E(ei)E(ej)=0 para todos ij. Representa
independncia entre observaes da amostra, no havendo quaquer tipo de relao
entre seus erros. A autocorrelao , entretanto, frequente em anlises de sries
temporais (correlao serial) ou dados espaciais (correlao espacial);
10
Lembre-se que a associao entre uma constante (X) e uma varivel aleatrio (e) ser sempre nula.
11
12
Para os leitores familiarizados com lgebra, as demonstraes dessas propriedades podem ser consultadas nos
Apndices A e B.
28
Econometria
2.2.
(5)
2.3.
Sob um pressuposto mais geral do Teorema do Limite Central, pode-se afirmar que a
soma de variveis independentes e igualmente distribudas ter uma distribuio normal. Assim,
29
Econometria
os erros ei, por serem considerados uma soma de diferentes fatores no observveis afetando a
varivel Y, tambm estariam normalmente distribudos em torno de uma mdia zero. Entretanto,
essa pressuposio pode no ser verdadeira, sobretudo para amostras pequenas, dependendo da
composio dos fatores no observveis (caso estes no sejam aditivos, por exemplo) e de suas
respectivas distribuies de probabilidade. H testes estatsticos apropriados para verificar at
que ponto a distribuio dos resduos se aproxima de uma normal e se tal pressuposio pode ser
considerada verdadeira.
Dizer que os erros possuem distribuio normal com mdia zero o mesmo que afirmar
que os valores de Yi se distribuem normalmente em torno da reta de regresso (5). Ademais, a
normalidade dos erros (e dos valores de Yi em torno da reta) implicaria ainda que os estimadores
de MQO estariam normalmente distribudos, j que esses so combinaes lineares dos valores
de Yi (ver Apndice A). Pressupondo ainda que os estimadores de MQO sejam no viesados,
como sugere o Teorema de Gauss-Markov, teramos que os estimadores de um MCRL estariam
normalmente distribudos em torno dos reais parmetros e .
ei ~ N (0, 2 )
~ N ( , 2 )
(6)
~ N ( , 2 )
2.4.
13
Os valores dos parmetros e no so necessrios j que o objetivo dos testes de hipteses e dos intervalos de
30
Econometria
A varincia dos erros representa a disperso quadrtica mdia dos erros em torno da reta
de regresso. Como usualmente desconhecemos o real valor de 2 na populao, precisamos de
um estimador para estim-lo a partir dos resduos da amostra. Como demonstrado no Apndice
C, o estimador no viesado de 2 a partir dos resduos do MQO ser dada por:
2
ei
2 =
n2
(7)
i2 ,
ei2 = yi2 xi yi
(8)
xi y i :
xi2
(9)
Var ( ) = E ( ) 2 =
14
X i2 2
n xi2
2
Var ( ) = E ( ) 2 =
xi2
(10)
31
Econometria
X i2 2 = 1 + X 2 2
2
n xi2
n xi
S 2 =
1
2
xi2
(11)
Quanto maior o erro padro da regresso, menos precisa ser a estimativa dos
parmetros: em outras palavras, quanto mais dispersos estiverem os valores
observados em torno da reta de regresso, mais dispersas sero as estimativas de
MQO. Algebricamente, pode-se observar essa propriedade a partir do numerador
das equaes em (11).
ii.
iii.
xi2
xi2
das
equaes em (11).
2.5.
32
Econometria
H 0 : = 0
H 1 : 0
H 0 : = 0
H 1 : 0
(12)
Embora menos frequentes, podem ainda ser elaborados testes para verificar se os
parmetros e so diferentes, maiores ou menores que quaisquer outras constantes que no o
zero.
Pressupondo a veracidade das hipteses nulas e conhecendo as propriedades dos
estimadores de MQO (propriedade 6 e 10), teremos as seguintes distribuies de probabilidade
para as estatsticas de teste:
~ N (0, 2 )
~ N (0, 2 )
(13)
A partir de ento, os passos para resoluo sero anlogos aos de qualquer teste de
hipteses: i) observar estimativa para a estatstica de teste na amostra ( e ); ii) calcular valor
p, probabilidade de erro ao afirmar que o parmetro seja diferente de zero. Como a real varincia
dos coeficientes desconhecida, o uso de suas estimativas amostrais obtidas por S2 e S 2
exigir ainda a considerao da distribuio t de Student para o clculo da probabilidade de erro,
como exemplifica a Figura (14). Os graus de liberdade so os mesmo obtidos para a varincia
amostral da regresso (Equao 7), ou seja, n2.
(14)
Exemplo 1. Obeservou-se o consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h) em uma amostra de 21 domiclios. Os valores
observados e as estimativas de MQ para o ajuste linear foram:
33
Econometria
KWh
(Y)
AC
(X)
1
2
3
4
5
6
7
8
9
10
11
35
17
57
63
66
33
79
43
33
78
82
1,5
2,0
2,5
4,5
5,0
5,0
6,0
6,0
6,0
6,5
7,5
KWh
(Y)
AC
(X)
12
13
14
15
16
17
18
19
20
21
77
62
65
66
65
75
94
85
94
93
7,5
7,5
7,5
8,0
8,0
8,0
8,5
12,0
12,5
13,5
Yi = 27,85 + 5,34 X i + ei
Em outras palavras, espera-se que para cada hora adicional com o ar condicionado ligado o
consumo de energia aumente, em mdia, 5,34 KWh. O consumo esperado para um domiclio que
no utilize o ar condicionado de 27,85 KWh.
As estimativas da varincia e erro padro da regresso sero dadas por:
2 =
21 2
19
= 208,89 = 14,45
O erro padro uma estimativa do erro mdio de previso do modelo, ou seja, de
aproximadamente 14,45 KWh.
O prximo passo estimar as varincias dos coeficientes do modelo para verificar se as
estimativas de e so significativas, ou seja, se so estatisticamente diferentes de zero. Essas
sero dadas por:
1
X2 2 1
6,9 2
S2 = +
=
+
208,89 = 60,94 = 7,812
2
2
2
n xi
21 (5,4) + ... + (6,6)
S 2 =
1
2
208,89
=
= 1,06 = 1,03 2
2
196
,
6
xi
34
Econometria
2.6.
Outra tcnica de inferncia estatstica clssica que pode ser aplicada s estimativas dos
coeficientes do modelo de regresso o intervalo de confiana. Dado um nvel de confiana , o
intervalo de confiana definir intervalos que, em repetidas amostras de tamanho n, conter o
real parmetro da populao em das situaes.
Antes de verificarmos as estimativas de intervalo para os coeficientes do modelo de
regresso, vale a pena relembrar alguns cuidados especiais na sua interpretao. Primeiro, como
o parmetro a ser estimado uma constante e no uma varivel aleatria, no podemos afirmar
que esse tenha de probabilidade de pertencer a um intervalo. O parmetro estar contido
(probabilidade 1) ou no (probabilidade 0) em um intervalo. Segundo, uma vez estimado o
intervalo com os valores de uma determinada amostra, no podemos afirmar que o intervalo
estimado tenha de probabilidade de conter o parmetro, j que, uma vez definidos os limites do
35
Econometria
(15)
Onde Z o nmero de desvios padro, obtido da distribuio Z~N(0,1), que se deve estar
afastado do centro da distribuio para que se tenha de probabilidade entre os dois extremos do
intervalo. Entretanto, como os reais valores 2 e 2 so desconhecidos, o uso das estimativas
obtidas pelos estimadores S2 e S 2 implicar na considerao da estatstica t de student em
substituio Z. Assim, os intervalos de confiana para os parmetros e sero dados por:
IC( , ) = [ t n2 S ; + t n2 S ]
IC( , ) = [ t n 2 S ; + t n 2 S ]
(16)
Onde tn2 o valor da distribuio t de student com n2 graus de liberdade para que se
tenha de probabilidade entre os dois extremos do intervalo.
Exemplo 2. Para estimar intervalos com confiana de 95% para os parmetro do modelo da
relao linear entre consumo mensal de energia (Y, em Kwh) e o total de horas que o ar
condicionado permaneceu ligado (X, em h), teramos:
36
Econometria
O intervalo determinado pelos valores 11,51 a 44,19 KWh uma estimativa de um intervalo que,
em repetidas amostras de tamanho 21, conteria o real valor do parmetro em 95% das
situaes. Por sua vez, o intervalo definido pelos valores 3,18 a 7,50 KWh uma estimativa do
intervalo de 95% de confiana para o parmetro .
Exerccios
1. Observaram-se os gastos per capita com alimentao (Y) e a renda mensal per capita (X) em
uma amostra de 5 famlias:
52
104
122
141
166
254
487
615
950
1014
37
Econometria
3. (ANPEC, 1996) Suponha que, num modelo de regresso linear simples, o regressor (varivel
independente) seja correlacionado com o termo erro. Sobre o estimador de MQO, podemos
afirmar:
a. , em geral, viesado.
b. No possvel de ser obtido.
c. no viesado, porm no eficiente.
d. consistente.
Respostas
1) a. S2 = 15,38 2 ; S 2 = 0,02 2 ; b. : p=0,139; : p=0,009; c. IC(95%;)=[-18,16; 79,77];
IC(95%;)=[0,06; 0,20]
2) a. F; b. F; c. V
3) a. V; b. F; c. F; d. F
38
Econometria
xiYi
i =1
n
xi 2
i =1
xi
e teremos = z i Yi
x j2
i =1
j =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
= z i Yi = z i ( + X i + ei ) = z i + z i X i + z i ei = z i + z i X i + z i ei
n
(Xi X )
i =1
i =1
xi2
i =1
=0
xi2
i =1
xi X i
i =1
n
=
xi2
(Xi X )X i
i =1
n
i =1
(Xi X )
i =1
=
2
X i2 X i X
i =1
n
X i2
i =1
X i2 nX 2
i =1
n
i =1
i =1
2 X i X + X
=
2
i =1
n
X i2
=
2
2 nX + nX
i =1
Assim, teremos:
n
= + z i ei
i =1
E ( ) = E + z i ei = + E z i ei
i =1
i =1
39
Econometria
E ( ) = + z i E (ei )
i =1
Pressuposto iii: e se a esperana condicional dos erros for zero, teremos finalmente:
n
E ( ) = + z i 0 =
i =1
= Y X
Pressuposto i: supondo que a relao linear entre Y e X, Yi = + X i + ei , se calcularmos o
valor mdio de cada lado da equao teremos:
Y = + X + e
Substituindo o valor de Y na equao do estimador de :
= ( + X + e ) X = + X ( ) + e
Assim, a esperana de ser:
E ( ) = E ( ) + E[ X ( )] + E (e ) = + E ( X )[ E ( ) E ( )] + E (e )
Pressuposto iii: dada a esperana condicional (e incondicional) zero dos erros, teremos que
E (e ) = 0
Presspostos i a iii: ademais, caso os pressupostos (i) a (iii) sejam satisfeitos, sabemos que
E ( ) = . Ento o valor esperado de ser:
E ( ) = + E ( X ) 0 + 0 =
40
Econometria
n n 1
i =1
i =1 j i
Var ( ) = z i2 2 + 2 z i z j E (ei e j )
ento:
n
i =1
xi2
i =1
xi2
i =1
n
E:
Var ( ) = n
xi2
i =1
Para agora demonstrarmos que a varincia dos estimador de MQO para a menor entre os
estimadores lineares no viesados de , comecemos pela representao desse primeiro dada por:
41
Econometria
= z i Yi
i =1
* = wi Yi
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
E ( * ) = E ( wi Yi ) = wi E (Yi ) = wi E ( + X i ) = wi + wi X i = wi + wi X i
wi = 0 e
i =1
n
wi X i = 1
i =1
i =1
i =1
i =1
wi xi = wi X i X wi = 1
Cientes dessas condies, vamos agora estimar a varincia de * :
n
i =1
i =1
Var ( * ) = 2 ( wi z i + z i ) 2
i =1
Desenvolvendo, teremos:
n
Var ( * ) = 2 [( wi z i ) 2 + 2 z i ( wi z i ) + z i2 ] =
i =1
42
Econometria
i =1
i =1
i =1
Var ( * ) = 2 ( wi z i ) 2 + 2 2 ( z i wi z i2 ) + 2 z i2
( zi wi
wi xi
z i2 ) =
i =1
i =1
n
xi2
xi2
i =1
i =1
n 2
xi
i =1
1
n
xi2
i =1
1
n
=0
xi2
i =1
* ser minimizada
i =1
i =1
i =1
* = wi Yi = z i Yi =
Var ( ) = E ( ) 2 = E[ X ( ) + e ] 2 = X 2 E ( ) 2 + 2 E[ X ( )e ] + E (e 2 )
O segundo termo igual a zero pois E (e ) = 0 .
Pressuposto iv e v: caso a varincia dos erros seja constante, E (ei2 ) = 2 , e os erros sejam no
43
Econometria
2
n
xi2
i =1
1
n2
E (ei2 ) = X 2
i =1
2
n
xi2
n 2
n2
i =1
E:
Var ( ) = (
X2
n
xi2
1
+ ) 2
n
i =1
44
Econometria
e 2
= i =1
n2
palavras:
E ( 2 ) = 2
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
45
Econometria
i =1
i =1
i =1
i =1
2
n
2
2
) =
(
x
Var
x
i
i n =2
i =1
i =1
xi2
n
i =1
O segundo termo pode ser desenvolvido a partir de uma das propriedades do Apndice A,
n
= + z i ei , onde z i =
i =1
xi
n
z i2
i =1
n
n
n
xe
x 2e 2 x 2e e
2 E[ xi ( )(ei e )] = 2 E[ xi ( + n i i )(ei e )] = 2 E[ ni i ni i ]
i =1
i =1
i =1
xi2
xi2 xi2
i =1
i =1
i =1
n
n
x 2e 2
2 E[ xi ( )(ei e )] = 2 E[ ni i ] = 2
i =1
i =1
xi2
xi2 E (ei2 )
= 2 2
i =1
n
xi2
i =1
i =1
i =1
i =1
i =1
i =1
i =1
E[ (ei e ) ] = E (
2
i =1
Caso
ei2
i =1
os
erros
i =1
i =1
ne ) = E [
2
sejam
i =1
no
ei2
n
+ n ei
i =1
correlacionados
n ]
(pressuposto
v),
ento
E(eiej)=0
E ( ei ) 2 = E ( ei2 ) . Ento:
n
i =1
i =1
i =1
i =1
1 n 2
ei ] = n 2 2 = (n 1) 2 =
n i =1
46
Econometria
E ( ei2 ) = 2 2 2 + (n 1) 2 = (n 2) 2
i =1
n
e 2
i =1
=
n2
teremos um
n e 2
E ( ) = E i =1
n2
2
= (n 2)
n2
47
Econometria
3.1.
Imagine, agora, que dessa populao Y seja selecionada uma amostra aleatria de 100
pessoas e calculada sua mdia aritmtica. Pelo Teorema do Limite Central, sabemos que essa
48
Econometria
mdia aritmtica Y estar normalmente distribuda com mdia de 800 reais e varincia ( Y ) de
2002/100.
Y ~ N (800,
200 2
)
100
Da mesma forma que fizemos para valores individuais de Y, podemos tambm estimar
intervalos com probabilidades de ocorrncia dos valores de Y . Teramos, por exemplo, 95% de
probabilidade de o rendimento mdio de uma amostra de 100 pessoas estar entre 761 e 839 reais:
(1)
Supondo que o valor da mdia observada na amostra Y seja de 780, a estimativa para
esse intervalo seria:
IC (95%, Y ) = [780 1,96(
200
200
); 780 + 1,96(
)] = [740,9; 819,2]
10
10
49
Econometria
(2)
3.2.
regresso linear anlogo quele da mdia aritmtica, com a diferena de o primeiro se tratar de
uma estimativa para um mdia condicional E (Y | X i ) - e o segundo para uma mdia
incondicional E (Y ) . Em outras palavras, o objetivo estimar o valor esperado condicional de
Y de um modelo de RLS na populao, que dado por:
E[Y / X i ] = E[Yi ] = + X i
(3)
A estimativa pontual obtida para E[Yi] em uma amostra ser dada por:
Yi = + X i
(4)
15
Controlando-se os valores de Xi, a nica fonte de variabilidade Yi ser proveniente dos estimadores e , j
que Yi = + X i . Como esses apresentam distribuio normal, uma funo linear de variveis normais ter
tambm distribuio normal.
50
Econometria
Yi ~ N ( E[Yi ], Y2 )
(5)
Y2
2
x
1
= + n i 2
n
x 2j
j =1
(6)
S Y2
xi2
1
=
+ n
n
x 2j
j =1
(7)
(8)
Exemplo 1. Observaram-se o consumo mensal per capita de vinho (X em litros mensais per
capita) e a taxa de mortalidade cardaca (Y em mortes para cada grupo de 100 mil habitantes) em
19 pases. Os valores observados foram:
Pas
Alemanha
Austrlia
ustria
Blgica
Canad
Dinamarca
Espanha
Estados Unidos
Finlndia
Frana
X
2,7
2,5
3,9
2,9
2,4
2,9
6,5
1,2
0,8
9,1
Y
172
211
167
131
191
220
86
199
297
71
Pas
Holanda
Irlanda
Islndia
Itlia
Noruega
Nova Zelndia
Reino Unido
Sucia
Suia
X
1,8
0,7
0,8
7,9
0,8
1,9
1,3
1,6
5,8
Y
167
300
211
107
227
266
285
207
115
Pressupondo que a relao entre consumo de vinho e mortalidade cardaca seja linear, estimou-se
o seguinte ajuste:
51
Econometria
Yi = 360,6 + 23,0 X i
Em outras palavras, estamos pressupondo que, para cada litro adicional per capita de vinho, a
mortalidade cardaca mdia reduza em 23 pessoas para cada grupo de 100 mil habitantes.
Caso desejssemos estimar a mortalidade cardaca mdia para um consumo de 5 litros per capita,
esta seria dada por:
Yi = 360,6 + 23,0(5) = 145,7
Ou seja, uma estimativa pontual para a mortalidade cardaca mdia de pases com consumo
equivalente a 5 litros per capita de vinho seria de 145,7 mortes/100 mil habitantes. Uma
estimativa por intervalo de 95% para esta estimativa seria dada por:
IC (95%, E[Yi ]) = [145,7 2,11(11,2); 145,7 + 2,11(11,2)] = [122,1; 169,3]
Pois:
2 = 37 ,9 2
e
1
(5 3) 2
S Y2 = +
2
2
i
19 ( 2,7 3) + ...( 5,8 3)
37,9 2 = 11,2 2
Assim, o intervalo definido pelos valores 122 e 169 mortes/100 mil habitatantes seria uma
estimativa do intervalo que, em repetidas amostras de tamanho 19, conteria a real mortalidae
mdia dos pases com consumo de vinho equivalente a 5 litros per capita em 95% das situaes
3.3.
Yi ~ N ( E[Yi ], Y2i )
(9)
Sendo que Y2i ser dado por (ver demonstrao no Apndice A):
Y2
x2
1
= 1 + + n i
n
x 2j
j =1
(10)
52
Econometria
S Y2i
x2
1
= 1 + + n i
n
x 2j
j =1
(11)
(12)
Exemplo 2. No exemplo (1) tnhamos uma estimativa por intervalo para a mortalidade cardaca
mdia em pases com consumo de vinho equivalente a 5 litros per capita. Suponha que agora
desejamos uma estimativa por intervalo para as mortalidades de cada pas, no mais para a
mortalidade mdia. Em outras palavras, uma estimativa por intervalo de, por exemplo, 95% para
as taxas individuais de mortalidade seria dada por:
IC (95%, Yi ) = [145,7 2,11(39,5); 145,7 + 2,11(39,5)] = [62,4; 229,0]
Pois:
1
(5 3) 2
S Y2i = 1 +
+
2
2
19 ( 2,7 3) + ...( 5,8 3)
37 ,9 2 = 39,5 2
3.4.
Econometria
iii.
iv.
Exemplo 3. A Figura abaixo apresenta as faixas de amplitude para os intervalos de confiana dos
valores previsos (faixas mais estreitas) e para os intervalos de previso dos valores individuais
(faixas mais largas) da mortalidade por grupo de 100 mil habitantes.
Econometria
Em segundo lugar, como as varincias de Yi e Yi dependem do valor controlado de Xi, observase que as amplitudes dos dois intervalos tendem a aumentar medida que os valores controlados
de X afastam-se da mdias de suas observaes (3 litros per capita), o que est associado
menor preciso para extrapolaes distantes do conjunto de valores ovservados.
Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:
52
104
122
141
166
254
487
615
950
1014
a. Estabelea uma previso, com 95% de confiana, para a despesa mensal mdia
das famlias com renda mensal de 1.500 reais e para possveis valores individuais
dos gastos dessa mesma famlia. Interprete os resultados.
Respostas
1) a. IC(90%, E[Yi])=[229,8 57,9]; IP(90%, Yi)=[229,8 70,7];
55
Econometria
i =1
i =1
i =1
1 (X X )
Var (Y* ) = [ + *n
] 2
n
xi2
i =1
Por sua vez, a representao do valor individual Yi, dado o valor de X * , ser dada por:
Yi* = + X * + ei*
Como os resduos no so relacionados aos valores previstos de Y, a varincia de Yi* ser dada
por:
56
Econometria
2
2
1 (X X )
1 (X X )
Var (Yi* ) = Var ( + X * ) + Var (ei* ) = [ + *n
] 2 + 2 = [ + *n
+ 1] 2
n
n
xi2
xi2
i =1
i =1
57
Econometria
Formas Funcionais
4. Formas Funcionais
Introduo
Sabemos que o MQO limita-se ao ajuste de funes lineares, ou seja, ao ajuste de uma
reta no caso de regresso linear simples. Entretanto, h relaes que, embora originalmente
sejam no lineares nas variveis, podem ser transformadas em relaes lineares por anamorfose,
ou seja, atravs de transformaes de suas variveis originais. Isso significa que, caso a relao
entre Y e X no seja linear, podemos encontrar transformaes f(Y) e g(X) tais que as relaes
entre estas funes sejam lineares. Seria o caso, por exemplo, de uma relao quadrtica entre Y
e X ( Yi = + X i2 + ei ), que se transformaria em linear quando analisada em relao a Y e Z=X2
( Yi = + Z i + ei ).
4.1.
Modelo Linear
a forma mais simples de relao entre duas variveis, pressupondo que Y apresente
58
Econometria
(1)
Yi = + X i + ei
E[Y / 0] = + (0) =
e
Y Y ( + X )
=
=
=
X X
X
(2)
Exemplo 1. Observou-se, durante 19 dias, a relao entre o total de vendas nos finais de semana
de uma sorveteria (Y, em 1.000 R$) e a temperatura mdia (X, em oC). Pressupondo que haja
uma relao linear de determinao entre as variveis, o modelo ajustado foi:
Yi = 1,038 + 0,125 X i + ei
59
Econometria
Formas Funcionais
A estimativa do coeficiente angular sugere que, para cada aumento unitrio na temperatura
mdia (X=1 oC), haja um incremento mdio e constante de 125 reais nas vendas de sorvete
(Y=0,1251.000 R$). O intercepto negativo no possui interpretao econmica, pois indicaria
um venda esperada negativa caso a temperatura mdia fosse igual a 0 oC. Este ocorre porque os
valores observados na amostra limitam-se basicamente a temperaturas entre 20 e 40 C, ficando
muito difcil prever o que ocorreria com uma temperatura igual a 0o C.
4.2.
Modelo Log-Lin
Em muitas situaes, pode ser irrealista acreditar que a varivel Y apresente crescimentos
(3)
ln(Yi ) = + X i + ei
As relaes dos coeficientes com as variveis do modelo linear, que eram dadas
diretamente com Y e X, passam, agora, a ser dadas entre ln(Y) e X:
E[ln(Y ) / 0] = + (0) =
e
ln(Y ) d ln(Y ) d ( + X )
=
=
=
X
dX
dX
(4)
60
Econometria
e
Y / Yi
ln(Y )
=
=
X
X
(5)
pois
ln(Y ) 1
Y
= ln(Y ) =
Y
Yi
Yi
Isso significa que variaes absolutas marginais em ln(Y), ou seja, ln(Y), representam
variaes relativas em Y (Y/Yi). Assim, o coeficiente angular representar a variao relativa
em Y dada uma variao unitria em X, pois quando X=1, teremos Y/Yi= e,
consequentemente, Y=Yi.
J a representao para o valor esperado de Y quando X igual a zero (E[Y/0] e) deve
ser interpretada de forma aproximada. O antilogaritmo trata-se, na verdade, de uma estimativa
viesada para a esperana condicional de Y para qualquer valor condicionado de X, j que o valor
mdio de ln(Y) corresponde ao log da mdia geomtrica de Y e no de sua mdia aritmtica.
Exemplo 2. Uma amostra ofereceu informaes sobre a renda mensal (Y, em R$) e anos
completos de escolaridade (X) de 94 ocupados do estado de So Paulo em 2007. Acredita-se que
a renda cresa exponencialmente com os anos de escolaridade, ou seja, acrscimos absolutos nos
anos de escolaridade implicariam em variaes absolutas maiores no rendimento mdio para
aqueles com escolaridade mais elevada: A relao estabelecida seria dada por:
61
Econometria
Formas Funcionais
Assim, o coeficiente angular sugere que, para cada ano adicional de escolaridade (X=1), haja
um incremento mdio relativo constante de 12,1% no rendimento do trabalho (Y=0,121Yi).
Espera-se ainda que o rendimento daqueles sem escolaridade (X=0) seja de aproximadamente
406 reais (e6,006)16.
4.3.
Modelo Lin-Log
Da mesma forma que o modelo log-lin supe variaes relativas em Y dadas variaes
Yi = + ln( X i ) + ei
(6)
16
62
Econometria
Y
dY
d [ + ln( X )]
=
=
=
ln( X ) d ln( X )
d ln( X )
(7)
Cabe agora compreender a relao entre variaes em ln(X) e variaes em X, o que pode
ser feito atravs de desenvolvimento anlogo ao realizado para os coeficientes do modelo log-lin:
Y
Y
=
=
ln( X )
X / X i
pois
(8)
ln( X )
1
X
=
ln( X ) =
X
Xi
Xi
Isso significa que variaes absolutas em ln(X), ou seja, ln(X), representam variaes
relativas em X (X/Xi). Assim, o coeficiente angular representar variaes absolutas em Y
(Y) dada uma variao relativa de 100% em X (X/Xi=1=100%). Como o clculo diferencial
considera apenas variaes infinitesimais das variveis, no seria conveniente considerar 100%
de variao em X como uma variao marginal. Assim, em modelos lin-log, sempre
recomendado considerar que uma variao de 1% em X causar um impacto de /100 em Y (ou
seja, dividir os dois lados da relao por 100).
Exemplo 3. Para analisar a relao entre a jornada de trabalho (X, em h) e o rendimento hora do
trabalho (X, em R$/h) observou-se uma amostra de 92 ocupados com rendimentos positivos do
estado de So Paulo no ano de 2007. Pressupe-se que o aumento da renda tenha um efeito
positivo sobre a jornada de trabalho, j que o custo do lazer tornar-se-ia relativamente mais caro
para rendimentos mais elevados. Entretanto, essa relao no seria linear, j que medida que a
renda cresa indefinidamente, esperam-se variaes cada vez mais tnues sobre a jornada de
63
Econometria
Formas Funcionais
Yi = 30,799 + 4,790 ln (X i ) + ei
Assim, a princpio, o coeficiente angular sugeriria que, para cada variao relativa de 100% no
rendimento do trabalho (ln(X)=1), haveria um acrscimo mdio de 4,79 horas na jornada
semana de trabalho. Entretanto, como um incremento de 100% no rendimento no pode ser
considerado uma variao marginal, o correto seria afirmar que, para cada variao relativa de
1% no rendimento hora do trabalho, espera-se um incremento absoluto de 0,0490 horas (2,87
minutos) na jornada de trabalho do ocupado.
4.4.
Modelo Log-Log
Um modelo particularmente til em anlises econmicas o log-log, ou log-duplo. Este
(9)
ln(Yi ) = + ln( X i ) + ei
64
Econometria
e
ln(Y ) d ln(Y ) d [ + ln( X )]
=
=
=
ln( X ) d ln( X )
d ln( X )
(10)
Como, de (5) e (8), sabemos que variaes absolutas em ln(X) e ln(Y) representam,
respectivamente, variaes relativas em X e Y, o coeficiente angular representar as variaes
relativas em Y (Y/Yi) dada uma variao relativa de 100% em X (X/Xi=1). Entretanto, por
convenincia analtica, a interpretao correta que, dada uma variao de 1% em X, espera-se
uma variao de (/100)% em Y.
Y / Yi
ln(Y )
=
=
ln( X )
X / X i
(11)
Exemplo 4. Obteve-se uma amostra de 94 municpios brasileiros para analisar a relao entre a
taxa de visitao a um parque nacional (Y, em visitas/1000 habitantes) e o custo de viagem para
uma pessoa se deslocar do municpio de residncia ao parque (X, em R$). Espera-se que haja
uma elasticidade constante entre taxa de visitao e custo de viagem, ou seja, incrementos
percentuais no custo de viagem gerariam redues percentuais na taxa de visitao.
65
Econometria
Formas Funcionais
Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:
52
104
122
141
166
254
487
615
950
1014
10
10
12
14
16
Suponha ainda que a relao entre as variveis seja dada por ln(Y)= + X + e. Pede-se:
a. Estime e interprete os coeficientes do modelo por MQO.
b. Calcule e interprete a significncia dos coeficientes estimados.
Utilize a seguinte tabela de converso dos valores:
66
Econometria
10
12
14
16
ln(Z)
1,6
1,9
2,2
2,3
2,5
2,6
2,8
Respostas
1) a. = 0,279 ; = 0,779 ; b. : p=0,688; : p=0,004; c. Y = 163,9 .
2) a. = 0,44 ; = 0,12 ; b. : t=1,926; p=0,194; : t=6,928; p=0,020
67
Econometria
Anlise de Varincia
3. Anlise de Varincia
Introduo
Um bom modelo de regresso aquele capaz de explicar em grande medida o
comportamento da varivel dependente Y. Portanto, para avaliar a qualidade de um ajuste, nada
mais natural que medir a parcela do comportamento de Y explicada pela varivel explanatria X,
comparando-a com a associada aos resduos do ajuste.
Passo fundamental para esse tipo de anlise foi dado por Ronald Fisher em 1925, com a
publicao do livro intitulado Statistical Methods for Research Workers. Para muitos, a obra
mais influente da estatstica moderna. Fisher desenvolveu o conceito de Anlise de Varincia, na
qual o comportamento de um resultado de interesse pode ser dividido entre aquele devido a
fatores controlados e aquele devido a fatores no controlados.
Para entender como o conceito de Anlise de Varincia pode ser aplicado RLS, sero
apresentadas algumas medidas simples e intuitivas de anlise do comportamento de uma varivel
para, ao final, sistematizar os resultados na Anlise de Varincia.
5.1.
variabilidade total. Esta variabilidade pode ainda ser decomposta em duas parcelas: i) uma
parcela que pode ser explicada pelo comportamento de X; ii) uma parcela no explicada por X,
que estar associada aos erros do modelo de regresso e se deve ao conjunto de fatores no
controlados que tambm influenciam Y alm de X.
Graficamente, o que a reta de regresso explica do comportamento de Y seria uma
medida da variabilidade de Y explicada por X, enquanto que os erros de previso, distncias dos
pontos observados reta, representariam a variabilidade de Y no explicada por X.
68
Econometria
(1)
A medida estatstica da variabilidade total de Y dada pela Soma Total dos Quadrados
(STQ) e ser calculada pela distncia quadrtica total dos valores de Y em relao mdia
aritmtica Y . Em outras palavras:
n
STQ = (Yi Y )2
(2)
i =1
(3)
No difcil demonstrar que a STQ pode ser decomposta em dois fatores principais: um
associado aos desvios dos valores previstos do modelo em relao mdia de Y, ou seja, y i , e
outro associado aos resduos do modelo ei .
n
STQ = yi2 = ( y i + ei ) 2 = ( y i + ei ) 2
i =1
n
i =1
i =1
i =1
i =1
(4)
STQ = y + 2 y i ei + e = y + e
i =1
2
i
2
i
i =1
2
i
2
i
i =1
69
Econometria
Anlise de Varincia
Lembrando, a partir das propriedades dos estimadores de MQO, que os valores previstos
n
i =1
i =1
SQ Re g = y i2 = (Yi Y )2
(5)
Graficamente, a SQReg representa a soma das distncias quadrticas dos pontos da reta
em relao mdia aritmtica.
(6)
i =1
i =1
SQ Re s = ei2 = (Yi Yi )2
(7)
70
Econometria
(8)
i =1
i =1
(9)
i =1
i =1
i =1
2
SQ Re g = (Yi Y )2 = 2 xi = xi y i
n
i =1
i =1
i =1
i =1
2
SQ Re s = (Yi Yi )2 = ei = yi2 xi yi
(10)
(11)
Exemplo 1. Seja a relao entre consumo mensal de energia (Y, em kWh) e total de horas que o
ar condicionado permaneceu ligado (X, em h). Os valores observados para uma amostra de 21
domiclios foram:
i
kWh
(Y)
AC
(X)
1
2
3
4
5
6
7
8
9
10
11
35
17
57
63
66
33
79
43
33
78
82
1,5
2,0
2,5
4,5
5,0
5,0
6,0
6,0
6,0
6,5
7,5
kWh
(Y)
AC
(X)
12
13
14
15
16
17
18
19
20
21
77
62
65
66
65
75
94
85
94
93
7,5
7,5
7,5
8,0
8,0
8,0
8,5
12,0
12,5
13,5
Yi = 27,85 + 5,34 X i + ei
Econometria
Anlise de Varincia
5.2.
Coeficiente de Determinao
Um bom modelo de regresso aquele que ajuda a explicar em grande medida a
variabilidade de Y. Por outro lado, valores elevados para os resduos significariam um ajuste de
baixa qualidade. Assim, uma interpretao intuitiva das somas dos quadrados que, quanto
maior a SQReg em relao SQRes, maior a variabilidade explicada pelo modelo e,
consequentemente, melhor a qualidade do ajuste. Por outro lado, quando X no explica
significativamente Y, a SQRes (variabilidade no explicada pela varivel explanatria)
representar a maior parcela da variabilidade total de Y.
72
Econometria
Dessa anlise pode-se extrair uma medida simples e muito til de qualidade do ajuste, o
coeficiente de determinao (R2). O R2 estima a proporo da variabilidade da varivel
dependente que explicada pela varivel independente do modelo de regresso. Em outras
palavras:
n
SQ Re g
R2 =
=
STQ
y i2
i =1
n
y
i =1
(Y
=
2
i
Y )2
i =1
n
(Y
(12)
Y )
i =1
R2 = 1
ei2
i =1
n
yi2
i =1
= 2
xi2
i =1
n
yi2
(13)
i =1
O R assumir valores entre zero, quando a variabilidade explicada pelo modelo for nula,
e um, quando 100% da variabilidade total for explicada pelo modelo.
(14)
73
Econometria
Anlise de Varincia
Outra precauo em relao anlise do R2 refere-se ao fato de valores baixos para esta
estatstica no necessariamente significar um ajuste insatisfatrio. Algumas variveis, como, por
exemplo, a riqueza de uma pessoa, so muito difceis de serem determinadas quantitativamente e
mesmo uma baixa contribuio de um fator explanatrio pode nos dar uma importante fonte de
informao.
Exemplo 2. Calculadas as somas dos quadrados para o consumo de energia, o R2 ser facilmente
obtido por:
R2 =
9578,6
= 0,586
5609,7
Em outras palavras, 58,6% da variabilidade do consumo de energia eltrica explicada pelo total
de horas que o ar condicionado permanece ligado. Os demais 41,4% seriam determinados por
outros equipamentos ou mesmo por diferenas entre os ar condicionados.
5.3.
SQ Re g / 1
~ F1,n 2
SQ Re s /(n 2)
(15)
Econometria
observaes com valores fixos para chegarmos s igualdades necessrias s estimativas dos
parmetros e . A SQReg, por sua vez, possui apenas 1 grau de liberdade j que, de acordo
com a equao (10), apenas o estimador de apresentaria variabilidade em funo da amostra
(lembre-se que os valores de Xi so considerados fixos). A estatstica F seguir, portanto, uma
distribuio F com 1 grau de liberdade no numerador e n 2 graus de liberdade no
denominador.
A razo da SQReg pelos seus respectivos graus de liberdade chamada de Quadrado
Mdio da Regresso e representa uma medida de variabilidade quadrtica mdia explicada pelo
modelo. Por sua vez, a razo da SQRes pelos seus respectivos graus de liberdade chamada de
Quadrado Mdio dos Resduos, que igual varincia da regresso ( 2 ) .
Sob a hiptese nula de que o modelo no contribui para explicar o comportamento de Y,
espera-se que a SQReg seja mnima e a SQRes seja mxima, fazendo com que a estatstica F
apresente valores baixos. O valor esperado da estatstica F na hiptese de contribuio nula do
modelo ser igual a 1, como demonstrado no Apndice A.
medida que o modelo contribua significativamente para explicar o comportamento de
Y, a SQReg tende a ser mxima e a SQRes mnima, fazendo com que a estatstica F apresente
valores elevados. Assim, quo maior o valor da estatstica F, mais evidncias teremos para
rejeitar a hiptese nula de que o modelo no contribui para explicar o comportamento de Y. O
valor p ser a medida da probabilidade de erro que estaremos sujeitos caso rejeitssemos H0, ou
seja, caso afirmssemos que o modelo contribui para explicar a variabilidade de Y.
(15)
Perceba ainda que, no caso da RLS, testar a hiptese nula de que o modelo no contribui
para explicar a variabilidade de Y a mesma coisa que testar se o coeficiente associado
varivel X () igual a zero. Isso porque, como s h uma varivel independente no modelo,
caso seja nulo significa que a melhor previso para Y seria sua mdia aritmtica, fazendo com
que SQT seja igual SQRes.
Uma sntese dos resultados dada pela Tabela ANOVA:
75
Econometria
Anlise de Varincia
(15)
Fonte
Regesso
Resduos
Total
gl
F
26,9
A estattsica F obtida pela razo entre os quadrados mdios ter 1 grau de liberdade no
numerador e 19 no denominador. Assim, a probabiliade de erro associada estimativa obtida
ser praticamente nula.
Em outras palavras, pode-se afirmar que o modelo ou, no caso, as horas de ar condicionado
ligado, contribua significativamente para explicar a variabilidade do consumo de energia. A
probabilidade de errro ao fazermos tal afirmao praticamente nula.
Exerccios
1. A partir dos gastos per capita com alimentao (Y) e a renda mensal per capita (X) em uma
amostra de 5 famlias, pede-se:
76
Econometria
52
104
122
141
166
254
487
615
950
1014
Respostas
1) a. SQReg=6843,7; SQRes=552,3; STQ=7396; b. R2=0,925; d. p=0,009.
77
Econometria
Anlise de Varincia
SQ Re g 1
SQ Re g (n 2)
i =1
i =1
( xi y i ) 2
SQ Re g = 2 xi 2 = xi yi =
i =1
n
xi 2
i =1
[ xi ( xi + ei e )] 2
SQ Re g =
i =1
i =1
i =1
n
i =1
( xi2 + xi ei e xi ) 2
xi2
i =1
n
i =1
i =1
n
i =1
i =1
( xi2 + xi ei ) 2
i =1
i =1
n
xi2
xi2
i =1
i =1
2 ( xi2 ) 2 + 2 xi2 xi ei + ( xi ei ) 2
SQ Re g =
xi2
i =1
2 ( xi2 ) 2 + 2 xi2 xi ei + ( xi ei ) 2
SQ Re g =
i =1
i =1
n
i =1
xi2
i =1
i =1
= 2 xi2 +
i =1
xi2 ei2
i =1
n
xi2
i =1
Pressupondo agora os valores de X fixos e varincia constante para os erros E (ei2 ) = 2 teremos:
78
Econometria
2 xi2
E ( SQ Re g ) = 2 xi2 +
i =1
n
xi2
i =1
= 2 xi2 + 2
i =1
i =1
Procedimentos anlogos devem agora ser realizados para a STQ (a SQRes ser obtida a partir da
diferena entre STQ e SQReg):
n
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
(ei e ) 2
i =1
n
i =1
i =1
i =1
i =1
i =1
i =1
i =1
i =1
n
2 ei
i =1
i =1
i =1
i =1
(ei e )
ei2
n
n
n ei + n ei
i =1
i =1
n
n
n
n = ei2 2 ( ei ) 2 n + ( ei ) 2 n
i =1
i =1
i =1
(ei e ) 2 = ei2 ( ei ) 2 n
Voltando agora ao desenvolvimento da STQ, teremos:
n
i =1
i =1
i =1
i =1
xi2
i =1
i =1
+ 2 E ( xi ei ) + E (
i =1
ei2 )
E[( ei ) 2 n]
i =1
Pressupondo que os valores de X sejam no correlacionados aos erros e a varincia dos erros
seja constante, teremos:
n
i =1
i =1
79
Econometria
Anlise de Varincia
n
i =1
i =1
E ( SQ Re s) = (n 2) 2
Finalmente, teremos o valor esperado para a estatstica F:
n
E ( F ) = E[
SQ Re g 1
]=
SQ Re g ( n 2)
2 xi2 + 2
i =1
Caso o valor de seja zero (hiptese nula do teste F para a Anlise de Varincia), teremos:
E ( F | = 0) =
2
=1
2
80
Econometria
PARTE II
Regresso Linear Mltipla
81
Econometria
6.1.
Estimadores de MQO
Para compreender o conceito de regresso linear mltipla (RLM), vamos inicialmente
comparar um modelo com uma varivel independente (RLS) a outro com duas variveis
independentes (RLM). No modelo de RLS pressupomos que o comportamento de Y seja
linearmente determinado por uma nica varivel X. No caso da RLM com 2 variveis
independentes, pressupomos que o comportamento de Y seja linearmente determinado por X1 e
X2. Geometricamente, teramos uma reta representando o ajuste de RLS e uma superfcie plana
representando o ajuste de RLM:
82
Econometria
(1)
Yi = + 1 X 1i + 2 X 2i + ei
Yi = + X i + ei
Em ambas as situaes, o MQO pode ser empregado para obter os estimadores que
minimizam o erro quadrtico total (EQT), ou seja, a soma dos quadrados dos erros de previso.
No caso da RLS, o EQT ser funo das estimativas de e , pois:
(2)
(3)
(4)
EQT
xi yi
= 0 =
xi2
(5)
1i
2i
1i 2i
83
Econometria
Y
=
X
(6)
E[Y / X 1 = 0, X 2 = 0] =
Y
= 1
X 2
(7)
Y
= 2
X 2
17
Nem sempre a variao marginal em Y ser independente dos valores dos regressores. Por exemplo, no modelo
84
Econometria
O modelo de RLM com duas variveis independentes pode ser extrapolado para um
conjunto de k variveis independentes. Genericamente, um modelo de regresso linear mltipla
com k variveis independentes e p (p=k+1) parmetros ser dado por:
Yi = + 1 X 1i + 1 X 2i + ... + k X ki + ei
(8)
Onde:
Exemplo 1. Suponha dois modelos para prever o consumo de energia eltrica de domiclios
(Kwh):
Kwhi = + ACi + ei
O primeiro caso pressupe que o consumo de energia seja unicamente determinado pelas horas
de ar condicionado ligado (AC). Nesse caso, indicaria o consumo de energia esperado para
uma residncia em que o ar condicionao permanea desligado e indicaria o consumo de
energia adicional esperado para cada hora adicional com ar condicionado ligado.
No segundo, pressupe-se que o consumo de energia seja conjuntamente determinado por uma
funo linear das horas de ar condicionado e secadora (SEC) ligados. Neste caso, indicaria o
consumo esperado de energia quando ambos ar condicionado e secadora permaneam
desligados. O coeficiente 1 indicaria o aumento no consumo esperado de energia para cada hora
adicional com ar condicionado ligado, mantendo-se constante o tempo de uso da secadora.
Analogamente, o coeficiente 2 indicaria o efeito isolado de uma hora adicional com a secadora
ligada sobre o consumo esperado de energia.
6.2.
Econometria
Para compreender esse processo, suponha inicialmente um modelo de RLS com sua
equivalente representao matricial:
Yi = + X i + ei
y = X + e
ou
ou
Y1 = + X 1 + e1
Y1
X 1 e1
Y1 1
1
Y2
X 2 e2
Y2 1
1
... = ... + ... + ... ... = ...
1
Y
X e
Y 1
n
n n
n
Y2 = + X 2 + e2
...
Yn = + X n + en
X1
e1
X 2 e2
+
... ...
e
X n
n
(9)
A partir da funo linear em (9), sabemos que, para obter os estimadores de MQO,
devemos minimizar sua funo de EQT (equaes 2 e 4). Analogamente, podemos tambm
derivar a expresso matricial obtida em (9) para obter a notao matricial dos estimadores de
MQO. Neste caso, a funo de EQT ser expressa por:
EQT = e T e
(10)
Onde
e = y y
y = X
(11)
(12)
86
Econometria
Yi = + 1 X 1 + 2 X 2 + ... + k X k + ei
ou
Y1 = + 1 X 11 + 2 X 21 + ... + k X k1 + e1
Y2 = + 1 X 12 + 2 X 22 + ... + k X k2 + e2
(13)
...
Yn = + 1 X 1n + 2 X 2n + ... + k X kn + en
Com a equivalente representao matricial:
y = X + e
ou
(14)
Sendo que o vetor de estimadores de MQO continua sendo dado por (12).
Importante ainda destacar que as pressuposies do modelo de regresso linear mltipla
para que os estimadores de MQO sejam os MELNV so muito semelhantes s do modelo
simples:
1. A v.a. Yi uma funo linear das variveis explanatrias (Xij, j=1..k);
2. Os valores de Xj so fixos (controlados) em repetidas amostras;
3. Esperana condicional dos erros igual a zero, ou seja, E(ei)=0;
4. Os erros so homocedsticos, ou seja, E( ei2 )=2;
5. Os erros so no-correlacionados, ou seja, E(eiej)=0, para ij;
E, para que tenhamos um modelo clssico de regresso linear (MCRL), devemos ainda
considerar que:
6. Os erros esto normalmente distribudos;
Combinando os pressupostos 4 e 5 teremos, em representao matricial:
87
Econometria
e12
e e
E (ee T ) = E 2 1
...
en e1
e1e2
e22
...
e n e2
... e1en 2
... e2 en
=
... ... ...
... en2 0
...
0
0
= I 2
... ...
... 2
...
...
(15)
Em outras palavras, a matriz de varincias e covarincias ser uma matriz escalar, com
constantes (2) na diagonal principal, que representa a varincia para cada ponto observao i, e
valores nulos nas partes superior e inferior da matriz, que representam as covarincias entre ei e
ej.
importante tambm destacar que, caso o pressuposto 6 sej vlido (normalidade dos
erros) e tenhamos um MCRL, os estimadores de MQO tero varincia mnima entre quaisquer
estimadores no viesados de j, no apenas entre os estimadores lineares.
Exemplo 2. Em uma amostra de 4 ocupados, observaram-se o rendimento do trabalho em
nmero de salrios mnimos (Y, em SM), anos de estudo (X1) e idade (X2) da pessoa de referncia
na famlia.
Y (Renda)
X1 (Anos Estudo)
10
15
X2 (Idade)
21
30
40
50
Yi = + 1 X 1i + 2 X 2i + ei
Que, a partir da notao matricial, nos daria:
y = X + e
ou
88
Econometria
1 5 21
4
1 1 1 1
1 1 1 1
1 10 30
6
= 5 10 15 0
5
10
15
0
1 15 40
8
21 30 40 50
21 30 40 50
1 0 50
6
30
141 24 0,829
4
Em outras palavras, espera-se, para cada ano adicional de estudo do ocupado, um aumento de
0,203 SM na renda do trabalho, mantendo-se constante a idade da pessoa. E, para cada ano de
idade adicional, espera-se um aumento de 0,103 SM na renda, independente dos anos de
escolaridade.
6.3.
89
Econometria
Yi = + X i + ei
Onde:
= Y X
n
( X i X )(Yi Y )
i =1
xi yi
(Xi X )
(16)
i =1
n
xi
i =1
i =1
yi = + xi + ei
(17)
Onde
y i = Yi Y
e xi = X i X
(18)
(19)
Para demostrar que o novo ajuste ter intercepto nulo e inclinao semelhante de (16),
basta lembrarmos que a soma dos desvios em relao mdia aritmtica igual a zero.
Consequentemente:
y=0 e x=0
(20)
E:
= y x = 0
n
( xi x )( yi y )
i =1
( xi x ) 2
i =1
xi y i
=
i =1
n
(21)
xi2
i =1
90
Econometria
Uma vez estimado o valor de (ou ), pode-se chegar a (da equao 16) atravs de:
= Y X = Y X
(22)
Raciocnio anlogo pode ser considerado para o modelo com varivel dependente
original e independente centrada:
Yi = + xi + ei
(23)
Nesse caso, apenas o eixo das ordenadas (Y) seria transposto para a mdia de X, como
pode ser observado pela Figura (24). Embora mude o intercepto do novo modelo, que passar
agora pelo valor mdio de Y, no h qualquer alterao na inclinao ou qualidade da reta de
regresso.
(24)
Para demostrar que o novo ajuste ter intercepto igual mdia de Y e inclinao
semelhante de (16), devemos desenvolver:
= Y x = Y
n
( xi x )(Yi Y )
i =1
( xi x ) 2
i =1
xi y i
i =1
n
(25)
xi2
i =1
= Y X = Y X
(26)
91
Econometria
Duas matrizes utilizadas em muitas fases da anlise de regresso linear mltipla (por
exemplo, na equao 12) so:
n
X1
j
XT X =
...
X k
j
X1
X 12
X1
X1 X 2
...
X1j X k j
...
X2j Xkj
...
...
...
...
Xk
X1 X k
j
...
X k2J
Y j
X
Y
1
j
j
XT y =
...
X k Yj
j
(27)
x k i = X ki X k
(28)
... x k1 e1
... x k2 1 e2
+
... ... ... ...
... x kn k en
x 21
x 22
...
x 2n
(29)
Como:
j xk j = 0
(30)
Teremos:
n
0
T
X X=
...
0
x12J
...
1j
xk j
0
x1 j x2 j
...
...
...
...
0
x1 j xk j
...
...
2j
xk j
2
kJ
Y j
x1 j Y j
T
e X y = ...
xk Y j
j
(31)
Que mais fcil de ser invertida que a matriz XTX em (27). Assim como no ajuste de
variveis independentes centradas de RLS, o ajuste de RLM ter a mesma inclinao (s) e
qualidade do ajuste. Apenas o intercepto de (29) ser diferente do de (9), j que o primeiro
representar o valor mdio de Y (ver equao 26). Entranto, a estimativa do intercepto para o
modelo original pode facilmente ser obtido por:
= Y i i X i
(32)
92
Econometria
X 1 = 7,5 e X 2 = 35,25
E os dados da amostra ficariam:
x1
-2,5
2,5
7,5
-7,5
x2
-14,25
-5,25
4,75
14,75
Yi = + 1 x1i + 2 x2i + ei
Que, a partir da notao matricial, teramos:
y = X + e
ou
4 1 - 2,5 - 14,25 e1
6 1 2,5 - 5,25 e2
1 +
8 = 1 7,5
4,75 e3
6 1 - 7,5 14,75 2 e
4
Devemos ento calcular o vetor de estimadores de :
= ( X T X ) 1 ( X T y )
= 0 125 - 52,5
0 - 52,5 470,75
24 6
20 = 0,203
38 0,103
Note que a matriz XTX ficou muito mais fcil de ser invertida. O termo 4 na primeira linha e
primeira coluna pode ser invertido isoladamente e, invertendo a sub-matriz resultante, cujo
determinante 56088:
93
Econometria
1/4
= 0
1
(470,75)
56088
-1
(52,25)
56088
24 6
-1
(52,25) 20 = 0,203
56088
38 0,103
1
(125)
56088
Falta apenas obter a constante do modelo com variveis originais, que, segundo equao (31),
ser dado por:
1. Observaram-se os gastos mensais com alimentao (Y, em 1000 reais), renda mensal (X1, em
1000 reais) e distncia da residncia ao supermercado mais prximo (X2, em km) de 4
domiclios:
Y
0,4
0,2
0,3
0,6
X1
X2
1974
1975
1976
1977
74
82
84
110
X1 (1.000 R$)
10
X2 (R$ / kg)
0.8
1.2
1.2
1.0
94
Econometria
3. Uma amostra de 4 pases forneceu os seguintes dados sobre mortalidade infantil (Y, em
mortes para cada mil nascidos vivos), PIB per capita (X1, em mil dlares) e nmero de
mdicos (X2, em mdios por 1000 habitantes):
Y
X1
10
12
13
16
X2
Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a)
b)
10
12
13
16
ln(Z)
0,7
1,1
1,4
1,6
1,9
2,1
2,3
2,5
2,6
2,8
4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhes de reais), investimento (X1, em milhes de reais)
e horas trabalhadas (X2, em mil horas):
ln(Y)
ln(X )
ln(X )
4,1
3,0
2,0
20
4,5
3,0
2,0
191
55
55
5,2
4,0
4,0
493
403
55
6,2
6,0
4,0
60
20
90
Econometria
Yi = 0 + 1 X 1i + 2 X 2i + K + k X ki + ei
Pode-se afirmar que:
a) O mtodo, dos mnimos quadrados ordinrios (MQO), usado para estimar os coeficientes
96
Econometria
Onde
y = X
Desenvolvendo teremos:
EQT = y T y y T X T X T y + T X T X
Para encontrarmos o ponto de mnimo de EQT, devemos igualar a zero sua derivada em relao
a . Primeiro, a representao da derivada do escalar EQT em funo do vetor ser dada por:
EQT EQT
=
EQT
...
EQT
Econometria
( w T Aw )
= 2w T A
w
Para minimizarmos a funo de EQT, devemos igualar sua derivada a zero e teremos:
2 X T X = 2 X T y
Ou, simplesmente:
= ( X T X) 1 X T y
98
Econometria
Devemos demonstrar que, caso os pressupostos (i) a (iii) do teorema de Gauss-Markov sejam
vlidos, os estimadores de MQO para a RLM so no viesados e que, caso os pressupostos (iv)
a (v) tambm sejam vlidos, os mesmos so tambm eficientes.
Primeiro, o estimador de MQO dado por:
= ( X T X) 1 X T y
Como y = X + e , teremos:
= ( X T X) 1 X T ( X + e) = ( X T X ) 1 ( X T X) + ( X T X) 1 X T e
E, como ( X T X ) 1 ( X T X) = I :
= + ( X T X) 1 X T e
Pressupondo que os valores de Xj sejam fixos (pressuposto ii) e que a esperana condicional dos
erros seja zero (pressuposto iii), o valor esperado de ser:
E ( ) = + ( X T X) 1 X T E (e)
E ( ) =
99
Econometria
Onde W uma matriz de ordem n k com valores que definem uma combinao linear de y.
Considerando que y = X + e teremos:
= W T ( X + e) = W T X + W T e
Assumindo W T X = I :
Var ( ) = E[( W T e)( W T e) T ] = E ( W T ee T W ) = W T E (ee T ) W = W T W 2
100
Econometria
Ou seja, a varincia do estimador de MQO ser sempre menor ou igual de outro estimador
linear no viesado de .
101
Econometria
Assim como em RLS, a anlise dos resduos fundamental para compreender a qualidade
do ajuste de RLM. O primeiro passo decompor a soma total dos quadrados (STQ) em: soma
dos quadrados da regresso (SQReg), e dos resduos (SQRes). Embora anloga da RLS,
ressalva-se o fato de que agora as distncias da soma dos quadrados (SQs) referem-se ao ajuste
de um plano de um espao de k+1 dimenses (k+1= k variveis independentes + 1 varivel
dependente), no mais simplesmente de uma reta em um espao de 2 dimenses.
As SQs em suas respectivas notaes matriciais sero dadas por18:
Soma Total dos Quadrados (STQ)
STQ = (Yi Y ) = yi = y y nY
2
i =1
(1)
i =1
(2)
SQ Re g = (Yi Y ) 2 = T X T y nY 2
i =1
18
102
Econometria
(3)
SQ Re s = (Yi Yi )2 = e T e = y T y T X T y
i =1
(4)
19
As restries impostas SQRes referem-se soma zero dos resduos e ausncia de correlao entre os resduos e
ei = 0 ; ei X 1
= 0 ; ...;
ei X k
=0
103
Econometria
R2 =
SQ Re g
SQ Re s
= 1
STQ
STQ
(5)
A estatstica F, por sua vez, permite verificar se a variabilidade explicada pelo ajuste de
regresso significativa, ou seja, se o valor observado de R2 na amostra pode ser considerado
estatisticamente diferente de zero. A estatstica F ser dada pela razo entre os quadrados mdios
da regresso e dos resduos:
F=
SQ Re g / k
~ Fk ,n k 1
SQ Re s /(n k 1)
(6)
(7)
Um detalhe importante desse teste F para a RLM que no rejeitar H0 implica afirmar
que nenhuma das k variveis independentes contribui para explicar a variabilidade de Y. Assim,
se o modelo no contribui para explicar Y, todos os coeficientes angulares sero iguais a zero, j
que nenhuma varivel independente seria necessria no modelo. Por outro lado, se o modelo
contribui para explicar Y, pelo menos um coeficiente angular seria diferente de zero. Ou seja,
pelo menos uma varivel independente seria necessria no modelo, no necessariamente todas.
104
Econometria
Uma representao esquemtica de possveis resultados para o ajuste de RLM com duas
variveis independentes Y = + 1 X 1 + 2 X 2 + e apresentada na Figura (8). Os trs primeiros
exemplos representam situaes em que pelos menos uma das variveis independentes contribui
para explicar a variabilidade de Y e, consequentemente, a hiptese nula deveria ser rejeitada. No
ltimo exemplo, nenhuma das variveis contribui para explicar a variabilidade de Y e a hiptese
nula no deveria ser rejeitada.
(8)
(n k 1) SQ Re g (n k 1) SQ Re g / SQT
=
k
SQ Re s
k
(1 SQ Re g / SQT )
(n k 1) R 2
R2 / k
F=
=
k
(1 R 2 ) (1 R 2 ) /(n k 1)
(9)
Exemplo 1. Vamos aproveitar os resultados obtidos no ajuste estabelecido para a relao linear
entre a varivel dependente rendimento familiar (Y) e as variveis independentes anos de estudo
(X1) e idade do responsvel pela famlia (X2), onde:
105
Econometria
4
6
T
2
STQ = y y nY = (4 6 8 6) 4(6) 2 = 152 144 = 8
8
6
24
SQ Re s = STQ SQ Re g = 8 7,998
O coeficiente de determinao ser ento dado por:
R2 =
SQReg
= 0,9998
STQ
Significando que as variveis independentes anos de estudo e idade da pessoa responsvel pela
famlia explicam, conjuntamente, quase a totalidade (99,98%) da variabilidade observada para a
renda familiar na amostra.
Embora expressiva, essa contribuio no pode ser considerada estatisticamente significativa
sem a realizao do teste F da ANOVA. A estatstica F para testar a hiptese nula de que todos
os coeficientes angulares so iguais a zero ser dada pela razo entre os quadrados mdios da
regresso e dos resduos. Os resultados aparecem sistematizados na tabela ANOVA:
7.2.
106
Econometria
mesmo valor. Assim, modelos com mais variveis independentes tendem a apresentar valores
mais elevados para o R2. Por exemplo, sejam as medidas de qualidade do ajuste:
Yi = + 1 X 1i + 2 X 2i + ei
(10)
A incluso de uma varivel independente adicional (X3) iria, na pior das hipteses,
manter o mesmo valor para SQReg e R2 (R2y12, no exemplo) quando esta varivel no possuir
qualquer relao linear com Y:
Yi = + 1 X 1i + 2 X 2i + 3 X 3i + ei
(11)
SQ Re s /[ n (k + 1)]
n 1
= 1 (1 R 2 )
STQ /(n 1)
n (k + 1)
(12)
Econometria
1. Se k=1, R2= R 2 ;
2. Se k>1, R2 R 2 ;
3. R 2 pode ser negativo.
Podemos ainda afirmar que, ao incluirmos uma varivel independente adicional no
modelo de RLM, o R 2 somente aumentar se a estatstica t associada a essa varivel for maior
que 1 em valor absoluto. Analogamente, ao incluirmos um conjunto de j variveis independentes,
o R 2 somente aumentar se a estatstica F associada contribuio conjunta dessas variveis for
maior que 1.
4 1
= 0,9996
4 (2 + 1)
Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e distncia ao supermercado mais prximo (X2, em km) de 4
famlias, pede-se:
Y
0,4
0,2
0,3
0,6
X1
X2
108
Econometria
2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:
Ano
1974
1975
1976
1977
74
82
84
110
X1 (1.000 R$)
10
X2 (R$ / kg)
0.8
1.2
1.2
1.0
X1
10
12
13
16
X2
Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a) Construa a tabela ANOVA e interprete o nvel de significncia do teste F;
b) Calcule e interprete o coeficiente de determinao e o coeficiente de determinao ajustado.
Caso seja necessrio, trabalhe com os seguintes valores para o logaritmo natural:
Z
10
12
13
16
ln(Z)
0,7
1,1
1,4
1,6
1,9
2,1
2,3
2,5
2,6
2,8
109
Econometria
4. Uma amostra de 4 empresas que produzem o mesmo tipo de produto forneceu os seguintes
dados sobre o total de venda (Y, em milhes de reais), investimento (X1, em milhes de reais)
e horas trabalhadas (X2, em mil horas):
ln(Y)
ln(X1)
ln(X2)
4,1
3,0
2,0
20
4,5
3,0
2,0
55
55
5,2
4,0
4,0
6,0
4,0
60
20
90
191
493
403
55
6,2
Suponha agora que a relao entre as variveis seja dada por:
Respostas
1) a. STQ=0,0875; SQReg=0,0825; SQRes=0,005; b. R2=0,9429; R 2 =0,8286; c. F=8,25;
p=0,2391.
110
Econometria
111
Econometria
Como = ( X T X ) 1 ( X T y ) , ento X T X = X T y e:
SQ Re s = y T y 2 T X T y + T X T y
i =1
i =1
i =1
i =1
i =1
STQ = y T y nY 2
Ento:
SQ Re g = T X T y nY 2
112
Econometria
8.1.
regresso mltipla, ou seja, se o conjunto das variaveis independentes contribui para explicar a
variabilidade de Y, o teste t permite verificar a significncia do efeito parcial de cada varivel
independente Xj sobre Y. Em outras palavras, significa verificar se, por exemplo, em um modelo
com duas variveis independentes, Y = + 1 X 1 + 2 X 2 + e , a contribuio da varivel X1,
desconsiderando-se a contribuio da varivel X2, diferente de zero. Esquematicamente:
(1)
H1 : j 0
(2)
113
Econometria
relao linear isolada com Y ou, em outras palavras, que Xj contribua isoladamente para explicar
a variabilidade de Y.
Para testar a hiptese nula em (2) precisamos conhecer: i) a estatstica de teste
apropriada; ii) a distribuio de probabilidade dessa estatstica. Sob as premissas do modelo
clssico de regresso linear, o estimador j de MQO, que uma funo linear dos erros do
modelo20, ser o MELNV do parmetro j e ter distribuio normal. Em outras palavras,
teremos a seguinte distribuio para o estimador:
(3)
estimadores j , que, em notao matricial, ser dada por (ver Apndice B do Captulo 6):
Var ( ) = E[( )( )T ] = ( X T X ) 1 2
(4)
Essa matriz, que contm as varincias e covarincias dos parmetros do modelo, pode
ainda ser representada por:
Var ( )
Cov( , 1 )
Cov( 1 , )
Var ( 1 )
Var ( ) =
...
...
Cov( , ) Cov( , )
k
k
1
... Cov( , k )
... Cov( 1 , k )
...
...
...
Var ( k )
(5)
20
vetor de constantes e X uma matriz de valores fixos, temos que ser uma funo linear do vetor de variveis
aleatrias e.
114
Econometria
2 =
e T e
y T y T X T y
=
n (k + 1)
n (k + 1)
(6)
S 2 = ( XT X) 1 2
(7)
E representada por:
S2
S
S 2 = 1
...
S
k
S 2
1
...
S
k 1
S
k
... S
1 k
...
...
... S 2
k
...
(8)
(9)
(10)
21
No confundir com constante do modelo de regresso, embora ambos sejam representados pela letra grega .
115
Econometria
Exemplo 1. A partir do ajuste estabelecido para a relao linear entre a varivel dependente
rendimento familiar (Y) e as variveis independentes anos de estudo (X1) e idade do responsvel
pela famlia (X2), vamos proceder com o teste de hipteses para os coeficientes do modelo. O
modelo ajustado foi:
30
141
4
2
T
1 2
S = ( X X) = 30 350 1005 2
141 1005 5441
Onde:
2 =
0,002
e T e
=
= 0,002
n (k + 1) 4 (2 + 1)
Teremos ento:
S 2
0,0002 0,0002
3,986 0,096 0,086
0,007
= 0,096 0,008
0,009 0,002 = 0,0002 0,00001 0,000002
0,086 0,009
0,0002 0,000002 0,000004
0,002
E:
Assim, a probabilidade de erro ao afirmarmos que a varivel anos de estudo do responsvel pela
famlia tenha relao linear isolada com a renda familiar de apenas 1,2% e podemos rejeitar H0.
116
Econometria
8.2.
c0 + c1 1 + ... + c k k = (c0
c1
1
... ck ) = c T
...
k
(11)
(12)
Podemos ainda demonstrar facilmente qual ser a varincia dessa combinao linear:
Var (c T ) = E[(c T c T )(c T c T ) T ] = c T ( X T X) 1 c 2
(13)
(14)
117
Econometria
8.3.
hipteses para mais de um parmetro populacional. Seja, por exemplo, o ajuste definido por:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei
(15)
2:
H 0 : 1 = 2
H 1 : 1 2
(16)
Testar a hiptese nula H0 o mesmo que testar a nulidade da seguinte combinao linear:
(0) + (1) 1 + (1) 2 ... + (0) k = 0
(17)
(0 1 1 0 ... 0) 1 = cT = 0
...
k
(18)
Ou, matricialmente:
(0 1 1 0 ... 0) 1 = cT
...
k
(19)
cT ~ N (cT , c2T )
(20)
Sendo a varincia desta estatstica dada por (13) e o respectivo estimador dado por (14).
Conhecida a distribuio e estimada a varincia da estatstica de teste, podemos dar
continuidade resoluo do teste de hipteses. O prximo passo obter a probabilidade de erro
ao rejeitar H0 (valor p). Para isso, deve-se calcular a estatstica t, uma medida de quantos erros
padro o valor observado para c T na amostra encontra-se do valor central da distribuio (zero,
no caso).
118
Econometria
(21)
H 0 : 1 = 2
H 1 : 1 > 2
A hiptese nula pode tambm ser representada pela combinao linear:
(0) + (1) 1 + (1) 2 = 0 ou, matricialmente, (0 1 1) 1 = c T = 0
2
A estatstica de teste ser, por sua vez, dada por:
0,829
c = (0 1 1) 1 = (0 1 1) 0,203 = 0,10
0,103
2
S c2T = c T ( XT X) 1 c 2
1
S c2T
30
141 0
4
= (0 1 1) 30 350 1005 1 0,002 = 0,0000156
141 1005 5441 1
Podemos, ento, dar continuidade ao teste de hipteses. Supondo a veracidade da hiptese nula, a
estatstica cT estar normalmente distribuda em torno de zero. O objetivo estimar a
119
Econometria
probabilidade de erro (valor p) associado rejeio da hiptese nula. Como se trata de um teste
unicaudal, a regio de rejeio estar associada a valores positivos de cT ( 1 > 2 ):
O valor da estatstica observada na amostra (0,10) estaria 25,32 erros padro afastado do centro
da distribuio e a probabilidade de erro associada a esse valor de 1,3%. Em outras palavras, se
afirmarmos que o efeito isolado da escolaridade seja superior ao da idade da pessoa responsvel,
estaremos sujeitos a um erro de apenas 1,3%. H, assim, fortes evidncias estatsticas para
afirmar que o efeito parcial da escolaridade sobre a renda seja superior ao da idade.
8.3.
(22)
Yi = x T = 1 X 1i
X 2i
... X ki
1
...
k
(23)
(24)
Ou, matricialmente:
E (Yi / X 1i ,..., X ki ) = x T = 1 X 1i
X 2i
... X ki
1
...
k
(25)
120
Econometria
Para estabelecermos uma estimativa por intervalo para E(Yi) precisamos conhecer a
distribuio da estatstica xT , ou simplesmente Yi . Esta, por ser uma combinao linear de
variveis normais, apresentar tambm distribuio normal:
x T ~ N (x T , x2T )
(26)
x2T = xT ( X T X) 1 x 2
(27)
S x2T = x T ( XT X) 1 x 2
(28)
Podemos, finalmente, realizar uma previso por intervalo para E(Yi). Dada uma confiana
igual a , e a estatstica t representar o nmero de erros padro a se deslocar do valor estimado
na amostra para a estatstica xT . Graficamente, teremos:
(29)
Assim, uma estimativa com confiana de para E(Yi) seria dada por:
IC[E(Yi ); ] = [ x T t x T ( X T X ) 1 x 2 ]
(30)
121
Econometria
0,829
Yi = x = (1 15 30 ) 0,203 = 6,983
0,103
Yi ~ N ( E (Yi ), x T ( XT X) 1 x 2 )
Com varincia estimada por:
1
S x2T
30
141 1
4
T
T
1
2
= x ( X X) x = (1 15 30) 30 350 1005 15 0,002 = 0,00127
141 1005 5441 30
Uma estimativa por intervalo com 95% de confiana seria, por exemplo, dada por:
Onde o valor da estatstica t com 1 grau de liberdade (resduos) representa o nmero de erros
padro a se deslocar direita e esquerda do valor previsto para que se tenham 95% de
probabilidade em um intervalo simtrico. Assim, a estimativa para o intervalo com 95% de
confiana para E(Yi) seria dada por:
Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e distncia ao supermercado (X2, em nmero de integrantes) de 4
famlias, pede-se:
Y
0,4
0,2
0,3
0,6
X1
122
Econometria
X2
Ano
1974
1975
1976
1977
74
82
84
110
X1 (1.000 R$)
10
X2 (R$ / kg)
0.8
1.2
1.2
1.0
X1
10
12
13
16
X2
Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a. Estime e interprete um intervalo com 90% de confiana para a mortalidade
infantil de um pas com PIB per capita de 10 mil dlares e 1 mdico por 1000
habitantes.
Caso necessrio, trabalhe com os seguintes valores para o logaritmo natural:
123
Econometria
10
12
13
16
ln(Z)
0,7
1,1
1,4
1,6
1,9
2,1
2,3
2,5
2,6
2,8
Respostas
1) a. 1: t=2; p=0,295; 2: t=-3,54; p=0,175; b. S c2T = 0,0075 ; t=--1,732; p=0,167; c.
IC[E(Yi);95%]=[0,80,999].
2) a. c T = 0,22 ; S c2T = 0,025 ; t=-1,368; p=0,201.
3) a. x T = 16,5 ; S x2T = 54,75 ; t=12,71; IC[E(Yi);95%]=[16,594,02].
4) a. V; b. F.
5) V.
124
Econometria
9. Contribuio Marginal
Introduo
A contribuio marginal mede a parcela da variabilidade de Y que explicada
exclusivamente por uma ou mais variveis independentes, aps considerada a contribuio das
demais variveis independentes do modelo. Em outras palavras, desejamos saber qual a parcela
da SQReg devida exclusivamente a uma varivel Xj, ou a um grupo de q variveis independentes.
Pode ser til, por exemplo, para decidirmos se necessria a incluso de uma varivel
independente (ou de um grupo de variveis) em um modelo de RLM aps a considerao dos
demais fatores explanatrios. Identificada esta contribuio marginal, podemos ainda realizar
inferncias para saber se essa parcela da variabilidade explicada pode ser considerada
siginificativa.
Para viabilizar essas anlises, veremos primeiramente como desagregar a variabilidade
total explicada pelo modelo entre as parcelas devidas s contribuies parciais (ou marginais) de
cada varivel independente e a parcela devida contribuio conjunta. Posteriormente, veremos
como o teste F pode ser aplicado para verificar a significncia destas contribuies marginais.
9.1.
Yi = + 1 X 1i + 2 X 2i + ei
(1)
A SQReg do ajuste para esse modelo seria uma medida da variabilidade da varivel
dependente explicada pelas variveis X1 e X2 (Figura 2). Os graus de liberdade dessa SQReg
125
Econometria
Contribuio Marginal
seriam 2, j que h duas variveis independentes no modelo ou, em outras palavras, o valor da
SQReg dependeria da variao aleatria de 1 e 2 .
SQRegir
(2)
O modelo (1) ser, a partir de agora, denominado modelo irrestrito (ir), pois no so
feitas quaisquer restries sobre os valores dos coeficientes 1 e 2. Sua SQReg ser, agora,
representada por SQRegir.
Suponha agora que coloquemos a restrio de que o coeficiente 2 seja igual a zero.
Teramos ento o modelo restrito (r), ou seja, com restrio em um de seus coeficientes (2=0):
Yi = + 1 X 1i + ei
(3)
SQRegr
(4)
(5)
Podemos estender esse raciocnio para um ajuste de RLM com k variveis independentes
e verificar, por exemplo, se um subconjunto de q variveis independentes apresenta contribuio
significativa sobre Y. Nesse caso, o modelo irrestrito de RLM seria dado por:
Y = + 1 X 1 + 2 X 2 + ... + k X k + e
(6)
126
Econometria
(7)
(8)
Analogamente ao teste F para a ANOVA irrestrita, o teste estatstico para restrio aos
parmetros consiste agora em verificar se a contribuio marginal dessas q variveis
significativa comparando-a com a variabilidade dos resduos do modelo irrestrito. A estatstica F
ser ento dada por:
F=
( SQReg ir SQReg r ) / q
SQResir /(n k 1)
ou F =
( SQRes r SQResir ) / q
SQResir /( n k 1)
(9)
Onde SQRegir e SQRegr so, respectivamente, a soma dos quadrados da regresso sem e
com restrio nos parmetros, SQResir e SQResr so a soma dos quadrados dos resduos da
regresso sem e com restrio. O nmero de graus de liberdade do numerador (contribuio
marginal) ser igual a q, nmero de coeficientes considerados na contribuio marginal, e o
nmero de graus de liberdade do denominador (resduos) ser igual a nk1, representando a
variabilidade aleatria dos resduos do modelo irrestrito em torno do plano ajustado.
Uma maneira alternativa de calcular a estatstica F para a contribuio marginal a partir
das diferenas entre os coeficientes de determinao do modelo irrestrito ( Rir2 ) e restrito ( Rr2 ).
Pode-se demonstrar facilmente que a equao (9) ser tambm igual a:
F=
( Rir2 Rr2 ) / q
(1 Rir2 ) /( n k 1)
(10)
127
Econometria
Contribuio Marginal
pelo modelo, a utilizao da equao (10) exige sempre supor que as variveis dependentes do
modelo restrito e irrestrito so as mesmas.
Sinteticamente, a tabela ANOVA para anlise da contribuio marginal das q variveis
independentes pode ser representada por:
(11)
Para testar a hiptese nula de que no h contribuio marginal (expresso 8), devemos
estimar a probabilidade de erro p associada ao valor estimado de F em (9), que ter distribuio
Fq,nk1. O valor p indicar a probabilidade de erro ao rejeitarmos H0, ou seja, a chance de erro ao
afirmarmos que o grupo de q variveis independente contribui para explicar a variabiliade de Y.
(12)
Exemplo 1. Dada a relao entre renda familiar (Y), anos de estudo (X1) e idade (X2) do
responsvel pela famlia, podemos afirmar que a contribuio marginal da idade seja
significativa?
Para identificar a contribuio marginal da idade, o primeiro passo verificar a contribuio do
conjunto de variveis independentes (X1 e X2) no ajuste para o modelo irrestrito:
128
Econometria
Yi = 1,9 + 1X 1i + 0,06 X 2i + ei
Cuja SQRegir como verificado anteriormente, seria dada por:
SQ Re g ir = 34,8
Como desejamos analisar a contribuio marginal de X2, a restrio ao seu respectivo parmetro
(2) levaria ao ajuste:
Yi = 2,714 + 1,286 X 1i + ei
Com respectiva SQReg dada por:
SQ Re g r = 34,714
Teramos, ento, a contribuio marginal de X2 dada por:
129
Econometria
Contribuio Marginal
Em outras palavras, no haveria evidncias para afirmar que a contribuio marginal da idade
sobre a variabilidade da renda familiar seja significativa. A probabilidade de erro ao fazermos tal
afirmao seria muito alta, de aproximadamente 63%.
9.2.
Correlao parcial
Da mesma forma que a desagregao da anlise de varincia permite considerar a
rY 1.23...k
(13)
cov(Y , X )
=
=
SY S X
i =1 xi y i
n
i =1 xi2 i =1 yi2
(14)
130
Econometria
Para, por exemplo, calcular rY1.2 , primeiro devemos isolar a parcela de Y no associada a
X2. A parcela de Y no associada a X2 estaria contida nos resduos (Y2) do ajuste:
Yi = 0 + 1 X 2i + eY 2i
(15)
(16)
Por sua vez, a correlao parcial entre Y e X1, isolando-se o efeito de X2, seria ento dada
pela relao entre os resduos dos dois ajustes:
(17)
Embora trabalhosa, a vantagem dessa estimativa por etapas que pode ser facilmente
generalizada para o caso com k variveis independentes. Mas, no caso de duas variveis
independentes, pode-se demonstrar que o coeficiente de correlao parcial pode ser diretamente
obtido pela expresso:
rY 1.2 =
rY 1 rY 2 r12
e rY 2.1 =
rY 2 rY 1r12
(18)
R 2 rY22
1 rY22
(19)
Uma importante consequncia das expresses em (18) que, nem sempre, a correlao
parcial ter o mesmo sinal da correlao simples. Em outras palavras, duas variveis podem
estar, por exemplo, positivamente relacionadas, embora a correlao parcial entre essas, aps
isolado o efeito de outras variveis, seja negativa.
131
Econometria
Contribuio Marginal
Exemplo 2. Para obtermos diretamente, por exemplo, a correlao parcial entre renda familiar
(Y) e anos de estudo (X1), isolando-se o efeito da idade (X2), devemos calcular:
rY 1.2 =
rY 1 rY 2 r12
i=1 x1i yi
n
n
i=1 x12 i=1 yi2
rY 1 =
27
= 0 ,9959
(21)(35)
130
= 0 ,9827
(500)(35)
100
= 0,9759
(21)(500)
i=1 x2 i yi
n
n
i=1 x22 i=1 yi2
rY 2 =
i=1 x1i x2 i
n
n
i=1 x12 i=1 x22
r12 =
(0,9959) (0,9827)(0,9757)
[1 (0,9759) 2 ][1 (0,9827) 2 ]
= 0,913
Ou seja, mesmo desconsiderando o efeito da idade, h uma coerelao extremamente forte entre
renda e anos de estudo.
Exerccios
1. A partir de informaes sobre os gastos mensais com alimentao (Y, em 1000 reais), renda
mensal (X1, em 1000 reais) e tamanho (X2, distncia ao supermercado) de 4 famlias, pede-se:
0,4
0,2
0,3
0,6
X1
X2
132
Econometria
2. Sejam as seguintes informaes sobre o consumo de frango (Y), renda disponvel (X1) e preo
do frango (X2) em 4 diferentes anos:
Ano
1974
1975
1976
1977
74
82
84
110
X1 (1.000 R$)
10
X2 (R$ / kg)
0.8
1.2
1.2
1.0
X1
10
12
13
16
X2
Yi = + 1 ln( X 1 ) + 2 X 2 + ei
a. Qual a parcela da variabilidade da taxa de mortalidade que explicada
isoladamente pelo nmero de mdicos? H evidncias que essa parcela seja
significativa?
b. Calcule e interprete o coeficiente de determinao parcial entre a taxa de
mortalidade e o nmero de mdicos.
Caso necessrio, trabalhe com os seguintes valores para o logaritmo natural:
Z
10
12
13
16
ln(Z)
0,7
1,1
1,4
1,6
1,9
2,1
2,3
2,5
2,6
2,8
133
Econometria
Contribuio Marginal
Respostas
1) a. SQRegir-SQRegr=0,0825-0,02=0,0625; QMRegcontribuiao=0,0625; F=12,5; p=0,175; b.
rY1.2= 0,8944.
2) a. SQRegir-SQRegr=0,0855-0,0035=0,0821; QMRegcontribuio=0,0821; F=282,6; p=0,038; b.
r2Y2.1=0,996.
3) a.
r
SQRegir-SQRegr=9-3,769=5,231;
QMRegcontribuio=5,231;
F=5,231;
p=0,262;
b.
Y2.1=0,735.
134
Econometria
10. Multicolinearidade
Introduo
Como sabemos, um coeficiente angular de um modelo de regresso mltipla estima o
efeito marginal de uma varivel independente sobre a varivel dependente. Em outras palavras,
estima a variao esperada na varivel dependente caso haja uma variao unitria na referida
varivel independente, mantendo todas as demais constantes. Imagine agora uma siutuao em
que a variao unitria de um regressor implique necessariamente na variao de outro regressor.
Por exemplo, horas mdias trabalhadas por dia e horas mdias trabalhadas por semana. Como
poderamos identificar o efeito marginal isolado de cada varivel se no podemos variar uma
mantendo constante a outra?
Uma condio necessria para estimar os coeficientes do modelo de regresso que no
haja relao linear exata entre quaisquer variveis explanatrias do modelo. Quando h uma
relao linear exata dizemos que as variveis explanatrias so perfeitamente colineares, ou que
existe perfeita colinearidade. Seria o caso de tentarmos prever a renda de uma pessoa (Y) com
base na jornada mdia diria (X1) e na jornada mdia de uma semana de 5 dias (X2). Como as
variveis X1 e X2 so perfeitamente colineares (X2=5X1), seria impossvel determinar o efeito
isolado X2 sobre Y. Isso porque se mantermos X1 constante, X2 tambm permanecer constante e
ser impossvel medir seu efeito isolado sobre Y.
Na prtica, entretanto, a colinearidade exata ocorre raramente, muitas vezes por falhas na
especificao do modelo. Frequentemente nos deparamos com a situao de multicolinearidade,
na qual h uma elevada, mas no exata, relao linear entre duas ou mais variveis
independentes22. Embora a multicolinearidade no afete as propriedades dos estimadores de
MQO, pode dificultar a identificao do efeito isolado das variveis independentes, j que seria
muito difcil observar na amostra variaes isoladas de uma varivel aps mantidas constantes as
demais. Por exemplo, se a renda temporria (X1) e a renda permanente (X2) de um indivduo
apresentam relao de multicolinearidade, ser mais difcil observar variaes na renda
22
O termo multicolinearidade foi originalmente proposto por Ragnar Frisch em 1934 para designar a relao
colinear exata entre duas ou mais variveis independentes. Atualmente, refere-se a um conceito mais amplo, de
interrelao entre as varveis independentes, mas no de maneira exata.
135
Econometria
Multicolinearidade
10.1. Definio
Dizemos que h perfeita colinearidade entre as variveis explanatrias quando uma delas
(Xj) for definida por uma funo linear exata das demais:
X ji = 1 X 1i + 2 X 2i + ... + k X ki
(1)
(2)
Exemplo 1. Suponha, por exemplo, a jornada mdia diria (X1) de um ocupado e sua equivalente
jornada mdia semanal (X2) considerando uma semana de 5 dias teis. H uma evidente
colinearidade exata entre X1 e X2 j que esta ltima foi obtida pela expresso X2=5X1.
X1
X2
X2*
20
22
30
38
40
44
10
50
50
136
Econometria
(3)
(4)
)
Isso significa que, embora seja possvel estimar a funo dos coeficiente ( 12 + 2 ) ,
essa estimativa permitiria infinitas solues para 1 e 2 , j que teramos apenas uma equao
para duas incgnitas. Em outras palavras, na presena de perfeita colinearidade no haveria uma
soluo nica para os coeficientes isolados do modelo de regresso, embora seja possvel obter
uma resposta nica para uma combinao linear dos mesmos. Se tentarmos encontrar as
estimativas de MQO por = ( X T X) 1 ( X T y ) na presena de perfeita colinearidade, chegaremos
a uma matriz ( XT X) que singular e no-inversvel, inviabilizando nossas anlises (ver
apndice A)23.
23
Caso uma das variveis independentes seja uma funo linear exata de outra varivel independente, uma das
colunas da matriz XTX ser uma combinao linear exata de outra coluna. Nesse caso, a matriz XTX ser singular
(determinante igual a zero) e no-inversvel.
137
Econometria
Multicolinearidade
(5)
(6)
Econometria
efeitos isolados na amostra e, caso esta no seja suficientemente representativa dos inmeros
comportamentos das variveis (represente variaes conjuntas e isoladas dos regressores), no
permitir estimar coeficientes significativos para os efeitos marginais. Assim, o impacto da
multicolinearidade sobre as estimativas dos coeficientes depender tambm de outros fatores,
como o tamanho da amostra e a variabilidade do regressor. Por esse motivo, muitos autores
argumentam
que
multicolinearidade
trata-se,
na
verdade,
de
um
problema
de
(7)
2
n
i =1 x 2ji (1 R 2j )
(8)
(9)
Assim, a partir de (8), temos que quanto maior for a relao linear entre a varivel Xj e as
demais variveis independentes do modelo de RLM, maior ser R 2j e maior ser a varincia do
24
O conceito da micronumerosidade foi sugerido por Arthur Goldberger (1991), argumentando que o problema da
multicolinearidade deve-se, na verdade, pequena variabilidade dos regressores observados em uma amostra de
tamanho insuficiente. Segundo o autor, amostras de tamanho pequeno e baixa variabilidade dos regressores causam
problemas to graves quanto o da multicolinearidade.
139
Econometria
Multicolinearidade
estimador j (Figura 10). Consequentemente, mais dificl ser provarmos que o valor estimado
por j estatisticamente diferente de zero. medida que R 2j aproxima-se de 1 (perfeita
colinearidade), a varincia de j tende a infinito, tornando praticamente impossvel identificar
significncia no coeficiente estimado.
(10)
1
2
=
FIV j
n
2
n
i =1 x 2ji (1 R j ) i =1 x 2ji
(11)
O termo FIV representa o quanto a varincia de j est sendo inflacionada pela relao
de multicolinearidade entre Xj e as demais variveis independentes do modelo. Quando no
houver relao entre as variveis independentes ( R 2j =0), o FIV ser igual a 1 e, medida que
aproximamo-nos de uma relao exata ( R 2j =1), o FIV tender a infinito. Para relaes
relativamente fortes ( R 2j superior a 0,8), o FIV ser igual ou superior a 5.
A partir da equao (11) podemos ainda derivar duas importantes propriedades da
varincia das estimativas dos coeficientes:
i)
ii)
Econometria
da
multicolinearidade.
Antes,
porm,
importante
destacar
que
iv)
Relacionamento
das
variveis
independentes:
um
elevado
grau
de
141
Econometria
Multicolinearidade
ii)
Transformar
as
variveis:
multicolinearidade
pode
ser
eliminada
142
Econometria
(12)
Exemplo. A tabela abaixo contm dados hipotticos sobre emisses de CO2 (CO2, em milhes
de toneladas), PIB (PIB, em bilhes de US$) e populao (Pop, em milhes de habitantes) para 8
pases.
CO2
PIB
Pop
1,5
13,2
3,2
8,7
197,0
35,5
2,8
128,6
19,1
9,4
286,4
40,4
4,4
72,6
3,1
8,4
167,8
22,3
3,2
114,4
8,4
0,9
58,0
9,0
Pressupe-se que as emisses cresam linearmente com o crescimento da economia e tambm da
populao, teremos:
CO 2 = 0 + 1 PIB + 2 Pop + e
Aplicando-se MQO, teremos o seguinte resultado para a tabela ANOVA:
143
Econometria
Multicolinearidade
Fonte
gl
SQ
QM
F
p
Regresso
2
63.9
31.9
8.80
0.023
Resduos
5
18.2
3.6
Total
7
82.0
Em outras palavras, o ajuste mostrou-se significativo. A probabilidade de erro ao afirmarmos que
as variveis PIB e Pop contribuem para expliciar a variabilidade do CO2 de apenas 0,02%.
Mais ainda, o R2 de 0,779 sugere que 78% da variabilidade do CO2 seja explicada pelas
variveis PIB e Pop.
Entretanto, se verificarmos as contribuies isoladas dos regressores, veremos que ambas so
insignificantes:
Varivel
t
p
Intercepto
0.472
1.328
0.356
0.737
PIB
0.030
0.025
1.226
0.275
Pop
0.028
0.150
0.183
0.862
A probabilidade de erro ao afirmarmos que o efeito isolado do PIB sobre o CO2 seja diferente de
zero de 27,5%. Para a varivel Pop, a probabilidade de erro de 86,2%. Esses resultados
sugerem a presena de colinearidade entre PIB e Pop, pois, embora o ajuste seja significativo no
conjunto, no est conseguindo estimar os efeitos isolados de cada varivel independente sobre o
CO2.
Como os coeficientes 1 e 2 estimam o efeito isolado das variveis PIB e Pop sobre o CO2, suas
estimativas estariam sendo insignificantes pois essas variveis representariam apenas uma
pequena parcela da variabilidade total explicada pelo ajuste. Em outras palavras, o efeito
conjunto do PIB e Pop representaria a maior parcela da variabilidade explicada pelo ajuste.
Para certificar-se da relao de colinearidade entre PIB e Pop, podemos analisar o modelo:
PIB = 0 + 1 Pop + e
Aplicando-se MQO, chegaremos a um R2 de 0,889 e uma estatstica F igual a 47,9, a qual
corresponde a uma probabilidade de erro inferior a 0,001% ao afirmarmos que haja relao linear
entre PIB e Pop.
Em outras palavras, h fortes indcios para suspeitar que a relao de colinearidade entre PIB e
144
Econometria
regressores e a amostra no estaria sendo suficiente para captar os efeitos isolados de suas
respectivas variveis independentes.
Podemos ainda calcular o FIV para estimarmos em que medida as varincias esto sendo
inflacionadas pela relao de multicolinearidade. Como temos apenas uma relao linear simples
entre PIB e Pop, o R 2j e, consequentemente, o FIVj sero os mesmos para PIB e Pop. O FIV ser
dado por:
FIV j =
1
= 8,98
(1 0,889)
Exerccios
1. A tabela abaixo apresenta informaes sobre a renda (Renda), anos de idade (Idade), anos de
estudo (Escolaridade) de uma amostra de 6 ocupados. Na ausncia de informaes apuradas
sobre a experincia profissional dos ocupados, trabalha-se com uma aproximao dada pela
idade da pessoa menos a idade esperada de finalizao dos estudos. Supondo que o indivduo
ingresse na escola com 7 anos, teramos a varivel medindo a experincia profissional
(Experiencia) dada por:
Idade
25
24
32
31
36
40
Escolaridade Experiencia
15
3
12
5
18
7
15
9
18
11
20
13
145
Econometria
Multicolinearidade
Pressupe agora que a renda seja uma funo linear da escolaridade e da experincia
profissional, teramos o modelo de RLM:
R$).
Suponha
que
relao
entre
as
variveis
seja
dada
por:
146
Econometria
S, o nmero de residncias por 1000 domiclios na cidade com apenas um dos pais. O
pesquisador estima a regresso: A = 1 + 2 P + 3 S + u
em que u um termo de erro que satisfaz todas as hipteses usuais do modelo de regresso.
A correlao populacional entre P e S 0,96.
Julgue as seguintes afirmativas:
a. A alta correlao populacional entre P e S dar origem ao problema conhecido
como multicolinearidade.
b. Multicolinearidade no torna viesados os estimadores de mnimos quadrados
ordinrios dos coeficientes, mas faz com que eles sejam inconsistentes.
c. As estimativas dos desvios padro sero viesadas e provavelmente subestimaro
os valores verdadeiros.
d. Na presena de multicolinearidade, os testes t e F no so vlidos.
e. Se, ao invs de uma alta correlao populacional entre P e S, houvesse uma alta
correlao populacional entre A e P ou entre A e S, o problema da
multicolinearidade seria ainda maior.
5. (ANPEC, 1992) Dada a funo de produo Pi = 0 K 1 L2 eui , se houver correlao linear
perfeita entre K e L, necessariamente o modelo no poder ser estimado.
6. (ANPEC, 1993) Considerando o modelo de regresso mltipla
Yi = 0 + 1 X 1i + 2 X 2i + K + k X ki + ei
Pode-se afirmar que para estimar os parmetros j da regresso necessrio que as
variveis explicativas sejam independentes entre si.
7. Para um modelo de RLM com k variveis independentes, corretor afirmar que:
147
Econometria
Multicolinearidade
a. Caso a relao linear simples entre X1 e cada uma das outras k1variveis
independentes seja no perfeita, ento no haver multicolinearidade perfeita
entre X1 e as demais variveis independentes conjuntamente;
b. Caso a varincia para um coeficiente estimado seja elevada, significa que h
necessariamente multicolinearidade;
Respostas
1) a. Renda = 128 + 95 Escolaridade + 9 Experiencia + ; F = 129.47; p = 0.001; S =9,67;
1
2) a. AUTO = 10650,4 + 87,4 IPC 137,9 IPCAuto + 8,8RENDA + e ; F=10,78; p=0,001; t1=1,53;
2
p1=0,151; t2=-4,40; p2<0,001; t3=4,70; p3<0,001; c. R123
= 0,994 ; F123=1138,7; p123<0,001;
2
R213
= 0,994 ;
F213=1128,2;
p213<0,001;
2
R312
= 0,984 ;
F312=406,1;
p312<0,001;
d.
ln(Y ) = 7,42 1,52 ln( X 1 ) + 4,80 ln( X 2 ) + e ; F=5,75; p=0,033; t1=-2,36; p1=0,050;
2
t2=1,068; p2=0,320; R12
= 0,212 ; F12=2,15; p12<0,181; FIV12=1,268.
4) a. V; b. F; c. F; d. F; e. F.
5) V.
6) F.
7) a. F; b. F.
148
Econometria
Onde:
x12J
X X=
x 2 x1
j
j
x x
x
1j
2j
2
2J
x
X=
x x
2
1J
2j
x x
x
1j
1j
2j
2
2J
= x12J x22J ( x1 j x2 j ) 2
r122 =
x x
x x
1j
2
1J
2j
2
2J
( x1 j x2 j ) 2
=1
=
x12J x22J
XT X = 0
Em outras palavras, a matriz XTX ser singula e no inversvel, no sendo possvel obter os
estimadores de MQO para 1 e 2.
149
Econometria
Multicolinearidade
Seja, por exemplo, o caso do modelo de RLM com duas variveis independentes X1 e X2,
representado pela funo das variveis centradas:
yi = 1 x1i + 2 x 2i + ei
x2
= ( X T X) 1 ( XT y ) = 1J
x 2 x1
j
j
x1 x2
x22
j
x1 j y j
x2 y j
j
1 =
x1 y j
x12j
j
e 2 =
x2 y j
x22 j
j
x1 x2
j
= 0 e,
consequentemente:
x12
J
=
0
2
x2 j
0
x1 j y j x1 j y j
=
x2 y j x2 y j
j
j
x12
x22
150
Econometria
x x
x
1j
2
2J
2j
= 1
XT X
x 22J
x2 x1
j
j
x1 j x2 j
2
x
1J
S11 = x12 ;
S 22
2
S11 S 22 S12 S12
1
(1 12 )
(1 12 )
12
S11
S11 S 22
S11S 22
S11 S 22
( XT X) 1 =
2
S12
S12
S122
1
(1
)
(1
)
S11 S 22
S 22
S11 S 22
S11 S 22
S
1
12
(1 r122 )
2
S11 S 22
S11 (1 r12 )
( XT X) 1 =
S
1
(1 r122 )
12
S 22 (1 r122 )
S11 S 22
Finalmente, teremos:
S
1
12
(1 r122 )
2
S11 S 22
S11 (1 r12 )
2
Var( ) =
S12
1
(1 r122 )
S 22 (1 r122 )
S11 S 22
Ou seja:
151
Econometria
Multicolinearidade
Var ( 1) =
Var ( 2) =
Cov( 1, 2) =
2
S11 (1 r122 )
2
S 22 (1 r122 )
S12 2
S11 S 22 (1 r122 )
Assim, quanto maior for a relao linear entre X1 e X2, maior ser r122 e, consequentemente,
maiores sero as varincias de 1 e 2 .Quando o valor de r122 aproximar-se de 1, as varincias
tendero a infinito.
A demonstrao para o caso de k variveis independente semelhante, embora mais trabalhosa.
De maneira geral, teremos:
Var ( j ) =
2
S j (1 R 2j )
152
Econometria
ii)
iii)
iv)
25
Os modelos de regresso logstica, por exemplo, so indicados para ajustes com varivel dependente nominal.
153
Econometria
11.1.
Variveis Binrias
binrias (varivel dummy). Uma varivel binria (D) pode representar dois estados possveis:
(1)
um casal (Y), anos completos de escolaridade da esposa (X) e se o domiclio onde residem assina
televiso a cabo:
Y
TV?
15
Sim
Sim
No
No
Podemos definir a varivel binria D para representar a posse (1) ou no (0) de televiso:
0, se domiclio no assina TV a cabo
Di =
1, se domiclio assina TV a cabo
E estabelecer a seguinte relao linear
Yi = + 1 X i + 2 Di + ei
Onde o modelo a ser ajustado, em notao matricial, seria dado por:
e1
0 1 15 1
e2
2 1 8 1
+
y = X + e =
1
4
1 5 0 e3
6 1 3 0 2 e
Como em qualquer ajuste de RLM, as estimativas de MQO para esse modelo seriam dadas por:
154
Econometria
= ( X T X ) 1 ( X T y )
1
1 15 1
0
1 1 1 1
1 1 1 1
1 8 1
2
15
8
5
3
= 15 8 5 3
1 5 0
4
1 1 0 0
1 1 0 0
1 3 0
6
4 31 12 12 6,36
= 31 323 23 54 = 0,34
12 23 2 2 - 1,45
155
Econometria
Variveis Binrias
inclinaes em relao aos anos de estudo, mas com deslocamentos (interceptos) diferentes para
domiclios com TV e sem TV a cabo.
11.2.
DAi
(2)
(3)
Nessa situao o coeficiente 2 indicaria quanto Y seria, em mdia, maior (ou menor)
para a categoria A (DA=1) que a categoria de referncia B (DA=0), independente do valor de X.
Isso porque seria o mesmo que analisarmos dois modelos possveis para Y:
(4)
(5)
156
Econometria
DAi
DBi
(6)
Yi = + 1 X i + 2 D Ai + 3 DBi + ei
(7)
157
Econometria
Variveis Binrias
(8)
Exemplo 2. Seja uma amostra com informaes sobre a renda (Y), anos de estudo (X) e posio
Xi
Posio Ocupao
D 1i
D2i
100
Empregado
200
Empregado
400
Empregado
400
Autnomo
500
Autnomo
600
Empregador
Onde:
1, se Autnomo
1, se Empregador
e D2i =
D1i =
0, c.c.
0, c.c.
Yi = + 1 X i + 2 D1i + 3 D2i + ei
Em notao matricial, a funo na amostra corresponderia a:
158
Econometria
100 1
200 1
400 1
y = X + e
400 1
500 1
600 1
0
e1
0 e2
0 1 e3
+
0 2 e4
8 1 0 3 e5
e
0 0 1
6
0
4
8
4
0
0
0
1
6 24 2 1 2200 93,3
24
160
12
0
9600
35
=
=
2 12 2 0
900
146,7
1
0
0 1 600 506,7
11.3.
159
Econometria
Variveis Binrias
ln(Yi ) = + Di + ui
(9)
Em outras palavras, o valor esperado de ln(Y) seria unidades superior para D=1 em
comparao categoria de referncia (D=0), j que para D=0 a E[ln(Y)]= e para D=1 a
E[ln(Y)]=+. Baseado no que aprendemos sobre a interpretao de coeficientes em modelos
logartmicos, seramos tambm levados a afirmar que o valor esperado de Y para D=1
(chamaremos de Y1) seria 100% superior ao valor para D=0 (chamaremos de Y0), pois:
Y
Y0 Y1 Y0
ln(Y )
=
=
=
D
1 0
Y0
(10)
Y1 Y0
. O primeiro
Y0
(11)
160
Econometria
Y1 Y0 e + e e e e
=
=
= e 1
Y0
e
e
(12)
11.4.
Y = + 1 X + 2 ( X X *) D + e
(13)
161
Econometria
Variveis Binrias
p
Y = + X + j ( X X *j ) D j + e
j =1
(14)
seis ocupados:
Yi
Xi
Sexo
100
Mulher
250
Mulher
300
Mulher
200
Homem
400
Homem
500
Homem
1, Homem
D=
0, Mulher
Para considerar que as mulheres ganham, em mdia, menos que os homens, independente da
escolaridade, e que os retornos marginais da escolaridade sobre a renda sejam diferentes entre os
sexos, podemos propor o seguinte modelo:
Yi = + 1 X i + 2 Di + 3 Di X i + ei
Onde a varivel DiXi simplesmente o produto de Di por Xi. Para compreender seu significado,
vejamos o que acontece com a reta de regresso para homens e para mulheres:
162
Econometria
4 0 0 e 2
8 0 0 1 e 3
+
0 1 0 2 e 4
4 1 4 3 e 5
e
8 1 8
6
100 1
250 1
300 1
=
y = X + e
200 1
400 1
500 1
E as estimativas de MQO:
= ( X T X ) 1 ( X T y )
6 24 3
24 160 12
=
3 12 3
12 80 12
12
80
12
80
1750 116,7
9000 25
1100 = 100
5600 12,5
163
Econometria
Variveis Binrias
Exemplo 4. Sejam os seguintes dados amostrais para a renda (Y) e anos de estudo (X) de seis
ocupados:
Yi
Xi
100
250
300
450
10
700
13
800
15
Supe-se que o retorno marginal da escolaridade sobre a renda seja diferente para aqueles com
at o 1 grau (X8) e aqueles com 2 grau ou mais de escolaridade (X>8). Uma maneira de
expressar essa relao seria, primeiramente, definindo a varivel binria D para discriminar dois
grupos de escolaridade:
0, se X i 8
Di =
1, se X i > 8
Posteriormente, estabeleceramos a relao:
Yi = + 1 X i + 2 ( X i 8) Di + ei
Em outras palavras, 1 seria a variao marginal na renda para cada ano adicional de
escolaridade at o 8 ano de escolaridade. A partir do 2 grau (X>8 e D=1), a variao marginal
na renda seria de 1+2 para cada ano adicional de escolaridade.
Com os dados da amostra, a representao matricial para o problema seria:
164
Econometria
e1
100 1 0 0
e2
250 1 4 0
300 1 8 0 e
1 + 3
=
y = X + e
450 1 10 2 e4
2 e
700
1
13
5
5
800 1 15 7
e
6
E as estimativas de MQO:
= ( X T X ) 1 ( X T y )
1
6 50 14 2600 116,6
Isso significa que, at o 8 ano de escolaridade (D=0), seria esperada uma variao marginal de
25,1 reais na renda para cada ano adicional de escolaridade. Por sua vez, o retorno marginal da
educao na renda seria, em mdia 46,2 reais superior aps o 8 ano de escolaridade. A figura
abaixo permite ainda visualizar graficamente essa relao:
11.5.
Como sabemos, o teste F pode ser aplicado para verificar se a contribuio marginal de q
variveis independentes na explicao da variabilidade de Y significativa, isolando-se o efeito
da variabilidade j explicada pelas demais kq variveis independentes. Raciocnio anlogo pode
ser aplicado para verificar se a incluso da varivel binria, ou da combinao desta com o
regressor X, contribuem conjuntamente para explicar a variabilidade de Y. Em outras palavras,
podemos aplicar o teste F para verificar se dois grupos da populao, definidos pelas categorias
165
Econometria
Variveis Binrias
da varivel binria, apresentam a mesma funo de regresso. Esse tipo de teste denominado
teste de mudana estrutural, pois, uma vez provada a relevncia da varivel binria no modelo,
significa afirmar que h mudanas significativas na estrutura da funo de regresso (mudana
do intercepto e/ou inclinao da reta) aps a considerao de algum atributo qualitativo de
interesse.
Para visualizarmos a aplicao do teste de mudana estrutural, suponha inicialmente que
tenhamos a seguinte especificao do modelo de regresso:
Yi = 0 + 1 X i + ei
(15)
(16)
Regresses
Paralelas
Regresses
Concorrentes
Regresses
Dissimilares
(17)
H 0 : 2 = 3 = 0
H 1 : 2 0 e / ou 3 0
(18)
Econometria
parmetros, onde o modelo irrestrito seria definido pela equao (16) e o modelo restrito pela
equao (15). A estatstica de teste seria a F, com graus de liberdade do numerador definidos
pelo nmero de restries impostas aos parmetros (no caso, 2) e, no denominador, com os
mesmos graus de liberdade dos resduos do modelo irrestrito:
F=
( SQReg ir SQReg r ) / 2
( SQRes r SQResir ) / 2
ou F =
SQResir /( n 4)
SQResir /( n 4)
(19)
Caso a hiptese nula seja rejeitada pelo teste F, ou seja, caso o valor p associado
estatstica F seja suficientemente pequeno, dizemos que h mudana estrutural na relao entre Y
e X. Para saber se a mudana se deve variao no intercepto, no coeficiente angular ou nos
dois, podemos verificar os resultados dos testes t isolados para cada coeficiente.
O teste de mudana estrutural com variveis binrias uma alternativa quele conhecido
na literatura como teste de Chow26. Neste teste, so ajustadas duas regresses independentes para
cada categoria de anlise e seus resultados comparados atravs de uma mesma estatstica F com
os resultados obtidos para um ajuste com as populaes das duas categorias conjuntamente. A
principal vantagem do teste com variveis binrias que este tambm permite identificar em que
coeficiente se d a mudana estrutural (intercepto ou coeficiente angular). A principal
desvantagem que a especificao do modelo com variveis binrias pode ficar demasiadamente
extensa quando estamos analisando as interaes com inmeras variveis independentes X.
Exemplo 4. Seja a mesma amostra com informaes sobre renda (Y), anos de estudo (X) e sexo
de seis ocupados:
26
Yi
Xi
Sexo
100
Mulher
250
Mulher
300
Mulher
200
Homem
400
Homem
500
Homem
Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models. Econometrica,
1960, p. 591-605.
167
Econometria
Variveis Binrias
1, Homem
D1 =
0, Mulher
O modelo irrestrito, com a considerao da mudana estrutural imposta pela considerao do
sexo da pessoa, seria:
Yi = + 1 X i + 2 Di + 3 Di X i + ei
Com soma dos quadrados da regresso (SQRegir) igual a 98750 e soma dos quadrados dos
resduos (SQResir) igual a 3333,3.
Por sua vez, o modelo restrito seria aquele sem a considerao de mudana estrutural entre os
sexos, ou seja, com restrio aos parmetros 2 e 3 do modelo. Seria, ento, definido por:
Yi = + 1 X i + ei
Yi = 166,7 + 31,25 X i + ei
Nesse caso, a soma dos quadrados da regresso (SQRegr) seria igual a 62500.
A representao do modelo restrito e irrestrito pode ser observada no grfico abaixo:
( SQ Re g ir SQ Re g r ) / 2 (98750 62500) / 2
=
= 10,875
SQ Re sir /( n 4)
3333,3 / 2
Econometria
Exerccios
2,0
1,5
2,5
3,0
5,5
6,5
Econometria
Variveis Binrias
que a economia est dividida em 4 setores: indstria, comrcio, servios e construo. Cada
um dos trabalhadores est em um dos quatro setores e eles so mutuamente exclusivos. Seja
Yi o salrio mensal do trabalhador i e definimos para cada setor uma varivel binria que
em que educ representa o nmero de anos de estudos de cada trabalhador, idade medida
em anos, Homem uma varivel binria que assume valor igual a 1 se i homem e 0 caso
contrrio, DI representa a dummy para indstria, DC para o comrcio e DCons para o setor
de construo. Entre parnteses encontra-se o erro padro.
Baseado nas informaes acima, julgue as seguintes afirmativas:
[ Para a resoluo desta questo talvez lhe seja til saber que se Z tem distribuio Normal
Padro, ento Pr(|Z|>1,645)=0,10 e Pr(|Z|>1,96)=0,05.]
a. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio do setor da indstria igual ao salrio do setor de
servios para trabalhadores com o mesmo nvel educacional, a mesma idade e do
mesmo sexo. A hiptese alternativa que os salrios nestes setores sejam
diferentes;
b. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio no setor da construo igual ao salrio no setor
de comrcio, mantendo educao, idade e sexo fixos. A hiptese alternativa que
os salrios nestes setores sejam diferentes;
c. Com base nos resultados acima, possvel rejeitar ao nvel de 5% de significncia
a hiptese nula de que o salrio nos 4 setores da economia so iguais, mantendo
constante educao, idade e sexo;
d. Os resultados do modelo acima permitem testar a hiptese de que o retorno
salarial entre homem e mulher diferente para cada nvel educacional, ao nvel de
5% de significncia;
170
Econometria
e. Com base nos resultados acima, podemos testar a hiptese de que o intercepto do
modelo linear de salrio em funo da educao, idade e setor para homem
diferente do intercepto do mesmo modelo linear de salrio para mulher;
Respostas
1) a.
Y = 0 + X + 3D ;
b.
1:
t=2;
p=0,139;
2:
t=0,816;
p=0,035;
c.
2) a.
b.
F2,40 =
d.
c.
(12.138 9.302) / 2
= 4,28 ; p=0,021; e. Y = 59,14 + 1,46 Anos 0,43( Anos 29) D
13.270 / 40
3) a. V; b. F; c. F; d. F.; e. V;
171
Econometria
Heterocedasticidade
12. Heterocedasticidade
Introduo
Passaremos agora a verificar as consequncias da ausncia de algum dos pressupostos do
Teorema de Gauss-Markov sobre os estimadores de mnimos quadrados. Um desses pressupe
que a varincia do erro ( 2 ) seja a mesma para todos os valores condicionais de X. Em outras
palavras, pressupe a homocedasticidade (ou homocedasticia) dos erros, palavra de origem
grega que significa igual (homo) disperso (skedasis).
Na presena de heterocedasticidade, a varincia dos erros ser diferente para cada valor
de X e os estimadores de MQO, embora permaneam no viesados e consistentes, deixam de ser
eficientes, ou seja, deixam de apresentar varincia mnima. Neste captulo, alm da definio de
heterocedasticidade, veremos quais suas causas, consequncias, como detect-la e quais as
possveis medidas corretivas.
12.1.
Definio
Dado o modelo de RLM:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei
(1)
(2)
Isso quer dizer que a disperso dos erros ser a mesma em qualquer ponto de regresso
em relao Xj, como esquematiza a figura (3).
(3)
172
Econometria
Por outro lado, na presena de hetocedasticia, a varincia dos erros ser diferente para
cada valor condicional de Xj. Esse comportamento pode ser representado pela expresso (4) e
figura (5).
Var (ei / X 1i , X 2i ,..., X ki ) = i2
(4)
(5)
Econometria
Heterocedasticidade
funo de rendimentos pode implicar em maior variabilidade dos erros para valores
intermedirios da idade, onde o rendimento seria maior;
(6)
Var ( ) = Var ( + i =1
i =1 i
) = Var ( ) +
=
n
n
n
(i =1 xi2 ) 2
(i =1 xi2 ) 2
i=1 xi2
xi ei
(7)
Homocedasticidade
Heterocedasticidade
Var (ei ) = 2
Var (ei ) = i2
Var ( ) =
Var ( ) =
i=1 xi2
i=1 xi2 i2
(8)
(i =1 xi2 ) 2
2
n
i=1 xi2
174
Econometria
12.2.
Identificao
Econometria
Heterocedasticidade
(9)
Exemplo 1. O ajuste linear dos gastos com alimentao (Gasto Aliment, em R$) em funo
A disperso dos valores em torno da reta de regresso j sugere que, medida que a renda
cresce, a disperso dos erros tambm aumenta, indicando a presena de heterocedasticidade.
Essa anlise complementada pelo grfico abaixo, entre o quadrado dos resduos e a varivel
independente renda. Seria natural supor a existncia de heterocedasticidade nesse problema, j
que famlias pobres esto limitadas economicamente a gastos fixos bsicos com alimentao
(feijo com arroz), enquanto famlias ricas podem optar por uma alimentao bsica (gastos
176
Econometria
relativamente baixos) ou gostos extravagantes com alimentao (foie gras e vinho RomaneConti).
A partir do padro de disperso observado, podemos ainda sugerir que a variabilidade dos erros
em funo da renda siga um formato linear, que poderia ser representado pela expresso:
i2 = 2 X i
Y2
...
Yn
X1
X2
...
Xn
ser igual a 4 para n=30 e igual a 10 para n=60)28 e separar observaes em duas
28
Goldfeld e Quandt sugerem que, quando a relao de heterocedasticidade definida por i2=2Xi2, o poder de
177
Econometria
Heterocedasticidade
2j = QMRes j =
SQRes j
gl
onde gl =
nc
(k + 1)
2
(10)
H 0: 12 = 22
22
F
=
12
H1: 12 < 22
onde F ~ Fgl , gl
(11)
(12)
No caso de um modelo de RLM (k>1), a mesma anlise pode-se repetir para cada
varivel independente.
178
Econometria
existncia de heterocedasticidade na relao entre gastos com alimentao e renda. Aps ordenar
as 40 observaes da amostra segundo os valores da renda (X), foram eliminadas 6 observaes
centrais para acentuar a diferena entre o grupo com varincia pequena (SQReg1) e com
varincia grande (SQReg2). Restaram dois subconjuntos com 17 observaes cada. Para cada
subconjunto, ajustou-se uma regresso por MQO e calculou-se o respectivo quadrado mdio dos
resduos:
Amostra 1
Amostra 2
Para testar a hiptese nula de igualdade entre as varincias das regresses, utilizamos a estatstica
F. Colocando a maior varincia no numerador (amostra 2), podemos realizar um teste unicaudal
com probabilidade de erro associada rea no extremo direito da distribuio F.
H 0: 12 = 22
H1: 12 < 22
22 2629,9
com estatstica de teste: F = 2 =
= 4,99
526,7
1
179
Econometria
Heterocedasticidade
(13)
(14)
(15)
Importante destacar que, para testar a hiptese de homocedasticidade dos erros a partir de
(15), consideramos que os erros (ei) no estejam associados s variveis independentes, ou seja,
que a relao a ser testada seja unicamente entre o quadrado dos erros ( ei2 ) e as variveis
independentes. Assim, para testar a hiptese de homocedastidade (15), podemos utilizar a
estatstica F da tabela ANOVA ou a estatstica LM, que o produto do nmero de observaes
da amostra pelo coeficiente de determinao do ajuste auxiliar obtido em (14). As duas
estatsticas dependem do coeficiente de determinao do modelo e, mesmo que os resduos i no
estejam normalmente distribudos, ambas se justificam assintoticamente, ou seja, apresentam as
distribuies de probabilidade esperadas para amostras relativamente grandes. Originalmente, o
teste de Breusch-Pagan baseia-se no resultado da estatstica LM, que ter distribuio 2 com
graus de liberdade dados pelo nmero de variveis independentes do modelo (k):
180
Econometria
(16)
2
Onde Raux
o coeficiente de determinao do modelo auxiliar (14). Assim, quanto
melhor for a qualidade do ajuste, maior ser o valor de LM e mais evidncias teremos para
rejeitar a hiptese nula da homocedasticidade. A probabilidade de erro ao rejeitarmos a hiptese
nula ser dada pela regio crtica representada pelo valor p na Figura (17):
(17)
Goldfeld-Quandt para a relao entre gastos com alimentao e renda, testaremos agora a
hiptese de homocedasticidade pelo teste de Breush-Pagan.
A disperso dos quadrados dos resduos em funo da varivel independente Renda ilustrada
no exemplo 1. A ideia agora analisarmos a qualidade do ajuste dos quadrados dos resduos
como funo da varivel Renda, o nico regressor do modelo de regresso original. O modelo
auxiliar a ser ajustado ser dado por:
ei2 = 0 + 1 Rendai + ui
Estimando por MQO teremos:
ei2 = 2279,5 + 5,21Rendai + ui
Para testar a hiptese nula de homocedasticidade, utilizamos a eststica LM dada pelo produto
entre o nmero de observaes e o coeficiente de determinao do ajuste acima. Como temos
181
Econometria
Heterocedasticidade
apenas uma varivel independente no modelo (Renda), a hiptese nula equivale igualdade a
zero do nico coeficiente angular do modelo (1). Assim, teremos:
H 0: 1 = 0
2
com estatstica de teste: n Raux
= 40 0,301 = 12,0
H
:
0
1 1
Tambm pelo fato de termos apenas uma varivel independente no modelo, a distribuio de
probabilidade da estatstica LM ser uma 2 com 1 grau de liberdade. A probabilidade de erro
associada ao valor 12,0 em uma distribuio 2 com 1 grau de liberdade ser de 0,05%. Em
outras palavras, h fortssimas evidncias para suspeitarmos que os erros sejam heterocedsticos.
O teste proposto por White (1980) permite analisar outras formas de relao entre o
quadrado dos resduos e as variveis independentes. Alm da relao linear com as variveis
independentes Xj propostas pelo teste de Breusch-Pagan, o teste de White tambm considera que
a variabilidade possa estar associada ao quadrado dos regressores ( X 2j ) e a seus produtos
cruzados (XjXp).
Em outras palavras, seja o ajuste de RLM com duas variveis independentes:
Yi = + 1 X 1i + 2 X 2i + ei
(18)
Aps ajustar a equao (18) por MQO, o teste de White analisar a qualidade de um
ajuste auxiliar para o quadrado dos resduos:
ei2 = 0 + 1 X 1i + 2 X 2i + 3 X 1i X 2i + 4 X 12i + 5 X 22i + u i
(19)
(20)
Econometria
(21)
Assim, quanto melhor for a qualidade do ajuste, maior ser o valor de LM e mais
evidncias teremos para rejeitar a hiptese nula da homocedasticidade. A probabilidade de erro
ao rejeitarmos a hiptese nula ser dada pela regio crtica representada pelo valor p na figura
(22):
(22)
H 1: 1 0 ou 2 0
183
Econometria
Heterocedasticidade
A probabilidade de erro associada ao valor 14,6 em uma distribuio 2 com 2 graus de liberdade
ser de 0,08%. Em outras palavras, h fortssimas evidncias para suspeitarmos que os erros
sejam heterocedsticos.
12.3.
(23)
0 0
0
0 0 2
= V 2
... 0
0 vn
(24)
184
Econometria
X1
Xk
Yi
e
1
=
+ 1 i + ... + 2 i + i
vi
vi
vi
vi
vi
(25)
vi ) seria a constante
2, pois:
2
1
e
i
= E (ei2 ) = 2
E
vi vi
(26)
0
y = X + e onde =
0
0
1
v2
0
0
0
0
...
0
0 1 v 2
(27)
(28)
(29)
2 = ( XT X) 1 2 = ( XT V 1X) 1 2
(30)
Econometria
Heterocedasticidade
S 2 = ( XT V 1X) 1 2
(31)
Onde:
)
2 =
T
SQRes
n - (k + 1)
T
(32)
T
SQRes = y V y X V y
A questo que agora fica como estabelecer a matriz de fatores V e sua equivalente
matriz de ponderaes . Veremos a seguir duas situaes: i) quando a relao de
heterocedasticidade conhecida; ii) quando a relao de heterocedasticadade desconhecida e
devemos trabalhar com estimativas obtidas a partir de comportamentos observados na amostra.
12.3.1. Funo de heterocedasticidade conhecida
0
X j2
0
0
0
0
0 2
= V 2
... 0
0 X jn
(33)
0
=
0
X j2
0
0
...
0
0
0 1
X jn
(34)
186
Econometria
Exemplo 5. Partindo do pressuposto que a varincia dos erros da relao entre gastos com
alimentos e renda seja proporcioanl ao valor de X (Renda), podemos obter estimativas de mnima
varincia aplicando a tcnica de MQP. A varincia dos erros seria dada por:
2
Var (ei ) = X i
X 1 ... 0
ou Var (e) = ... ... ... 2 = V 2
0 ... X 40
0,14
Graficamente podemos perceber que o ajuste de MQP (em azul) aproxima-se mais do
comportamento observado para as observaes de baixa variabilidade (menores rendas) do que
aquele obtido com MQO (tracejado em vermelho):
Podemos ainda testar a significncia dos estimadores de MQP. O primeiro passo obter as
estimativas de suas varincias:
323,5 0,46
S 2 = ( X T V 1 X) 1 2 =
0,46 0,0007
Onde:
2 =
SQRes y T V 1y T X T V 1y
=
= 1,808
n k 1
38
Teremos, ento, as seguintes estatsticas para testar as hipteses nulas de de que os coeficientes
so, individualmente, iguais a zero:
187
Econometria
Heterocedasticidade
t =
0
t =
1
0 0
S
1 0
S
3,19
= 1,77
323,5
0,14
= 5,22
0,0007
p = 0,084
p = 6 10 6
Considerando uma chance mxima de erro de 10%, podemos afirmar que os dois coeficientes
so significativos, ou seja, que so diferentes de zero.
12.3.2. Funo de heterocedasticidade desconhecida Mnimos Quadrados Generalizados
Factveis
(35)
v ( x) = e 0 +1X1+...+ k X k
(36)
Ou seja:
A opo pela forma exponencial proposta em (36), em detrimento das forma linear
proposta pelo teste de Breusch-Pagan (14), ou mesmo da forma quadrtica proposta pelo teste de
White (18), justifica-se, entre outros motivos, pelo fato de essa garantir que os valores estimados
para vi em (36) sejam todos positivos. Como sabemos, a varincia no pode assumir valores
negativos, o que no seria garantido caso os mesmos sejam fossem etimados, por exemplo,
segunda a funo linear proposta pelo teste de Breusch-Pagan.
Utilizando o quadrado dos erros como aproximao para a varincia, podemos propor o
seguinte modelo de relacionamente entre a variabilidade dos erros e as variveis independentes:
ei2 = e
0 +1 X1i +...+ k X ki
ui
(37)
(38)
Econometria
(39)
Uma vez estimado o modelo (39) por MQO, podemos estimar o fator vi para cada
observao da amostra por:
vi = e
0* +1X1i +...+k X ki
(40)
O fator vi pode ento ser substitudo na matriz de ponderaes em (27) para obter os
estimadores de MQP, agora denominados de estimadores de Mnimos Quadrados Generalizados
Factveis (MQGF). Uma considerao importante sobre a propriedade dos estimadores de
MQGF que, pelo fato de substituirmos vi por vi , esses acabam viesados, embora sejam
consistentes e assintoticamente mais eficientes que os estimadores de MQO.
Exemplo 6. Para obtermos os estimadores de MQGF da relao entre renda e consumo de
alimentos, o primeiro passo estimar, por MQO, a relao entre o quadrado dos resduos do
modelo orignal e a nica varivel independente segundo a funo:
vi = e 3,363+0,004 Rendai
A partir desses resultados, nossa matriz de ponderao V ser estimada por:
v1 ... 0
v1 ... 0
2
= ... ... ...
Var (e) = ... ... ... onde V
0 ... v
0 ... v
40
40
As estimavas diferem marginalmente das obtidas por MQO e MQP. Devemos, entretanto,
considerar que o MQGF seria apropriado, sobretudo, para amostras relativamente grandes, j que
seus estimadores so viesados para amostras pequenas.
189
Econometria
12.4.
Heterocedasticidade
(41)
Var ( ) =
i=1 xi2 i2
n
(i =1 xi2 ) 2
(42)
Precisamos agora de um estimador para essa varincia, ou seja, um estimador que seja
robusto presena de heterocedasticidade. De acordo com White (1980), essa varincia pode ser
estimada consistentemente por:
n
S 2
x 2 e 2
i =1 i i
=
n
(i =1 xi2 ) 2
(43)
Onde ei2 so os resduos obtidos pelo ajuste da equao (42) por MQO.
De maneira genrica, podemos considerar um modelo de RLM dado por:
Yi = + 1 X 1i + 2 X 2i + ... + k X ki + ei
(44)
S 2
j
u 2 e 2
i =1 j i
=
n
(i =1 u 2j ) 2
i
(45)
190
Econometria
robusto heterocedasticidade e sua autoria atribuda Halbert White. Seu uso justifica-se
quando trabalhamos com amostras grandes, j que assintoticamente no viesado, ou seja,
converge, em amostras grandes, para a a real varincia na presena de heterocedasticidade (42).
Analogamente, as estatsticas t e F baseadas no estimador de White tambm se justificam apenas
assintoticamente.
A grande vantagem desse procedimento que no necessita estabelecer premissas sobre a
forma de heterocedasticidade dos erros (como o MQP), tampouco gera estimadores viesados dos
coeficientes para amostras pequenas (como os MQGF). A desvantagem que, para amostras
relativamente pequenas, as estatsticas t e F baseadas nas varincias robustas no apresentaro as
respectivas distribuies de probabilidade t e F.
Exemplo 7. O ajuste de MQO para a relao entre gastos com alimentao e renda forneceu as
seguintes estimativas:
Gasto Aliment i = 40,8 + 0,13 Rendai + ei
S 2 =
2
n
x2
i =1 i
1.429
= 0,00093 = 0,0312
1.532.463
S 2
t=
0,13
= 3,36
0,038
191
Econometria
Heterocedasticidade
O valor p associado esta estimativa seria 0,00178. Em outras palavras, considerando o erro
padro robusto heterocedasticidade, haveria apenas 0,2% de chance de erro se afirmssemos
que h relao significativa entre renda e gastos com alimentao.
Exerccios
1. O arquivo DistanciaPercorridaFerias.XLS contm informaes sobre a distncia percorrida
por famlias em frias (Dist, em km), renda mensal (Renda, em reais) e idade do chefe da
famlia (Idade). Pressupe-se que a distncia percorrida seja uma funo linear da renda e da
idade do chefe da famlia.
a. Sem qualquer tipo de anlise prvia, h motivos para suspeitar de
heterocedasticidade nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existncia de heterocedasticidade a partir da anlise grfica.
d. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
e. Teste a existncia de heterocedasticidade a partir do teste de White.
f. Pressupondo que a varincia dos resduos seja proporcional renda, obtenha os
estimadores de MQP.
g. Analise a significncia das estimativas obtidas em (f).
2. O arquivo FuncaoInvestimaneto.XLS contm informaes sobre o investimento de uma
firma (Inv em milhes de US$), seu valor em aes (V, em milhes de US$) e capital da
firma (K, em milhes de US$). Supondo que o investimento seja linearmente determinado
pelo valor da firma e seu capital, pede-se:
a. Obtenha os estimadores de MQO.
b. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
c. Teste a existncia de heterocedasticidade a partir do teste de White.
d. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
empresa, ajuste a regresso por MQP.
e. Analise a significncia das estimativas obtidas em (d).
192
Econometria
3. Uma amostra de 6 famlias forneceu as seguintes informaes sobre gastos com alimentos
(Gasto em mil reais) e renda (Renda, em mil reais):
Gasto
0,4
0,6
2,8
1,2
4,2
2,2
Renda
Supondo que os gastos sejam linearmente determinados pela renda das famlias, pede-se:
a. Obtenha os estimadores de MQO.
b. Teste a existncia de heterocedasticidade a partir do teste de Goldfeld-Quandt.
Tendo em vista o limitado tamanho da amostra, no elimine observaes centrais
para realizao do teste.
c. Teste a existncia de heterocedasticidade a partir do teste de Breusch-Pagan.
d. Teste a existncia de heterocedasticidade a partir do teste de White.
e. Supondo que a heterocedasticidade seja diretamente proporcional ao valor da
renda, ajuste a regresso por MQP.
f. Analise a significncia das estimativas obtidas em (d).
g. Obtenha as estimativas de MQGF.
4. (ANPEC, 2010) Considere as seguintes afirmaes referentes ao modelo de regresso linear
clssico com regressores estocsticos:
yi = 0 + 1 x1i + 2 x 2i + i , i=1..n
em que E[ i | x1 , x2 ] = 0 e Var[ i | x1 , x 2 ] = 2 . Ento, se a hiptese de homoscedasticidade
for violada, os estimadores de mnimos quadrados ordinrios de 0, 1 e 2 sero viesados.
5. (ANPEC, 2009) Considere o seguinte modelo de regresso linear: y = 0 + 1 x + u , em que
193
Econometria
Heterocedasticidade
Respostas
1) b. Dist = 5,52 + 0,27 Renda + 11,07 Idade + e ;
e. e 2 = 3375 + 163Renda 2556 Idade 0,02 Renda 2 + 44,7 Idade 2 2, ,45Renda Idade + u ;
nR2=7,99; p=0,157; f. Dist = 100,9 + 0,24 Renda + 9,66 Idade + e ; g. 0 : t=-0,798; p=0,461;
194
Econometria
13. Autocorrelao
Introduo
Os dados utilizados em anlises economtricas podem ser classificados em trs grupos
principais: i) dados de corte transversal (cross section): quando indivduos independentes so
observados em um mesmo ponto do tempo (por exemplo, dados sobre a renda e escolaridade de
um grupo de pessoas em um determinado perodo); ii) dados de sries temporais (time series):
quando um mesmo indivduo observado em perdos consecutivos de tempo (por exemplo,
dados sobre o consumo e renda de um pas entre 1981 e 2010); iii) dados em painel (panel data):
quando um grupo de elementos amostrais observado em perodos consecutivos de tempo (por
exemplo, dados sobre o consumo e renda para cada um dos pases da Amrica do Sul entre 1981
e 2010).
Uma caracterstica da anlise de dados de sries temporais que valores de perodos
correntes tendem a estar associados a valores de perodos passados. Seria o caso, por exemplo,
da rea plantada em determinado ano que dependeria da rea plantada no ano anterior, ou do
consumo em determinado trimestre, que dependeria no somente da renda presente como da
renda nos trimestres anteriores. Para contornar esse problema, modelos com dados de sries
temporais costumam conter valores defasados (de perodos anteriores) das variveis Y e X entre
os regressores.
Entretanto, quando a relao entre valores presentes e passados reproduz-se nos erros do
modelo, quebrada uma das premissas do MCRL, a ausncia de autocorrelao nos erros. Da
mesma forma que ocorre com a heterocedasticidade, na presena de autocorrelao os
estimadores de MQO deixam de ser eficientes, embora permaneam no viesados e consistentes.
Adicionalmente, o estimador de MQO para a varincia dos coeficentes do modelos passa a ser
tendencioso. Neste captulo, alm da definio de autocorrelao, discutiremos quais suas
consequncias, determinantes, tcnicas para detect-la e as principais medidas corretivas.
13.1.
Definio
Seja o modelo de RLM para um conjunto de dados de sries temporais:
Yt = + 1 X 1t + 2 X 2t + ... + k X kt + et
(1)
195
Econometria
Autocorrelao
Cov(et , et + s ) = E (et et s ) 0
(2)
et = et 1 + ut
(3)
E (u t ) = 0
E (ut2 ) = u2
E (u t u t s ) = 0
(4)
No Autocorrelacionado
Autocorrelacionado
(5)
29
Embora o coeficiente de autocorrelao possa tambm assumir o valor 1 ou 1, veremos adiante que esse
resultado implicaria em um problema mais srio no modelo de regresso: no estacionariedade dos erros.
196
Econometria
So vrios os motivos que podem levar autocorrelao no erros, entre os quais podemos
destacar:
Econometria
Autocorrelao
de os estimadores das varincias dos coeficientes serem viesados. Assim, estatsticas de teste
baseadas na variabilidade dos coeficientes, como as estatsticas t e F, deixariam de ser vlidas.
Para melhor compreender esse problema, suponha que estejamos trabalhando com um modelo de
RLS:
Yt = + X t + et
(6)
= t =1
xt yt
S 2
t =1 xt2
2
n
t =1 xt2
(7)
Autocorrelacionado
Var (et ) = 2
Var (et ) =
Cov(et , et +s ) = 0
Cov (et , et + s ) = s
Var ( ) =
x2
t =1 i
Var ( ) =
x2
t =1 i
+2
1 2
2
1 2
(8)
n 1 n t
s xt xt + s
x 2 t =1 s =1
t =1 i
198
Econometria
13.2.
Identificao
Caso no haja conhecimento a priori da existncia de autocorrelao nos erros, deve-se
analisar o comportamento dos resduos para inferir sobre sua existncia. Veremos quatro formas
principais de anlise: i) anlise grfica; ii) teste t para regressores estritamente exgenos; iii)
teste de Durbin-Watson para o MCRL; iv) teste de Breusch-Godfrey para ordens superiores e
regressores no estritamente exgenos.
(a)
(b)
(c)
(d)
(9)
Exemplo 1. Observou-se, durante 34 trimestres, a relao entre rea plantada (rea, em mil
hectares) e preo (Preo, em reais por tonelada) da cana-de-aucar em determinada regio. A
199
Econometria
Autocorrelao
disperso dos valores observados e o ajuste de MQO estabelecido, com seus respectivos erros
padro (em parnteses), so apresentados abaixo:
reat =
2,54
(17,8)
4,79
(0,63)
Preot + t
Quando se observa a distribuio dos resduos (t) ao longo do tempo, observa-se um provvel
padro cclico, o que sugeriria a existncia de autocorrelao nos erros do modelo.
Afinal, natural supor que a rea plantada no trimestre t no dependa apenas do preo no ano t,
mas tambm de informaes observadas em perodos anteriores. A rea plantada em um
trimestre pode ser influenciada tanto pela rea plantada no trimestre anterior, pelo preo pago
pela cana-de-aucar no perodo anterior, como por outros fatores no previstos pelo ajuste
(poltica de incentivos do governo, previses sobre os preos futuros e expectativas sobre o
estabelecimento de usinas na regio, por exemplo) que tenham lento amortecimento no tempo.
Ademais, o prprio ajuste da oferta pelo produtor em funo de variaes no preo da cana
podem ser pouco flexveis e, consequentemente, tambm gerar um lento amortecimento no
tempo.
200
Econometria
(10)
H 0: = 0
H1: > 0
(11)
et et 1
= t =2 2
n
t =2 e t 1
Sendo S =
2
n
t =2 e
e t=
(12)
u
e 2 = t =2 t 1
(n 1) 1
t 1
Econometria
palavras, o estimador
Autocorrelao
(13)
(14)
Exemplo 2. Para testar a presena de autocorrelao de 1 ordem no modelo para a rea plantada
em funo do preo da cana-de-aucar, ajustamos o seguinte modelo por MQO:
et = 0,252et 1 + ut
A estatstica t associada ao coeficiente de autocorrelao foi estimada por:
t=
0,252
= 1,443
0,175
Das 34 observaes originais, a primeira foi perdida em funo da ausncia de uma estimativa
para t1 quando t=1. Considerando ainda o nico coeficiente do modelo, teremos 32 graus de
liberdade para a estatstica t e o valor p associado ao teste unicaudal ser dado por:
202
Econometria
H 0: = 0
H1: > 0
(15)
A estatstica de Durbin-Watson (DW) proposta para testar essas hipteses ser dada por:
n
(e et 1 ) 2
t =2 t
DW =
n
t =1 et 2
(16)
2
2
e 2t =2 et et 1 + t =2 et 1
t =2 t
DW =
(17)
n
2
e
t =1 t
Quando n for relativamente grande, teremos et2 aproximadamente igual a et21 e a
et et 1
DW 2(1 t =n2 2 )
t =1 et
(18)
t =2 et et 1 ,
n
t =1 et 2
(19)
Econometria
Autocorrelao
teremos para rejeitar a hiptese nula, sugerindo a existncia de correlao serial positiva. Embora
possvel, valores de DW prximos de 4 dificilmente ocorrem, pois implicariam correlao serial
negativa, fenmeno pouco comum em sries temporais.
Os valores crticos da tabela de Durbin-Watson apresentam uma importante
peculiaridade. Diferentemente das estatsticas de teste padro, como t e F que se baseiam em
valores observados na amostra, a estatstica DW baseia-se em valores estimados a partir da
amostra (t). Essa peculiaridade condiciona sua distribuio de probabilidade aos valores
observados para as variveis independentes (X) na amostra. Para contornar essa limitao,
Durbin e Watson propuseram uma tabela com possveis valores extremos de DW em funo do
nmero de variveis independentes (k) e observaes da amostra (n).
Assim, dados os valores de n e k, pode-se consultar o valor crtico inferior (dI) e superior
(dS) para DW supondo que sua distribuio esteja, respectivamente, o mais concentrado possvel
esquerda ( DWnI,k ) e direita ( DWnS,k ), como mostra a Figura 13:
(20)
A novidade nessa anlise a existncia de uma zona de indeciso, entre dI e dS, onde no
se pode rejeitar nem aceitar H0, j que cada distribuio extrema proporcionaria uma deciso
diferente:
(21)
Alguns autores sugerem, entretanto, que o limite superior da tabela (ds) seja uma boa
aproximao para o real valor crtico da distribuio na maioria das situaes.
Em comparao ao teste t, a vantagem da estatstica de Durbin-Watson o fato de
apresentar uma distribuio especfica de probabilidade, no dependendo apenas de
aproximaes assintticas. Entretanto, a validade do teste de Durbin-Watson tambm depende de
algumas consideraes importantes. Primeiro, o teste depende fundamentalmente das premissas
do MCRL, como a homocedasticidade e normalidade dos erros. O teste tambm limita-se ainda
deteco de esquemas autorregressivos de 1 ordem (et=et1+ut). Ademais, todos os regressores
204
Econometria
devem ser no aleatrios, o que no ocorrer, por exemplo, quando temos um componente
autorregressivo de Y entre as variveis explanatrias.
t =2 et et 1 = 0,2419
2
n
t =1 et
(e et 1 ) 2
t =2 t
DW =
= 1,4745
n
2
e
t =1 t
Para conhecermos os pontos crticos da tabela DW, devemos considerar os valores inferior e
superior para uma amostra com 34 observaes (n=34) e apenas a varivel Preo como regressor
(k=1).
Como o valor de DW obtido para os resduos (1,4745) est na regio de indeciso, o teste
inconclusivo, ou seja, no h evidncias, a 5% de significncia, para rejeitar ou no H0. Em
outras palavras, no podemos afirmar se os erros so ou no autocorrelacionados para uma
significncia de 5%.
205
Econometria
Autocorrelao
(22)
H 0: 1 = 2 = 0
H 1: 1 0 ou 2 0
(23)
(24)
(25)
(26)
H 0: 1 = ... = q = 0
H1: j 0
(27)
As hipteses seriam:
Supondo agora um modelo de RLM com k regressores, a equao a ser estimada seria:
et = 0 + 1 X 1t + ... + k X kt + 1et 1 + ... + q et q + ut
(28)
Econometria
LM = (n q) Re2
(29)
(30)
13.3.
dos resduos, necessrio aplicar uma outra tcnica para obter estimadores que sejam os
MELNV. Analogamente ao procedimento aplicado para a heterocedasticidade, trabalharemos
com o mtodo de Mnimos Quadrados Generalizados (MQG). Neste caso, o MQG transformar
as variveis do modelo original de tal forma que o modelo transformado apresente erros no
autocorrelacionados e possa ser estimado por MQO de maneira eficiente e no viesada.
207
Econometria
Autocorrelao
Yt = + 1 X 1t + ... + 2 X kt + et
(30)
(31)
Yt 1 = + 1 X 1t 1 + ... + 2 X kt 1 + et 1
(32)
(33)
Perceba que este modelo apresenta os mesmos coeficientes de (30), que podem, agora,
ser obtidos a partir de MQO, j que os erros transformados (ut=etet1) so, por definio, no
autocorrelacionados (ver equao 31). Perceba ainda que, em substituio s variveis originais,
utilizam-se, agora, as variveis transformadas:
(34)
Simplificadamento, teremos:
(35)
Econometria
1 2
T
Var (e) = E (ee ) =
1 2
...
n1
...
...
n 2
n 3
... n 1
... n 2
2
2
... n 3 = V
...
...
...
1
(36)
(37)
T = V 1
(38)
Onde:
A partir de desenvolvimento algbrico, podemos chegar matriz V1:
V 1
0
1
1 + 2
= 0
1+ 2
...
...
...
0
0
...
...
0
... 0
... 0
... ...
1
(40)
E matriz :
1 2
= 0
...
0
1 ... 0
0 ... 1
0
1
0
0
...
...
(39)
Yt* = (Yt Yt 1 )
X *jt = ( X jt X jt 1 ) .
Para
t=1,
teremos
Y1* = Y1 1 2
e
209
Econometria
Autocorrelao
(40)
S 2 = ( X T V 1 X) 1 2
(41)
Onde:
2 =
y T V 1y T X T V 1y
n (k + 1)
(42)
210
Econometria
0,5
1 2
Var (e) =
0,5
1 0,5 2
...
0,5 33
0,5
0,5 2
0,5
1
...
0,5 32
...
0,5 31
... 0,5 33
... 0,5 32
2
2
... 0,5 31 = V
...
...
...
1
E a inversa de V:
V 1
0
0,5
1
0,5 1 + 0,5 2
0,5
= 0
0,5 1 + 0,5 2
...
...
...
0
0
...
...
0
...
0
...
0
... ...
0,5 1
5,056
Area = 3,34 + 5,056 Precot + et
Embora no haja diferenas expressivas entre a reta de MQO (linha tracejada) e MQG (linha
contnua), devemos considerar que as estimativas das varincias de MQO sero viesadas. No
caso do MQG, as varincias estimadas sero obtidas da matriz:
727,4 21,35
S 2 = ( XT V 1X) 1 2 =
21,35 0,823
Onde:
2 =
SQRes
y T V 1y T X T V 1y
=
= 1563,9
n k 1
32
211
Econometria
Autocorrelao
t =
t =
5,056
= 5,572
0,823
(43)
V = 0
1 + 2
...
...
...
0
0
...
...
0
... 0
... 0
... ...
1
(44)
(45)
1X) 1 2
S 2 = ( XT V
(46)
Onde:
2 =
1y T XT V
1y
yT V
n (k + 1)
(47)
Econometria
Exemplo 6. Para obtermos os estimadores de MQGF da relao entre rea e preo da cana-deaucar, o primeiro passo estimar, por MQO, a funo de autcorrelao de 1 ordem para os
resduos:
et = 0,252et 1 + ut
A partir da estimativa = 0,252 , termos a seguinte estimativa para a matriz de transformao
das covarincias dos erros:
1
0,252
1
=
0,252 2
V
1 0,252 2
...
0,25233
0,252
0,252 2
0,252
1
...
0,25232
...
0,25231
... 0,25233
... 0,25232
... 0,25231
...
...
...
1
E para a inversa V 1 :
213
Econometria
Autocorrelao
0
0,252
1
0,252 1 + 0,252 2
0,252
V = 0
0,252 1 + 0,252 2
...
...
...
0
0
...
...
0
...
0
...
0
...
...
0,252 1
4 ,903
Area = 0,007 + 4,903Precot + et
As diferenas entre as retas de MQO (vermelho tracejado) e MQGF (roxo contnuo) so quase
imperceptveis. Assintoticamente, as estimativas de MQGF seriam mais eficientes que as de
MQO, embora sua exatido possa ser discutvel em razo do nmero razoavelmente pequeno de
observaes na amostra.
13.4.
modelo podem ser tendenciosas para amostras pequenas e vlidas apenas para amostras grandes.
Por outro lado, embora os estimadores dos coeficientes de MQO sejam ineficientes na presena
de autocorrelao, permanecem no viesados. Assim, uma alternativa simples seria corrigirmos
apenas os estimadores das varincias de MQO, obtendo estimadores robustos presena de
autocorrelao.
Primeiro, vamos relembrar a varincia do estimador do coeficiente angular de um modelo
de RLS na presena de autocorrelao:
214
Econometria
Var ( ) =
x2
t =1 t
+2
n 1 n t
s xt xt +s
x 2 t =1 s=1
t =1 t
(48)
Um estimador robusto para essa varincia poderia ser obtido, por exemplo, substituindo
e 2 pelos seus respectivos estimadores:
Var ( ) =
x2
t =1 t
+2
n 1 n t
s xt xt +s
x 2 t =1 s=1
t =1 t
(49)
Exerccios
1. O arquivo FuncaoCobbDouglas.XLS contm informaes anuais sobre produto bruto real
(Y), dias trabalhados (L) e insumos de capital real (K) em Taiwan entre 1958 e 1972.
Suponha que a relao entre as variveis seja dada por:
215
Econometria
Autocorrelao
2. O arquivo PrecoCobre.XLS contm informaes anuais sobre preo mdio do cobre nos
EUA (Preco, em US$/libra) e PIB (em bilhes de dlares). Suponha que a relao entre as
variveis seja dada por:
ln(Preco) = + ln(PIB) + et
a. Sem qualquer tipo de anlise prvia, h motivos para suspeitar de autocorrelao
nesse modelo?
b. Obtenha os estimadores de MQO.
c. Verifique a existncia de autocorrelao a partir da anlise grfica.
d. Verifique a existncia de autocorrelao a partir do teste de Durbin-Watson.
e. Pressupondo que o coeficiente de autocorrelao dos erros seja de 0,2, obtenha os
estimadores de MQG. Analise suas propriedades em comparao s do MQO.
f. Analise a significncia das estimativas obtidas em (e).
3. O arquivo PescaDias.XLS contm informaes anuais sobre o total de peixes pescados
(Pesca, em mil toneladas) e dias dedicados pesca (Dias, em mil unidades). Suponha que a
relao entre as variveis seja dada por:
Pesca = + Dias + et
a. Obtenha os estimadores de MQO.
b. Analise a existncia de autocorrelao pelo teste t.
c. Analise a existncia de autocorrelao a partir do teste de Durbin-Watson.
d. Analise a existncia de autocorrelao de 2a ordem pelo teste de BreuschGodfrey.
e. Obtenha os estimadores de MQGF.
f. Analise a significncia das estimativas obtidas em (e).
4. (ANPEC, 2010) Considere as seguintes afirmaes referentes ao modelo de regresso linear
clssico com regressores estocsticos:
yi = 0 + 1 x1i + 2 x 2i + i , i=1..n
216
Econometria
Respostas
1) b. ln(Yt ) = 3,34 + 1,50 ln(Lt ) + 0,49 ln(K t ) + et ; d. = 0,366 ; DW1,269;
e. ln(Yt ) = 2,54 + 1,26 ln(Lt ) + 0,54 ln(K t ) + et ; f. : t=-0,851; p=0,412; 1: t=2,039;
p=0,064; 2: t=4,750; p<0,001;
2) b. ln( Precot ) = 0,824 + 0,682 ln(PIBt ) + et ; d. = 0,215 ; DW1,570;
d. ln(Precot ) = 0,922 + 0,695 ln(PIBt ) + et ; f. : t=-1,487; p=0,161; : t=8,087; p<0,001
3) a. Pescat = 5,648 + 1,068Diast + et ; b. t= 0,658; p=0,539; c. = 0,230 ; DW=1,539;
d.LM=1,793; p=0,408; r. Pescat = 9,366 + 0,841Diast + et ; : t=1,026; p=0,344; : t=1,453;
p=0,196;
4) V.
5) V.
217
Econometria
Autocorrelao
E (ut2 ) = u2
E (u t u t s ) = 0
A partir dessas premissas, vamos, primeiro, calcular a varincia dos erros et (2):
2 = 2 2 + u2
Finalmente:
u2
Var (et ) = =
1 2
2
u2
Cov(et , et 1 ) =
= 2
2
1
Se utilizarmos o mesmo racioccio para calcularmos a covarincia entre et e et2 teremos:
E (et et 2 ) = E[( et 1 + ut )(et 2 )] = E[( 2 et 2 + ut + ut 1 )(et 2 )] = 2 E (et22 )
E, sucessivamente, para a covarincia entre et e ets teremos:
218
Econometria
Cov(et , et s ) = s
u2
= s 2
2
1
Var ( ) = Var ( + t =1
xt et
t =1 xt2
xt et ) 2
) = E ( t =n1
t =1 xt2
n 1
Var ( ) =
n t
E (t =1 xi2 ei2 + 2t =1 s =1 xt xt + s et et + s )
n
(t =1 xt2 ) 2
n 1
n t
t =1 t
Var ( ) =
n
(t =1 xt2 ) 2
Var ( ) =
E (et2 )
n
t =1 xt2
n 1
n t
2t =1 s =1 xt xt + s E (et et + s )
n
(t =1 xt2 ) 2
Var ( ) =
n
2
t =1 xt
+2
n 1n t
s xt xt + s
n
2
t =1 xt t =1s =1
219
Econometria
Equaes Simultneas
220
Econometria
14.1.
Origem do problema
Um dos pressupostos do MCRL que, controlando o valor de X (varivel independente),
possvel observar variaes aleatrias da varivel dependente (Y). Entretanto, sabemos que, em
muitas situaes, no podemos facilmente controlar o valor de X, como o clima que determina a
produtividade agrcola ou a sade do trabalhador que determina a disponibilidade e a renda do
trabalho.
Caso os valores de X no sejam fixos, mas comportem-se como uma varivel aleatria,
com probabilidades associadas ocorrncia de cada valor, ser necessrio verificar um outro
pressuposto, o da ausncia de correlao entre as variveis independentes (X) e os erros (e) do
modelo. Em outras palavras, devemos observar se:
Cov(ei , X i ) = 0 ou E (ei X i ) = 0
(1)
221
Econometria
Equaes Simultneas
(2)
Mas tambm sabemos que, pela mesma teoria microeconmica, medida que o preo de
um produto aumenta, o produtor sentir-se- mais estimulado a produzi-lo, aumentando sua
oferta. A funo oferta relacionando o preo da mercadoria (P) quantidade ofertada (Qo) pode
ser representada por:
Q o = 0 + 1 P + e o
(3)
(4)
30
Embora a representao grfica no condiga com a funo estatstica (Q no eixo das abscissas), essa a forma
222
Econometria
para cima, pois os consumidores estariam dispostos a pagar um pouco mais pela mesma
quantidade demandada.
Raciocnio anlogo vlido para a funo oferta. Se, por exemplo, a quantidade ofertada
reduzir de Q0 para Q2 por fatores alheios ao preo (efeito de eo, tais como greve ou fatores
ambientais), o preo tambm aumentar para ajustar-se demanda. Haveria, pois, um
deslocamento da funo oferta para cima, j que a manuteno de uma oferta superior s seria
possvel a um custo superior.
(5)
De maneira geral, podemos dizer que variaes de ed iro afetar tanto Q quanto P, assim
como eo tambm afetar ambas as variveis. Em outras palavras, P e Q so conjuntamente
dependentes e tanto ed quanto eo possuem relao com P.
14.2.
Definio
Um sistema de equaes simultneas representa a relao de mtua determinao entre
(6)
Variveis predeterminadas consideram, alm das variveis exgenas, variveis endgenas de perodos defasados
223
Econometria
Equaes Simultneas
(7)
A existncia de relao mtua entre Y1 e Y2 faz, por exemplo, com que fatores no
explicados pelo modelo da primeira equao (e1) afetem, simultaneamente, Y1 e Y2, causando
correlao entre os erros e1 e a varivel independente Y2. Da mesma forma, haver relao linear
entre a varivel independente Y1 e os erros aleatrios da segunda equao (e2). Com a quebra do
pressuposto da ausncia de relao entre erros e variveis independentes, a regresso por MQO
traria estimadores viesados e inconsitentes.
Exemplo 1. Vamos, inicialmente, considerar apenas a relao estabelecida pela funo demanda
isoladamente. Supondo que, alm do preo (P), a renda (R) tambm influencie a quantidade
demandada (Qd), teremos:
Q d = 0 + 1P + 21R + e d
Nessa representao isolada pressuporamos que, dados os valores do preo (P) e da renda (R)
seriam determinados exogenamente e, em adio ao erro aleatrio no explicado pelo modelo
(ed), determinariam a demanda (Qd).
Por outro lado, teramos a funo oferta relacionando preo quantidade ofertada (Qo):
Q o = 0 + 1P + e o
Nessa representao isolada, o preo (P) seria considerado um fator exgeno que, em conjunto
com o erro aleatrio no explicado pelo modelo (eo), determinaria a oferta da mercadoria.
Considerando agora o equilbrio do mercado, teramos no somente que Qd=Qo (genericamente
Q), mas tambm que fatores no explicados pelas equaes (ed e eo), como mudanas climticas
224
Econometria
Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q
C = 0 + 1Y + e
Y =C+I
A funo identidade define a renda como soma do consumo mais investimento. No h erro
aleatrio nessa representao pois no se trata de um modelo estatstico, mas sim de uma relao
matemtica determinstica.
225
Econometria
Equaes Simultneas
A partir das relaes estabelecidas, fica claro que o consumo dependeria da renda, da mesma
forma que a renda dependeria do consumo. Essa interao entre as funes de consumo e renda
pode ser representada por:
C = 0 + 1Y + e
Y = C + I
Pela funo consumo, variaes em C devido a fatores alheios renda (e) tambm afetariam a
renda, at se chegar a um novo ponto de equilbrio da economia entre consumo e renda. C e Y
seriam ento consideradas variveis endgenas, ou seja, determinadas internamente no sistema
de equaes. I seria a nica varivel exgena do sistema.
14.3.
(8)
0 + 1 0 1 2 + 2
e + 1e2
+
X1 + 1
1 11
1 11
1 11
(9)
226
Econometria
cada varivel endgena seria representada por uma funo nica e exclusiva das variveis
exgenas ou predeterminadas, no caso, somente X1:
0 + 1 0 1 2 + 2
e1 1e2
Y1 =
+
X1 +
1 1 1 1 1 1
1 1 1
Y = + 0 + 1 0 + + 1 2 + 2 X + e + e1 1e2
1
1
1
2
1 2
2 0
1 1 0
1 1 0
1 1 1
(10)
Y1 = 1 + 2 X 1 + u1
Y2 = 3 + 4 X 1 + u 2
(11)
Onde:
1 =
0 + 1 0
1 1 1
e 2 =
3 = 0 + 1
0 + 1 0
1 1 0
e 4 = 2 + 1
u1 =
e1 1e2
1 11
1 2 + 2
1 1 1
e u 2 = e2 + 1
1 2 + 2
1 1 0
(12)
e1 1e2
1 1 1
O sistema obtido em (11), em que cada varivel endgena representada por uma funo
das variveis exgenas (ou predeterminadas) do sistema, chamado de sistema de equaes da
forma reduzida. Os parmetros s so chamados parmetros da forma reduzida. Os erros u1 e u2
Econometria
14.4.
Equaes Simultneas
Identificao
Em sistemas de equaes simultneas, o conceito de identificao est associado
228
Econometria
predeterminadas em dada equao. Ento, uma condio necessria (mas no suficiente) para a
identificao dos coeficientes de cada equao do sistema :
Basicamente, a condio de ordem especifica que, para que os coeficientes de uma dada
equao estrutural possam ser estimados, o nmero de variveis predeterminadas do sistema
excludas na respectiva equao seja igual ou superior ao nmero de variveis endgenas
includas como independentes na mesma equao. Apenas as equaes exatamente identificadas
podem ser resolvidas por MQI. Equaes superidentificadas podem ser resolvidas por Mnimos
Quadrados em 2 Estgios, a ser apresentado posteriormente.
Nessa representao, o sistema como um todo apresenta duas variveis endgenas e nenhuma
varivel predeterminada (K=0). A equao para a demanda (Qd) possui 2 variveis endgenas
(m=2) e no h nenhuma varivel predeterminada ausente (Kk=0). portanto, uma equao
subidentificada (Kk < m1). A equao para a oferta (Qo) tambm no pode ser identificada
pois possui 2 variveis exgenas (m=2) e nenhuma varivel predeterminada ausente (Kk=0).
Para
melhor compreender
a indeterminao
dessas equaes,
podemos realizar o
Econometria
Equaes Simultneas
0 0 eo ed
P
=
+
1 1 1 1
1 0 0 1 1e o 1e d
Q
=
1 1 1 1
Q = P = 2 + u q
onde
1 =
0 0
1 1
e 2 =
1 0 0 1
1 1
Exemplo 4. Vamos agora considerar que, alm do preo, a renda (R) tambm determine a
demanda de um produto:
Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q
No sistema como um todo, temos agora duas variveis endgenas (M=2) e uma varivel exgena
(K=1). A equao da demanda (Qd) possui duas variveis endgenas (m=2) e uma varivel
exgena (k=1), sendo subidentificada (Kk < m-1). Na equao da oferta (Qo), a ausncia da
varivel exgena renda (k=0) permite esta seja exatamente identificada (Kk=m1).
Fazendo-se os devidos desenvolvimentos algbricos, chegaremos s representaes:
230
Econometria
P = 1 + 2 R + u p
Q = 3 + 4 R + u q
Onde:
1 =
3 =
0 0
1 1
1 0 0 1
1 1
e 2 =
2
1 1
e 4 =
2 1
1 1
Restaram 4 equaes para determinar 5 coeficientes estruturais. Embora no seja possvel uma
soluo nica para todos os coeficientes, pode-se chegar, aps as devidas transformaes, a
solues nicas para 0 e 1:
0 = 3 1 1 e 1 = 4 2
Em outras palavras, apenas os parmetros estruturais da funo oferta podem ser identificados.
Para melhor compreender a identificao da funo oferta, lembre-se que, pela teoria econmica,
um aumento na renda deslocar a curva de demanda para cima. Da mesma forma, uma reduo
na renda descolar a curva de demanda para baixo. Com diferentes valores observados para a
renda na amostra, e pressupondo equilbrio das foras de oferta e demanda no mercado, ser
possvel estabelecer a relao entre P e Q para a funo de oferta:
231
Econometria
Equaes Simultneas
Q d = 0 + 1 P + 2 R + e d
o
o
Q = 0 + 1 P + e
d
o
Q = Q
Como visto anteriormente, a funo da oferta poder ser exatamente identificada enquanto que a
funo da demanda subidentificada.
A partir de uma amostra observada para 20 perodos, ajustaram-se por MQO as seguintes
equaes da forma reduzida:
P = 1 + 2 R + u p
Q = 3 + 4 R + u q
P = 72,3392 + 0,2838R + u p
Q = 77,0146 + 0,2449 R + u q
O prximo passo resolver, para os coeficientes da nica funo identificvel (funo oferta), as
estimativas de MQI a partir das igualdades previamente estabelecidas (Exemplo 4):
Exemplo 6. Podemos ainda supor (e ter informaes suficientes para isso) que, alm do preo
corrente (Pt) e da renda (Rt), a riqueza (RQt), sendo o patrimnio uma boa aproximao, seja
outro fator a ser considerado na funo demanda. Na funo oferta, poderamos supor que, alm
do preo corrente do produto, o preo do perodo anterior (Pt1) tambm influencie a oferta do
produto no perodo corrente. Teramos ento:
Q td = 0 + 1 Pt + 2 Rt + 2 RQt + e td
o
o
Q t = 0 + 1 Pt + 2 Pt 1 + et
d
o
Q t = Q t
Nesse sistema h 2 variveis endgenas (M=2: Qt e Pt) e 3 variveis predeterminadas (K=3: Rt,
RQt e Pt1). Embora Pt seja endgeno, Pt-1 conhecido (predeterminado) no perodo t. A equao
Econometria
Qt = 5 + 6 Rt + 7 RQt + 8 Pt 1 + utq
0 0
3
2
2
2 =
4 =
3 =
1 1
1 1
1 1
1 1
0 1
6 = 2 1 7 = 3 1 8 = 1 2
5 = 1 0
1 1
1 1
1 1
1 1
1 =
Geometricamente, a relao estabelecida significa que, com variaes da renda (Rt) e da riqueza
(RQt), seria possvel identificar deslocamentos da funo demanda e, consequentemente, estimar
a funo oferta. Por sua vez, com descolamentos da fun oferta em funo de variaes no
preo defasado (Pt1) seria possvel determinar a funo demanda.
Embora no haja uma soluo algbrica nica para o sistema de equaes dos coeficientes da
forma reduzida, esses podero ser estimados pela tcnica de Mnimos Quadrados em dois
Estgios.
233
Econometria
Equaes Simultneas
Em um sistema com apenas duas equaes, a condio de posto resume-se a exigir que,
para que os coeficientes de uma dada equao sejam identificados, pelo menos uma das variveis
exgenas ausentes em sua especificao apresente coeficiente diferente de zero na outra equao.
Em outras palavras, no basta excluir uma varivel exgena de uma equao para que esta possa
ser identificada, necessrio que a varivel excluda apresente de fato contribuio parcial na
outra equao.
Embora essa regra seja fcilmente verificada em um sistema com duas equaes,
precisamos de um procedimento mais sistemtico para verific-la em um sistema com mltiplas
equaes. Vamos ilustrar os passos da anlise para um sistema hipottico para trs variveis
endgenas (M=3):
Y1 = 1 + 11 X 1 + 13 X 3 + e1
Y2 = 2 + 23Y3 + 22 X 2 + 22 X 2 + e2
Y = + Y + X + X + e
3
31 1
31 1
33 3
3
3
(13)
1
2
3
+ Y1
11 X 1
+ Y2
31Y1
23Y3
+ Y3
21 X 1
31 X 1
13 X 3
= e1
33 X 3
= e2
= e3
22 X 2
(14)
Y1
Y2
Y3
X1
X2
X3
(1)
11
13
(2)
23
21
22
(3)
31
31
33
(15)
2 Passo
234
Econometria
A partir da tabela (15), elaborar uma matriz para a equao que se deseja analisar a
identificao. Nessa matriz, devero ser desconsideradas: i) a linha correspondente equao
analisada; e ii) todas as colunas que contenham valores diferentes de zero nessa respectiva linha.
Por exemplo, a matriz correspondente equao 3 (Y3) ser dada por:
0
0
A3 =
1 22
(16)
Observe que essa matriz A3 conter todos os coeficientes das variveis includas no
sistema mas no inseridas na equao em anlise (Y3).
3 Passo
det A 3 =
0
0
= (0) ( 22 ) (0) (1) = 0
1 22
(17)
apresenta relao diferente de zero com o regressor endgeno dessa mesma equao.
O nome posto desta condio de identificao deriva do conceito de posto de uma
matriz. Ou seja, a ordem da maior submatriz quadrada cujo determinante diferente de zero.
Embora seja uma condio necessria e suficiente, na prtica, a condio de posto raramente
empregada. A condio de ordem muito mais simples e apenas em casos excepcionais no ser
suficiente para a identificao da equao.
235
Econometria
14.5.
Equaes Simultneas
relao entre regressor e erros do modelo o uso de variveis instrumentais (VI). Alm de sua
aplicao em equaes simultneas, o mtodo de VI pode tambm ser empregado para resolver o
problema de endogeneidade que surge quando h omisso de importantes regressores ou quando
esses apresentam erros de mensurao.
O mtodo de VI consiste, basicamente, em encontrar uma nova varivel Z que seja
altamente relacionada com a varivel independente X e, ao mesmo tempo, no seja relacionada
aos erros e do modelo. Suponha, por exemplo, que desejamos estudar a relao entre X e Y dada
por:
Yi = + X i + ei
(18)
Cov( X , e) = 0
(19)
(20)
Cov( Z , X ) 0 e Cov( Z , e) = 0
(21)
Econometria
Uma vez identificado o instrumento Z, uma tcnica simples e muito utilizada para obter
os coeficientes da equao (18) a de Mnimos Quadrados em Dois Estgios (MQ2E). Como o
prprio nome sugere, h dois processos de estimao, ambos aplicando MQO. No primeiro
estgio, identificamos a parcela de Z associada X ajustando o modelo:
X i = 0 + 0 Z i + ui
(22)
(23)
(24)
(25)
O racioccio do mtodo de MQ2E pode ser facilmente extendido quando temos 2 ou mais
fatores exgenos que podem ser utilizados como instrumento para uma varivel endgena. Por
exemplo, poderamos utilizar a escolaridade da me (Z1) e do pai (Z2) como instrumentos para a
escolaridade do filho (X). Nesse caso, nossa varivel instrumental X seria dada por:
X i = 0 + 1Z1i + 2 Z 2i
(26)
Caso Z1 e Z2 sejam ambos no correlacionados aos erros e, ento qualquer funo linear
desses (equao 26) tambm no seria relacionada a e.
237
Econometria
Equaes Simultneas
Podemos ainda pensar no caso de um modelo de regresso mltipla para Y onde, alm da
endgena X, tenhamos um ou mais regressores exgenos (W, por exemplo):
Yi = + X i + Wi + ei
(27)
Cov( X , e) 0 e Cov(W , e) = 0
(28)
Onde:
Neste caso, todos os estimadores de MQO para a equao (27) seriam viesados e
inconsistentes, no apenas aquele associado endgena X.
Como a varivel exgena W aparece como regressor na equao da forma estrutural (27),
no pode ser utilizado como instrumento para X. Agora nossos instrumentos (Z1 e Z2, por
exemplo), alm de no constarem como regressores na equao da forma estrutural, precisam
apresentar correlao parcial significativa com X. Em outras palavras, seja a equao para X
como funo das variveis exgenas:
X i = 0 + 1Z1i + 2 Z 2i + 3Wi + ui
(29)
14.6.
(30)
238
Econometria
(31)
Ou, simplificadamente:
Y1i = 1 + 2 X i + u1i
Y2i = 3 + 4 X i + u 2i
(32)
Como pode ser observado a partir da relao algbrica expressa para a equao de Y1 na
forma reduzida (equao 31), parte do comportamento total de Y1 devida influncia da
varivel exgena X e parte devida influncia conjunta de e1 e e2 (u1). Assim, a varivel Y1no
poderia ser utilizada para prever Y2 na forma estrutural, pois carregaria consigo uma parcela
associada aos erros e2.
A proposta do MQ2E substituir a varivel independente Y1 da forma estrutural por uma
varivel instrumental, ou seja, uma aproximao para Y1 que elimine a interferncia de e2 e acabe
com a relao entre regressor e erros. No caso do MQ2E, essa varivel ser dada pelo valor
previsto de Y1 na forma reduzida.
Em outras palavras, para estimar os coeficientes da segunda equao por MQ2E, o
primeiro estgio consiste em estimar os coeficientes da forma reduzida por MQO e,
posteriormente, estimar os valores previstos de Y1 e Y2:
Y1i = 1 + 2 X i
Y2i = 3 + 4 X i
(33)
Verifique que o valor previsto de Y1 mantm a relao com X, mas elimina o componente
associado a e1 e e2.
O segundo estgio consiste em substituir os valores originais das variveis endgenas das
equaes estruturais identificveis (no nosso exemplo, apenas a segunda equao), pelos seus
valores previstos:
239
Econometria
Equaes Simultneas
(34)
O MQO pode ento ser aplicado para estimar 0 e 1, j que Y1 no apresenta relao
com e2. Assim como no MQI, os estimadores de MQ2E so consistentes, embora tendam a ser
viesados para amostras pequenas.
Exemplo 7. Vamos agora supor que as funes de demanda e oferta de alimentos sejam dadas
pelas seguintes equaes:
Q td = 0 + 1 Pt + 2 Rt + e td
o
o
Q t = 0 + 1 Pt + 2 P1t + e
d
o
Q t = Q t
Onde Pt a razo entre o ndice de preos dos alimentos e o ndice geral de preos, Rt a renda
mdia dos consumidores e P1t o ndice de preos no ano anterior. Temos 2 equaes com 2
variveis endgenas (M=2: Qt e Pt), e 2 variveis predeterminadas (K=2: Rt e P1t). H omisso
de 1 varivel predeterminada na equao para a demanda (P1t) e de 1 varivel exgena na
equao para a oferta (Rt). Assim, as duas equaes so exatamente identificadas (Kk=1).
Ambas as equaes podem ser estimadas por MQ2E.
O primeiro passo para obter os estimadores de MQ2E elaborar as equaes da forma reduzida,
representando cada endgena como funo das variveis exgenas do sistema:
Pt = 1 + 2 Rt + 3 P1t + utp
Qt = 4 + 5 Rt + 6 P1t + utq
A partir dos valores observados na amostra, aplicamos MQO para obtermos as estimativas dos
valores previstos das endgenas:
Pt = 85,18 + 0,43Rt 0,29 P1t
240
Econometria
o
o
Q t = 35,90 + 0,42 Pt + 0,24 P1t + e
14.7.
Teste de endogeneidade
Os formuladores originais da ideia simultaneidade, da Cowles Foundation, defendiam
que a exogeneidade no poderia ser testada. O pesquisador deveria definir a priori, com
embasamento terico, eventuais relaes de simultaneidade entre as variveis. Entretanto, testes
desenvolvidos recentemente permitem verificar se, uma vez identificados regressores exgenos
em uma equao identificvel, as variveis consideradas endgenas nas especificaes so de
endgenas.
Entre esses testes de endogeneidade, uma soluo relativamente simples dada pelo teste
de especificao de Hausman. Para compreender o princpio do teste, devemos antes saber que,
caso o regressor seja de fato endgeno, as estimativas de MQO sero viesadas e inconsistentes,
enquanto que as estimativas de MQ2E sero consistentes. Caso no haja endogeneidade, as duas
estimativas sero consistentes, mas as de MQO sero mais eficientes. A ideia central do teste de
Hausman comparar as estimativas de MQO e MQ2E: caso haja diferenas significativas,
podemos suspeitar da existncia de endogeneidade no regressor, ou seja, as estimativas de MQO
seriam viesadas.
Para compreender a operacionalidade do teste, considere o seguinte sistema de equaes
simultneas e o respectivo diagrama de influncias:
(35)
(36)
Ou, simplificadamente:
241
Econometria
Equaes Simultneas
Y1i = 1 + 2 X i + u1i
Y2i = 3 + 4 X i + u 2i
(37)
Y1i = 1 + 2 X i + u1i
Y2i = 3 + 4 X i + u 2i
Y2i = Y2i + u 2i
(38)
(39)
A ideia central que, caso Y1 seja de fato endgeno, os erros da forma reduzida u1 estaro
associados aos erros da forma estrutural e2 (j que essas apresentariam uma parcela de e2 em sua
composio). Caso contrrio, o nico componente de u1 seria o erro e1 e no observaramos a
relao entre u1 e e2. Em outras palavras, podemos representar e2 por
(40)
Sendo v2 a parcela de e2 no associada aos erros u1. Caso =0, significa que u1 e e2 so
independentes e, consequentemente, a varivel Y1 no endgena. Uma maneira simples de
testarmos essa hiptese incorporar o erro u1 como regressor na equao para Y2 e analisarmos a
significncia do coeficiente estimado para . Entretanto, como no observamos u1, na prtica
trabalhamos com os resduos 1:
(41)
Podemos agora utilizar a estatstica t associada a para testar a hiptese nula de que
Econometria
Exemplo 8. Suponha a mesma especificao do exemplo 7 para a relao entre demanda e oferta
de alimentos:
Q td = 0 + 1 Pt + 2 Rt + e td
o
o
Q t = 0 + 1 Pt + 2 P1t + e
d
o
Q t = Q t
Caso haja de fato relao de endogeneidade para P, espera-se que os erros da forma reduzida utp
estejam relacionados aos erros da forma estrutural eo e ed. Para analisarmos, por exemplo, a
relao de endogeneidade na funo oferta, vamos considerar que:
eto = utp + vt
A estatstica t associada ao coeficiente igual 4,30 e o valor p do teste menor que 0,1%. Em
outras palavras, h evidencias significativas que a varivel Pt comporte-se como varivel
endgena na equao de oferta.
Exerccios
1. O arquivo ConsumoAlimentos.XLS contm informaes anuais sobre o ndice de consumo
per capita de alimentos (Q), a razo entre o ndice de preo dos alimentos e ndice geral de
preos (P), renda pessoal disponvel (R), a razo entre os ndices de preos dos anos
anteriores (P1) e ano (t=1..20). Suponha agora as seguintes equaes para a funo demanda
e oferta de alimentos:
243
Econometria
Equaes Simultneas
Qid = 0 + 1 Pi + 2 Ri + eid
o
Qi = 0 + 1 Pi + eio
y 2 = 1 y1 + 2 z + u 2
(1)
( 2)
em que
E[u1 ] = E[u 2 ] = 0
E[u12 ] = 12 , E[u 22 ] = 22 , E[u1 u 2 ] = 12 0
E[u1 z ] = E[u 2 z ] = 0
244
Econometria
q s = 1 p + 2
q = q = q
s
d
(demanda )
(oferta )
(equilbrio)
com
E[ 1 | z , y ] = E[u 2 | z , y] = 0
E[ 12 | z , y ] = 12 , E[ 22 | z , y ] = 22 , E[ 1 2 ] = 12 0
Respostas
1) b. Qio = 14,60 + 0,86 Pi + eio
Q d = 94,63 0,24 Pi + 0,32 Ri + eid
2) b. i
Qio = 49,53 + 0,24 Pi + 0,26 P1i + 0,25Ti + eio
245
Econometria
PARTE III
Introduo Anlise de Sries Temporais
246
Econometria
15. Estacionariedade
Introduo
Srie temporal um conjunto de valores coletados em perodos regulares ou no de
tempo. Por exemplo, o conjunto de valores anuais da renda de uma populao, do lucro de uma
empresa ou do preo de uma mercadoria. Alm de essas sries serem utilizadas para elaborar
modelos estruturais de causa (varivel independente) e efeito (varivel dependente), so tambm
muito utilizadas para elaborar modelos univariados ou multivariados de previso. Nos modelos
univariados de previso, por exemplo, a previso de um valor futuro de uma varivel dada
unicamente em funo dos valores passados da mesma. Em outras palavras, a partir do
comportamento passado da srie procuramos inferir seu provvel comportamento futuro.
Modelos univariados de previso so particularmente teis em anlises de sries financeiras,
eliminando, por exemplo, a difcil tarefa de se prever valores futuros das variveis independentes
(Xt+s) para se estimar o valor futuro de uma varivel dependente (Yt+s).
A anlise de sries temporais exige, entretanto, cuidados adicionais em relao queles
necessrios em anlises de dados de corte transversal (dados coletados em um nico perodo de
tempo). Em especial, deve-se verificar se o comportamento da srie o mesmo ao longo do
tempo, ou seja, se esta apresenta uma estrutura que possa ser caracterizada e descrita. A anlise
da relao entre duas sries que apresentam comportamentos no sistemticos pode levar a
concluses totalmente equivocadas. Analogamente, a previso de uma srie que apresenta
importantes mudanas estruturais no tempo a partir de seu comportamento passado seria algo
provavelmente ineficaz.
Quando trabalhamos com modelos de regresso para dados de corte transversal,
pressupomos que nossa amostra contenha valores extrados aleatoriamente de uma populao e,
consequentemente, os valores sejam no correlacionados. Entretanto, em sries temporais os
valores esto usualmente correlacionados no tempo. Nessas circunstncias, a consistncia das
anlises depender fundamentalmente da velocidade com essa correlao tende a zero para
observaes de perodos distintos. Sries temporais com correlao serial elevada exigem
cuidados especiais nas anlises.
O objetivo desta seo justamente apresentar o conceito de estacionariedade, uma
propriedade fundamental para anlises estruturais de relao de causa e efeito ou para modelos
247
Econometria
Estacionariedade
15.1.
Processos estocsticos
Sries temporais apresentam algumas definies peculiares. Dizemos, por exemplo, que
toda srie temporal pode ser considerada como gerada por um processo estocstico, ou processo
aleatrio, com uma estrutura que pode ser caracterizada e descrita. Em termos mais formais,
podemos definir um processo estocstico Y como Y={ Yt, t=1,2,...,n}, onde Yt uma varivel
aleatria. Em outras palavras, supomos que cada valor de Y1, Y2, ..., Yn na srie seja extrado
aleatoriamente de um conjunto finito ou infinito de valores, com uma determinada distribuio
de probabilidade.
Uma amostra deste processo estocstico considerada uma realizao e a partir desta
que fazemos inferncia sobre a natureza do processo gerador da srie temporal. Por exemplo, do
nascimento at o presente, uma pessoa teria inmeras possibilidades de trajetrias de vida a
trilhar, as quais seriam representadas pelo processo estocstico. A trajetria de fato vivenciada
pela pessoa seria uma realizao do processo estocstico. Fazendo uma analogia aos dados de
corte transversal, o processo estocstico representaria o conjunto de valores da populao
enquanto a realizao seria o conjunto de dados da amostra.
Graficamente, podemos representar o processo estocstico como aquele conjunto de
possveis trajetrias para Yt (linhas tracejadas na Figura 1). A realizao ser uma trajetria
observada para a srie (linha slida). Assim, embora, na prtica, observemos apenas um valor de
Y em um dado perodo t (Yt), devemos considerar que este poderia assumir infinitas
(1)
248
Econometria
15.2.
Estacionariedade
15.2.1. Definio
Uma propriedade desejvel de uma srie temporal que esta apresente um
comportamento constante no tempo, ou seja, seja estacionria. Por exemplo, caso o
comportamento da srie seja no estacionrio, ou seja, mude com o tempo, seria muito difcil
estabelecermos um modelo de previso para seus valores futuros baseado no seu comportamento
passado. Analogamente, seria muito difcil estabelecermos uma relao de determinao para
uma varivel dependente em funo de variveis independentes caso essa relao apresente
importantes quebras estruturais com o tempo.
O conceito mais abrangente de estacionariedade, ou estacionariedade estrita, supe que a
distribuio conjunta para todos os Yt no mude com o tempo, ou seja, a distribuio conjunta de
Y1, Y2, ..., Yk seja, por exemplo, igual de Y1+s, Y2+s, ..., Yk+s. Entretanto, como na prtica
impossvel conhecer todas as distribuies conjuntas de Y1, Y2, ..., Yk, restringimo-nos ao
conceito de estacionariedade fraca. Uma srie ser fracamente estacionria se:
i)
ii)
iii)
A covarincia entre dois valores de Y (Yt e Yt+s, por exemplo) depende apenas da
distncia s entre esses, ou seja, no importa qual sej o perodo t, a covarincia
entre Yt e Yt+s ser sempre a mesma Cov(Yt , Yt + s ) = s ;
249
Econometria
Estacionariedade
(2)
250
Econometria
(3)
251
Econometria
Estacionariedade
O erro et tambm denominado de rudo branco32 e representa uma srie com mdia
igual a zero, varincia constante e no autocorrelacionada. Em outras palavras:
E (et ) = 0
Var (et ) = 0 = 2
Cov(et , et + k ) = k = 0
(4)
(5)
Exemplo 3. Suponha que o processo definidor de um ndice de inflao seja dado pelo seguinte
modelo autorregressivo de 1a ordem:
Yt = 0,5Yt 1 + et
Considere agora, por exemplo, que no ms 1 a inflao fora igual a 0% (Y1=0) e que, no
ms 2, houve um choque no esperado (alta dos combustveis, por exemplo) que elevou a
inflao para 2% (Y2=0,02). Segundo a especificao do modelo, esse comportamento seria
expresso por:
Y1 = 0
Y2 = 0,5Y1 + e2 = 0,5 0 + 0,02 = 0,02
O termo rudo branco deriva da acstica, utilizado para representar um tipo de rudo produzido pela combinao
simultnea de sons de todas as frequncias sonoras. O adjetivo branco uma analogia luz branca, j que esta
obtida pela combinao simultnea de todas as frequncias cromticas.
252
Econometria
Graficamente, teramos:
Exemplo 4. Suponha agora o caso do preo de uma commodity (preo do barril do petrleo, por
exemplo), com processo definido pelo seguinte modelo autorregressivo de 1a ordem:
Yt = Yt 1 + et
Graficamente, teramos:
253
Econometria
Estacionariedade
(6)
(7)
Yt = Y0 + i =1 ei
t
(8)
Ou seja, embora a valor mdio da srie convirja para uma constante, igual ao seu valor
inicial (Y0), sua varincia tende a aumentar com tempo. A representao grfica de uma possvel
realizao desse processo dada por:
(9)
254
Econometria
Vamos agora analisar os dois primeiros momentos (mdia e varincia) de outro processo
no estacionrio, dado pelo modelo autorregressivo com constante :
Yt = + Yt 1 + et
(10)
(11)
Yt = Y0 + i =1 + i =1 ei
E (Yt ) = E (Y0 + + i =1 ei ) = Y0 + t
t
(12)
Neste caso, tanto o valor mdio da srie como sua varincia tendero a crescer com o
tempo. A representao grfica de uma possvel realizao desse processo dada por:
(13)
Uma varincia que cresce com o tempo pode trazer srias implicaes para um ajuste de
regresso. Caso esse comportamento se reproduza nos erros do modelo, esses deixariam de
apresentar varincia finita e os estimadores de MQO no seriam mais consistentes.
15.2.3. Terminologia
255
Econometria
Estacionariedade
o caso mais simples de processo estacionrio. Possui mdia zero, varincia constante
(2) e no autocorrelacionado serialmente. O erro do modelo clssico de regresso linear , por
definio, um rudo branco, independente e identicamente distribudo de maneira normal:
et ~ IIDN (0, 2 ) . A Figura 13 apresenta uma realizao de um rudo branco.
(13)
Tendncia determinstica: Yt = + t + et
Embora a mdia no seja constante, pode ser prevista com exatido conhecendo-se o
valor de t. tambm chamado de processo estacionrio em tendncia ou estacionrio psremoo de tendncia. Em outras palavras, uma srie que apresenta comportamento
estacionrio em cima de uma tendncia no tempo. A Figura 14 apresenta um exemplo de
realizao de tendncia determinstica definida pelo processo Yt = 0,5 + 0,1t + et .
(14)
Tendncia
determinstica
com
componente
autorregressivo
estacionrio:
Yt = + t + Yt 1 + et , < 1
256
Econometria
inrcia do componente autorregressivo (). A Figura 15 apresenta uma realizao definida pelo
processo Yt = 0,5 + 0,05t + 0,7Yt 1 + et .
(15)
(16)
257
Econometria
Estacionariedade
apresenta uma realizao de um passeio aleatrio com descolamento definido pelo processo
Yt = 0,1 + Yt 1 + et .
(17)
(18)
15.3.
Funo de autocorrelao
258
Econometria
k =
Cov(Yt , Yt k )
Cov(Yt , Yt k ) k
=
=
DP (Yt ) DP (Yt k )
Var (Yt )
0
(19)
(20)
(21)
(22)
(23)
k y2
y y
= k
(24)
O que as equaes (23) e (24) nos dizem que, embora os valores de um processo
estacionrio (||<1) estajam autocorrelacionados no tempo, esta correlao tende zero medida
que nos afastamos no tempo (k relativamente grande).
259
Econometria
Estacionariedade
0,0748
1,0000
0,0414
0,5531
0,0085
0,1137
-0,0115
-0,1531
-0,0142
-0,1899
-0,0098
-0,1306
-0,0056
-0,0754
470,4
1,0000
438,7
0,9325
387,8
0,8244
323,4
0,6874
257,0
0,5463
195,5
0,4155
142,0
0,3019
Econometria
Sem constante: Yt = Yt 1 + et
ii)
Com constante: Yt = + Yt 1 + et
iii)
H 1 : < 1 {estacionrio}
(25)
Para testar essas hipteses, pensaramos, intuitivamente, em aplicar MQO s equaes (i),
(ii) ou (iii) e utilizar a estatstica t. O problema que, sob a hiptese nula de que =1, o
estimador de MQO ser tendencioso em direo zero, podendo nos levar a rejeitar
indevidamente a hiptese de no estacionariedade.
O teste introduzido por David Dickey e Wayne Fuller em 1979 consiste inicialmente em
transformar a equao do processo, subtraindo o termo Yt1 nos dois lados da igualdade para que
tenhamos regressandos estacionrios. Assim, a equao transformada para cada especificao
seria dada por:
i)
Yt = Yt 1 + et Yt Yt 1 = ( 1)Yt 1 + et Yt = Yt 1 + et
ii)
Yt = + Yt 1 + et Yt = + ( 1)Yt 1 + et Yt = + Yt 1 + et
261
Econometria
iii)
Estacionariedade
Yt = + t + Yt 1 + et Yt = + t + ( 1)Yt 1 + et Yt = + t + Yt 1 + et
A partir das equaes transformadas, testar a hiptese nula de que =1 seria, agora,
equivalente a testar a hiptese de que =0. Ou seja, as novas hipteses seriam:
H 0 : = 0 {no estacionrio}
H 1 : < 0 {estacionrio}
(26)
25
50
100
250
500
Sem
Constante
1,95
1,95
1,95
1,95
1,95
1,95
Com
Constante
3,00
2,93
2,89
2,88
2,87
2,86
Constante e
Tendncia
3,60
3,50
3,45
3,43
3,42
3,41
(27)
Exemplo 7. Podemos aplicar o teste de Dickey-Fuller para testar a estacionariedade da srie para
o preo do petrleo (Y). O ideal seria, priori, conhecer a especificao do processo gerador da
srie (sem constante, com constante ou com constante e tendncia). Como este , na prtica,
262
Econometria
deconhecido, iremos realizar o teste para os trs processos e arriscar, posteriormente, uma
especificao a partir de evidncias observadas na amostra. Aplicando MQO, teremos:
i)
Yt = 0,004Yt 1 + et
ii)
Yt = 4,244 0,054Yt 1 + et
iii)
Como perdemos a primeira observao para calcularmos Yt e Yt1, nossa amostra final contm
84 observaes (fevereiro de 2004 a dezembro de 2010). Os valores crticos aproximados com
5% de significncia para cada especificao seriam, respectivamente: 1,95; 2,89; 3,45. Por
sua vez, os valores de associados a cada coeficiente do termo atuorregressivo foram: 0,430;
1,633; 1,757. Como nenhum dos valores de se encontra na regio crtica, qualquer que seja o
processo considerado, no possvel rejeitar H0 em nenhuma das circunstncias, ou seja, a srie
no estacionria.
15.4.2. Teste de Dickey-Fuller aumentado
forma de controlar a autocorrelao nos erros et. Assim, a equao transformada para cada
especificao seria dada por:
p
i)
Yt = Yt 1 + Yt j + et
j =1
ii)
Yt = + Yt 1 + Yt j + et
j =1
p
iii)
Yt = + t + Yt 1 + Yt j + et
j =1
263
Econometria
Estacionariedade
Yt = 0,004Yt 1 + et e = 0,486
ii)
iii)
ii)
iii)
264
Econometria
um nvel de significncia de 5%. Ou seja, nossa concluso que a srie seria gerada por um
processo no estacionrio, independente da especificao proposta.
Exerccios
Econometria
Estacionariedade
266
Econometria
16. Cointegrao
Introduo
Relao espria
(1)
Suponha ainda que no haja nenhuma relao de causalidade entre as sries, mas que
ambas apresentem comportamentos no estacionrios no tempo, como mostra a figura abaixo:
267
Econometria
Cointegrao
(2)
(3)
= Y0 e et = i =1 ui
33
(4)
268
Econometria
Em outras palavras, et ser um passeio aleatrio com varincia tendendo a explodir com o
tempo: Var (et ) = t u2 . Fato que viola as premissas do Teorema de Gauss-Markov para que os
estimadores de MQO para sejam no tendenciosos e eficientes.
Exemplo 1. Sejam as sries anuais para o nmero de vacas ordenhadas (Y, em mil cabeas) e o
Econometria
Cointegrao
Yt = + 1 X t + 2 t + et
(5)
terermos:
ln(Yt ) = + 1 ln( X t ) + 2 t + et
E as respectivas estimativas de MQO:
ln(Yt ) = 9,18 + 0,10 ln( X t ) + 0,02t + et
O impacto do nmero de mdicos sobre as vacas ordenhadas (1) passou a ser insignificante a
5% e o R2 passou a 0,99. Esses resultados sugerem que o comportamento do nmero de vacas
ordenhadas seja exclusivamente determinado pela tendncia temporal. Para reforarmos essa
anlise, podemos ajustar o logaritmo do nmero de vacas com funo linear simples do tempo:
ln(Yt ) = 9,68 + 0,02t + et
O R2 permaneceu inalterado (0,99) e o coeficiente estimado para o tempo continuou com o
mesmo valor e significativo a 0,1%. Em ouras palavras, aps isolado o efeito do tempo sobre a
dinmica do nmero de vacas ordenhadas, o nmero de mdicos no agrega qualquer tipo de
informao.
16.2.1. Coeficiente de determinao para regressando com tendncia
SQReg
SQRes
=1
STQ
STQ
(6)
270
Econometria
Como a STQ mede as distncias quadrticas dos valores de Yt em relao sua mdia
constante ( Y ), seu valor tende a crescer substancialmente com o tempo quando Yt apresenta
tendncia. O resultado que a STQ e o R2 acabam superestimados.
Para contornar esse problema, sugere-se que, quando a varivel dependente apresenta
alguma tendncia, o ideal seja isolarmos o efeito do tempo antes de calcularmos o R2. A proposta
trabalhar com uma varivel dependente com remoo de tendncia ( Yt* ). Para calcularmos Yt* ,
o primeiro passo ajustar a relao entre Yt e t:
Yt = 0 + 1t
(7)
Yt* = Yt Yt = Yt ( 0 + 1t )
(8)
Yt* = + 1 X t + 2t + et
(9)
271
Econometria
Cointegrao
Yt = y + Yt 1 + et
(10)
(11)
Ou seja, pressupondo que et seja um rudo branco, a srie Yt seria estacionria, variando
aleatoriamente em torno de uma constante y. Entretanto, como na prtica desconhecemos o
processo que define a srie Yt, o ideal seria realizarmos um teste de estacionariedade srie Y
para nos certificarmos que a diferenciao de fato eliminou a no estacionariedade.
Quando a srie Yt se torna estacionria a partir da primeira diferena, dizemos que ela
um processo integrado de ordem um, ou I(1)34. Isso significa que ela gerada a partir de uma
nica integrao (o oposto de diferenciao) de um processo estacionrio, que no caso seria Yt.
Caso a srie Yt seja estacionria, dizemos que ela um I(0). E, caso sejam necessrias d
diferenciaes para ela se tornar estacionria, dizemos que ela um I(d).
Alm de poder transformar uma srie no estacionria em estacionria, a diferenciao
tambm remove qualquer tendncia linear que a srie apresente no tempo. Por exemplo, caso a
srie Yt apresente uma tendncia definida por:
Yt = 0 + 1t + et
(12)
34
(13)
272
Econometria
(14)
A diferena entre o modelo para as variveis originais este para as suas diferenas que,
enquanto o primeiro capta relaes de longo prazo, o segundo capta relaes de curto prazo
(mudanas de um perodo para outro). O problema que muitas vezes o pesquisador est
interessado em captar o efeito de longo prazo das relaes, que no possvel com o modelo de
diferenas estacionrias.
Exemplo 3. Para eveitar o problema de relao espria entre nmero de vacas ordenhadas (Y) e
Embora o ideal seja realizar um teste de estacionariedade nas sries Y e X, vamos pressupor
que essas sejam de fato estacionrias e ajustar o modelo:
ln(Yt ) = + ln( X t ) + et
As estimativas de MQO seriam:
ln(Yt ) = 0,02 0,01 ln( X t ) + et
A relao entre nmero de mdicos e vacas ordenhadas passa a ser insignificante a 10%, assim
como o R2 do ajuste (0,001). Em outras palavras, eliminando o problema da no
estacionariedade, constatamos que a variao de curto prazo (anual) no nmero de mdicos no
possui qualquer relao com a variao (anual) no nmero de vacas ordenhadas.
16.4.
Cointegrao
Mesmo no estacionrias, duas sries podem apresentar relao de causa e efeito caso
essas sejam cointegradas. Duas sries que apresentam a mesma ordem de integrao sero
denominadas cointegradas caso apresentem comportamentos semelhantes no tempo, que tendem
a convergir em longo prazo. como se uma srie puxasse a outra, produzindo um efeito elstico
na relao entre essas.
273
Econometria
Cointegrao
Yt = + X t + et
(15)
(16)
(17)
274
Econometria
et = et 1 + ut
(18)
et = et 1 + ut
(19)
O primeiro passo seria realizarmos a transformao do modelo para que, sob a veracidade
da hiptese nula, tenhamos um modelo com regressor estacionrio:
et = et 1 + ut
(20)
Yt = + 1 X t + 2 t + et
(22)
275
Econometria
Cointegrao
Signifincia
Com
Constante
1%
3,90
Com
Constante e
Tendncia
4,32
5%
3,34
3,78
10%
3,04
3,50
(23)
Uma vez rejeitada a hiptese nula, ou seja, identificada a estacionariedade dos erros,
podemos afirmar que h relao de cointegrao entre as sries.
Exemplo 4. Podemos verificar a cointegrao das sries dos logaritmos do nmero de vacas
et = et 1 + ut
O teste da raiz unitria consiste em verificar se h evidncias para afirmar que <1, ou seja, que
os resduos so estacionrios. Testar a hiptese nula de que =1 o mesmo que testar se =0,
sendo o coeficiente do modelo:
et = et 1 + ut
Aplicando MQO, chegaremos estimativas:
276
Econometria
et = 0,512et 1 + ut
A estimativa do erro padro de foi de 0,248 e da estatstica foi de 2,067. Como o valor de
consumo final das famlias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63).
Embora as duas sries sejam aparentemente no estacionrias, a relao linear entre essas seria
consistente caso essas sejam cointegradas. O modelo proposto dado por:
ln(Yt ) = + ln( X t ) + et
Aplicando MQO chegaremos a:
ln(Yt ) = 0,07 + 0,98 ln( X t ) + et
A elasticidade renda consumo significativa a 1% e o R2 do modelo (sem remoo de tendncia)
de 0,998. Como pde ser observado visualmente, consumo e renda compartilham tendncias
estocsticas (aleatrias) semelhantes. Essas sries no divergem muito uma da outra, e
compartilham de um equilbrio a longo prazo.Os resduos obtidos no ajuste foram:
277
Econometria
Cointegrao
Embora a disperso dos resduos no tempo sugira um comportamento aleatrio, devemos realizar
o teste da raiz unitria para nos certificarmos da presena de estacionariedade nos resduos.
Aplicando MQO, chegaremos s estimativas:
et = 0,625et 1 + ut
A estimativa do erro padro de foi de 0,120 e da estatstica foi de -5,211. Como o valor de
(22)
et 1 = Yt 1 ( + X t 1 )
(23)
O termo et1 denominado de componente de correo de erro. Espera-se que <0 para
que este componente funcione como um termo de equilbro. Por exemplo, caso haja um desvio
positivo no perodo anterior (et1>0), o termo et1 ser negativo para forar a srie Yt a retornar
278
Econometria
ao equilbro. Assim, a constante determinar a velocidade com que a srie retornar ao ponto
de equilbro aps desvios ocorrerem no perodo anterior.
Como, na prtica, no observamos os valores de et, trabalhamos com os resduos
estimados t para o modelo de cointegrao. Assintoticamente, o uso de estimativas t obtidas
por MQO ou outra tcnica de estimao no afetar os coeficientes do modelo correo de erros.
O modelo de correo de erros permite analisar a relao de curto prazo entre duas sries
cointegradas. Alguns modelos de correo de erros incorporam ainda defasagens do regressor
Xt e do regressando Yt, que so particularmente teis em modelos de previso de sries
temporais ou quando desejamos analisar o comportamento dinmico das sries temporais.
Exemplo 6. No exemplo 5, identificamos uma relao de cointegrao entre renda disponvel (X,
em mil reais) e consumo final das famlias (Y, em mil reais) entre 1961 (t=1) e 2009 (t=63) no
Brasil. O ajuste para a relao de longo prazo foi dado por:
ln(Yt ) = 0,07 + 0,98 ln( X t ) + et
Para estabelecermos a relao de curto prazo entre as sries, podemos considerar o seguinte
modelo de correo de erros:
ln(Yt ) = 0 + 1 ln( X t ) + et 1 + ut
Como os valores de et no so observados, trabalharemos com as estimativas dadas pelo ajuste
de cointegrao:
279
Econometria
Cointegrao
Exerccios
Econometria
Xt so no-estacionrios.
d) Para que duas variveis sejam cointegradas necessrio que ambas tenham a mesma
ordem de integrao.
e) A rejeio da hiptese nula do teste Dickey-Fuller implica que a varivel em questo
no-estacionria.
Respostas
281
Econometria
Cointegrao
282
Econometria
Podemos pressupor que o valor previsto da varivel Yt seja dado exclusivamente pelo seu
valor defasado Yt1. Nesse caso, o modelo de previso seria dado por:
Yt = + Yt 1 + et
(1)
(2)
283
Econometria
Modelos ARIMA
B k (Yt ) = Yt k
(3)
Ento, o processo AR(2) definido em (2) poderia tambm ser representado por:
(1 1 B1 ... p B p )Yt = + et
(4)
( B)Yt = + et
(5)
(1 1 ... p ) =
=
(6)
(1 1 ... p )
1 + ... + p < 1
(7)
284
Econometria
Esse resultado nada mais que uma generalizao do conceito de raiz unitria aplicado
ao modelo AR(1). Ou seja, o modelo de previso AR(p) ser estacionrio, com mdia definida e
constante, caso ( 1 + ... + p < 1 ). Caso contrrio ( 1 + ... + p = 1 ), a srie ser no estacionria e
no apresentar valor mdio definido.
Exemplo 1. Sejam os dados trimestrais, em dlares constantes de 1987, para investimento em
Podemos pressupor que o investimento em estoque seja gerado por um AR(1), ou seja, que o
valor da srie para o perodo t seja dado com no valor de sua primeira defasagem (t1) mais um
erro aleatrio et. Teramos, ento, o seguinte ajuste para o modelo:
Yt = 9,80 + 0,54Yt 1 + et
A comparao entre os valores observados e previsto de Yt pelo AR(1) (linha tracejada em
vermelho) dada pelo grfico:
Percebam que, para os perodos contidos na amostra, os valores previstos pelo AR(1) se
aproximam muito daqueles observados. Para previses futuras, entretanto, a tendncia de que a
previso convirja para o valor esperado de Yt. Esse valor esperado, por sua vez, ser dado por:
= 9,80 + 0,54
285
Econometria
Modelos ARIMA
17.2.
9,80
= 21,3
1 0,54
Podemos tambm considerar a previso de uma srie temporal a partir de uma mdia
ponderada das perturbaes aleatrias presentes e passadas. Se o processo estocstico em
questo estacionrio, os erros estariam identificando variaes em torno de uma mdia
constante devido a fatores diversos no explicados pelo modelo.
Genericamente, um processo de mdias mveis de ordem q, ou MA(q), pressupe que
cada observao corrente de Yt seja gerada por uma mdia invarivel no tempo ( ), mais uma
soma ponderada de q observaes defasadas das perturbaes aleatrias, mais a perturbao do
perodo corrente. Em outras palavras::
Yt = + et 1et 1 2 et 2 ... q et q
(8)
Yt = + (1 1 B 1 2 B 2 ... q B q )et
(9)
E (Yt ) = E ( + et 1 et 1 2 et 2 ... q et q ) =
(10)
286
Econometria
Exemplo 2. Vamos agora considerar a investimento em estoque em um perodo t seja dado por
uma soma ponderada de uma perturbao aleatria presente e outra passada, ou seja, um MA(1).
O ajuste para o modelo proposto seria dado por:
Yt = 21,64 + et + 0,48et 1
fcil identificarmos que o valor esperado da srie ser dado pelo termo constante 21,64. Assim,
o investimento em estoque para o perodo t seria previsto com base na mdia constante 21,64
mais uma soma ponderada do resduo presente e do resduo passado.
Graficamente, observamos que previses futuras dos valores de Yt convergiro rapidamente para
a mdia histrica 21,64:
17.3.
(11)
(12)
Econometria
Modelos ARIMA
(1 1 ... p ) =
=
(13)
(1 1 ... p )
Exemplo 3. Vamos agora supor que o investimento em estoque no perodo corrente seja definido
21,72
= 58,7
1 0,63
17.4.
Uma limitao dos modelos AR, MA e ARMA que estes aplicam-se apenas a sries
estacionrias. Assim, caso uma srie seja no estacionria, ser antes necessrio transform-la
em uma srie estacionria para podermos aplicar um modelo de previso.
288
Econometria
(13)
(14)
(15)
Yt = Yt + Yt 1 = Yt + Yt 1 + Yt 2 = ... = Yt
(16)
(17)
289
Econometria
Modelos ARIMA
Por sua vez, igualando as equaes (16) e (17) teremos que integrando duas vezes a srie
2
Yt = Yt = 2 Yt = 2 Yt
(18)
Genericamente, teramos que integrar d vezes a srie dYt para se chegar srie Yt:
d
Yt = Yt = 2 Yt = ... d Yt = d Yt
(19)
Diz-se que um processo integrado de ordem d, ou I(d), quando, ele se torna estacionrio
aps ser diferenciado d vezes. Em outras palavras:
(20)
(21)
290
Econometria
Ou simplesmente:
( B )d Yt = + ( B)et
(22)
estacionrio:
O primeiro passo para o procedimento de previso seria transform-la em uma srie estacionria.
Aplicando a primeira diferena, obteramos a srie Yt, com comportamento expresso
graficamente por:
Assumindo que a srie Yt seja estacionria (os testes usuais de estacionariedade seriam
necessrios), podemos prev-la pelo modelo ARIMA. Como foi necessria uma diferenciao
para transform-la em um srie estacionria, sabemos que o parmetro d ser igual a 1, ou seja, a
srie Yt um I(1).
291
Econometria
Modelos ARIMA
Pressupondo agora que o valor de Yt seja uma funo de um componete autorregressivo (p=1) e
dois componentes de mdias mveis (d=2), teramos um modelo ARIMA(1,1,2) , expresso por:
Yt = 1 d Yt 1 + + et 1et 1 2 et 2
Uma vez estimado os valores de Yt, podemos estimar os valores de Yt integrando uma vez a
srie Yt:
Yt = Yt
O primeiro passo seria diferenciarmos a srie Yt quantas vezes forem necessrias para
transform-la em estacionria. Como pode ser observado nos grficos abaixo, esta tornar-se-
estacionria partir da segunda diferena, ou seja, Yt um I(2):
2 Yt = 1 2Yt 1 + 1 2 Yt 2 + + et
Aps realizadas as previses de 2Yt, podemos estimar os valores de Yt integrando duas vezes a
srie 2Yt:
Yt = Yt = 2 Yt
292
Econometria
Exerccios
1. (ANPEC, 2012) Suponha que Yt pode ser representado pelo seguinte processo:
Respostas
1) 10
2) Falso.
3) a. Falso; b. Verdadeiro.
293
Econometria
Referncias
Box, G.; Jenkins, G. Time series analysis: Forecasting and control, San Francisco: Holden-Day,
1970.
Breusch, T.S. Testing for autocorrelation in dynamic linear models. Australian Economic
Papers, v. 17, 1979, pp. 334355.
Chow, G. C. Test of equality between subsets of coefficients in two linear regressions models.
Econometrica, 1960, p. 591-605.
Davidson, R.; Mackinnon, J. Estimation and inference in econometrics. New York, Oxford
University Press, 1993.
Dickey, D. A.; Fuller, W. A. Distribution of the estimators for autoregressive time series with a
unit root. Journal of the American Statistical Association, v. 74, 1979, pp. 427431.
Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, I.
Biometrika, v. 37, 1950, pp. 409428.
Durbin, J.; Watson, G. S. Testing for Serial Correlation in Least Squares Regression, II.
Biometrika, v. 38, 1951, pp. 159179.
294
Murray, M. P. A drunk and her dog: an illustration of cointegration and error correction. The
American Statistician, v. 48, n. 1, 1994, pp. 37-39.
Pindyck, R. S.; Rubinfeld, D. L. Econometria: modelos & previses. Rio de Janeiro: Elsevier,
2004.
Shao, S. P. Estadistica para economistas y administradores de empresas. Mexico: Herrero
Hermanos, 1970.
Theil, H. Principles of econometrics. New York, John Wiley, 1971.
White, H. A heteroskedasticity-consistent covariance matrix estimator and a direct test for
heteroskedasticity. Econometrica, v. 48, n. 4, 1980, pp. 817-838.
Wooldridge, J. M. Introductory Econometrics: a modern approach. Thomson Learning,
2002.
Wooldridge, J. M. On the application of robust regression-based diagnostics to models of
conditional means and conditional variances. Journal of Econometrics, v. 47, 2001, pp. 5-46.
295