You are on page 1of 11

T.E.A.

II (Curso Preparatrio para o Exame da ANPEC)


Disciplina: Estatstica - Professor: Eduardo Lima Campos

Modelo de Regresso
Linear Mltipla (MRLM)
o modelo de regresso
19. REGRESSO com k variveis explicativas:

LINEAR MLTIPLA Y = 0 + 1X1 + 2X2 +...+ kXk + u.

O slide seguinte apresenta as


2 interpretaes possveis para
os coeficientes deste modelo.

Interpretaes Possveis para j, j = 1, 2, ..., k: Hipteses do MRLM

1 - j a variao esperada em Y quando As hipteses so praticamente as mesmas do


Xj varia uma unidade, considerando que as MRLS. As nicas mudanas so as seguintes:
demais variveis permanecem constantes.
1 - Valor esperado, varincia e normalidade
2 - j a variao em Y quando Xj varia de u nas RLS. 4, 5 e 6, respectivamente,
uma unidade, com todos os demais fatores passam a ser condicionais a X1, X2, ..., Xk.
(considerados ou no como variveis
explicativas no modelo) constantes (esta Por exemplo, a RLM. 4 :
a definio precisa de ceteris paribus). E(u|X1, X2, ..., Xk) = 0.

2 - RLM. 3 : no h, na amostra, relaes Estimao por MQO - CPO`s


lineares exatas entre variveis explicativas.
n
(1) u i = 0
i =1
Quando a RLM. 3 for violada, temos n

a chamada multicolinearidade perfeita. ( 2 a k + 1) u i X ji = 0, j = 1,2,..., k.


i =1

Neste caso, os estimadores de MQO no Ou seja, as propriedades PR. 1 a PR. 3


esto definidos (veremos adiante por que). dos resduos para o MRLS aplicam-se
para cada varivel Xj: j = 1, 2, ..., k.

1
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Exemplo 19.1 - No modelo do exemplo 17.2


foi includa a varivel X2 = tamanho da Qual se estima que seja o gasto mdio
famlia. Os resultados obtidos foram: com alimentao de uma famlia com
Estatstica de regresso
R mltiplo 0,972032693 renda de R$ 100,00 e 3 pessoas?
R-Quadrado 0,944847557
R-quadrado ajustado
0,941866343
Erro padro 3,292752067
Observaes 40
Soluo:
ANOVA
gl SQ MQ F F de significao
Regresso 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resduo 37 401,1619984 10,84221617
Total 39 7273,694022
Y = 16,3829 + 0,2628 *100 + 9,6512 * 3 = 38,85.
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Varivel X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Varivel X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925

Estimadores de MQO:
Propriedades dos Resduos no MRLM
n

n
resduo de uma r Y ji i
PR. 1 u i = 0 . regresso auxiliar j = i =1
n , j = 1,2,...,k,
rji2
i =1
de Xj sobre as
n
demais variveis
PR. 2. j u i X ji = 0, j = 1,2,..., k. explicativas
i =1

i =1 k

n 0 = Y jX j.
PR. 3 u i Yi = 0 fcil de verificar. j=1
i =1
A reta de MQO passa pelo ponto:
( X1 , X 2 ,..., X K , Y ).

Varincias dos Estimadores ( )


V j como funo de R 2j :
( )
V j

()
V j = n
2
, j =1,2,...,k.
(X i=1
ji
Xj ) (1 R )
2 2
j

R2 da regresso auxiliar
de Xj nas demais variveis.

2
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Multicolinearidade Consideraes sobre Multicolinearidade:

Multicolinearidade (perfeita) ocorre quando


uma das variveis explicativas pode ser
1 - Quando a relao linear envolve apenas
escrita como combinao linear das demais.
2 variveis, o correto seria chamar
colinearidade. Todavia, este caso tambm
Consequncia: o estimador de MQO costuma ser chamado multicolinearidade.
no ser definido (numerador e
denominador sero iguais a zero).

2 - Multicolinearidade perfeita rara. Consequncia da Multicolinearidade:


(imperfeita)
Na prtica, ela costuma ser imperfeita, o
que significa correlao alta entre algum
subconjunto de variveis explicativas. As varincias dos estimadores de MQO dos
coeficientes sero elevadas/inflacionadas,
Neste caso, os estimadores de MQO fazendo com que os testes t de significncia
podem ser obtidos da forma usual, e usualmente adotados tendam a no rejeitar H0.
suas propriedades so preservadas.

Multicolinearidade x Micronumerosidade
Isto pode ser visto diretamente das
frmulas de varincia dos estimadores e do A multicolinearidade um problema da
grfico do ltimo slide da pgina anterior. amostra, e indica que ela no fornece
informao suficiente para estimar com
preciso os efeitos individuais das variveis.
A idia que variveis altamente
colineares no fornecem informao Seu efeito o mesmo de uma amostra
suficiente para que seus efeitos sejam pequena, motivando o econometrista
estimados separadamente com preciso. Goldberger a introduzir, ironicamente, o
termo micronumerosidade, na dcada de 70.

3
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

errado dizer que, na presena de Um aspecto importante que a


multicolinearidade, as varincias so multicolinearidade s afeta a varincia
sobrestimadas. Os estimadores das das variveis envolvidas na relao linear.
varincias continuam no viciados. A
questo que as varincias tericas sero Se estivermos interessados na relao
maiores (inflacionadas), e as estimativas ceteris paribus entre Y e Xj, controlando
apenas acompanham este comportamento. por outras variveis, a multicolinearidade
envolvendo estas variveis no
O desvio padro estimado com vcio inflaciona a varincia do estimador de j.
(negativo), mas isto ocorre at mesmo Este ponto ser retomado no captulo 22.
quando no temos multicolinearidade.

Alguns livros sugerem o uso do FIV


Deteco da Multicolinearidade:
(Fator de Inflao da Varincia):

Uma forma de identificar a presena de 1


FIV =
multicolinearidade para k = 2 olhar para 1 R 2j
a matriz de correlao entre os regressores.
FIV > 5 considerado indcio de
multicolinearidade. Entretanto, este
Todavia, para k>2 este procedimento
procedimento tem aplicabilidade limitada,
ter aplicabilidade bastante limitada.
pois os efeitos da multicolinearidade so
determinados tambm por outros fatores.

Solues para a Multicolinearidade:


2 - Aumentar o tamanho da amostra.
1 - Retirar uma varivel do modelo.

Esta soluo s deve ser adotada quando Isto pode no afetar a correlao entre as
a multicolinearidade for decorrente de m variveis, mas atenua seus efeitos, uma vez
especificao. Deve-se tomar cuidado para que as varincias dos estimadores de MQO
no excluir do modelo uma varivel que tambm so influenciadas pelo tamanho da
seja relevante, o que acarretaria o chamado amostra (este um aspecto que inclusive, na
erro de especificao, com consequncias prtica, dificulta a deteco do problema).
drsticas para os estimadores de MQO,
como ser mostrado no captulo 22.

4
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

R2 Ajustado
Por esta razo, no podemos usar o R2
Quando adicionamos uma varivel para comparar modelos com nmero
explicativa ao modelo, a SQR nunca diferente de variveis explicativas.
aumenta e, em geral, diminui. Logo:
Neste caso, a medida apropriada para
comparao do ajuste o R2 ajustado,
O R2 de um modelo nunca diminui com
que ajusta o R2 pelos graus de liberdade.
o acrscimo de uma varivel explicativa
(no limite, se n = k, R2 igual a 1).

Para entender a construo do R2 ajustado, SQR


til escrever o R2 da seguinte forma: n (k + 1) SQR n 1
R =1
2
= 1
SQT SQT n (k + 1)
n 1
SQR
SQR n 2u
R = 1
2
= 1 = 1 2 , Reescrevendo em termos do R2:
SQT SQT Y
n n -1
R 2 = 1 - (1 - R 2 ) .
em que, para as varincias, esto sendo
n - (k + 1)
utilizados estimadores que so viciados. Se
adotarmos os correspondentes no viciados: Obs - o R 2 sempre menor que o R 2 .

O R2 ajustado utilizado para comparar o O R2 ajustado pode ser substancialmente


ajuste de modelos com diferente nmero menor que o R2, podendo at ser negativo
de variveis explicativas, descontado o (basta que R2 e n sejam pequenos e k grande).
efeito dos diferentes graus de liberdade.

O aumento em R2 causado pelo maior


Exemplo 19.2 - Se R2 = 0,1, n = 51 e
nmero de variveis explicativas
k = 10, o R2 ajustado igual a -0,125.
compensado pelo menor nmero de
graus de liberdade, de tal forma que o R2
ajustado poder aumentar ou diminuir.

5
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Exemplo 19.3 - Compare o modelo do Modelo 1 - s com X1


exemplo 19.1 com o modelo do exemplo Estatstica de regresso
Estatstica de regresso
R mltiplo 0,937608458
17.2, em termos de qualidade do ajuste. R-Quadrado
R mltiplo
0,879109621
R-quadrado ajustado 0,875928295
Erro padro 4,81040437
Observaes 40
0,937608458
R-Quadrado
ANOVA
gl SQ MQ F 0,879109621
F de significao
Em outras palavras, verifique se a Regresso 1 6394,37439
R-quadrado ajustado
Resduo 38 879,319628
6394,374 276,3343605
23,13999
5,02495E-19

incluso da varivel: X2 = tamanho Total 39 7273,69402 0,875928295


da famlia traz melhora ao modelo. Erro padro
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Varivel X 1 0,515720938 0,03102397 16,62331 5,02495E-19 4,81040437
0,452916199 0,578525676
Observaes

Modelo 2 - com X1 e X2 R2 Ajustado x Significncia


Estatstica de regresso
(ver Wooldridge, p. 191)
O R2 ajustado aumentou de 0,87 para 0,94.
R mltiplo 0,972032693 Conclumos que o acrscimo de X2 contribuiu
R-Quadrado 0,944847557
para a melhoria do ajuste do modelo. O modelo 2,
R-quadrado ajustado
Erro padro
0,941866343
3,292752067
com X1 e X2 possui maior capacidade preditiva, Se adicionarmos um conjunto de variveis:
Observaes 40 conseguindo explicar, descontado o efeito dos
graus de liberdade, mais de 94% da variao de Y.
ANOVA R 2 aumenta | F | > 1.
gl SQ MQ F F de significao
Regresso 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resduo 37 401,1619984 10,84221617
Total 39 7273,694022 No caso particular (usual) de uma varivel:

R 2 aumenta | t | > 1.
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Varivel X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729
Varivel X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925

Testes de Hipteses no MRLM


Estimador No Viciado de 2:

No MRLM, permanecem vlidos, sob a RLM.


n
6, os testes t para a significncia (individual)
das estimativas de cada j, j = 1, 2, ..., k.
u 2
i

2 = i =1
.
n (k + 1)
k+1 parmetros
A estatstica t calculada da mesma forma, estimados
porm usando as expresses das varincias
do MRLM, substituindo 2 pela estimativa A distribuio t a ser adotada para os
obtida por meio do estimador no viciado. testes ter n-(k+1) graus de liberdade.

6
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Teste F de Significncia Conjunta Observao Importante:

Se, no teste F, H0 rejeitada,


O teste para a significncia conjunta
dizemos que o modelo significante.
das estimativas de 1, 2, ... e k,
consiste nas seguintes hipteses. Neste caso, deve-se em seguida analisar
os testes t individuais para identificar quais
H0: 1 = 2 = ... = k = 0; efeitos so significantes (note que a hiptese
x alternativa do teste F que pelo menos um
H1: ao menos um j diferente de zero. dos coeficientes significante, o que no
significa necessariamente todos o so!).

A estatstica de teste :
O teste F compara o modelo cheio,
SQT SQR / k SQE / k
chamado irrestrito, com o modelo F= = .
sob H0: Y = 0 + u, chamado restrito. SQR /[n (k + 1)] SQR /[n (k + 1)]

Sob H0, F ~ Fk,n-(k+1), e assim a regio


A idia que, ao restringir o modelo, a SQR crtica do teste, do tipo unilateral, :
aumenta em relao ao modelo irrestrito (no
caso, passa a ser igual a SQT). A questo : RC = [f k , n ( k +1); ; ).
esse aumento grande o suficiente para
justificar o uso do modelo irrestrito? (quanto maior a diferena entre SQE e SQR,
maior a evidncia a favor da significncia)

Tabela ANOVA

As quantidades envolvidas no teste F k SQE MQE = SQE/k f0 fsig


costumam ser representadas em uma n-(k+1) SQR MQR = SQR/[n-(k+1)]
tabela, denominada anlise de varincia, n-1 SQT
valor calculado
ou ANOVA (Analisys Of Variance). da estatstica F

p-valor do teste F.

Rejeita-se H0 ao nvel se: fsig .

7
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Teste F no Exemplo 19.1: Tabela ANOVA para o Modelo


Estatstica de regresso de Regresso Linear Simples
R mltiplo 0,972032693
R-Quadrado 0,944847557
Menor do que os
R-quadrado ajustado
0,941866343 1 SQE MQE = SQE/1 f0 fsig
Erro padro 3,292752067 nveis usuais,
Observaes 40
logo o modelo n-2 SQR MQR = SQR/(n-2)
ANOVA significante.
gl SQ MQ F F de significao
n-1 SQT
Regresso 2 6872,532024 3436,266012 316,9339143 5,23538E-24
Resduo 37 401,1619984 10,84221617
Total 39 7273,694022 O teste F no modelo de regresso simples (H0:
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores 1 = 0) equivalente ao teste t de significncia.
Interseo -16,38292449 3,081416164 -5,316686749 5,28353E-06 -22,62646061 -10,13938837
Varivel X 1 0,260849877 0,043862535 5,946985831 7,40728E-07 0,171976025 0,349723729

t 02 = f 0 .
Varivel X 2 9,651225335 1,453302236 6,640893472 8,57007E-08 6,706558169 12,5958925
Alm disto, vale a relao:
Todos os coeficientes so
individualmente significantes.

Relao entre Testes t e F no Modelo de Regresso Simples: Relao entre a Estatstica F e o R2


Estatstica de regresso
R mltiplo 0,937608458
Dividindo-se o numerador e o denominador
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
de f0 por SQT, verifica-se facilmente que:
Erro padro 4,81040437
Estatstica de regresso 16,623312 = 276,3343605
Observaes 40
R2 / k
R mltiplo f0 = .
(1 R 2 ) /[n (k + 1)]
ANOVA
gl SQ MQ F 0,937608458
F de significao
Regresso 1 6394,37439 6394,374 276,3343605 5,02495E-19
R-Quadrado
Resduo 38 879,319628 23,13999
Total 39 7273,69402
0,879109621 Ou, no caso particular da regresso simples:
R-quadradoCoeficientes
ajustado Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
0,875928295 R2
f0 =
Varivel X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
.
Erro padro
(1 R 2 ) /[n 2]
p-valores iguais!

Varincia Residual na Tabela ANOVA


Varincia Residual no caso do
Estatstica de regresso
Modelo de Regresso Mltipla: R mltiplo
R-Quadrado
0,937608458
0,879109621
R-quadrado ajustado 0,875928295
Erro padro 4,81040437
Observaes 40

SQR
2 =
ANOVA
gl SQ MQ F F de significao
[n (k +1)] Regresso
Resduo
1 6394,37439 6394,374 276,3343605
38 879,319628 23,13999
5,02495E-19

Total 39 7273,69402

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores


Interseo -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
pois estamos estimando (k+1) parmetros Varivel X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676

8
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

O Que Fazer Caso os Resultados dos


Testes t e F sejam Contraditrios?
Caso 2 - H0 rejeitada no teste F, mas
Caso 1 - H0 no rejeitada no teste F, mas os testes t levam no-rejeio de H0
os testes t indicam significncia de um ou para todos os coeficientes.
mais, ou at de todos os coeficientes.
Neste caso, deve-se concluir que h pelo
Neste caso, deve-se concluir pela menos um efeito significante, ou seja, o
significncia do(s) respectivo(s) efeito(s), resultado do teste F mais confivel.
pois o teste t tem maior poder que o
teste F para detectar efeitos individuais.

Teste F Geral para Restries Lineares


A situao do ltimo slide um forte
indcio da presena de multicolinearidade,
que afeta os testes t (pois acarreta valores
pequenos de t0), mas no interfere no teste F. O teste F compara um modelo de referncia,
chamado irrestrito, com um modelo sujeito
A idia que, neste caso, a amostra no a restries lineares (chamado restrito),
fornece informao suficiente para que os utilizando as SQR`s dos respectivos modelos.
efeitos sejam capturados individualmente.

Estatstica do Teste: Quanto maior for SQRrestrito em relao a


SQRirrestrito, mais forte ser a evidncia a
nmero de
favor do modelo irrestrito (ou seja, contra a
restries
(SQR restrito SQR irrestrito ) / q restrio postulada em H0). No obstante,
F= . quanto maior SQRrestrito em relao a
SQR irrestrito /[ n (k + 1)]
SQRirrestrito, maior o valor da estatstica F.
soma de quadrados
soma de quadrados dos
dos resduos do modelo A regio crtica do teste :
irrestrito
resduos do modelo restrito
RC = [f q ,n ( k +1); ; ).

9
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Exemplo 19.4 - Considere k = 3


e sejam as seguintes hipteses:
A idia que, ao restringir o modelo, a H0: 1 = 2 e 3 = 0;
SQR aumenta em relao ao modelo
x
irrestrito. A questo : esse aumento
grande o suficiente para justificar o uso H1: 1 2 e/ou 3 0.
do modelo mais complexo (irrestrito)?
Seja n = 30 e sejam as somas dos
quadrados dos modelos restrito e irrestrito,
respectivamente: 2594,5 e 2592,3. Teste
as hipteses do enunciado, ao nvel 0,05.

Resposta: Forma alternativa da estatstica F


(tambm chamada forma R2):
f0 0,011, certamente menor do que o
respectivo valor crtico da distribuio F. (R ir2 R 2r ) / q
Portanto, nesta aplicao, no rejeitamos H0 F= .
(1 R ir2 ) /[n (k + 1)]
e ficaramos com o modelo restrito, que
seria o seguinte modelo (regresso simples):
Obs - esta forma s pode ser adotada para
Y = 0 + 1(X1+X2) + u modelos cujos R2 sejam comparveis.

Isto corresponde a testar:


Outra possibilidade que o modelo de
regresso linear mltipla nos abre, e que H0: 1 = 2 = 0
possui frequente interesse prtico, testar se x
pelo menos algum dos efeitos considerados H1: ao menos uma das variveis afeta Y.
afetam Y. Por exemplo, podemos estar
interessados em investigar se educao e/ou
experincia profissional afetam o salrio.
O teste F tambm adequado para esta
situao. Quantas restries temos aqui?

10
T.E.A. II (Curso Preparatrio para o Exame da ANPEC)
Disciplina: Estatstica - Professor: Eduardo Lima Campos

Notao Matricial Escrevendo o modelo para cada i:

comum expressar um modelo de regresso Y1 = 0 + 1X11 + 2X21 +...+ kXk1 + u1


linear utilizando vetores e matrizes. Y2 = 0 + 1X12 + 2X22 +...+ kXk2 + u2
Y3 = 0 + 1X13 + 2X23 +...+ kXk3 + u3
Esta notao denominada matricial. .
.
A idia escrever o modelo para todo .
i = 1, 2, ..., n em uma nica equao. Yn = 0 + 1X1n + 2X2n +...+ kXkn + un

O modelo, em notao matricial, : Estimadores de MQO em Notao Matricial:

Y = X + u , sendo:
~ N2). = ( X`X ) 1 X`Y.
~ N2).

Y = (Y1, Y2, ..., Yn)`, = (0, 1, ..., k)`,

1 X11 ... X k1 A matriz X`X tem que ser inversvel. Na


1 X ... X k 2
prtica, isto significa que nenhuma coluna
X= 12
, u = (u , u , ..., u )`. (varivel explicativa) pode ser escrita como
... ... ... ... 1 2 n
combinao linear das demais (para ilustrar:

1 X1n ... X kn se k = 3, no se pode ter, p.ex.: X1 = 3X2+X3).

Prova Matricial de que No Viciado


Matriz de Varincia-Covarincia
Usando que Y = X + u , verifica-se
que pode ser escrito na forma: A matriz de varincia-covarincia
de dada pela seguinte expresso:
= + (X`X) 1 X`u.

Tomando o valor esperado: V() = 2 (X`X) 1.


E () = .

11

You might also like