Professional Documents
Culture Documents
PORTO ALEGRE
2018
LISTA DE IMAGENS
LISTA DE TABELAS
INTRODUÇÃO ............................................................................................................ 4
1. REGRESSÃO LINEAR SIMPLES ........................................................................ 5
1.1 MODELO DE REGRESSÃO LINEAR SIMPLES ............................................ 6
1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO .................................... 7
2. MÉTODO DOS MÍNIMOS QUADRADOS ............................................................ 8
2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA ......................................... 9
2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA ...................... 10
3. LINHA DE REGRESSÃO PARA AMOSTRA...................................................... 11
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA ................. 13
4. VARIÂNCIA E DESVIO PADRÃO DO MODELO ............................................... 14
5. INFERÊNCIA SOBRE β1 ................................................................................... 15
5.1 INTERVALO DE CONFIANÇA PARA β1 ..................................................... 15
5.2 TESTE DE HIPÓTESE PARA β1 ................................................................. 17
6. INFERÊNCIA SOBRE β0 ................................................................................... 18
6.1 INTERVALO DE CONFIANÇA PARA βo ..................................................... 18
6.2 TESTE DE HIPÓTESE PARA β0 ................................................................. 19
7. INFERÊNCIA SOBRE 𝐄{𝐘𝐡} .............................................................................. 20
8. INTERVALO DE CONFIANÇA DA LINHA DE REGRESSÃO ............................ 23
9. ANÁLISE DE VARIÂNCIA .................................................................................. 24
9.1 TESTE F ...................................................................................................... 27
10. COEFICIENTE DE DETERMINAÇÃO ............................................................. 27
11. TESTES DE HOMECEDASTICIDADE ............................................................ 28
11.1 TESTE DE BROWN-FORSYTHE ............................................................. 28
11.2 TESTE DE BREUSH-PAGAN ................................................................... 30
REFERÊNCIAS BIBLIOGRÁFICAS .......................................................................... 31
INTRODUÇÃO
4
1. REGRESSÃO LINEAR SIMPLES
Outra observação importante a ser feita é que uma relação estatística por si
não implica logicamente uma causa, está depende, na maioria das vezes, de
considerações teóricas. Ademais, regressão também não significa correlação. A
segunda mede a força da associação linear entre as variáveis, enquanto a primeira se
interessa, como já explanado, pela estimação do valor médio de uma variável com
base nos valores conhecidos de outra. Também deve-se destacar o fato que na
regressão existe uma assimetria no tratamento das variáveis resposta e preditora (a
primeira possui uma distribuição de probabilidade, enquanto a segunda possui valores
fixos), a qual não existe na correlação.
Yi = βo + β1 Xi + εi
Onde:
6
Xi é o valor da variável preditora na i-ésima tentativa, ou seja, é uma constante
conhecida.
E(Yi ) = E {βo + β1 Xi + εi }
E(Yi ) = βo + β1 Xi + E {εi }
E(Yi ) = βo + β1 Xi
5) Os termos de erros são não correlacionados, então as respostas também não são
correlacionadas.
7
2. MÉTODO DOS MÍNIMOS QUADRADOS
Nesse trabalho será utilizado o método dos mínimos quadrados para estimar a
função de regressão, o qual foi elaborado por Carl Friedrich Gauss. O procedimento
utiliza uma amostra com n pares de observações (Xi, Yi). Para cada uma delas, o
método considera os desvios de Yi em relação ao valor esperado de Yi.
∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2
n n
1
b0 = (∑ Yi − b1 ∑ Xi ) = b1
n
i=1 i=1
3Manipulação algébrica para chegar aos estimadores b0 e b1 disponível em: GUJARATI, Damodar.
Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
8
Uma observação pertinente é sobre a necessidade de elevar os desvios ao
quadrado. Pela imagem abaixo4, podemos notar que a distância do termo de erro 5 1,
e1 , é igual a distância do termo de erro 4, e4 , o mesmo ocorre para os termos de erro
2 e 3. Respeitado a constatação anterior, isto é, os valores 1-4 e 2-3 devem possuir a
mesma grandeza em módulo, supõe-se os seguintes valores para estes resíduos:
e1 = 50; e2 = −10; e3 = 10; e4 = − 50. A soma de tais valores resultaria em zero, o
que passaria a ilusão de um ajustamento perfeito em função da soma dos erros ser
igual a zero, porém pela Imagem 2 fica claro que isso não ocorre. Na verdade, os
quatros termos de erros estão dispersos ao longo da linha de regressão. Dessa
maneira, utiliza-se o critério Q elevado ao quadrado, pois existem infinitas linhas de
regressão que teriam uma soma de termos de erros igual a zero, todavia o foco está
na que fornece a menor incerteza. Resultado que só pode ser obtivo através do critério
Q da forma definida anteriormente, pois quanto maior o valor do termo de erro elevado
ao quadrado, maior será sua participação no somatório Q.
̂ = bo + b1 X
Y
4 Fonte: GUJARATI, Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006, página
48.
5 Gujarati utiliza a notação 𝑢
̂ para os termos de erro.
9
Onde: ̂
Y é o estimador pontual da resposta média para um determinado nível
̂i é o valor estimado da função de regressão para o nível
de X. Logo, Y
Xi da variável independente.
Por seu turno, os resíduos são encontrados através da diferença entre o valor
observador e o corresponde valor fornecido pelo estimador pontual da resposta média,
o valor ajustado. Assim, o i-ésimo resíduo é dado por:
̂i
ei = Yi − Y
Onde: Yi e ̂
Yi são, respectivamente, o valor observado e ajustado na i-ésima
tentativa.
No modelo de regressão linear simples, o i-ésimo resíduo será dado por:
ei = Yi − bo − b1 Xi
∑ ei = 0
i=1
2. A soma dos quadrados dos resíduos ∑ni=1 ei 2 é a mínima entre todas as linhas
que passam pelo vetor (X, Y).
3. A soma dos valores observados é igual à soma dos valores ajustados
𝑛 𝑛
∑ Yi = ∑ ̂
Yi
𝑖=1 𝑖=1
4. A soma dos resíduos ponderados é igual a zero quando o i-ésimo resíduo for
ponderado pelo i-ésimo valor da variável preditora.
n
∑ X i ei = 0
i=1
10
5. A soma dos resíduos é igual a zero quando o i-ésimo resíduo for ponderado
pelo i-ésimo valor ajustado.
n
∑̂
Yi ei = 0
i=1
b0 = b1 ( )( )
12
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA
13
6. A linha de regressão obrigatoriamente passará pelo vetor (𝐗, 𝐘).
Comprovado pela Imagem 4.
Para estimar a variância do modelo, utilizamos a mesma lógica que para uma
população finita. Lembrando que a variância pode ser denotada como quadrado
médio, em virtude da soma de quadrados ser dividida pelo número apropriado de
graus de liberdade.
n n
̂i )2 = ∑ ei 2
SQErro = ∑(Yi − Y
i=1 i=1
A SQErro possui n-2 graus de liberdade, pois dois graus de liberdade são
̂i . Portanto a variância
perdidos ao estimarmos β0 e β1 para obtermos a estimativa Y
do modelo, S 2 , denotada por Erro Quadrático Médio (EQM) é estimada pela seguinte
fórmula:
SQErro
S 2 = EQM =
n−2
66,9334
S 2 = EQM = = 7,4370
11−2
S = √7,4370 = 2,7271
14
5. INFERÊNCIA SOBRE β1
∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2
σ2
σ2 {𝑏1 } =
∑(Xi − )2
EQM
S 2 {𝑏1 } =
∑(Xi − )2
Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
positiva do estimador da variância de b1.
α
IC{β1 } = b1 ± t (1 − , n − 2) S{b1 }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.
9 Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
15
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente β1. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor encontrado na seção 4 para o numerador da variância e o
valor da intersecção da linha 13 com a coluna 7 da Tabela 2 para o denominador.
EQM 7,4370
S 2 {b1 } = 2
= = 0,0027
∑(Xi − ) 2750
α
IC = b1 ± t (1 − , n − 2) S{b1 }
2
IC = 0,4473 ± 2,262*0,0520
IC = [0,3297; 0,5649]
16
5.2 TESTE DE HIPÓTESE PARA β1
HO : β1 = 0
H1 : β1 ≠ 0
A situação de aceitação da hipótese nula significa que tal relação não existe,
por seu turno, a situação de rejeição da hipótese nula significa que tal relação entre
as variáveis existe.
(b1 − β1 ) (b1 − 0) b1
t∗ = = =
S{b1 } S{b1 } S{b1 }
A troca de β1 por 0 ocorre porque o foco está na hipótese nula. Além disso, a
regra de decisão é a seguinte:
Com essas informações, podemos realizar o teste de hipótese para b1. Para
calcular utiliza-se um nível de significância de 5% e n-2 = 9, assim t(0,025;9) será
2,262. Ademais, toma-se o valor estimado para b1 na seção 3 e o de sua variância na
seção 5.1.
b1 0,4473
t∗ = = = 8,6019
S{b1 } 0,0520
Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 8,6019 > 2,262, rejeita-se a hipótese nula.
Desse modo, há uma relação linear entre X e Y.
17
6. INFERÊNCIA SOBRE β0
De igual maneira a análise feita para β1, antes de focar no intervalo de confiança
para o coeficiente β0, é preciso fazer uma observação sobre a distribuição amostral
de b0. Como visto na seção 2, o estimador de b0 é:
b0 = b1
2
1
σ2 {𝑏0 } 2
=σ [ + ]
𝑛 ∑(Xi − )2
2
1
S 2 {b1 } = EQM [ + ]
n ∑(Xi − )2
Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
positiva do estimador da variância de b0.
α
IC{β0 } = b0 ± t (1 − , n − 2) S{b0 }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.
10Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Editora Elsevier.
18
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente βo. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor do EQM encontrado na seção 4, o valor ∑(Xi − )2
encontrado na intersecção da linha 13 com a coluna 7 da Tabela 2, o valor
X encontrado na intersecção da linha 14 com a coluna 2 da Tabela 2 e n igual a 11.
2
2 {b
1 1 472
S }
0 = EQM [ + ] = 7,4370 [ + ] = 6,65
n ∑(Xi − )2 11 2750
α
IC = bo ± t (1 − , n − 2) S{b1 }
2
IC = − ± 2,262*2,5788
IC = [−12,1567; −0,4903]
HO : β1 = 0
H1 : β1 ≠ 0
19
Para realizarmos o teste devemos “normalizar” a distribuição amostral de b 0,
como b0 é normalmente distribuído, pressuposto do modelo trabalhado, a estatística
padronizada (b0 − β0 )/σ{bo }) é uma normal padrão. Todavia, como se estima a
variância através de S 2 (conforme mostrado na seção anterior), a estatística torna-se
studentizada com n-2 graus de liberdade. Assim, a estatística do teste é a seguinte:
(bo − βo ) (bo − 0) bo
t∗ = = =
S{bo } S{bo } S{bo }
bo −6,3235
t∗ = = = −2,4521
S{bo } 2,5788
Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 2,4521 > 2,262, rejeita-se a hipótese nula.
̂h = bo + b1 Xh
Y
1 (Xh − 2
̂2 2
σ {Yh } = σ [ + ]
𝑛 ∑(Xi − )2
1 (Xh − 2
2 ̂
S {Yh } = EQM [ + ]
n ∑(Xi − )2
Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
̂h .
positiva do estimador da variância da distribuição amostral de Y
α
̂h ± t (1 − , n − 2) S{Y
IC{E{Yh }} = Y ̂h }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.
1 (X − 2 1 (22 − 47)2
̂h } = EQM [ + h
S 2 {Y ] = 7,4370 [ + ] = 2,3663
n ∑(Xi − )2 11 2750
̂h } = √S 2 {Y
S{Y ̂h } = 1,5383
11Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: KUTNER, Michael;
NACHTSHEIM, Christopher; NETER, John; LI, William. Applied Linear Statical Models. 5 ed. New York:
McGraw Hill/Irwin.
21
̂h = 3,5180, utilizando um nível de
Assim, como para Xh = 22 o valor ajustado é Y
confiança de 95%, o mesmo utilizado em todos os exercícios realizados na sala de
aula, teremos:
α
̂h ± t (1 − , n − 2) S{Y
IC = Y ̂h }
2
IC = 3,5180 ± 2,262*1,5383
IC = [0,0384; 6,9976]
̂h ± WS{Y
IC = Y ̂h }
9. ANÁLISE DE VARIÂNCIA
24
A Soma de Quadrados Totais é soma dos desvios quadráticos, isto é, dos
desvios de Yi em relação a Y.
25
Com essas informações, pode-se elaborar a tabela da análise de variância. Na
tabela 7 é expressa os cálculos das três Somas de Quadrados para a amostra e a
seguir é feito os cálculos dos Quadrados Médios.
SQR 550,3174
QMR = = = 550,3174
1 1
SQE 66,9334
QME = = = 7,4370
n−2 9
SQT 617,2508
QMT = = = 61,7251
n−1 10
9.1 TESTE F
HO : β1 = 0
H1 : β1 ≠ 0
QMR
A estatística do teste é dada por: F ∗ = . Ademais, a regra de decisão é a
QME
seguinte:
Se F ∗ ≤ F(1 − α , 1, n − 2), aceita-se H0.
QMR 550,3174
F∗ = = = 73,9972
QME 7,4370
Como F ∗ > F(1 − α , 1, n − 2), isto é, 73,9972 > 4,256, rejeita-se a hipótese nula.
SQR SQE
r2 = =1−
SQT SQT
O coeficiente de determinação, r 2 , é o indicador mais usado para medir a
qualidade do ajustamento de uma linha de regressão. Ele mede a proporção da
27
variação total de Y explicada pelo modelo de regressão. Se r 2 = 1, significa um
ajustamento perfeito, isto é, Yi = Ŷi para todo i. Se r 2 = 0, significa que não há
qualquer relação entre as variáveis.
SQR 550,3174
r2 = = = 0,8916
SQT 617,2508
Isso diz que 0,8916 da variação de Y é explicada pela regressão.
Onde:
𝑒̃1 e 𝑒̃2 são as medianas dos respectivos grupos 1 e 2.
𝑒𝑖1 e 𝑒𝑖2 são os i-ésimos resíduos dos respectivos grupos 1 e 2.
𝑑𝑖1 e 𝑑𝑖2 são os desvios dos resíduos, em termos absolutos, em relação à
mediana dos respectivos grupos 1 e 2.
A estatística do teste é dada por:
d1 − d2
t BF ∗ =
1 1
S√n + n
1 2
28
Onde:
2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2
𝑆 =
𝑛−2
Grupo 1 Grupo2
e1 = -1,6759 e7 = 3,5148
e2 = -2,0589 e8 = 2,0429
e3 = -1,8889 e9 = 0,1733
e4 = -0,0539 e10 = -1,9942
e5 = 2,2148 e11 = -4,0637
e6 = 3,7897
Tabela 11: Cálculo dos desvios dos resíduos para o teste de Brown-Forsythe17
2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2 12,6121 + 10,3268
𝑆 = = = 2,5488
𝑛−2 9
d1 − d2 1,9290 − 2,3231
t BF ∗ = = = −0,2553
1 1 1 1
S√n + n 2,5488√6 +
1 2 5
Se |𝑡𝐵𝐹 ∗ | > t(1 − α , n − 2), conclui-se que a variância dos termos de erro não é
constante.
31