You are on page 1of 31

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

ESTATÍSTICA ECONÔMICA (MAT02207)

RELATÓRIO DE ESTATÍSTICA ECONÔMICA

ALUNO: ANGELO FRANCISCO SIRTOLI DELAMARE - 00287871

PROFESSOR: FERNANDO HEPP PULGATI

PORTO ALEGRE

2018
LISTA DE IMAGENS

Imagem 1: Relação estatística entre duas variáveis ................................................... 5


Imagem 2: Critério dos mínimos quadrados ................................................................ 9
Imagem 3: Linha de regressão .................................................................................. 12
Imagem 4: Coeficientes de Regressão ..................................................................... 12
Imagem 5: Intervalo de Confiança β1........................................................................ 16
Imagem 6: Intervalo de Confiança β0........................................................................ 19
Imagem 7: Gráfico do Intervalo de Confiança para E{Yh} ......................................... 23
Imagem 8: Representação Gráfica do IC para a Linha de Regressão ...................... 24
Imagem 9: Teste de Breush-Pagan........................................................................... 30

LISTA DE TABELAS

Tabela 1: Amostra do relatório .................................................................................... 4


Tabela 2: Cálculo estimadores b0 e b1 ..................................................................... 11
Tabela 3: Comprovação propriedades da linha de regressão para a amostra .......... 13
Tabela 4: Intervalo de Confiança para E{Yh} ............................................................ 22
Tabela 5: Intervalo de Confiança para a Linha de Regressão .................................. 23
Tabela 6: Tabela de Análise de Variância ................................................................. 24
Tabela 7: Soma de Quadrados para a Amostra ........................................................ 26
Tabela 8: Tabela de Análise de Variância para a Amostra ....................................... 26
Tabela 9: Tabela de Análise de Variância para a Amostra feita no Gretl .................. 27
Tabela 10: Grupos dos termos de erro ...................................................................... 29
Tabela 11: Cálculo dos desvios dos resíduos para o teste de Brown-Forsythe ........ 29
SUMÁRIO

INTRODUÇÃO ............................................................................................................ 4
1. REGRESSÃO LINEAR SIMPLES ........................................................................ 5
1.1 MODELO DE REGRESSÃO LINEAR SIMPLES ............................................ 6
1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO .................................... 7
2. MÉTODO DOS MÍNIMOS QUADRADOS ............................................................ 8
2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA ......................................... 9
2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA ...................... 10
3. LINHA DE REGRESSÃO PARA AMOSTRA...................................................... 11
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA ................. 13
4. VARIÂNCIA E DESVIO PADRÃO DO MODELO ............................................... 14
5. INFERÊNCIA SOBRE β1 ................................................................................... 15
5.1 INTERVALO DE CONFIANÇA PARA β1 ..................................................... 15
5.2 TESTE DE HIPÓTESE PARA β1 ................................................................. 17
6. INFERÊNCIA SOBRE β0 ................................................................................... 18
6.1 INTERVALO DE CONFIANÇA PARA βo ..................................................... 18
6.2 TESTE DE HIPÓTESE PARA β0 ................................................................. 19
7. INFERÊNCIA SOBRE 𝐄{𝐘𝐡} .............................................................................. 20
8. INTERVALO DE CONFIANÇA DA LINHA DE REGRESSÃO ............................ 23
9. ANÁLISE DE VARIÂNCIA .................................................................................. 24
9.1 TESTE F ...................................................................................................... 27
10. COEFICIENTE DE DETERMINAÇÃO ............................................................. 27
11. TESTES DE HOMECEDASTICIDADE ............................................................ 28
11.1 TESTE DE BROWN-FORSYTHE ............................................................. 28
11.2 TESTE DE BREUSH-PAGAN ................................................................... 30
REFERÊNCIAS BIBLIOGRÁFICAS .......................................................................... 31
INTRODUÇÃO

O relatório tem como foco o desenvolvimento dos conteúdos atrelados ao


modelo de regressão linear simples abordado nas aulas de Estatística Econômica no
semestre 2018/1. No tópico 1 será mostrado o modelo de regressão linear simples e
suas características mais importantes. No tópico 2 será introduzido o método dos
mínimos quadrados para estimar as respostas médias e mostrado as principais
características da linha de regressão ajustada. No tópico 3 será calculada a linha de
regressão para amostra fornecida pelo professor e comprovado que tal linha respeita
as características expressadas no tópico 2. No tópico 4 serão mostrados e calculados,
para a amostra, a variância e o desvio padrão do modelo. Os tópicos 5 e 6 referem-
se respectivamente as inferências sobre os coeficientes de regressão β1 e βo, sendo
desmembrados em intervalo de confiança e em teste de hipótese para cada
parâmetro. O tópico 7 será direcionado a inferência sobre a 𝐄{𝐘𝐡}, enquanto o tópico
8 refere-se ao intervalo de confiança para a linha de regressão da amostra. Os tópicos
9 e 10 são direcionados à análise de variância e ao coeficiente de regressão,
respectivamente. Por fim, o tópico 11 trata de dois testes sobre a constância da
variância dos termos de erro da amostra. A amostra utilizada no trabalho é dada pela
Tabela 1, na qual X refere-se a faixa etária (anos) e Y refere-se a média dos anos de
experiência para os economistas.

Tabela 1: Amostra do relatório

4
1. REGRESSÃO LINEAR SIMPLES

A análise de regressão estuda a dependência de uma variável, denominada de


variável dependente ou resposta, em relação a outra, denominada de variável
preditora, explanatória ou independente. O objetivo é estimar o valor médio da variável
dependente em relação aos valores fixos da preditora. É importante ressaltar que
ambas as variáveis do modelo são de natureza quantitativa, isto é, apresentam
valores numéricos.

Na análise de regressão, o interesse do pesquisador está na dependência


estatística e não na dependência funcional entre as duas variáveis. A relação funcional
é expressa por uma formulação matemática exata1, haja vista que as variáveis não
são aleatórias. Assim, para cada valor de x, a função expressa um valor
correspondente para y. Por sua vez, a relação estatística não pode ser expressa por
uma formulação exata, haja vista que as variáveis são aleatórias, ou seja, possuem
uma distribuição de probabilidade.

Imagem 1: Relação estatística entre duas variáveis

Conforme mostrado pelos gráficos2 acima, na relação estatística a tendência


da variável resposta é expressa como uma variação sistemática da variável
independente. Além disso, a dispersão dos pontos em torno da linha mostra a
dependência estatística. Portanto, no modelo de regressão existe uma distribuição
de probabilidade para a variável dependente a cada valor da variável independente e

1No caso com duas variáveis: y = f (x).


2Gráfico do exemplo sobre as avaliações de desempenho para 10 funcionários obtidas no meio do ano
e no final do ano. KUTNER, Michael; NACHTSHEIM, Christopher; NETER, John; LI, William. Applied
Linear Statical Models. 5 ed. New York: McGraw Hill/Irwin, página 4.
5
as médias destas distribuições variam de forma sistemática com a variação da variável
preditora.

Outra observação importante a ser feita é que uma relação estatística por si
não implica logicamente uma causa, está depende, na maioria das vezes, de
considerações teóricas. Ademais, regressão também não significa correlação. A
segunda mede a força da associação linear entre as variáveis, enquanto a primeira se
interessa, como já explanado, pela estimação do valor médio de uma variável com
base nos valores conhecidos de outra. Também deve-se destacar o fato que na
regressão existe uma assimetria no tratamento das variáveis resposta e preditora (a
primeira possui uma distribuição de probabilidade, enquanto a segunda possui valores
fixos), a qual não existe na correlação.

1.1 MODELO DE REGRESSÃO LINEAR SIMPLES

Antes de apresentar o modelo de regressão é necessário fazer uma última


observação, como tratamos de uma relação que não pode ser formula de maneira
exata, devemos introduzir um termo de erro, o qual é uma variável aleatória que
representa todas as variáveis omitidas, mas que conjuntamente afetam a variável
resposta. Logo, o modelo de regressão linear simples é o seguinte:

Yi = βo + β1 Xi + εi

Onde:

Yi é o valor da variável dependente na i-ésima tentativa, isto é, o valor da


distribuição condicional de Y dado um X , E(XΙY).

βo é um dos parâmetros ou coeficientes de regressão, representa o intercepto


da linha de regressão. Expressa a média da distribuição condicionada de Y
quando X assume o valor zero, caso X = 0 não esteja incluso no modelo, βo
não tem intepretação isolada.

β1 é o outro parâmetro ou coeficiente de regressão, representa a inclinação da


linha de regressão. Ele indica a mudança na média da distribuição de
probabilidade de Y por unidade variada em X.

6
Xi é o valor da variável preditora na i-ésima tentativa, ou seja, é uma constante
conhecida.

εi é o termo de erro aleatório com média E{εi } = 0 e variância constante


σ2 {εi } = σ2 .

O modelo é chamado simples porque há apenas uma variável explanatória e


linear porque a esperança condicional de Y é uma função linear nos parâmetros.
Portanto, a expressão regressão linear significa uma regressão linear nos parâmetros,
podendo ou não ser linear nas variáveis preditoras.

1.2 CARACTERÍSTICAS IMPORTANTES DO MODELO

1) A resposta Yi é a soma de duas componentes: o termo constante (βo + β1 Xi )


e o termo de erro aleatório (εi )

2) Como a média do termo de erro aleatório é nula, E{εi } = 0, a resposta Yi


segue uma distribuição de probabilidade com média E{Yi } = βo + β1 Xi, pois:

E(Yi ) = E {βo + β1 Xi + εi }

E(Yi ) = βo + β1 Xi + E {εi }

E(Yi ) = βo + β1 Xi

3) A resposta Yi afasta-se do valor da linha de regressão pela quantidade expressada


pelo termo de erro, ou seja, o termo de erro é simplesmente o desvio de Yi do seu
valor esperado (média condicional).

4) Os termos de erro tem variância constante, σ2 {εi } = σ2 , desse modo, a resposta Yi


tem a mesma variância constante, σ2 {Yi } = σ2 .

σ2 {Yi } = σ2 {βo + β1 Xi + εi } = σ2 {εi },

pois pela teoria estatística: σ2 {a + bX} = b2 σ2 {X}, onde a e b são constantes.

5) Os termos de erros são não correlacionados, então as respostas também não são
correlacionadas.

7
2. MÉTODO DOS MÍNIMOS QUADRADOS

Nesse trabalho será utilizado o método dos mínimos quadrados para estimar a
função de regressão, o qual foi elaborado por Carl Friedrich Gauss. O procedimento
utiliza uma amostra com n pares de observações (Xi, Yi). Para cada uma delas, o
método considera os desvios de Yi em relação ao valor esperado de Yi.

(Y− (βo + β1 Xi ))2

A soma dos n desvios (erros) quadráticos (pois é um para cada par de


observações) será dada por:
n n

Q = ∑(Y− (βo + β1 Xi ))2 = ∑ ei 2


i=1 i=1

Portanto, o método dos mínimos quadrados propõe estimadores para βo e β1


que minimizem o critério Q para uma dada amostra de pares de observações. Isto é,
o melhor ajuste será aquele que apresentar a linha de regressão com o menor valor
de Q. De acordo com o método3, os estimadores b1 e b0 são fornecidos pelas
respectivas fórmulas:

∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2
n n
1
b0 = (∑ Yi − b1 ∑ Xi ) = b1
n
i=1 i=1

Onde: e são as médias amostrais de X e de Y.

Segundo o Teorema de Gauss Markov, os estimadores apresentam as


seguintes propriedades:

 bo e b1 são estimadores não viesados


 bo e b1 são funções lineares de Y.

3Manipulação algébrica para chegar aos estimadores b0 e b1 disponível em: GUJARATI, Damodar.
Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
8
Uma observação pertinente é sobre a necessidade de elevar os desvios ao
quadrado. Pela imagem abaixo4, podemos notar que a distância do termo de erro 5 1,
e1 , é igual a distância do termo de erro 4, e4 , o mesmo ocorre para os termos de erro
2 e 3. Respeitado a constatação anterior, isto é, os valores 1-4 e 2-3 devem possuir a
mesma grandeza em módulo, supõe-se os seguintes valores para estes resíduos:
e1 = 50; e2 = −10; e3 = 10; e4 = − 50. A soma de tais valores resultaria em zero, o
que passaria a ilusão de um ajustamento perfeito em função da soma dos erros ser
igual a zero, porém pela Imagem 2 fica claro que isso não ocorre. Na verdade, os
quatros termos de erros estão dispersos ao longo da linha de regressão. Dessa
maneira, utiliza-se o critério Q elevado ao quadrado, pois existem infinitas linhas de
regressão que teriam uma soma de termos de erros igual a zero, todavia o foco está
na que fornece a menor incerteza. Resultado que só pode ser obtivo através do critério
Q da forma definida anteriormente, pois quanto maior o valor do termo de erro elevado
ao quadrado, maior será sua participação no somatório Q.

Imagem 2: Critério dos mínimos quadrados

2.1 ESTIMADOR PONTUAL DA RESPOSTA MÉDIA

Através dos estimadores bo e b1 estimaremos a função de regressão na forma:

̂ = bo + b1 X
Y

4 Fonte: GUJARATI, Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006, página
48.
5 Gujarati utiliza a notação 𝑢
̂ para os termos de erro.
9
Onde: ̂
Y é o estimador pontual da resposta média para um determinado nível
̂i é o valor estimado da função de regressão para o nível
de X. Logo, Y
Xi da variável independente.

Por seu turno, os resíduos são encontrados através da diferença entre o valor
observador e o corresponde valor fornecido pelo estimador pontual da resposta média,
o valor ajustado. Assim, o i-ésimo resíduo é dado por:

̂i
ei = Yi − Y

Onde: Yi e ̂
Yi são, respectivamente, o valor observado e ajustado na i-ésima
tentativa.
No modelo de regressão linear simples, o i-ésimo resíduo será dado por:

ei = Yi − bo − b1 Xi

2.2 PROPRIEDADES DA LINHA DE REGRESSÃO AJUSTADA

A linha de regressão ajustada possui seis propriedades:


1. A soma dos resíduos é igual a zero.
n

∑ ei = 0
i=1

2. A soma dos quadrados dos resíduos ∑ni=1 ei 2 é a mínima entre todas as linhas
que passam pelo vetor (X, Y).
3. A soma dos valores observados é igual à soma dos valores ajustados
𝑛 𝑛

∑ Yi = ∑ ̂
Yi
𝑖=1 𝑖=1

4. A soma dos resíduos ponderados é igual a zero quando o i-ésimo resíduo for
ponderado pelo i-ésimo valor da variável preditora.
n

∑ X i ei = 0
i=1

10
5. A soma dos resíduos é igual a zero quando o i-ésimo resíduo for ponderado
pelo i-ésimo valor ajustado.
n

∑̂
Yi ei = 0
i=1

6. A linha de regressão obrigatoriamente passará pelo vetor (X, Y).

3. LINHA DE REGRESSÃO PARA AMOSTRA

Por meio das informações da amostra, fornecidas na introdução do relatório, e


do método dos mínimos quadrados, explicado nas seções anteriores, foi estimada a
linha de regressão com o objetivo de analisar a relação entre a faixa etária (variável
preditora) representada por X e a média dos anos de experiência do economistas
(variável resposta) representada por Y.

Tabela 2: Cálculo estimadores b0 e b16

Com as informações disponibilizadas pela Tabela 2, pode-se calcular os


estimadores bo e b1:

∑ni=1(Xi − )(Yi − ) 1230,1922


b1 = = = 0,4473
(Xi − )2 2750

b0 = b1 ( )( )

6 Fonte: elaboração própria através do programa Excel.


11
Assim, a função de regressão é estimada na forma: Ŷi = −6,3235 + 0,4473 Xi .
Os valores ajustados são fornecidos na coluna 8 da tabela 2, enquanto os termos de
erro são fornecidos na coluna 9. Dessa maneira, a linha de regressão linear7 é a
seguinte:

Imagem 3: Linha de regressão

Na Imagem 4, os mesmos valores para os coeficientes bo e b1, agora


encontrados por meio do software Gretl.

Imagem 4: Coeficientes de Regressão

7 Fonte: elaboração própria através do programa Gretl.

12
3.1 PROPRIEDADES DA LINHA DE REGRESSÃO NA AMOSTRA

A seguir, por meio das informações da Tabela 3, a comprovação que a linha de


regressão ajustada para a amostra é compatível com as cinco propriedades
apresentadas na seção 2.2

Tabela 3: Comprovação propriedades da linha de regressão para a amostra8

1. A soma dos resíduos é igual a zero. Comprovado pela intersecção da linha


13 com a coluna 5 da Tabela 3.
2. A soma dos quadrados dos resíduos é a mínima entre todas as linhas que
passam pelo vetor (𝐗, 𝐘). Comprovado pelo próprio uso do método dos
mínimos quadrados.
3. A soma dos valores observados é igual à soma dos valores ajustados.
Comprovado pela intersecção da linha 13 com as colunas 3 e 4 da Tabela 3.
4. A soma dos resíduos ponderados é igual a zero quando o i-ésimo resíduo
for ponderado pelo i-ésimo valor da variável preditora. Comprovado pela
intersecção da linha 13 com a coluna 7 da Tabela 3.
5. A soma dos resíduos é igual a zero quando o i-ésimo resíduo for
ponderado pelo i-ésimo valor ajustado. Comprovado pela intersecção da
linha 13 com a coluna 8 da Tabela 3.

8 Fonte: elaboração própria através do programa Excel.

13
6. A linha de regressão obrigatoriamente passará pelo vetor (𝐗, 𝐘).
Comprovado pela Imagem 4.

4. VARIÂNCIA E DESVIO PADRÃO DO MODELO

Para estimar a variância do modelo, utilizamos a mesma lógica que para uma
população finita. Lembrando que a variância pode ser denotada como quadrado
médio, em virtude da soma de quadrados ser dividida pelo número apropriado de
graus de liberdade.

Ademais, como explicado na seção 1.2, a variância de cada resposta Yi para o


modelo de regressão linear simples é igual a variância de cada termo de erro, σ2 {Yi } =
σ2 . Desse modo, tomando como base os desvios, sua soma de quadrados é denotada
por Soma de Quadrados do erro (SQErro).

n n
̂i )2 = ∑ ei 2
SQErro = ∑(Yi − Y
i=1 i=1

A SQErro possui n-2 graus de liberdade, pois dois graus de liberdade são
̂i . Portanto a variância
perdidos ao estimarmos β0 e β1 para obtermos a estimativa Y
do modelo, S 2 , denotada por Erro Quadrático Médio (EQM) é estimada pela seguinte
fórmula:

SQErro
S 2 = EQM =
n−2

Por sua vez, o estimador do desvio padrão é: S = √EQM

Com essas informações, podemos calcular a variância e o desvio padrão do


modelo para a amostra. Para isso fazemos uso da SQErro fornecida pela intersecção
da linha 13 com a coluna 6 da Tabela 3 e da informação que a amostra possui 11
observações.

66,9334
S 2 = EQM = = 7,4370
11−2

S = √7,4370 = 2,7271

14
5. INFERÊNCIA SOBRE β1

5.1 INTERVALO DE CONFIANÇA PARA β1

Antes de focar no intervalo de confiança para o coeficiente β1, é preciso fazer


uma observação sobre a distribuição amostral de b 1. Como visto na seção 2, o
estimador de b1 é:

∑ni=1(Xi − )(Yi − )
b1 =
(Xi − )2

Desta forma, a distribuição amostral de b1 refere-se aos diferentes valores de


b1 que são obtidos com repetidas amostragens, mantendo-se constante os níveis da
variável preditora. No caso do modelo de regressão linear, b 1 ou melhor sua
distribuição amostral terá variância fornecida pela seguinte fórmula:

σ2
σ2 {𝑏1 } =
∑(Xi − )2

De modo semelhante a estimação da variância do modelo, o estimador da


variância de b1 será:

EQM
S 2 {𝑏1 } =
∑(Xi − )2

Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
positiva do estimador da variância de b1.

Feita essa observação inicial, o intervalo de confiança para o parâmetro β19 do


modelo de regressão, será fornecido pela seguinte fórmula:

α
IC{β1 } = b1 ± t (1 − , n − 2) S{b1 }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.

9 Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier, 2006.
15
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente β1. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor encontrado na seção 4 para o numerador da variância e o
valor da intersecção da linha 13 com a coluna 7 da Tabela 2 para o denominador.

EQM 7,4370
S 2 {b1 } = 2
= = 0,0027
∑(Xi − ) 2750

S{b1 } = √S 2 {b1 } = 0,0520

Assim, utilizando um nível de confiança de 95%, o mesmo utilizado em todos


os exercícios realizados na sala de aula, teremos:

α
IC = b1 ± t (1 − , n − 2) S{b1 }
2

IC = 0,4473 ± 2,262*0,0520

IC = [0,3297; 0,5649]

O intervalo de confiança de β1 é entre 0,3297 e 0,5649. Isto significa que há


95% de chance do verdadeiro valor de β1 está contido no intervalo acima. Esse
mesmo resultado foi encontrado utilizando o software Gretl.

Imagem 5: Intervalo de Confiança β1

16
5.2 TESTE DE HIPÓTESE PARA β1

Ao realizar-se o teste de hipótese para o coeficiente β1 estamos interessados


em saber se existe uma relação linear entre a variável preditora (X) e a variável
resposta (Y). Logo, traça-se as seguintes hipóteses:

HO : β1 = 0
H1 : β1 ≠ 0
A situação de aceitação da hipótese nula significa que tal relação não existe,
por seu turno, a situação de rejeição da hipótese nula significa que tal relação entre
as variáveis existe.

Para realizarmos o teste de hipótese devemos “normalizar” a distribuição


amostral de b1, como b1 é normalmente distribuído, pressuposto do modelo
trabalhado, a estatística padronizada (b1 − β1 )/σ{b1}) é uma normal padrão. Todavia,
como se estima a variância através de S 2 (conforme mostrado na seção anterior), a
estatística torna-se studentizada com n-2 graus de liberdade. Assim, a estatística do
teste é a seguinte:

(b1 − β1 ) (b1 − 0) b1
t∗ = = =
S{b1 } S{b1 } S{b1 }

A troca de β1 por 0 ocorre porque o foco está na hipótese nula. Além disso, a
regra de decisão é a seguinte:

Se |𝑡 ∗ | ≤ t(1 − α/2 , n − 2), aceita-se H0.

Se |𝑡 ∗ | > t(1 − α/2 , n − 2), rejeita-se H0.

Com essas informações, podemos realizar o teste de hipótese para b1. Para
calcular utiliza-se um nível de significância de 5% e n-2 = 9, assim t(0,025;9) será
2,262. Ademais, toma-se o valor estimado para b1 na seção 3 e o de sua variância na
seção 5.1.

b1 0,4473
t∗ = = = 8,6019
S{b1 } 0,0520

Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 8,6019 > 2,262, rejeita-se a hipótese nula.
Desse modo, há uma relação linear entre X e Y.
17
6. INFERÊNCIA SOBRE β0

6.1 INTERVALO DE CONFIANÇA PARA βo

De igual maneira a análise feita para β1, antes de focar no intervalo de confiança
para o coeficiente β0, é preciso fazer uma observação sobre a distribuição amostral
de b0. Como visto na seção 2, o estimador de b0 é:

b0 = b1

Desta forma, a distribuição amostral de b0 refere-se aos diferentes valores de


bo que são obtidos com repetidas amostragens, mantendo-se constante os níveis da
variável preditora. No caso do modelo de regressão linear, b o ou melhor sua
distribuição amostral terá variância fornecida pela seguinte fórmula:

2
1
σ2 {𝑏0 } 2
=σ [ + ]
𝑛 ∑(Xi − )2

De modo semelhante a estimação da variância do modelo, o estimador da


variância de b0 será:

2
1
S 2 {b1 } = EQM [ + ]
n ∑(Xi − )2

Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
positiva do estimador da variância de b0.

Feita essa observação inicial, o intervalo de confiança para o parâmetro β010 do


modelo de regressão, será fornecido pela seguinte fórmula:

α
IC{β0 } = b0 ± t (1 − , n − 2) S{b0 }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.

10Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: GUJARATI,
Damodar. Econometria Básica. 4ed. Editora Elsevier.
18
Com essas informações, pode-se calcular o intervalo de confiança do
coeficiente βo. Para isso, inicia-se calculando a estimativa da variância e do desvio
padrão, utilizando o valor do EQM encontrado na seção 4, o valor ∑(Xi − )2
encontrado na intersecção da linha 13 com a coluna 7 da Tabela 2, o valor
X encontrado na intersecção da linha 14 com a coluna 2 da Tabela 2 e n igual a 11.

2
2 {b
1 1 472
S }
0 = EQM [ + ] = 7,4370 [ + ] = 6,65
n ∑(Xi − )2 11 2750

S{b0 } = √S 2 {b0 } = 2,5788

Assim, utilizando um nível de confiança de 95%, o mesmo utilizado em todos


os exercícios realizados na sala de aula, teremos:

α
IC = bo ± t (1 − , n − 2) S{b1 }
2

IC = − ± 2,262*2,5788

IC = [−12,1567; −0,4903]

O intervalo de confiança de β0 é entre -12,1567 e -0,4903. Isto significa que há


95% de chance do verdadeiro valor de β0 está contido no intervalo acima. Esse
mesmo resultado foi encontrado de modo aproximado utilizando o software Gretl.

Imagem 6: Intervalo de Confiança β0

6.2 TESTE DE HIPÓTESE PARA β0

Na formulação do teste de hipótese para o coeficiente βo se traça as seguintes


hipóteses:

HO : β1 = 0
H1 : β1 ≠ 0

19
Para realizarmos o teste devemos “normalizar” a distribuição amostral de b 0,
como b0 é normalmente distribuído, pressuposto do modelo trabalhado, a estatística
padronizada (b0 − β0 )/σ{bo }) é uma normal padrão. Todavia, como se estima a
variância através de S 2 (conforme mostrado na seção anterior), a estatística torna-se
studentizada com n-2 graus de liberdade. Assim, a estatística do teste é a seguinte:

(bo − βo ) (bo − 0) bo
t∗ = = =
S{bo } S{bo } S{bo }

A troca de βo por 0 ocorre porque o foco está na hipótese nula. Ademais, a


regra de decisão é a seguinte:

Se |𝑡 ∗ | ≤ t(1 − α/2 , n − 2), aceita-se H0.

Se |𝑡 ∗ | > t(1 − α/2 , n − 2), rejeita-se H0.

Com essas informações, podemos realizar o teste de hipótese para b o. Para


calcular utiliza-se um nível de significância é 5% e n-2 = 9, assim t(0,025;9) será 2,262.
Ademais, toma-se o valor estimado para bo na seção 3 e o de sua variância na seção
6.1.

bo −6,3235
t∗ = = = −2,4521
S{bo } 2,5788

Como |𝑡 ∗ | > t(1 − α/2 , n − 2), isto é, 2,4521 > 2,262, rejeita-se a hipótese nula.

7. INFERÊNCIA SOBRE 𝐄{𝐘𝐡 }

Como já mostrado no início desse relatório, a função do modelo de regressão


é estimar o valor médio para cada nível da variável preditora. Denota-se por Xh o nível
de X que estamos interessados em estimar a resposta média, a qual é denotada por
E{Yh }. De igual maneira ao explicado na seção da linha de regressão, mas agora
̂h da E{Yh } é:
utilizando uma noção um pouco diferente, o estimador pontual Y

̂h = bo + b1 Xh
Y

Semelhante aos casos dos parâmetros b0 e b1 há uma distribuição de amostral


̂h . Esta refere-se aos diferentes valores de Y
de Y ̂h que podem ser obtidos com

repetidas amostragens, mantendo constante os níveis da variável explanatória X. No


20
̂h ou melhor sua distribuição amostral terá
caso do modelo de regressão linear, Y
variância fornecida pela seguinte fórmula:

1 (Xh − 2
̂2 2
σ {Yh } = σ [ + ]
𝑛 ∑(Xi − )2

De modo semelhante a estimação da variância do modelo, o estimador da


̂h será:
variância da distribuição amostral de Y

1 (Xh − 2
2 ̂
S {Yh } = EQM [ + ]
n ∑(Xi − )2

Por seu turno, o estimador do desvio padrão será dado pela raiz quadrada
̂h .
positiva do estimador da variância da distribuição amostral de Y

Feita essa observação inicial, o intervalo de confiança para E{Yh }11será


fornecido pela seguinte fórmula:

α
̂h ± t (1 − , n − 2) S{Y
IC{E{Yh }} = Y ̂h }
2
Onde: t(1 − α/2 , n − 2) denota uma distribuição t-student com n-2 graus de liberdade.

Com essas informações, pode-se calcular o intervalo de confiança da resposta


média para determinado nível de X. Para exemplificar escolhi Xh = 22, utilizando o valor
do EQM encontrado na seção 4, o valor ∑(Xi − )2 encontrado na intersecção da linha
13 com a coluna 7 da Tabela 2, o valor X encontrado na intersecção da linha 14 com
̂h .
a coluna 2 da Tabela 2 e n igual a 11 consigo estimar a variância de Y

1 (X − 2 1 (22 − 47)2
̂h } = EQM [ + h
S 2 {Y ] = 7,4370 [ + ] = 2,3663
n ∑(Xi − )2 11 2750

̂h } = √S 2 {Y
S{Y ̂h } = 1,5383

11Manipulação algébrica para chegar aos intervalo e confiança de β1 disponível em: KUTNER, Michael;
NACHTSHEIM, Christopher; NETER, John; LI, William. Applied Linear Statical Models. 5 ed. New York:
McGraw Hill/Irwin.
21
̂h = 3,5180, utilizando um nível de
Assim, como para Xh = 22 o valor ajustado é Y
confiança de 95%, o mesmo utilizado em todos os exercícios realizados na sala de
aula, teremos:

α
̂h ± t (1 − , n − 2) S{Y
IC = Y ̂h }
2

IC = 3,5180 ± 2,262*1,5383

IC = [0,0384; 6,9976]

̂h = 3,5180 é entre 0,0384 e


O intervalo de confiança da resposta média para Y
6,9976. A estimativa do intervalo de confiança da resposta média referente a outros
níveis da variável preditora é representada na Tabela 4.

Tabela 4: Intervalo de Confiança para E{Yh}12

A partir das informações da Tabela 4 foi montado o gráfico do intervalo de


confiança para E{Yh}. Nesse fica claro que à medida que os dados se afastam da
média de X e Y, o erro aumenta e, consequentemente, os limites do intervalo de
confiança elevassem.

12 Fonte: elaboração própria através do software Gretl.


22
Imagem 7: Gráfico do Intervalo de Confiança para E{Yh}13

8. INTERVALO DE CONFIANÇA DA LINHA DE REGRESSÃO

O intervalo de confiança para a linha de regressão é fornecido pela seguinte


expressão:

̂h ± WS{Y
IC = Y ̂h }

Onde: W 2 = 2F(1 − α; 2; n − 2);

Tabela 5: Intervalo de Confiança para a Linha de Regressão14

13 Fonte: elaboração própria através do software Gretl.


14 Fonte: elaboração própria através do software Excel.
23
Utilizando um nível de significância de 5%, W 2 será dado por W 2 =
2F(0,05; 2; 9). Como F(0,05; 2; 9) = 4,256, logo W 2 = 8,5120 e W = 2,9175. Utilizando
os dados do desvio padrão da Tabela 4, podemos encontrar os limites inferiores e
superiores para o intervalo de confiança da linha de regressão, os quais são
apresentados na Tabela 5. O gráfico representa a hipérbole formada pelo IC para a
linha de regressão, onde a linha vermelha representa a linha de regressão ajustada.

Imagem 8: Representação Gráfica do IC para a Linha de Regressão

9. ANÁLISE DE VARIÂNCIA

A análise de variância tem como base a partição da soma de quadrados e dos


graus de liberdades associados a variável resposta Y. A tabela da análise de variância
é a seguinte:

Tabela 6: Tabela de Análise de Variância

Fonte de Variação Soma de Graus de Quadrados Médios


Quadrados Liberdade
Regressão SQR 1 QMR
Erro SQE n-2 QME
Total SQT n-1

24
A Soma de Quadrados Totais é soma dos desvios quadráticos, isto é, dos
desvios de Yi em relação a Y.

SQT = ∑(Y − Y)2


i=1

A Soma de Quadrados do Erro é soma dos desvios dos valores observados em


relação aos valores ajustados, assim, reflete a incerteza da variável resposta em torno
da linha de regressão.

SQE = ∑(Y − Ŷi )2


i=1

A diferença entre SQT e SQE é a Soma de Quadrados devido a Regressão.


Nela, cada desvio é a diferença entre o valor ajustado na linha de regressão e a média
dos valores ajustados.

SQR = ∑(Ŷi − Y)2


i=1

No que tange aos graus de liberdade associados as Somas de Quadrados, a


Soma de Quadrados Totais possui n-1 graus, pois um grau é perdido porque seus
desvios devem somar zero. A Soma de Quadrados dos Erros tem n-2 graus de
liberdade, pois 2 graus são perdidos porque os parâmetros de regressão são
estimados para obter os valores ajustados. A Soma de Quadrados devido a
Regressão tem apenas um grau de liberdade, pois todos os valores ajustados são da
mesma linha de regressão. Uma linha de regressão está associada a dois graus de
liberdade, o intercepto e a inclinação, porém no caso da SQR um deles é perdido
porque os desvios Ŷi − Y devem somar zero.

Ao dividirmos as somas de quadrados pelos seus respectivos graus de


liberdade encontramos os quadrados médios:

SQR SQE SQT


QMR = QME = QMT = = s2
1 n−2 n−1

25
Com essas informações, pode-se elaborar a tabela da análise de variância. Na
tabela 7 é expressa os cálculos das três Somas de Quadrados para a amostra e a
seguir é feito os cálculos dos Quadrados Médios.

Tabela 7: Soma de Quadrados para a Amostra15

SQR 550,3174
QMR = = = 550,3174
1 1

SQE 66,9334
QME = = = 7,4370
n−2 9

SQT 617,2508
QMT = = = 61,7251
n−1 10

Assim, a tabela de análise de variância para a amostra é:

Tabela 8: Tabela de Análise de Variância para a Amostra

Fonte de Variação Soma de Graus de Quadrados Médios


Quadrados Liberdade
Regressão 550,3174 1 550,3174
Erro 66,9334 9 7,4370
Total 617,2508 10 61,7251

15 Fonte: elaboração própria através do software Excel.


26
Essa mesma tabela foi encontrada utilizando o software Gretl.

Tabela 9: Tabela de Análise de Variância para a Amostra feita no Gretl

9.1 TESTE F

Ao realizar-se o teste de hipótese F estamos interessados em saber se existe


uma relação linear entre a variável preditora (X) e a variável resposta (Y). Logo, traça-
se as seguintes hipóteses:

HO : β1 = 0
H1 : β1 ≠ 0

QMR
A estatística do teste é dada por: F ∗ = . Ademais, a regra de decisão é a
QME
seguinte:
Se F ∗ ≤ F(1 − α , 1, n − 2), aceita-se H0.

Se F ∗ > F(1 − α , 1, n − 2), rejeita-se H0.

Com essas informações, podemos realizar o teste de hipótese F. Para calcular


se utiliza um nível de significância de 5%, logo, a F tabelada será F(0,05;1;9) com
valor igual 4,256. A estatística do teste será:

QMR 550,3174
F∗ = = = 73,9972
QME 7,4370

Como F ∗ > F(1 − α , 1, n − 2), isto é, 73,9972 > 4,256, rejeita-se a hipótese nula.

10. COEFICIENTE DE DETERMINAÇÃO

SQR SQE
r2 = =1−
SQT SQT
O coeficiente de determinação, r 2 , é o indicador mais usado para medir a
qualidade do ajustamento de uma linha de regressão. Ele mede a proporção da
27
variação total de Y explicada pelo modelo de regressão. Se r 2 = 1, significa um
ajustamento perfeito, isto é, Yi = Ŷi para todo i. Se r 2 = 0, significa que não há
qualquer relação entre as variáveis.

O coeficiente de determinação para a amostra é o seguinte:

SQR 550,3174
r2 = = = 0,8916
SQT 617,2508
Isso diz que 0,8916 da variação de Y é explicada pela regressão.

11. TESTES DE HOMECEDASTICIDADE

Homocedasticidade é o termo utilizado para designar variância constante dos


termos de erro do modelo. Em outras palavras, o interesse está em testar a constância
da variância dos termos de erro do modelo.

11.1 TESTE DE BROWN-FORSYTHE

O teste de Brown-Forsythe é baseado na variabilidade dos resíduos, o método


divide os dados em dois grupos de acordo com o nível de X. Se a variância dos
resíduos aumenta ou diminui em relação a X, os termos de erro de um grupo
apresentam mais variabilidade que os de outro.

Ele utiliza os desvios dos resíduos, em termos absolutos, em relação à mediana


de seu grupo.

di1 = |ei1 − ẽ1 | di2 = |ei2 − ẽ2 |

Onde:
𝑒̃1 e 𝑒̃2 são as medianas dos respectivos grupos 1 e 2.
𝑒𝑖1 e 𝑒𝑖2 são os i-ésimos resíduos dos respectivos grupos 1 e 2.
𝑑𝑖1 e 𝑑𝑖2 são os desvios dos resíduos, em termos absolutos, em relação à
mediana dos respectivos grupos 1 e 2.
A estatística do teste é dada por:

d1 − d2
t BF ∗ =
1 1
S√n + n
1 2

28
Onde:

d1 e d2 são as médias amostrais de di1 e di2 .

2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2
𝑆 =
𝑛−2

Com essas informações, podemos iniciar o teste.


Tabela 10: Grupos dos termos de erro16

Grupo 1 Grupo2
e1 = -1,6759 e7 = 3,5148
e2 = -2,0589 e8 = 2,0429
e3 = -1,8889 e9 = 0,1733
e4 = -0,0539 e10 = -1,9942
e5 = 2,2148 e11 = -4,0637
e6 = 3,7897

Reordenando os termos de erro, temos:


𝑒1 +𝑒4
 Grupo 1: e2, e3, e1, e4, e5, e6 𝑒̃1 = = − 0,8649
2
 Grupo 2: e11, e10, e9,e8,e7 𝑒̃2 = 0,1733

Tabela 11: Cálculo dos desvios dos resíduos para o teste de Brown-Forsythe17

2
∑(𝑑𝑖1 − d1 )2 + ∑(𝑑𝑖2 − d2 )2 12,6121 + 10,3268
𝑆 = = = 2,5488
𝑛−2 9

16 Fonte: elaboração própria através do software Excel.


17 Fonte: elaboração própria através do software Excel.
29
Assim, a estatística do teste será:

d1 − d2 1,9290 − 2,3231
t BF ∗ = = = −0,2553
1 1 1 1
S√n + n 2,5488√6 +
1 2 5

A regra de decisão é a seguinte:

Se |𝑡𝐵𝐹 ∗ | ≤ t(1 − α , n − 2), conclui-se que a variância dos termos de erro é


constante.

Se |𝑡𝐵𝐹 ∗ | > t(1 − α , n − 2), conclui-se que a variância dos termos de erro não é
constante.

Para calcular, utiliza-se um nível de significância de 5% e n-2 = 9, assim


t(0,05;9) será 2,262. Como |t BF ∗ | ≤ t(0,05 ,9), conclui-se que a variância do termo de
erro é constante. Isto significa que a variância do resíduo não varia com o nível de X.

11.2 TESTE DE BREUSH-PAGAN

O teste de Breush-Pagan é outra maneira de testar a constância da variância


dos termos de erro do modelo. Para realiza-lo foi utilizado o software Gretl.

Imagem 9: Teste de Breush-Pagan

A hipótese nula é sem heteroscedasticidade, enquanto a hipótese alternativa é


com heteroscedasticidade. Utilizando um nível de significância de 5%, aceitamos a
hipótese nula porque p-valor ≥ α. Logo, a intepretação é a mesma que foi encontrada
no teste de Brown-Forsythe: a variância do termo de erro é constante; isto significa
que a variância do resíduo não varia com o nível de X.
30
REFERÊNCIAS BIBLIOGRÁFICAS

GUJARATI, Damodar. Econometria Básica. 4ed. Rio de Janeiro: Editora Elsevier,


2006.

KUTNER, Michael; NACHTSHEIM, Christopher; NETER, John; LI, William. Applied


Linear Statical Models. 5 ed. New York. McGraw Hill/Irwin.

31

You might also like