Professional Documents
Culture Documents
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
MODELOS LINEARES:
MODELOS DE REGRESSÃO
1. REGRESSÃO LINEAR SIMPLES
EXEMPLOS:
(i) Y = f (X)
PIB ANOS
(ii) Y = f (X)
Quantidade oferecida
Preço de um produto
N P K
Rendimento de uma cultura
300
Vendas em Dólar
200
Y
100
Y =2X
0
0 20 40 60 80 100
Unidades Vendidas X
150
Homens/hora
100
Y
50 Y = 10 +2x
0
0 20 40 60 80
Tamanho do Lote X
(1) Descrição
(2) Estimação
(3) Predição
(4) Controle
PRESSUPOSIÇÃO
(i) A relação entre X e Y é linear
(ii) Os valores de X são fixos, isto é, X não é variável aleatória
(iii) i N (0, 2) [Normalidade e Homocedanticidade]
(iv) Os i são independentes
(v) O número de observações Y é maior que do que o número de parâmetros do modelo
conste aleatória
2. E(I) = 0 E(Yi) = E( + Xi + I) = + Xi + E(I) = + Xi
E(Y) = + X
(Função de regressão relaciona as médias da distribuição de probabilidade de Y para
um dado X).
3. O valor de Y para uma dada observação desvia da função de regressão por um valor
de magnitude i
4. V(I) = 2 V(Yi) = V( + Xi + i) = V(i) = 2
5. Erros não correlacionados valores de Y não correlacionados
6. Y’s tem distribuição de probabilidade com média E(Y) = + Xi e variância 2 e os
Y’s são não correlacionados
ESTIMAÇÃO DA FUNÇÃO DE REGRESSÃO
População Amostra
1 (X1, Y1)
2 (X2, Y2)
: : Pares de valores
n (Xn, Yn)
Y valor observado
Ŷ valor estimado pela equação da reta dada por Ŷ = a + bX
Deseja-se que os desvios ou erros de estimativas Y - Ŷ sejam mínimo ou que a soma
Y Ŷ
2
dos quadrados dos desvios seja um mínimo, ou seja que
z Y Ŷ Y a bX seja mínimo.
2 2
z z
Ter-se-á um mínimo para z quando 0 0
a b
z
2 Y a bX - 1 0
Y na b X
a
z
2 Y a bX (-X) = 0 XY a x b X 2
b
na + b X Y
Sistema de Equações Normais
a X b X 2 XY
X X / n
2 2
SQ X
a Y bX
SPXY X X Y - Y XY
X Y
n
no de pares de valores
SQx = Soma dos Quadrados dos Desvios de X
SQx X X X
2 X 2
2
n
SPXY
covariânci a (X, Y) =
n -1
GL
Medida da variação simultânea de X e Y
a Y bX
a: Intercepto da reta. Ponto onde a reta corta o eixo dos Y.
É o valor estimado para Y quando X = 0
Y Y
Ŷ = a + bX Ŷ = a + bX
b
b (+) a
1 un 1 un
X1 X2 X X1 X2
X
Y
Ŷ = a + bX
a
1 un
X1 X2 X
RESÍDUOS
ei Yi Ŷi Yi a bXi
i = Yi – E (YI)
Erro do Modelo
1. e i 0
2. e 2
i é um mínimo
3. Y Ŷ
i
4. X e 0 i i
5. Ŷ e i i
0
ˆ 2 s2Y / X
ou ̂ 2 QMR
SQR
onde QMR
n2
SQR = SQ Residual = SQ Desvios da Regressão
SQR ei2 Yi Ŷi Y a bX
2
i i
2
1. A relação entre Y e X é linear ou no mínimo bem aproximada por uma linha reta
2. Os erros tem média zero
3. Os erros tem variância constante 2
4. Os erros são independentes
5. Os erros são normalmente distribuídos
Pode-se sempre colocar dúvidas sobre a validade destas suposições e então conduzir
análises para verificar a adequabilidade do modelo. Um modelo inadequado geralmente traz
sérias conseqüências. Violação acentuadas nas suposições podem produzir um modelo
instável (Diferente amostra pode conduzir a conclusões totalmente opostas).
Não temos condições de verificar desvios nas suposições do modelo simplesmente
examinando as estatísticas t ou F ou o coeficiente de determinação tradicionalmente
calculadas na análise de Regressão.
ERRO DO MODELO
i = Yi - E (Yi) = Yi - ( + Xi)
( i ) Média : e ( e i / n 0
(ii) variância s 2
(e i e)2
e i
2
(Y i Yˆi ) 2
SQR
QMR s 2 y / x
n2 n2 n2 n2
e
Duas restrições:
(Y Yˆ ) e 0
i i i
X (Y Yˆ ) X e
i i i0 i i
Quando o tamanho da amostra não é pequeno comparado com as restrições nos ei, o
efeito da dependência é pouco importante e pode ser ignorado.
XY a bX = XY Ŷ 0
ei
Por conveniência analítica, os resíduos padronizados d i são muitas vezes
QMR
utilizados nas análise de resíduos
O erro de estimativa para uma observação qualquer Yi, é a diferença entre este valor e
o correspondente valor estimado sobre a reta, Yi Yˆi . A variância desses erros é
Y Yˆ SQY SPxy / SQ X
2 2
SQY b 2 SQ x
QMR
2 i
s
n2 n2 n2
Y|X
b
t
sb
sY2| X
s
2
b
SQ x
O coeficiente de regressão terá significância estatística quanto |t| calculado for maior
que t para n – 2 graus de liberdade.
A hipótese formulada neste teste é a hipótese de nulidade H 0 : 0 , de que a reta é
paralela ao eixo X. A rejeição desta hipótese implica na alternativa H a : 0 , havendo então
regressão.
O intervalo de confiança para é dado por:
IC b t n 2 s b
Na figura 7 verifica-se que a altura total de um ponto qualquer Y pode ser dividida em
duas partes, uma Yˆi , corresponde à altura da reta de regressão e a outra Yi Yˆi é o desvio da
i i i i
regressão. Portanto, Y Yˆ Y Yˆ ; e, usando a média Y como ponto de referência para Y
e Yˆ : Y Y Yˆ Y Y Yˆ .
i i i i
Y Elevando-se ambos os membros desta
Y
equação ao quadrado e fazendo o somatório da
Y Yˆ
Yˆ equação para todos os valores de Y
observados, obtém-se:
Yˆ Y
Y
Y i
2
Y Yˆ Y Y Yˆ
2
i
2
Y Y Yˆ
Na elevação ao quadrado do segundo
membro desaparece o termo do produto
X X
Yˆi Y Yi Yˆi , pois Yi Yˆi , ou somatório
Figura 7 Decomposição da altura total Y dos desvios da regressão é igual a zero, por
definição.
Verifica-se, pois, que a expressão Yi Y , a soma dos quadrados das observações
2
Y Yˆ
2
2º) i i a soma dos quadrados dos desvios de Y da regressão. Os graus de
liberdade dividem-se, respectivamente, em (n – 1), 1 e (n – 2), em que n é o número de pares
de observações X, Y.
Este resultado é comumente apresentado numa tabela de análise da variância. A
comparação do quadrado médio devido à regressão com o quadrado médio devido aos desvios
da regressão proporciona um F-teste da significância estatística do coeficiente de regressão.
Nas aplicações, calcula-se as somas dos quadrados por:
a) SQ Total Yi Y SQ y Yi 2 Yi n ;
2 2
b) SQ Regressão Yˆ Y
2
b 2 X i X SPxy SQ x ;
2 2
SQ Regressão
r2
SQ Total
SQ y
SQ Regressão r 2 SQ y
SQ Desvios da regressão 1 r 2 SQ y
EXEMPLOS
Exemplo 1
Os dados da tabela 1 , representam valores da variável dependente Y que é a pureza
do oxigênio produzido em um processo químico de destilação e da variável
independente X que é a percentagem de hidrocarbonetos presentes no condensador principal
da unidade de destilação.
102
Pureza do oxigênio, %
100
98
96
94
92
90
88
86
0,85 1,05 1,25 1,45 1,65
Nivel de Hidrocarboneto, %
Estatística de regressão
R múltiplo 0,936715
R-Quadrado 0,877436
R-quadrado ajustado 0,870627
Erro padrão 1,086529
Observações 20
ANOVA
gl SQ MQ F F de significação
Regressão 1 152,1271 152,1271 128,8617 1,23E-09
Resíduo 18 21,24982 1,180545
Total 19 173,3769
Erro
Coeficientes padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 74,28331 1,593473 46,61723 3,17E-20 70,93555 77,63108
Hidrocarboneto 14,94748 1,316758 11,35173 1,23E-09 12,18107 17,71389
RESULTADOS DE RESÍDUOS
Previsto(a) Resíduos
Observação Pureza Resíduos padrão Percentil Pureza
1 89,08132 0,928681 0,878144 2,5 87,33
2 89,52974 -0,47974 -0,45364 7,5 87,59
3 91,47292 -0,04292 -0,04058 12,5 89,05
4 93,56556 0,174437 0,164944 17,5 89,54
5 96,10663 0,623365 0,589443 22,5 89,85
6 94,61189 -0,16189 -0,15308 27,5 90,01
7 87,28762 0,302378 0,285924 32,5 90,39
8 92,66871 -0,89871 -0,84981 37,5 90,56
9 97,45191 1,968092 1,860993 42,5 91,43
10 95,20979 -1,55979 -1,47491 47,5 91,77
11 92,07082 1,469185 1,389235 52,5 92,52
12 91,47292 1,047084 0,990104 57,5 93,25
13 88,93184 1,628156 1,539555 62,5 93,41
14 89,38027 0,159731 0,151039 67,5 93,54
15 90,87502 -1,02502 -0,96924 72,5 93,65
16 92,22029 -1,83029 -1,73069 77,5 93,74
17 93,11714 0,132861 0,125631 82,5 94,45
18 94,01399 -0,60399 -0,57112 87,5 94,98
19 95,65821 -0,67821 -0,6413 92,5 96,73
20 88,48342 -1,15342 -1,09065 97,5 99,42
110
100
Pureza
90
80
0,85 1,05 1,25 1,45 1,65
Hidrocarboneto
Plotagem de probabilidade normal
102
100
98
96
Pureza
94
92
90
88
86
0 20 40 60 80 100
Percentil da amostra
RESULTADOS DO SAS
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 152.12708 152.12708 128.86 <.0001
Error 18 21.24982 1.18055
Corrected Total 19 173.37690
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 74.28331 1.59347 46.62 <.0001
Hidrocarboneto 1 14.94748 1.31676 11.35 <.0001
Obs Hidrocarboneto Pureza Predicted Pureza Residual of Pureza
1 0.99 90.01 89.0813 0.92868
2 1.02 89.05 89.5297 -0.47974
3 1.15 91.43 91.4729 -0.04292
4 1.29 93.74 93.5656 0.17444
5 1.46 96.73 96.1066 0.62337
6 1.36 94.45 94.6119 -0.16189
7 0.87 87.59 87.2876 0.30238
8 1.23 91.77 92.6687 -0.89871
9 1.55 99.42 97.4519 1.96809
10 1.40 93.65 95.2098 -1.55979
11 1.19 93.54 92.0708 1.46918
12 1.15 92.52 91.4729 1.04708
13 0.98 90.56 88.9318 1.62816
14 1.01 89.54 89.3803 0.15973
15 1.11 89.85 90.8750 -1.02502
16 1.20 90.39 92.2203 -1.83029
17 1.26 93.25 93.1171 0.13286
18 1.32 93.41 94.0140 -0.60399
19 1.43 94.98 95.6582 -0.67821
20 0.95 87.33 88.4834 -1.15342
Interpretação dos resultados
yˆ 74,20 14,97 x
Pelo teste t, verifica-se que tanto o coeficiente de regressão linear (b=14,97; t=15,35; p
< 0,0001) como o intercepto (a=70,20; t=46,62; p< 0,0001) são significativos, idicando que se
rejeita, respectivamente, as hipóteses Ho: =0; Ho: =0.
Os intervalos de confiança a 95% para os parâmetros do modelo de regressão linear
: [ 70,93 ; 77,63 ]
: [ 12,18 ; 17,71 ]
comprovam a rejeição das hipóteses correspondentes dada a não inclusão do zero nos
intervalos de confiança.
O teste de interesse é o teste de hipótese Ho: =0, que também pode ser feito pela
análise de variância, onde no caso obtem-se F = 128,86; p < 0,0001. A rejeição de Ho: =0
indica que a regressão linear da pureza do oxigênio em função da porcentagem de
hidrocarbonetos é importante para explicar as variações na pureza do oxigênio.
Nesse caso e em todos os casos onde se tem 1 GL para o numerador F = t².
( 3 ) Coeficiente de determinação
152,13
r2 0,8774
173,38
( 4 ) Adequação
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 88.51985 88.51985 44.66 <.0001
Error 18 35.68015 1.98223
Corrected Total 19 124.20000
independentes independentes
( 2 ) Parâmetros: e 2
a y bx ŷ = a + bxi
SPXY
b
SQx
2 2 yi yˆi 2 SQ Residual ou SQ
̂ QMR = sY / X = Desvios da Regressão
n2
GL
( 4 ) Propriedade dos Estimadores de Mínimos Quadrados
1 y 2
1 2 2
Distribuição Normal: f ( y ) e
2
1
2
1
y x 2
f ( y) e 2
2
n 1 2
yi xi 2
1
L(,, 2) = f(y1,y2, ...,yn) = e 2 =
2
i 1
Função de
Verossimilhança
yi xi 2
1
1 2
= e 2
n
n
2 2 2
2
ln L
yi xi
1
2
ln L
yi xi xi
1
2
ln L
yi xi 2
n 1
2 2 2 2 4
yi a bxi 0 yi na b xi 0 na b xi yi
yi a bxi xi 0 xi yi a xi b xi2 0
a xi b xi2 xi yi
a y bx
SP
b XY
SQx
1
n
2 yi a bxi 2 0
n
2 yi a bxi 2 1
ˆ ˆ
~ 2 yi a bxi 2 yi yˆi 2 SQ Re sidual
n n n
~ 2 é o estimador viesado de 2.
Suponha-se que se tenha n dados de observação y1, y2, ..., yn e que se deseja explicá-los
usando-se n valores para cada uma de p variáveis explicativas ou explanatórias x11, x12,
..., x1p, x21, x22, ..., x2p, ..., xn1, xn2, ..., xnp.
Os valores xij podem ser variáveis contínuas tipo variáveis de regressão ou variáveis
indicadoras ("dummy") indicando diferentes categorias.
O modelo linear padrão para esta configuração é
p
yi = x
j1
ij
j i (1) i = 1,2,...,n
onde: 1 , 2 ,..., p são parâmetros de efeitos fixos desconhecidos para serem estimados e
1 , 2 , ..., n são variáveis aleatórias não-observáveis iid (independente e identicamente
distribuídas) normal (Gaussiana) com média 0 e variância .
A equação (1) pode ser escrita na forma matricial
y = X (2)
Explicitando
y1 x x12 x1p 1 1
y 11
2 x 21 x 22 x 2p 2 2
y n x n1 x n 2 x np p n
onde: y denota o vetor de observações da variável dependente y
X é a matriz conhecida dos valores xij
é o vetor de parâmetros de efeitos fixos desconhecidos
é o vetor não-observado de erros aleatórios gaussianos iid ou seja N (0, I 2 )
A formulação de (2) é a do modelo linear geral (GLM) de uso muito frequente na
metodologia estatística. No entanto, muitas vezes a suposição sobre a distribuição de é
extremamente restritiva e outras formulações são necessárias.
No modelo linear geral usa-se o método de mínimos quadrados, no qual usa-se o valor
de que minimiza (y - X )' (y - X ). O valor ̂ resolve o sistema de equações normais
X'X ̂ = X'y , onde ˆ X' X1 X' y no modelo de regressão e
̂ = (X'X) - X'y no modelo de análise de variância (ANOVA)
denotando X' X
1 -
a inversa regular e (X'X) a inversa generalizada de (X'X). Sob as
suposições sobre , ̂ é estimador não viesado de mínima variância (MUVE) de e é
normalmente distribuído com média e variância (X'X)- 2 .
X Y
1 6
2 8
3 9
4 13
V( ) = I 4
2
2
2
de acordo com a suposição sobre .
O sistema de equações normais é dado por X'X ̂ X'y , sendo
1 1
1 2 4 10
1 1 1 1
X'X =
1 2 3 4 1 3 10 30
1 4
e
6
8
1 1 1 1
36
X'y =
1 2 3 4 9 101
13
Assim,
4 10 ˆ 0 36
10 30 ˆ 101
1
X'X ̂ X'y
A solução é dada por
30 10 3 / 2 1 / 2
ˆ ( X' X ) 1 X' y ; (X'X)-1 = 1/20 1 / 2 1 / 5
10 4
Então
3 / 2 1 / 2 36 7 / 2 3,5
̂
1 / 2 1 / 5 101 2,2 2,2
Assim ŷ 3,5 + 2,2 X
e
1 1 5.7
1 2
3,5 7,9
ŷ X ̂ =
2,2 10,1
1 3
1 4 12,3
e
6 5,7 0,3
8 7,9 0,1
e = y ŷ =
9 10,1 1,1
13 12,3 0,7
Causas de
variação GL SQ QM F
Regressão 1 24,2 24,2 26,8
Resíduo 2 1,8 0,9
Total 3 26
proc iml;
reset print;
x={1 1 ,1 2 , 1 3 , 1 4 }; /*matriz de planejamento X*/
y={6, 8, 9, 13}; /*vetor de observacões Y*/
xpx=t(x)*x; /*matriz X`X */
xpxi=inv(t(x)*x); /*inversa de X'X*/
xpy=t(x)*y; /*vetor X`Y */
beta=xpxi*xpy; /*estimativas dos parâmetros*/
yest=x*beta; /*valores estimados*/
resid=y-yest; /*resíduos*/
sqe=ssq(resid); /*SQ do Erro*/
n=nrow(x); /*número de observacões*/
gle=nrow(x)-ncol(x); /*GL do Erro*/
qme=sqe/gle; /*QM do Erro*/
ypy=t(y)*y; /*Y`Y*/
csqy=ssq(y-sum(y)/n); /*SQ Total*/
sqreg=csqy-sqe; /*SQ Regressão*/
glreg=ncol(x)-1; /*GL de Regressão*/
qmreg=sqreg/glreg; /*QM de Regressão*/
f=qmreg/qme; /*F para Regressão*/
prob=1-probf(f,glreg,gle); /*nível mínimo de significância*/
r2=sqreg/csqy; /*coeficiente de determinacão*/
covbeta=xpxi*qme; /*matriz de covariancias das
estimativas dos parâmetros*/
stdb=sqrt(vecdiag(xpxi)*qme); /*erros padrões das estimativas*/
t=beta/stdb; /*teste t para os parâmetros*/
prob=1-probf(t#t,1,gle); /*valor de probabilidade*/
run;
Mais facilmente ainda esses resultados seriam obtidos através do Analyst do SAS utilizando-
se a Tarefa Regression do Menu Statistics.
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 24.20000 24.20000 26.89 0.0352
Error 2 1.80000 0.90000
Corrected Total 3 26.00000
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 3.50000 1.16190 3.01 0.0948
X X 1 2.20000 0.42426 5.19 0.0352
Predictions