Modelos de regressão linear

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
MODELOS LINEARES:
MODELOS DE REGRESSÃO
1. REGRESSÃO LINEAR SIMPLES
Prof. João Riboldi
Porto Alegre, maio 2005

1. MODELOS DE REGRESSÃO
CONSIDERAÇÕES GERAIS
Relação entre as variáveis
Y = f (X1, X2, …, Xk)
Variáveis Independentes ou Preditoras
variável Dependente ou Variável Resposta
EXEMPLOS:
(i) Y = f (X)
PIB ANOS
(ii) Y = f (X)
Quantidade oferecida
Preço de um produto
(iii) Y = f (X1, X2, X3)
N P K
Rendimento de uma cultura
As relações entre as variáveis podem ser:

Relações Funcionais
Relações Estatísticas
RELAÇÕES FUNCIONAIS: A relação funcional entre 2 variáveis é expressa por
uma fórmula matemática do tipo Y = f (X). Dado um valor de X, a função f indica o
correspondente valor de Y.
RELAÇÕES ESTATÍSTICAS: A relação não é perfeita. Os pontos não se situam
perfeitamente sobre a função que relaciona as duas variáveis. Pelo menos umas das variáveis
é aleatória e seus valores podem ser descritos através de uma função de densidade de
probabilidade.
EXEMPLO 1: Relação entre vendas em dólar (Y) de um produto vendido com preço
fixo e número de unidades vendidas (X). Sendo o preço de venda $2 por unidade, a relação é
expressa por
Y = 2X. Os dados são:
Período No de unidades Venda em

vendidas $
1 75 150
2 25 50
3 130 260
300
Vendas em Dólar
200
Y
100
Y =2X
0
0 20 40 60 80 100
Unidades Vendidas X
Figura 1: Relação Funcional
EXEMPLO 2: Tamanho do lote e número de homens/hora na Westwood Company
Produção Tamanho do Lote Homens/hora

Xi Yi
1 30 73
2 20 50
3 60 128
4 80 170
5 40 87
6 50 108
7 60 135
8 30 69
9 70 148
10 60 132
Figura 2: DIAGRAMA DE DISPERSÃO OU DIAGRAMA DE PONTOS
150
Homens/hora
100
Y
50 Y = 10 +2x
0
0 20 40 60 80
Tamanho do Lote X
Figura 3: Relação Estatística Linear

X = tamanho do lote de uma companhia de madeira
Y = número de homens/hora trabalhando
Y é uma v.a. porque para uma dado X, existem vários valores possíveis para Y
seguindo uma distribuição de probabilidade com certa média (E (Y)) e 2.
Figura 4: RELAÇÃO ESTATÍSTICA CURVILINEAR
MODELO DE REGRESSÃO: é uma maneira formal de expressar uma relação

estatística
(1) Na população de observações associadas com o processo amostrado, há uma
distribuição de probabilidade de Y para cada nível de X.
(2) As médias destas distribuições de probabilidade variam de forma sistemática
com X.
A relação sistemática é chamada de Função de Regressão de Y em X, cuja

representação gráfica é chamada de Curva de Regressão.
A relação entre X e Y pode ser expressa por uma função
 = E [Y/X], onde  é chamada Função ou Equação de Regressão. Pode–se ter,
por exemplo
(i)  =  + X
(ii)  = 0 + 1X + 2X2
(iii)  = 0 + 1X1 + 2X2 + 3X3
(iv)  =  + 2X
(v)  = cos  + X sen 
(vi)  =  eX
Figura 5: Representação do Modelo de Regressão Linear
Figura 6: Representação do Modelo de Regressão Curvilinear
FORMA FUNCIONAL DA EQUAÇÃO DE REGRESSÃO
(1) Algumas vezes conhece-se a apropriada forma funcional da equação de regressão

(2) Freqüentemente a forma funcional da equação de regressão é desconhecida e com
freqüência utiliza-se a equação de regressão linear ou quadrática como uma
aproximação.
USO DA ANÁLISE DE REGRESSÃO
(1) Descrição
(2) Estimação
(3) Predição
(4) Controle
2. REGRESSÃO LINEAR SIMPLES
MODELO MATEMÁTICO PARA A REGRESSÃO LINEAR SIMLES
Yi =  + Xi + I erro erro de mensuração de Y

valor da
variável Contribuição de outras variáveis não
parâmetros independente incluídas no modelo
valor observado de Y relação pode não ser estritamente linear

  intercepto
  coeficiente de regressão linear verdadeiro
i = 1, 2, …, n
PRESSUPOSIÇÃO
(i) A relação entre X e Y é linear
(ii) Os valores de X são fixos, isto é, X não é variável aleatória
(iii) i  N (0, 2) [Normalidade e Homocedanticidade]
(iv) Os i são independentes
(v) O número de observações Y é maior que do que o número de parâmetros do modelo
CARACTERÍSTICAS IMPORTANTES DO MODELO
1. Y em cada observação é uma soma de duas componentes  +Xi i
conste aleatória
2. E(I) = 0  E(Yi) = E( + Xi + I) =  + Xi + E(I) =  + Xi
 E(Y) =  + X
(Função de regressão relaciona as médias da distribuição de probabilidade de Y para
um dado X).
3. O valor de Y para uma dada observação desvia da função de regressão por um valor
de magnitude i
4. V(I) = 2  V(Yi) = V( + Xi + i) = V(i) = 2
5. Erros não correlacionados  valores de Y não correlacionados
6. Y’s tem distribuição de probabilidade com média E(Y) =  + Xi e variância 2 e os
Y’s são não correlacionados
ESTIMAÇÃO DA FUNÇÃO DE REGRESSÃO
 e  são desconhecidos e devem ser estimados dos dados de experimentos

de levantamentos
População Amostra
1 (X1, Y1)
2 (X2, Y2)
: : Pares de valores
n (Xn, Yn)
Dos dados obtém-se a e b que são estimadores de  e , sendo os valores numéricos

obtidos de a e b as estimativas dos parâmetros  e .
Desta forma a equação de regressão estimada (ajustada) é dada por Ŷ = a + bX
(Equação da Reta).
MÉTODOS PARA OBTENÇÃO DE a e b:
(1) Método dos quadrados mínimos

(2) Método da Máxima Verossimilhança
MÉTODO DOS QUADRADOS MÍNIMOS
Y  valor observado
Ŷ  valor estimado pela equação da reta dada por Ŷ = a + bX
Deseja-se que os desvios ou erros de estimativas Y - Ŷ sejam mínimo ou que a soma
 Y  Ŷ
2
dos quadrados dos desvios seja um mínimo, ou seja que
 
z   Y  Ŷ   Y  a  bX  seja mínimo.
2 2
z z
Ter-se-á um mínimo para z quando 0 0
a b
z 
 2 Y  a  bX - 1  0 

   Y  na  b X
a
z
 2 Y  a  bX  (-X) = 0  XY  a  x  b X 2
b 
na + b X   Y 
  Sistema de Equações Normais
a  X  b X 2   XY
Tem-se um sistema com 2 equações e 2 incógnitas e utilizando-se qualquer método

algébrico de resolução obtém-se:
b
 XY   X  Y / n  SP XY
 X   X  / n
2 2
SQ X
a  Y  bX
REGRESSÃO LINEAR SIMPLES
Relação entre Y e X é dada por uma reta Ŷ = a + bX
Coeficiente de Regressão Linear

(Inclinação da Reta)
Intercepto da Reta
Covariânci a (X, Y) SPXY

b 
Variância (X) SQx
SPXY = Soma dos Produtos dos Desvios de Xe Y
SPXY   X  X Y - Y    XY 
 X Y
n
no de pares de valores
SQx = Soma dos Quadrados dos Desvios de X
SQx   X  X    X 
2  X 2
2
n
SPXY
covariânci a (X, Y) =
n -1
GL
Medida da variação simultânea de X e Y
a  Y  bX
a: Intercepto da reta. Ponto onde a reta corta o eixo dos Y.
É o valor estimado para Y quando X = 0
b: Inclinação da reta. Coeficiente de Regressão Linear. Representa quanto

aumenta ou diminui Y quando X cresce uma unidade.
Y Y
Ŷ = a + bX Ŷ = a + bX
b
b (+) a
1 un 1 un
X1 X2 X X1 X2
X
Y
Ŷ = a + bX
a
1 un
X1 X2 X
PROPRIEDADE DOS ESTIMADORES DE MÍNIMOS QUADRADOS
a e b são estimadores imparciais e de variância mínima de  e .
RESÍDUOS
ei  Yi  Ŷi  Yi  a  bXi
i = Yi – E (YI)
Erro do Modelo
PROPRIEDADES DA RETA DE REGRESSÃO AJUSTADA
1. e i 0
2. e 2
i é um mínimo
3.  Y   Ŷ
i
4. X e  0 i i
5.  Ŷ e i i
0
6. A reta passa pelo ponto X, Y 

ESTIMATIVA DA VARIÂNCIA 2
ˆ 2  s2Y / X
ou ̂ 2  QMR
SQR
onde QMR 
n2
SQR = SQ Residual = SQ Desvios da Regressão

SQR   ei2   Yi  Ŷi    Y  a  bX 
2
i i
2
ADEQUABILIDADE DO MODELO E MEDIDAS REMEDIADORAS
1) SUPOSIÇÕES NA ANÁLISE DE REGRESSÃO
1. A relação entre Y e X é linear ou no mínimo bem aproximada por uma linha reta
2. Os erros tem média zero
3. Os erros tem variância constante 2
4. Os erros são independentes
5. Os erros são normalmente distribuídos
Pode-se sempre colocar dúvidas sobre a validade destas suposições e então conduzir
análises para verificar a adequabilidade do modelo. Um modelo inadequado geralmente traz
sérias conseqüências. Violação acentuadas nas suposições podem produzir um modelo
instável (Diferente amostra pode conduzir a conclusões totalmente opostas).
Não temos condições de verificar desvios nas suposições do modelo simplesmente
examinando as estatísticas t ou F ou o coeficiente de determinação tradicionalmente
calculadas na análise de Regressão.
(2) ANÁLISE DE RESÍDUOS
(a) DEFINIÇÃO DE RESÍDUOS

O resíduo ei é definido como a diferença entre o valor observado e ajustado pelo modelo, ou
seja
e i  Yi - Ŷi
ERRO DO MODELO
i = Yi - E (Yi) = Yi - ( + Xi)
É uma medida da variabilidade não explicada pelo modelo de Regressão. Pode-se

pensar os resíduos como os valores "observados" dos erros. Assim quaisquer desvios nas
suposições dos erros repercutirá nos resíduos.
A análise de Resíduos é um método efetivo para descobrir deficiências no modelo de
vários tipos.
(b) PROPRIEDADES DOS RESÍDUOS
( i ) Média : e  (  e i / n   0
(ii) variância s 2

 (e i  e)2

e i
2

 (Y i  Yî ) 2

SQR
 QMR  s 2 y / x
n2 n2 n2 n2
e
Os resíduos tem n-2 graus de liberdade associados.

n resíduos n-2 GL  Os resíduos não são independentes
Duas restrições:
 (Y  Yˆ )   e  0
i i i
 X (Y  Yˆ )   X e
i i i0 i i
Quando o tamanho da amostra não é pequeno comparado com as restrições nos ei, o
efeito da dependência é pouco importante e pode ser ignorado.
GRAUS DE LIBERDADE PARA sy2 / x

GL = n-2 pois existem 2 restrições
(i) da 1a equação  Y  Ŷ  0 , pois  
na  b X   Y  a  bX   Y  Y  a  bX  0   Y  Ŷ  0  
da 2a equação  Y  Ŷ  0 , pois
a  X  b X   XY   a  bX    XY   Xa  bX    XY
2
  XY  a  bX   =   XY  Ŷ   0
(c) RESÍDUOS PADRONIZADOS
ei
Por conveniência analítica, os resíduos padronizados d i  são muitas vezes
QMR
utilizados nas análise de resíduos
(d) DESVIOS NO MODELO VERIFICADOS PELA ANÁLISE DE RESÍDUOS
1. A função de regressão não é linear

2. Os erros não tem variância constante
3. Os erros não são independentes
4. Os erros não são normalmente distribuídos
5. Variáveis independentes importantes foram omitidas do modelo
INFERÊNCIA NO MODELO DE REGRESSÃO LINEAR SIMPLES
Variância dos erros de estimativa
O erro de estimativa para uma observação qualquer Yi, é a diferença entre este valor e
o correspondente valor estimado sobre a reta, Yi  Yî . A variância desses erros é
 Y  Yˆ  SQY  SPxy  / SQ X
2 2
SQY  b 2 SQ x
    QMR
2 i
s
n2 n2 n2
Y|X
Os graus de liberdade são o número de pares de observações X, Y menos 2, pois são

duas, a e b, as estatísticas usadas na estimativa de  Y2 | X , no caso, o valor paramétrico para a
variância dos erros de estimativa.
Extraindo a raiz quadrada de sY2| X , obtém-se sY | X , chamado erro padrão ou desvio
padrão dos erros de estimativa.
Teste de significância do coeficiente de regressão linear
A significância estatística do coeficiente de regressão b é dada pelo teste
b
t
sb
em que sb é o erro padrão do coeficiente de regressão. Calcula-se por s b2 , em que s b2 , a

variância do coeficiente de regressão é dada por
sY2| X
s 
2
b
SQ x
O coeficiente de regressão terá significância estatística quanto |t| calculado for maior
que t para n – 2 graus de liberdade.
A hipótese formulada neste teste é a hipótese de nulidade H 0 :   0 , de que a reta é
paralela ao eixo X. A rejeição desta hipótese implica na alternativa H a :   0 , havendo então
regressão.
O intervalo de confiança para  é dado por:
IC  b  t  n  2  s b
Análise de variância na regressão linear simples
Na figura 7 verifica-se que a altura total de um ponto qualquer Y pode ser dividida em
duas partes, uma Yî , corresponde à altura da reta de regressão e a outra Yi  Yî é o desvio da
i  i i i 
regressão. Portanto, Y  Yˆ  Y  Yˆ ; e, usando a média Y como ponto de referência para Y
e Yˆ : Y  Y  Yˆ  Y  Y  Yˆ .
i i i i
Y Elevando-se ambos os membros desta
Y
equação ao quadrado e fazendo o somatório da
Y  Yˆ
Yˆ equação para todos os valores de Y
observados, obtém-se:
Yˆ  Y
Y
 Y i
2

 Y    Yˆ  Y    Y  Yˆ 
2
i
2
Y Y Yˆ
Na elevação ao quadrado do segundo
membro desaparece o termo do produto
X X     
Yî  Y Yi  Yî , pois Yi  Yî , ou somatório
Figura 7 Decomposição da altura total Y dos desvios da regressão é igual a zero, por
definição.
Verifica-se, pois, que a expressão  Yi Y  , a soma dos quadrados das observações
2
Yi, fica dividida em duas partes:

 
1º)  Yˆ  Y , a redução da soma dos quadrados de Y devida à regressão;
i
2
 Y  Yˆ 
2
2º) i i a soma dos quadrados dos desvios de Y da regressão. Os graus de
liberdade dividem-se, respectivamente, em (n – 1), 1 e (n – 2), em que n é o número de pares
de observações X, Y.
Este resultado é comumente apresentado numa tabela de análise da variância. A
comparação do quadrado médio devido à regressão com o quadrado médio devido aos desvios
da regressão proporciona um F-teste da significância estatística do coeficiente de regressão.
Nas aplicações, calcula-se as somas dos quadrados por:
a) SQ Total   Yi  Y   SQ y   Yi 2   Yi  n ;
2 2
b) SQ Regressão   Yˆ  Y 
2
 b 2  X i  X   SPxy  SQ x ;
2 2
c) SQ Desvios da regressãoé obtida por diferença, ou seja,

 SQ Total  SQ Regressão
Coeficiente de Determinação: O coeficiente de determinação r2 dado por
SQ Regressão
r2 
SQ Total
SQ y
representa a proporção da variação total ( SQ y ) explicada pela regressão de y para x.

r2 indica a utilidade de usar a regressão para se fazer ajustamentos ou previsões.
SQ Regressão  r 2 SQ y

SQ Desvios da regressão  1 r 2 SQ y 
EXEMPLOS
Exemplo 1
Os dados da tabela 1 , representam valores da variável dependente Y que é a pureza
do oxigênio produzido em um processo químico de destilação e da variável
independente X que é a percentagem de hidrocarbonetos presentes no condensador principal
da unidade de destilação.
Tabela .1 Pureza do oxigênio produzido(Y) em função da percentagem de hidrocarbonetos(X)

Nível de Hidrocarbonetos,
X(%) Pureza, Y(%)
0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33
O diagrama de dispersão dos dados da tabela 1, aparecem na figura 8. O diagrama de
dispersão é um gráfico no sistema cartesiano.A inspeção do diagrama de dispersão indica que
embora nenhuma curva simples passe exatamente através de todos os pontos, há uma forte
indicação de que os pontos se distribuem aleatoriamente em torno de uma linha reta.
Figura 8 Diagrama de dispersão da pureza do oxigênio em função do nível de hidrocarbonetos
102
Pureza do oxigênio, %
100
98
96
94
92
90
88
86
0,85 1,05 1,25 1,45 1,65
Nivel de Hidrocarboneto, %
Procedendo-se a análise do exemplo 1 através do Excel obtém-se os seguintes

resultados
RESUMO DOS RESULTADOS
Estatística de regressão
R múltiplo 0,936715
R-Quadrado 0,877436
R-quadrado ajustado 0,870627
Erro padrão 1,086529
Observações 20
ANOVA
gl SQ MQ F F de significação
Regressão 1 152,1271 152,1271 128,8617 1,23E-09
Resíduo 18 21,24982 1,180545
Total 19 173,3769
Erro
Coeficientes padrão Stat t valor-P 95% inferiores 95% superiores
Interseção 74,28331 1,593473 46,61723 3,17E-20 70,93555 77,63108
Hidrocarboneto 14,94748 1,316758 11,35173 1,23E-09 12,18107 17,71389
RESULTADOS DE RESÍDUOS
Previsto(a) Resíduos
Observação Pureza Resíduos padrão Percentil Pureza
1 89,08132 0,928681 0,878144 2,5 87,33
2 89,52974 -0,47974 -0,45364 7,5 87,59
3 91,47292 -0,04292 -0,04058 12,5 89,05
4 93,56556 0,174437 0,164944 17,5 89,54
5 96,10663 0,623365 0,589443 22,5 89,85
6 94,61189 -0,16189 -0,15308 27,5 90,01
7 87,28762 0,302378 0,285924 32,5 90,39
8 92,66871 -0,89871 -0,84981 37,5 90,56
9 97,45191 1,968092 1,860993 42,5 91,43
10 95,20979 -1,55979 -1,47491 47,5 91,77
11 92,07082 1,469185 1,389235 52,5 92,52
12 91,47292 1,047084 0,990104 57,5 93,25
13 88,93184 1,628156 1,539555 62,5 93,41
14 89,38027 0,159731 0,151039 67,5 93,54
15 90,87502 -1,02502 -0,96924 72,5 93,65
16 92,22029 -1,83029 -1,73069 77,5 93,74
17 93,11714 0,132861 0,125631 82,5 94,45
18 94,01399 -0,60399 -0,57112 87,5 94,98
19 95,65821 -0,67821 -0,6413 92,5 96,73
20 88,48342 -1,15342 -1,09065 97,5 99,42
Pureza em função do hidrocarboneto
110
100
Pureza
90
80
0,85 1,05 1,25 1,45 1,65
Hidrocarboneto
Plotagem de probabilidade normal
102
100
98
96
Pureza
94
92
90
88
86
0 20 40 60 80 100
Percentil da amostra
RESULTADOS DO SAS
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 152.12708 152.12708 128.86 <.0001
Error 18 21.24982 1.18055
Corrected Total 19 173.37690
Root MSE 1.08653 R-Square 0.8774

Dependent Mean 92.16050 Adj R-Sq 0.8706
Coeff Var 1.17895
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 74.28331 1.59347 46.62 <.0001
Hidrocarboneto 1 14.94748 1.31676 11.35 <.0001
Obs Hidrocarboneto Pureza Predicted Pureza Residual of Pureza
1 0.99 90.01 89.0813 0.92868
2 1.02 89.05 89.5297 -0.47974
3 1.15 91.43 91.4729 -0.04292
4 1.29 93.74 93.5656 0.17444
5 1.46 96.73 96.1066 0.62337
6 1.36 94.45 94.6119 -0.16189
7 0.87 87.59 87.2876 0.30238
8 1.23 91.77 92.6687 -0.89871
9 1.55 99.42 97.4519 1.96809
10 1.40 93.65 95.2098 -1.55979
11 1.19 93.54 92.0708 1.46918
12 1.15 92.52 91.4729 1.04708
13 0.98 90.56 88.9318 1.62816
14 1.01 89.54 89.3803 0.15973
15 1.11 89.85 90.8750 -1.02502
16 1.20 90.39 92.2203 -1.83029
17 1.26 93.25 93.1171 0.13286
18 1.32 93.41 94.0140 -0.60399
19 1.43 94.98 95.6582 -0.67821
20 0.95 87.33 88.4834 -1.15342
Interpretação dos resultados
( 1 ) Equação de Regressão Linear Ajustada
yˆ  74,20  14,97 x
b = 14,97; Estima – se em 14,97% o acréscimo na pureza do oxigênio a cada 1% a mais no

nível de hidrocarbonetos.
( 2 ) Inferência no Modelo de Regressão Linear
Pelo teste t, verifica-se que tanto o coeficiente de regressão linear (b=14,97; t=15,35; p
< 0,0001) como o intercepto (a=70,20; t=46,62; p< 0,0001) são significativos, idicando que se
rejeita, respectivamente, as hipóteses Ho: =0; Ho: =0.
Os intervalos de confiança a 95% para os parâmetros do modelo de regressão linear
: [ 70,93 ; 77,63 ]
: [ 12,18 ; 17,71 ]
comprovam a rejeição das hipóteses correspondentes dada a não inclusão do zero nos
intervalos de confiança.
O teste de interesse é o teste de hipótese Ho: =0, que também pode ser feito pela
análise de variância, onde no caso obtem-se F = 128,86; p < 0,0001. A rejeição de Ho: =0
indica que a regressão linear da pureza do oxigênio em função da porcentagem de
hidrocarbonetos é importante para explicar as variações na pureza do oxigênio.
Nesse caso e em todos os casos onde se tem 1 GL para o numerador F = t².
( 3 ) Coeficiente de determinação
152,13
r2   0,8774
173,38
Então, 87,74% da variação da porcentagem de pureza do oxigênio é explicada pela

regressão linear da porcentagem de pureza para a porcentagem de hidrocabonetos.
( 4 ) Adequação
O gráfico dos resíduos versus a variável independente (Hidrocarbonetos) não

apresenta nenhum indicador de variância não-constante. O gráfico de probabilidade normal
também não apresenta nenhum indicador de falta de aderência à normalidade.
Exemplo 2: Em um estudo investigou-se a relação entre a exposição ao barulho e hipertensão.

Os seguintes dados foram obtidos:
Aumento da Nível de Aumento da Nível de

Pressão Sangüínea Pressão Pressão Sangüínea Pressão
(mmHg) Sonora (dB) (mmHg) Sonora (dB)
1 60 5 85
0 63 4 89
1 65 6 90
2 70 8 90
5 70 4 90
1 70 5 90
4 80 7 94
6 80 9 100
2 80 7 100
3 80 6 100
Exemplo 3:Os dados referentes ao peso e à pressão sangüínea sistólica de 26 homens
selecionados aleatoriamente, na faixa etária de 25 a 30 anos, são mostrados na tabela seguinte:
Indivíduo Peso PS Sistólica Indivíduo Peso PS Sistólica

1 165 130 14 172 153
2 167 133 15 159 128
3 180 150 16 168 132
4 155 128 17 174 149
5 212 151 18 183 158
6 175 146 19 215 150
7 190 150 20 195 163
8 210 140 21 180 156
9 200 148 22 143 124
10 149 125 23 240 170
11 158 133 24 235 165
12 169 135 25 192 160
13 170 150 26 187 169
Exemplo 2: RESULTADOS DO SAS
Sum of Mean
Model 1 88.51985 88.51985 44.66 <.0001
Error 18 35.68015 1.98223

Coeff Var 32.74226
Parameter Standard 95% Confidence

Variable DF Estimate Error t Value Pr > |t| Limits
Intercept 1 -9.81310 2.13526 -4.60 0.0002 -14.29913 -5.32708
Pressao_So
1 0.17148 0.02566 6.68 <.0001 0.11757 0.22540
nora
Obs Pressao Pressao Predicted
Sanguinea Sonora Pressao_Sanguinea
1 1 60 0.47592
2 0 63 0.99037
3 1 65 1.33333
4 2 70 2.19075
5 5 70 2.19075
6 1 70 2.19075
7 4 80 3.90559
8 6 80 3.90559
9 2 80 3.90559
10 3 80 3.90559
11 5 85 4.76301
12 4 89 5.44894
13 6 90 5.62042
14 8 90 5.62042
15 4 90 5.62042
16 5 90 5.62042
17 7 94 6.30636
18 9 100 7.33526
19 7 100 7.33526
20 6 100 7.33526
REGRESSÃO LINEAR SIMPLES
( 1 ) Modelo: Yi =  + Xi + I i = 1, 2, ......, n

i  N (0,  )  Yi  N ( + Xi, 2)
2
independentes independentes
( 2 ) Parâmetros:   e 2
( 3 ) Estimadores de Mínimos Quadrados:
a  y  bx ŷ = a + bxi
SPXY
b
SQx
2 2   yi  yî 2  SQ Residual ou SQ
̂  QMR = sY / X = Desvios da Regressão
n2
 GL
( 4 ) Propriedade dos Estimadores de Mínimos Quadrados
E(a) =   a é o estimador imparcial de 

E(b) =   b é o estimador imparcial de 
a e b são os estimadores de variância mínima entre todos estimadores lineares

imparciais.
E(QMR) = 2  QMR = sY2 / X é estimador imparcial de 2
( 5 ) Estimadores de Máxima Verossimilhança:
1  y   2

1 2 2
Distribuição Normal: f ( y )  e
 2
Na regressão: Yi  N ( + Xi, 2)
1

2
1
y   x 2
f ( y)  e 2
 2
Para y1, y2, ..., yn a distribuição de Probabilidade Conjunta é
n 1 2
 yi   xi 2

1
L(,, 2) = f(y1,y2, ...,yn) =  e 2 =
 2
i 1
Função de
Verossimilhança
  yi   xi 2
1

1 2
= e 2
n
n
 
2  2   2
2
 
Os valores de ,  e 2 que maximizam a Função de Verossimilhança são os

Estimadores de Máxima Verossimilhança. Se obtém ln(L) e se maximiza ln(L), porque ln(L) e
L são maximizadas para os mesmo valores de ,  e 2. Então
ln( L)   ln 2   ln  2    yi    xi 

n n 1
2 2   2 2
 2
Derivando – se ln(L) em relação a   e 2 tem – se:
 ln L 
  yi    xi 
1

  2
 ln L 
  yi    xi xi
1

 2
 ln L 
  yi    xi 2
n 1
 
 2 2 2 2 4
Igualando – se a zero e expressando – se em relação aos estimadores a, b e ̂ 2 , tem –

se:
  yi  a  bxi   0   yi  na  b xi  0  na  b xi   yi
  yi  a  bxi xi  0   xi yi  a xi  b xi2  0
 a xi  b xi2   xi yi
 As mesmas equações de Mínimos Quadrados
 a  y  bx
SP
b  XY
SQx
1
n
2   yi  a  bxi 2  0 
n
2   yi  a  bxi 2  1
ˆ ˆ
~ 2   yi  a  bxi 2   yi  yî 2 SQ Re sidual
   
n n n
 ~ 2 é o estimador viesado de 2.
( 6 ) Propriedades dos Estimadores de Máxima Verossimilhança
(i) São imparciais [ ~ 2 assintoticamente imparcial (n grande) ];

(ii) São de variância mínima entre todos estimadores lineares imparciais;
(iii) São consistentes;
(iv) São suficientes;
(v) São imparciais de variância mínima, isto é, eles apresentam variância mínima na
classe de todos estimadores imparciais (lineares ou não).
3.Modelo Linear Geral
Suponha-se que se tenha n dados de observação y1, y2, ..., yn e que se deseja explicá-los
usando-se n valores para cada uma de p variáveis explicativas ou explanatórias x11, x12,
..., x1p, x21, x22, ..., x2p, ..., xn1, xn2, ..., xnp.
Os valores xij podem ser variáveis contínuas tipo variáveis de regressão ou variáveis
indicadoras ("dummy") indicando diferentes categorias.
O modelo linear padrão para esta configuração é
p
yi = x
j1
ij
 j  i (1) i = 1,2,...,n
onde: 1 ,  2 ,...,  p são parâmetros de efeitos fixos desconhecidos para serem estimados e
1 ,  2 , ...,  n são variáveis aleatórias não-observáveis iid (independente e identicamente
distribuídas) normal (Gaussiana) com média 0 e variância .
A equação (1) pode ser escrita na forma matricial
y = X    (2)
Explicitando
 y1  x x12  x1p   1    1 
 y   11    
 2  x 21 x 22  x 2p   2   2 
     

      
      
y n  x n1 x n 2  x np   p   n 
 
onde: y denota o vetor de observações da variável dependente y
X é a matriz conhecida dos valores xij
 é o vetor de parâmetros de efeitos fixos desconhecidos
 é o vetor não-observado de erros aleatórios gaussianos iid ou seja   N (0, I  2 )
A formulação de (2) é a do modelo linear geral (GLM) de uso muito frequente na
metodologia estatística. No entanto, muitas vezes a suposição sobre a distribuição de  é
extremamente restritiva e outras formulações são necessárias.
Estimação no Modelo Linear Geral
No modelo linear geral usa-se o método de mínimos quadrados, no qual usa-se o valor
de  que minimiza (y - X  )' (y - X  ). O valor ̂ resolve o sistema de equações normais
X'X ̂ = X'y , onde ˆ  X' X1 X' y no modelo de regressão e
̂ = (X'X) - X'y no modelo de análise de variância (ANOVA)
denotando X' X
1 -
a inversa regular e (X'X) a inversa generalizada de (X'X). Sob as
suposições sobre  , ̂ é estimador não viesado de mínima variância (MUVE) de  e é
normalmente distribuído com média  e variância (X'X)-  2 .
Exemplo 4: Sejam os valores para as variáveis X e Y
X Y
1 6
2 8
3 9
4 13
Pretende-se ajustar o modelo de regressão linear yi =  0   1 X i   i expresso

y = X    , onde matricialmente tem-se
 y1   6  1 1  1 
y   8  1 2  
 2     0   2 
y3   9  1 3      
 1 3
       
y 4  13 1 4  4 
y y X  
e
 2 
 
 2
V(  ) =  I 4   
2
 2 
 
 2 
de acordo com a suposição sobre  .
O sistema de equações normais é dado por X'X ̂  X'y , sendo
1 1
1 2  4 10 
1 1 1 1  
X'X =  
1 2 3 4 1 3 10 30
 
1 4
e
6
8
1 1 1 1   
36
X'y =  
1 2 3 4  9  101

 
13
Assim,
 4 10  ˆ 0   36 
10 30  ˆ   101
   1   
X'X ̂ X'y
A solução é dada por
 30  10  3 / 2  1 / 2
ˆ  ( X' X ) 1 X' y ; (X'X)-1 = 1/20     1 / 2 1 / 5 
  10 4   
Então
 3 / 2  1 / 2  36  7 / 2  3,5 
̂       
 1 / 2 1 / 5  101  2,2  2,2
Assim ŷ  3,5 + 2,2 X
e
1 1  5.7 
1 2  
 3,5   7,9 
ŷ  X ̂ =  
2,2  10,1
1 3  
   
1 4 12,3
e
 6   5,7   0,3 
 8   7,9   0,1 
e = y  ŷ =      
 9  10,1  1,1
     
13 12,3  0,7 
SQE =  e i2  0,32  0,12   1,12  0,72  1.8 e

i
SQ Total = 62 + 82 + 92 + 132 - (36)2/4 = 26
A análise de variância é dada por
Causas de
variação GL SQ QM F
Regressão 1 24,2 24,2 26,8
Resíduo 2 1,8 0,9
Total 3 26
A matriz de estimativas das covariâncias dos coeficientes de regressão é dada por

ˆ Côv(ˆ 0 , ˆ 1 )
ˆ   Vâr ( 0 )
V̂() 
Côv(ˆ 0 , ˆ 1 ) Vâr (ˆ 1 ) 
 ( X' X ) 1 QME
 3 / 2  1 / 2  1,35  0,45
=  ( 0 ,9 )   0,45 0,18 
 1 / 2 1 / 5   
Esses resultados são facilmente obtidos utilizando-se o IML do SAS, conforme a
sequência de instruções:
proc iml;
reset print;
x={1 1 ,1 2 , 1 3 , 1 4 }; /*matriz de planejamento X*/
y={6, 8, 9, 13}; /*vetor de observacões Y*/
xpx=t(x)*x; /*matriz X`X */
xpxi=inv(t(x)*x); /*inversa de X'X*/
xpy=t(x)*y; /*vetor X`Y */
beta=xpxi*xpy; /*estimativas dos parâmetros*/
yest=x*beta; /*valores estimados*/
resid=y-yest; /*resíduos*/
sqe=ssq(resid); /*SQ do Erro*/
n=nrow(x); /*número de observacões*/
gle=nrow(x)-ncol(x); /*GL do Erro*/
qme=sqe/gle; /*QM do Erro*/
ypy=t(y)*y; /*Y`Y*/
csqy=ssq(y-sum(y)/n); /*SQ Total*/
sqreg=csqy-sqe; /*SQ Regressão*/
glreg=ncol(x)-1; /*GL de Regressão*/
qmreg=sqreg/glreg; /*QM de Regressão*/
f=qmreg/qme; /*F para Regressão*/
prob=1-probf(f,glreg,gle); /*nível mínimo de significância*/
r2=sqreg/csqy; /*coeficiente de determinacão*/
covbeta=xpxi*qme; /*matriz de covariancias das
estimativas dos parâmetros*/
stdb=sqrt(vecdiag(xpxi)*qme); /*erros padrões das estimativas*/
t=beta/stdb; /*teste t para os parâmetros*/
prob=1-probf(t#t,1,gle); /*valor de probabilidade*/
run;
Mais facilmente ainda esses resultados seriam obtidos através do Analyst do SAS utilizando-
se a Tarefa Regression do Menu Statistics.
Sum of Mean
Model 1 24.20000 24.20000 26.89 0.0352
Error 2 1.80000 0.90000

Coeff Var 10.54093
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 3.50000 1.16190 3.01 0.0948
X X 1 2.20000 0.42426 5.19 0.0352
Predictions
Obs X Y Predicted Y Residual of Y

1 1 6 5.7 0.3
2 2 8 7.9 0.1
3 3 9 10.1 -1.1
4 4 13 12.3 0.

Modelos de regressão linear

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Modelos de regressão linear

Uploaded by

Copyright:

Available Formats

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Prof. João Riboldi

Porto Alegre, maio 2005

Variáveis Independentes ou Preditoras

variável Dependente ou Variável Resposta

(iii) Y = f (X1, X2, X3)

As relações entre as variáveis podem ser:

Período No de unidades Venda em

Figura 1: Relação Funcional

EXEMPLO 2: Tamanho do lote e número de homens/hora na Westwood Company

Produção Tamanho do Lote Homens/hora

Figura 3: Relação Estatística Linear

MODELO DE REGRESSÃO: é uma maneira formal de expressar uma relação

A relação sistemática é chamada de Função de Regressão de Y em X, cuja

Figura 6: Representação do Modelo de Regressão Curvilinear

FORMA FUNCIONAL DA EQUAÇÃO DE REGRESSÃO

(1) Algumas vezes conhece-se a apropriada forma funcional da equação de regressão

2. REGRESSÃO LINEAR SIMPLES

MODELO MATEMÁTICO PARA A REGRESSÃO LINEAR SIMLES

Yi =  + Xi + I erro erro de mensuração de Y

valor observado de Y relação pode não ser estritamente linear

CARACTERÍSTICAS IMPORTANTES DO MODELO

1. Y em cada observação é uma soma de duas componentes  +Xi i

 e  são desconhecidos e devem ser estimados dos dados de experimentos

Dos dados obtém-se a e b que são estimadores de  e , sendo os valores numéricos

MÉTODOS PARA OBTENÇÃO DE a e b:

(1) Método dos quadrados mínimos

MÉTODO DOS QUADRADOS MÍNIMOS

Tem-se um sistema com 2 equações e 2 incógnitas e utilizando-se qualquer método

REGRESSÃO LINEAR SIMPLES

Relação entre Y e X é dada por uma reta Ŷ = a + bX

Coeficiente de Regressão Linear

Covariânci a (X, Y) SPXY

b: Inclinação da reta. Coeficiente de Regressão Linear. Representa quanto

PROPRIEDADE DOS ESTIMADORES DE MÍNIMOS QUADRADOS

a e b são estimadores imparciais e de variância mínima de  e .

PROPRIEDADES DA RETA DE REGRESSÃO AJUSTADA

6. A reta passa pelo ponto X, Y 

ADEQUABILIDADE DO MODELO E MEDIDAS REMEDIADORAS

1) SUPOSIÇÕES NA ANÁLISE DE REGRESSÃO

(2) ANÁLISE DE RESÍDUOS

(a) DEFINIÇÃO DE RESÍDUOS

É uma medida da variabilidade não explicada pelo modelo de Regressão. Pode-se

Os resíduos tem n-2 graus de liberdade associados.

GRAUS DE LIBERDADE PARA sy2 / x

(c) RESÍDUOS PADRONIZADOS

(d) DESVIOS NO MODELO VERIFICADOS PELA ANÁLISE DE RESÍDUOS

1. A função de regressão não é linear

Variância dos erros de estimativa

Os graus de liberdade são o número de pares de observações X, Y menos 2, pois são

Teste de significância do coeficiente de regressão linear

A significância estatística do coeficiente de regressão b é dada pelo teste

em que sb é o erro padrão do coeficiente de regressão. Calcula-se por s b2 , em que s b2 , a

Análise de variância na regressão linear simples

Yi, fica dividida em duas partes:

c) SQ Desvios da regressãoé obtida por diferença, ou seja,

Coeficiente de Determinação: O coeficiente de determinação r2 dado por

representa a proporção da variação total ( SQ y ) explicada pela regressão de y para x.

Tabela .1 Pureza do oxigênio produzido(Y) em função da percentagem de hidrocarbonetos(X)

Procedendo-se a análise do exemplo 1 através do Excel obtém-se os seguintes

Pureza em função do hidrocarboneto

Root MSE 1.08653 R-Square 0.8774

( 1 ) Equação de Regressão Linear Ajustada