You are on page 1of 16

189

Tnia F Bogutchi PUC Minas Reviso: 2012


Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
Essa Unidade est no captulo 11 do livro base: MONTGOMERY,
Douglas C, RUNGER, George C. Estatstica aplicada e Probabilidade
para Engenheiros. 4 edio. Rio de Janeiro: LTC, 2009.
Voc tambm pode, se preferir, fazer a leitura do captulo 10 do
livro do Mario Triola, Introduo Estatstica, LTC, 2005.
Cpias desses captulos podem ser obtidas por meio da Pasta do
Professor Professor (www.pastadoprofessor.com.br), fazendo login
nessa pgina e enviando-as para serem impressas na Copiadora
Set (casa amarela) da Unidade do Corao Eucarstico, ou em
alguma outra copiadora da Unidade a que o aluno pertence.
No deixem de ler!

Nota importante:
Essas aulas foram produzidas por meio de coletnea dos textos
indicados na bibliografia. No so citadas diretamente para no
poluir o visual dos mesmos.
Os textos esto organizados e traduzidos para minha linguagem
didtica pessoal.
Um estudo mais aprofundado dever ser baseado nas
referncias bibliogrficas indicadas.

Algumas notas de aulas:

1. Introduo

A associao entre duas variveis quantitativas tambm chamada de medida de relao. As
medidas de relao aqui estudadas so as que objetivam linearidade: correlao e regresso.
Segundo ou dicionrio Aurlio, correlao significa relao mtua entre dois termos, qualidade
de correlativo, correspondncia. Correlacionar significa estabelecer relao ou correlao entre;
ter correlao. Enquanto que a palavra regresso significa: ato ou efeito de regressar, de
voltar, retorno, regresso; dependncia funcional entre duas ou mais variveis aleatrias. A
palavra regredir significa ir em marcha regressiva, retroceder.
Os termos correlao e regresso surgiram com Francis Galton (1822-1911), primo de Charles
Darwin, que usou pela primeira vez esses termos. Seu trabalho influenciou a Estatstica e a
Psicologia.
Galton publicou o livro Gnio Hereditrio, em 1869, onde aplicou conceitos estatsticos a
problemas da hereditariedade. Galton ficou impressionado com a distribuio normal aplicada a
rea de biologia por Adolph Qutelet (1796-1874), que mostrara no livro O homem Mdio,
que a estatura de dez mil sujeitos seguia uma distribuio normal, ou seja, a maioria dos
sujeitos tinha suas estaturas em torno da mdia e que uma quantidade, cada vez menor, vai
sendo encontrado medida que se afasta da mdia.
190


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
Galton cunhou o termo regresso quando observou que filhos de homens altos, no so, em
mdia, to altos quanto os pais, enquanto que os filhos de homens muito baixos so, em
mdia, mais altos do que os pais. Ele concebeu uma forma grfica de representar as
propriedades bsicas do coeficiente de correlao. Ele aplicou o seu mtodo de correlao a
variaes de medidas fsicas, por exemplo, mostrou a correlao entre a altura do corpo e o
comprimento da cabea.
Seu aluno Karl Pearson desenvolveu a frmula matemtica, que usamos hoje e que tem o seu
nome em homenagem. O smbolo do coeficiente de correlao r, vem da primeira letra de
regresso, em reconhecimento a Galton.


2. A Covarincia e o Coeficiente de Correlao de Pearson

Quando estudamos a relao entre duas variveis X e Y devemos apreender um novo conceito
que a covarincia. Se a varincia uma estatstica atravs da qual chegamos ao desvio-
padro que uma medida da disperso dos dados. Semelhantemente, a covarincia uma
medida da variao (disperso) conjunta entre os dados de X e Y. Essa medida estatstica nos
possibilita chegar ao coeficiente de correlao o qual mede o grau de associao linear entre
duas variveis aleatrias.
Apresentaremos esses conceitos por meio do exemplo a seguir.
Exemplo 1: Sejam as variveis aleatrias X, renda bruta anual em milhes de reais e Y,
percentual da renda bruta gasto com assistncia mdica, que tomam os seguintes valores:



Calculando as estatsticas descritivas temos:




Uma forma mais simplificada para os clculos por meio da utilizao da escrita de algumas
somas intermedirias, tais como:

n
x
x S
n
i
i
n
i
i xx
2
1
1
2
|
|
.
|

\
|
=

=
=

n
y x
y x S
n
i
i
n
i
i
n
i
i i xy
|
|
.
|

\
|
|
|
.
|

\
|
=

= =
=
1 1
1



A covarincia obtida por meio da seguinte frmula:


( )( )
1 1
) , cov(

n
S
n
y y x x
Y X
xy


Renda bruta (X), em R$ 12 16 18 20 28 30 40 48 50 54
% gasta (Y) 7,2 7,4 7,0 6,5 6,6 6,7 6,0 5,6 6,0 5,5
Varivel n Mdia Varincia Desvio-padro
Renda bruta (X), em R$ 10 31,60 238,04 15,43
% gasta (Y) 10 6,45 0,43 0,66
191


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
O prximo quadro apresenta alguns clculos intermedirios para esse banco de dados:

Renda bruta (X) % gasto (Y) XY X
2
Y
2
12 7,2 86,4 144 51,84
16 7,4 118,4 256 54,76
18 7,0 126,0 324 49,00
20 6,5 130,0 400 42,25
28 6,6 184,8 784 43,56
30 6,7 201,0 900 44,89
40 6,0 240,0 1600 36,00
48 5,6 268,8 2304 31,36
50 6,0 300,0 2500 36,00
54 5,5 297,0 2916 30,25
E X = 316 E Y = 64,5 E X Y = 1952,4 E X
2
= 12128 E Y
2
=419,91


8 , 85 2 , 2038 4 , 1952
10
) 5 , 64 )( 316 (
4 , 1952 = = =
xy
S

53 , 9
9
8 , 85
) , cov( ~

= Y X

Verifica-se graficamente a relao entre duas variveis por meio do diagrama de disperso
entre elas. Nesse grfico foram desenhadas as linhas das mdias de X, E(X), e de Y , E(Y), e
indicados os sinais da covarincia em cada um dos quadrantes determinados por essas linhas:
























X: Renda bruta
Y
:

%

g
a
s
t
o

c
o
m

a
s
s
i
s
t
.

m

d
i
c
a
60 50 40 30 20 10
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de disperso: % gasto com assist. mdica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III
II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0
Cov(X,Y) < 0
Cov(X,Y) > 0
X: Renda bruta
Y
:

%

g
a
s
t
o

c
o
m

a
s
s
i
s
t
.

m

d
i
c
a
60 50 40 30 20 10
7,5
7,0
6,5
6,0
5,5
E(X)
E(Y)
Diagrama de disperso: % gasto com assist. mdica vs Renda bruta
X-E(X)<0 e Y-E(Y)<0
X-E(X)<0 e Y-E(Y)>0
X-E(X)>0 e Y-E(Y)<0
X-E(X)>0 e Y-E(Y)>0
I
III
II
IV
Cov(X,Y) < 0
Cov(X,Y) > 0
Cov(X,Y) < 0
Cov(X,Y) > 0
192


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear

Observe que os desvios dos pontos que caem no quadrante II (supondo x e y os eixos
centrais do plano cartesiano) tomam valores positivos, por tanto seus produtos, tambm,
tomaro valores positivos. O mesmo acontece quando os pontos caem no IV quadrante, os dois
desvios tomaro valores negativos, portanto seus produtos tomaro valores positivos. Se a
maioria dos pontos estiverem espalhados no II e IV quadrante, a soma dos produtos dos
desvios sempre ser positivo, logo afirmaremos que a covarincia destas duas variveis
positiva, ou em outras palavras, a relao entre elas direta, ou seja, a medida que uma
cresce, a outra, tambm cresce e vice-versa.
Agora, vejamos o que acontece se os pontos estivessem no quadrante I. Neste caso, os desvios
de X seriam todos positivos, enquanto que os desvios de Y seriam todos negativos, logo os
produtos tomaro valores negativos. O mesmo vai acontecer com os pontos do quadrante III,
nele, os desvios de X tomaro valores negativos e os desvios de Y, valores positivos, logo os
produtos tomaro valores negativos. Assim, se a maioria dos pontos cai nos quadrantes I e III
a covarincia tomar valores negativos, indicando que essas duas variveis se relacionam de
forma negativa ou inversa, ou seja, que quando uma cresce a outra diminui e vice-versa.
Quando os pontos se distribuem nos quatro quadrantes, haver valores positivos e negativos,
logo a soma tender para zero, e neste caso, afirmaremos que no existe relao linear entre
essas variveis. Observamos que esta estatstica tender para zero, mesmo havendo uma
relao que no for linear, por exemplo, se os dados tivessem o formato de uma parbola, ou
relao quadrtica.
A pesar de a covarincia ser uma estatstica adequada para medir relao linear entre duas
variveis, ela complicada para comparar graus de relao entre variveis devido a influencia
das unidades de medida de cada varivel, que pode ser metros, quilometro, quilogramas,
centmetros, etc... Para evitar a influncia da ordem de grandeza e unidades de cada varivel,
dividimos a covarincia pelo desvio padro de X e de Y, dando origem ao coeficiente de
correlao de Pearson:

( ) ( )
|
.
|

\
|

|
.
|

\
|

= =


2
2
2
2
y y n x x n
y x xy n
) Y ( dp ) X ( dp
) Y , X cov(
r

No conjunto de dados do exemplo, temos:

( )
( )
43 , 15
1 10
10
316
12128
1
) (
2
2
2
~

n
n
x
x
X dp e

( )
( )
66 , 0
1 10
10
5 , 64
91 , 419
1
) (
2
2
2
~

n
n
y
y
Y dp

Logo,

9401 , 0
) 66 , 0 )( 43 , 15 (
53 , 9
) ( ) (
) , cov(
=

= =
Y dp X dp
Y X
r
193


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear

O coeficiente de correlao tambm pode ser calculado utilizando as somas intermedirias:
T xx
xy
SQ S
S
r =

Dessa maneiira, tem-se:

4 , 85 =
xy
S
4 , 2142
10
316
12128
2
2
1
1
2
= =
|
.
|

\
|
=

=
=
n
x
x S
n
i
i
n
i
i xx

885 , 3
10
5 , 64
91 , 419
2
2
1
1
2
2
1
1
2 2
1
2
= =
|
|
.
|

\
|
=
|
|
|
|
|
|
.
|

\
|
= = =


=
=
=
= =
n
y
y
n
y
n y y n y S SQ
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i yy T

Logo, 9401 , 0
) 885 , 3 )( 4 , 2142 (
8 , 85
~

= =
T xx
xy
SQ S
S
r


O coeficiente de correlao mede a fora da relao entre as duas variveis. O sinal representa
se a relao positiva ou negativa conforme as explicaes fornecidas para a covarincia.
Uma sugesto de classificao para essa fora :

Correlao (r) Significado
- 1 Relao linear negativa perfeita
|r| < 0,4 Relao linear fraca
0,4 s |r| s 0,7 Relao linear moderada
|r| > 0,7 Relao linear forte
1 Relao linear positiva perfeita

Portanto, no nosso exemplo, a relao linear negativa forte, o que significa que quanto maior
a renda anual menor o percentual gasto com assistncia mdica.
Podemos observar os seguintes tipos de correlao:


194


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear

Vale a pena considerar que o fato de duas variveis estarem fortemente correlacionadas por si
s no implica em uma relao de causa e efeito entre elas. Exemplo, podemos ter em uma
certa regio um grande nmero de cegonhas e um alta taxa de nascimento de bebes. Essas
duas variveis podem estar altamente correlacionadas, mas no podemos acreditar numa
relao de causa e efeito entre elas (ainda...). Esse tipo de correlao chamado de espria.

Exemplo 2: O estatstico F. J. Anscombe preparou os seguintes conjuntos de dados para
exemplificar a correlao, os quais so bastante utilizados para efeitos didticos:


195


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear


Observe que esses dados produzem as mesmas estatsticas descritivas. No entanto, o
grfico de disperso para cada um desses conjuntos apresenta configuraes completamente
diferentes:



3. Modelamento por Regresso Linear Simples


Essa tcnica uma maneira til de estudar relaes entre variveis, quando fizer sentido tentar
predizer ou explicar o comportamento de uma varivel, em termos do comportamento de outra
ou de outras variveis.
A varivel cujo comportamento queremos explicar ou predizer chamada de varivel
resposta, ou dependente e, por conveno denotada por Y. As outras variveis so de
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89
Mdia 9,0 7,5 9,0 7,5 9,0 7,5 9,0 7,5
Desvio-padro 3,3 2,0 3,3 2,0 3,3 2,0 3,3 2,0
Covarincia
Correlao
5,0
0,82 0,82 0,82 0,82
E
s
t

D
e
s
c
r
i
t
5,0 5,0 5,0
20 15 10 5
12
10
8
6
4
20 15 10 5
12
10
8
6
4
Y1*X1 Y2*X2
Y3*X3 Y4*X4
Diagrama de Disperso: Y1 vs X1; Y2 vs X2; Y3 vs X3; Y4 vs X4
196


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
interesse apenas para nos ajudar a entender, explicar ou predizer o comportamento de Y e so
chamadas de variveis explicativas ou preditoras ou independentes.
Na anlise de regresso linear utilizamos a equao matemtica de uma reta para
descrevermos a relao entre Y e X. Essa reta ajustada aos dados da melhor maneira
possvel, ou seja, de tal forma que as distncias das observaes a ela sejam as menores
possveis. Esse mtodo conhecido como mnimos quadrados, por considerar o quadrado
dessas distncias (ou resduos).
A equao de uma reta em matemtica : Y = a + bX. Em estatstica usual descrever essa
reta como:
X Y
1 0
| | + =
Em que |
0
o valor do intercepto, ponto em que a reta cruza o eixo das coordenadas, Y e |
1

a taxa de acrscimo ou decrscimo que cada unidade de X produz em Y.
O grfico a seguir exemplifica a equao de uma reta e seu significado, por eixo coordenado,
para a reta de regresso estimada:






















Considerando que estamos ajustando uma reta aos dados, costuma-se escrever essa reta de
maneira indicada de estimao, ou seja, colocamos um chapu na varivel resposta Y e nos
valores dos |s, isto :
X

Y

1 0
| + | =
O valor de y o valor previsto para certo valor de x observado. As estimativas de mnimos
quadrados para os valores do intercepto e da taxa ou inclinao so:

x

1 0
| = |

Em que,

=
=
n
1 i
i
y
n
1
y e

=
=
n
1 i
i
x
n
1
x
0
x
(varivel independente ou
explicativa ou preditora)
y
(varivel dependente
ou resposta)
Y = b
0
+ b
1
x
b
0
u
Ay
Ax
x
y
) ( tg b
A
A
u = =
1
0
x
(varivel independente ou
explicativa ou preditora)
y
(varivel dependente
ou resposta)
Y = b
0
+ b
1
x
b
0
u
Ay
Ax
x
y
) ( tg b
A
A
u = =
1
197


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
xx
xy
1
S
S

= |

Lembrando que,
n
x
x ) x x ( S
2
n
1 i
i
n
1 i
2
i
n
1 i
2
i xx
|
|
.
|

\
|
= =


=
= =
e
n
y x
y x ) y y )( x x ( S
n
1 i
i
n
1 i
i
n
1 i
i i
n
1 i
i i xy
|
|
.
|

\
|
|
|
.
|

\
|
= =


= =
= =



Obs.: S
xx
e S
xy
so convenientes expresses facilitadoras para a notao dos numeradores e
dos denominadores aqui utilizados.

Considerando os dados apresentados no exemplo 1, temos os seguintes resultados:

6 , 31 x = ; 45 , 6 y = ; 316 x =

; 5 , 64 y =

; 4 , 1952 xy =

; 12128 x
2
=


Com esses dados podemos calcular:
( )( )
8 , 85
10
5 , 64 316
4 , 1952 S
xy
= = e
( )
4 , 2142
10
316
12128 S
2
xx
= =

Dessa maneira, os coeficientes estimados so:
04005 , 0
4 , 2142
8 , 85

1
=

= =
xx
xy
S
S
| e 716 , 7 ) 6 , 31 )( 04007 , 0 ( 5 , 64 x

1 0
= = | = |

Dessa maneira temos que a reta de regresso linear simples ajustada a esses dados :

x 04 , 0 72 , 7 y =

Em que Y significa o percentual gasto em assistncia mdica e X a renda bruta anual. Essa
reta indica que cada unidade da renda bruta anual produz um decrscimo 0,04 na previso do
percentual da renda bruta gasto em assistncia mdica.
Em termos numricos, se a renda bruta anual for de 22 milhes de reais, espera-se em mdia
um percentual de 6,9% de gasto com assistncia mdica. Em termos de reais, o gasto com
assistncia mdica, considerando essa renda bruta anual de aproximadamente 1,38 milhes,
em mdia.
Nesse exemplo em particular, os planos de sade estaro em situao de determinar as
polticas de vendas por segmentos de rendas anuais.

Importante: Essa tcnica s poder ser utilizada se existir correlao linear significativa entre
as variveis Y e X.
A reta de regresso ajustada pelo software Minitab para esse exemplo :

198


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear


O coeficiente de determinao R
2
obtido facilmente pelo quadrado do coeficiente de
correlao linear e multiplicando esse valor por 100, ele fornece o percentual da variao em Y
explicada pela varivel X. No exemplo acima, temos R
2
= 0,884 = 88,4% da variao no
percentual de gasto com assistncia mdica explicada pela renda bruta anual. Observe que
0,884= (-0,9401)
2
.
De maneira geral, o coeficiente de determinao calculado por:
T
E T 2
SQ
SQ SQ
R

= , em que
2
1
2
y n y SQ
n
i
i T
=

=
a soma dos quadrados dos erros sem
considerar o efeito da varivel Y, e

=
=
n
1 i
2
i E
) y y ( SQ a soma dos quadrados dos erros
considerando o efeito da varivel X.

Um estimador no-tendencioso da varincia do termo do erro (resduos: diferena entre o y
observado e o Y estimado) :
2

=
n
SQ
E
o
O termo SQ
E
pode ser mais convenientemente calculado pela frmula:
xy T E
S SQ SQ
1

| =
O coeficiente de correlao tambm pode ser calculado por meio dessas expresses
facilitadoras:
T xx
xy
SQ S
S
r =
Para efeito de demonstrao, para os dados do exemplo 1:

O coeficiente de correlao r = -0,9401
Renda Bruta
%

g
a
s
t
o
60 50 40 30 20 10
7,5
7,0
6,5
6,0
5,5
S 0,236864
R-Sq 88,4%
R-Sq(adj) 87,0%
Reta de Regresso Linear ajustada
% gasto = 7,716 - 0,04005 Renda Bruta
199


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
Para o clculo da varincia estimado dos resduos, tem-se:
4487 , 0 ) 8 , 85 )( 04005 , 0 ( 885 , 3

1
~ = =
xy T E
S SQ SQ |
Ento, 0561 , 0
2 10
4487 , 0
2

2
~

=
n
SQ
E
o

Os resultados estimados pelo software Minitab forneceram:

Regression Analysis: % gasto versus Renda Bruta

The regression equation is
% gasto = 7,72 - 0,0400 Renda Bruta

Predictor Coef SE Coef T P
Constant 7,7155 0,1782 43,29 0,000
Renda Bruta -0,040049 0,005117 -7,83 0,000

S = 0,236864 R-Sq = 88,4% R-Sq(adj) = 87,0%

Analysis of Variance

Source DF SS MS F P
Regression 1 3,4362 3,4362 61,25 0,000
Residual Error 8 0,4488 0,0561
Total 9 3,8850

2
o

E
SQ
Obs.: os valores no so exatamente iguais devidos a erros de arredondamentos e interaes
utilizados no ajuste do modelo pelo software (SS=SQ e MS = MQ)

3.1 Analise de varincia para testar a significncia do modelo ajustado
pela tcnica da Regresso Linear:


Fonte de
Variao
Graus de
liberdade
Soma dos Quadrados
Quadrados
Mdios
F
0

Regresso 1
xy 1 R
S

SQ | =
1
SQ
MQ
R
R
=

E
R
MQ
MQ

Erro (Resduos) n-2
xy T E
S SQ SQ
1

| =
2 n
SQ
MQ
E
E

=
Total n-1 SQ
T
= SQ
R
+ SQ
E


Esse procedimento divide a varincia total (SQ
T
) da varivel resposta em componentes
significantes obtidos pela variao da Soma dos Quadrados da Regresso: SQ
R
e a Soma dos
Quadrados dos erros (resduos).
A estatstica F
0
testa a significncia da regresso utilizando a distribuio de Fisher. A hiptese
nula desse teste : H
0
:
1
| =0, e essa hiptese ser rejeitada para valores grandes de F
considerando os graus de liberdade do numerador e do denominador. Essa rejeio
equivalente ao p-valor menor que 5% (p < 0,05), por exemplo.

200


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
Resoluo de um exerccio

1) (Montgomery, adaptado) Os dados referentes ao peso, em kg, e presso sangunea
sistlica de 26 homens selecionados aleatoriamente, na faixa etria de 25 a 30 anos,
esto apresentados na tabela seguinte. Considere que o peso e presso sangunea
sejam distribudos normal e conjuntamente.
Soluo:
Indivduo Peso (X)
Presso
Sistlica (Y) XY X
2
Y
2

1 74,8 13 972,4 5595,04 169
2 75,8 13,3 1008,14 5745,64 176,89
3 81,7 15 1225,5 6674,89 225
4 70,3 12,8 899,84 4942,09 163,84
5 96,2 15,1 1452,62 9254,44 228,01
6 79,4 14,6 1159,24 6304,36 213,16
7 86,2 15 1293 7430,44 225
8 95,3 14 1334,2 9082,09 196
9 90,7 14,8 1342,36 8226,49 219,04
10 67,6 12,5 845 4569,76 156,25
11 71,7 13,3 953,61 5140,89 176,89
12 76,7 13,5 1035,45 5882,89 182,25
13 77,1 15 1156,5 5944,41 225
14 78 15,3 1193,4 6084 234,09
15 72,1 12,8 922,88 5198,41 163,84
16 76,2 13,2 1005,84 5806,44 174,24
17 78,9 14,9 1175,61 6225,21 222,01
18 83 15,8 1311,4 6889 249,64
19 97,5 15 1462,5 9506,25 225
20 88,5 16,3 1442,55 7832,25 265,69
21 81,7 15,6 1274,52 6674,89 243,36
22 64,9 12,4 804,76 4212,01 153,76
23 108,9 17 1851,3 11859,21 289
24 106,6 16,5 1758,9 11363,56 272,25
25 87,1 16 1393,6 7586,41 256
26 84,8 15,9 1348,32 7191,04 252,81
Total 2151,7 378,6 31623,44 181222,1 5558,02

Faa o que se pede:
a) Verifique graficamente se existe tendncia linear entre Y e X;
201


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear


A nuvem de dados parece indicar relao linear entre X e Y

b) Calcule a covarincia entre Y e X;



Clculos intermedirios:










110 100 90 80 70 60
17
16
15
14
13
12
Peso (X)
P
r
e
s
s

o

S
i
s
t

l
i
c
a

(
Y
)
Diagrama de disperso: Presso Sistlica (Y) vs Peso (X)
655 , 11
25
378 , 291
25
26
) 6 , 378 )( 7 , 2151 (
44 , 31623
1
) , cov( ~ ~

n
n
y x
xy
Y X
3777 , 291
26
) 6 , 378 )( 7 , 2151 (
44 , 31623
1 1
1
~ =
|
.
|

\
|
|
.
|

\
|
=

= =
=
n
y x
y x S
n
i
i
n
i
i
n
i
i i xy
3735 , 3152
26
) 7 , 2151 (
1 , 181222
2
2
1
1
2
~ =
|
.
|

\
|
=

=
=
n
x
x S
n
i
i
n
i
i xx
7577 , 82
26
7 , 2151 1
1
~ = =

=
n
i
i
x
n
x
5615 , 14
26
6 , 378 1
1
~ = =

=
n
i
i
y
n
y
202


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear








c) Calcule o coeficiente de correlao linear entre Y e X;




d) Ajuste um modelo de regresso linear simples;


e) Interprete os resultados do item anterior (d);

: significa que para um homem com peso de 0 kg, a presso sistlica mdia
de 6,91147 (unidade de medida u.m.)
: indica que cada aumento de 1 kg no peso de um homem, na faixa etria de
25 30 anos, produz uma taxa de aumento de 0,0924 u.m. na presso sistlica.

f) Teste a significncia da regresso ao nvel de significncia de 5%, considerando
que o valor tabelado da estatstica F 4,26;






0307 , 45 ) 5615 , 14 )( 26 ( 0 , 5558
2
1
2 2
~ = =

=
n
i
i total
y n y SQ
0924 , 0
3835 , 3152
3777 , 291

1
~ = =
xx
xy
S
S
|
9147 , 6 ) 7577 , 82 )( 0924 , 0 ( 5615 , 14

1 0
~ = = x y | |
1111 , 18 ) 3777 , 291 )( 0924 , 0 ( 0307 , 45

1
~ = =
xy T E
S SQ SQ |
7733 , 0
) 0307 , 45 )( 3835 , 3152 (
3777 , 291
~ = =
T xx
xy
SQ S
S
r
x x y 0924 , 0 9147 , 6

1 0
+ = + = | |
0

|
1

|
9196 , 26 1111 , 18 0307 , 45 = = =
E T R
SQ SQ SQ
9196 , 26
1
= =
R
R
SQ
QM
7546 , 0
24
1111 , 18
2
= =

=
n
SQ
QM
e
e
674 , 35
7546 , 0
9196 , 26
0
= = =
e
R
QM
QM
F
203


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear


O valor crtico tabelado da distribuio de Fisher ao nvel de 5% de significncia
apresentado na figura abaixo:



Como F
0
>> 4,26 , isso significa que o teste est na regio de rejeio de H
0
, logo a
regresso significativa ao nvel de 5% .

g) Estime a varincia residual, o
2
;



h) Encontre a presso sistlica mdia prevista para um homem com 92,5 kg, na faixa
etria entre 25 e 30 anos.


A presso sistlica mdia prevista de 15,4617 u.m.

Obs.: O modelo ajustado pelo software Minitab:

Regression Analysis: Presso Sistlica (Y) versus Peso (X)

The regression equation is
Presso Sistlica (Y) = 6,91 + 0,0924 Peso (X)


Predictor Coef SE Coef T P
Constant 6,912 1,291 5,35 0,000
Peso (X) 0,09243 0,01546 5,98 0,000


S = 0,868169 R-Sq = 59,8% R-Sq(adj) = 58,1%


Analysis of Variance

Source DF SS MS F P

7546 , 0
2 26
1111 , 18
2

2
=

=
n
SQ
E
o
4617 , 15 ) 5 , 92 )( 0924 , 0 ( 9147 , 6 = + = y
26 , 4 05 , 0 ) (
24 ; 1
= = > x x F P
204


Tnia F Bogutchi PUC Minas Reviso: 2012
Estatstica e Probabilidade
Unidade 5: Correlao e Regresso Linear
Regression 1 26,932 26,932 35,73 0,000
Residual Error 24 18,089 0,754
Total 25 45,022

You might also like