Professional Documents
Culture Documents
SUMRIO
1. CORRELAO............................................................................................. 2
1.1. Introduo.............................................................................................................................................. 2
1.2. Padres de associao............................................................................................................................ 3
1.3. Indicadores de associao...................................................................................................................... 3
1.4. O coeficiente de correlao.................................................................................................................... 5
1.5. Hipteses bsicas.................................................................................................................................... 5
1.6. Definio................................................................................................................................................. 6
1.7. Distribuio amostral de r (quando = 0)........................................................................................... 6
1.8. Distribuio amostral de r (quando 0)........................................................................................... 7
1.9. Propriedades de r................................................................................................................................... 8
2. REGRESSO................................................................................................ 9
2.1. Estimativa dos parmetros de regresso............................................................................................ 11
2.2. Estimativa da varincia do termo erro............................................................................................... 12
2.3. Distribuies das estimativas............................................................................................................... 15
2.3.1. Distribuio do estimador b................................................................................................................................15
2.3.2. Distribuio do estimador a................................................................................................................................16
3. EXERCCIOS............................................................................................... 22
4. RESPOSTAS............................................................................................... 27
5. REFERNCIAS........................................................................................... 30
- http://www.mat.pucrs.br/~lori/
CORRELAO E REGRESSO
1. CORRELAO
1.1. INTRODUO
Ao se estudar uma varivel o interesse eram as medidas de tendncia central, disperso,
assimetria, etc. Com duas ou mais variveis alm destas medidas individuais tambm de interesse
conhecer se elas tem algum relacionamento entre si, isto , se valores altos (baixos) de uma das
variveis implicam em valores altos (ou baixos) da outra varivel. Por exemplo, pode-se verificar se
existe associao entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entre
verba investida em propaganda e retorno nas vendas, etc.
A associao entre duas variveis poder ser de dois tipos: correlacional e experimental. Numa
relao experimental os valores de uma das variveis so controlados pela atribuio ao acaso do
objeto sendo estudado e observando o que acontece com os valores da outra varivel. Por exemplo,
pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-se
atribuir nveis de fertilizante ao acaso e observar as diferenas na produo de uma determinada
cultura.
No relacionamento correlacional, por outro lado, no se tem nenhum controle sobre as
variveis sendo estudadas. Elas so observadas como ocorrem no ambiente natural, sem nenhuma
interferncia, isto , as duas variveis so aleatrias. Assim a diferena entre as duas situaes que na
experimental ns atribumos valores ao acaso de uma forma no tendenciosa e na outra a atribuio
feita pela natureza.
A anlise de correlao fornece um nmero que resume o grau de relacionamento linear entre
as duas variveis. J a anlise de regresso fornece uma equao que descreve o comportamento de
uma das variveis em funo do comportamento da outra varivel.
A tabela 1.2 mostra outras possveis sadas para este tipo de esquema de classificao cruzada.
Novamente 100 elementos so classificados em 4 clulas de acordo com o critrio anterior. A parte (a)
da tabela mostra uma associao positiva, a parte (b) uma negativa e a parte (c) que no deve existir
associao entre duas variveis X e Y.
Tabela 1.2 - Indicativos da presena de associao entre duas variveis X e Y.
(a) Relao positiva
Valor de Y
Valor de Y
Valor de
X
Acima da
mediana
15
35
Acima da
mediana
35
15
Acima da
mediana
25
25
Abaixo
da
mediana
35
15
Abaixo da
mediana
15
35
Abaixo da
mediana
25
25
Espao
340
230
405
325
280
195
265
300
350
310
Vendas
71
65
83
74
67
56
57
78
84
65
Pela observao da tabela no fcil perceber o tipo de relacionamento que possa existir entre
as duas variveis. Para ter uma idia melhor, as variveis so colocadas no que denominado de
diagrama de disperso. Uma das variveis (X) representada no eixo horizontal e a outra varivel
100
90
80
70
60
50
150
200
250
300
350
400
450
uma das variveis manipulada experimentalmente, pois neste caso, a escolha dos valores
experimentais vai influenciar o valor de r obtido.
Uma terceira hiptese que as duas variveis tenham uma distribuio conjunta normal
bivariada. Isto equivalente a dizer que para cada x dado a varivel y normalmente distribuda.
1.6. DEFINIO
Na populao o coeficiente de correlao representado por e na amostra por r. Assim dadas
duas amostras, uma da varivel X e outra da varivel Y, o coeficiente de correlao amostral poder
ser calculado atravs da seguinte expresso:
)
r
Xi X.i Y Y
)X
Xi .) Y
Yi
n) Xi . Yi ) Xi .) Yi
n) X
2
i
n) Y
) Xi
.2
2
i
) Yi
Uma populao que tenha duas variveis no correlacionadas linearmente pode produzir uma
amostra com coeficiente de correlao diferente de zero. Para testar se a amostra foi ou no retirada de
uma populao de coeficiente de correlao no nulo entre duas variveis, precisamos saber qual a
distribuio amostral da estatstica r.
1 r2
n2
r / r r
1 r2
n
2
Exemplo:
Quer-se testar se existe ou no correlao linear entre X = toneladas de adubo orgnico por ha e
Y = produo da cultura A por ha. Para tanto realizado um experimento com durao de 5 anos que
mostrou os resultados da tabela 1.4. Verificar se existe relacionamento linear entre as duas variveis.
Tabela 1.4 Valores das variveis X e Y
Anos
1989
48
1990
1991
1992
1993
4
5
6
8
56
64
60
72
Para saber se h ou no correlao linear entre estas duas variveis na populao de onde foi
retirada esta amostra necessrio realizar um teste de hipteses, ou seja, preciso testar:
H0: = 0 (No existe relacionamento linear na populao)
H1: 0 (Existe relacionamento linear na populao)
A tabela 1.5 mostra os clculos necessrios para se obter o coeficiente de correlao para esta
amostra das variveis X e Y.
Tabela 1.5 Valores das variveis X e Y e clculos para obter r
Anos
1989
1990
1991
1992
1993
Total
X
2
4
5
6
8
25
Y
48
56
64
60
72
300
XY
96
224
320
360
576
1576
n ) Xi . y i ) Xi .) Yi
n) X )
Xi.n) Y )
Yi
2
2
i
X2
4
16
25
36
64
145
Y2
2304
3136
4096
3600
5184
18320
5.1576 25.300
= 0,95
2
i
1 r2
n2
que neste caso, tem uma distribuio t com n - 2 = 3 graus de liberdade. O valor de t (calculado) :
tr
1 r2
n2
0,95
1 0,95
53
5,270
= 0 contra H1:
> 0
< 0
necessrio determinar a distribuio de r, quando diferente de zero. A distribuio de r s
simtrica quando zero, se isto no ocorre a distribuio ser assimtrica. Esta falta de normalidade
impede que se use o teste tradicional, o teste t, neste caso.
Contudo, mediante uma transformao apropriada, r pode ser alterado para uma estatstica
que aproximadamente normal. Esta transformao denominada de transformao Z de Fischer.
A expresso para realiz-la : r' =
11r[
ln|
|
2[1rJ
1 1[
ln||
||
2[1J
Exemplo:
Suponha que de experincias anteriores pode ser suposto que a correlao entre a idade e a
presso sangnea sistlica = 0.85. Para testar a hiptese nula, a 5% de significncia, de que
este valor contra a alternativa de que ele diferente deste valor supem-se que foi extrada uma
amostra de tamanho n = 30 e que forneceu um r = 0,66. Ento o teste pode ser realizada atravs dos
seguintes clculos:
Soluo:
r =
1 1r[
ln|
|
2 [1rJ
1 1 0,66 [
ln|
|
2 [ 1 0,66 J
= 0,7928
z=
1 1[
||
1 1 0,85 [
ln|
|=
2 [1J
2 [ 1 0,85 J
0,7928 1,2561
1 30 3
1,2561
= -2,41
1.9. PROPRIEDADES DE R
As propriedades mais importantes do coeficiente de correlao so:
1. O intervalo de variao vai de -1 a +1.
2. O coeficiente de correlao uma medida adimensional, isto , ele independente das unidades de
medida das variveis X e Y.
3. Quanto mais prximo de +1 for r, maior o grau de relacionamento linear positivo entre X e Y, ou
seja, se X varia em uma direo Y variar na mesma direo.
4. Quanto mais prximo de -1 for r, maior o grau de relacionamento linear negativo entre X e Y, isto ,
se X varia em um sentido Y variar no sentido inverso.
5. Quanto mais prximo de zero estiver r menor ser o relacionamento linear entre X e Y. Um valor
igual a zero, indicar ausncia apenas de relacionamento linear.
2. REGRESSO
Uma vez constatado que existe correlao linear entre duas variveis, pode-se tentar prever o
comportamento de uma delas em funo da variao da outra.
Para tanto ser suposto que existem apenas duas variveis. A varivel X (denominada varivel
controlada, explicativa ou independente) com valores observados X1, X2, ..., Xn e a varivel Y
(denominada varivel dependente ou explicada) com valores Y1, Y2, ..., Yn. Os valores de Y so
aleatrios, pois eles dependem no apenas de X, mas tambm de outras variveis que no esto sendo
representadas no modelo. Estas variveis so consideradas no modelo atravs de um termo aleatrio
denominado erro. A varivel X pode ser aleatria ou ento controlada.
Desta forma pode-se considerar que o modelo para o relacionamento linear entre as variveis X
e Y seja representado por uma equao do tipo:
Y = + X + U,
onde U o termo erro, isto , U representa as outras influncias na varivel Y alm da exercida
pela varivel X.
Esta equao permite que Y seja maior ou menor do que + X, dependendo de U ser
positivo ou negativo. De forma ideal o termo U deve ser pequeno e independente de X, de modo que
se possa modificar X, sem modificar U, e determinar o que ocorrer, em mdia, a Y, isto :
E(Y/X) = + X
Os dados {(Xi, Yi), i = 1, 2, ..., n} podem ser representados graficamente marcando-se cada par
(Xi, Yi) como um ponto de um plano. Os termos Ui so iguais a distncia vertical entre os pontos
observados (Xi, Yi), e os pontos calculados (Xi, + Xi). Isto est ilustrado na figura 2.1.
Figura 2.1 O modelo de regresso linear
E(Y/X) = + X
Erro U
Y
(ii)
Var(Ui) =
Na hiptese (i) o que se est supondo que os Ui so variveis aleatrias independentes com
2
valor esperado igual a zero e na (ii) que a varincia de cada U i a mesma e igual a , para todos os
valores de X.
Supem-se ainda que a varivel independente X, permanea fixa, em observaes sucessivas e
que a varivel dependente Y seja funo linear de X. Os valores de Y devem ser independentes um do
outro. Isto ocorre em geral, mas em alguns casos, como, por exemplo, observaes diferentes so feitas
no mesmo indivduo em diferentes pontos no tempo est suposio poder no ocorrer.
Como o valor esperado de Ui zero, o valor esperado da varivel dependente Y, para um
determinado valor de X, dado pela funo de regresso + X ou seja:
E(Y/X) = E( + X + U) = + X + E(U) = + X
[1]
V(Y/X) = V( + X + U) = V(U) =
[2]
A posio da funo densidade f(Y/X) varia em funo da variao do valor de X. Note-se que
a mdia da funo densidade se desloca ao longo da funo de regresso + X.
Prof. Lor Viali - viali@mat.pucrs.br
- http://www.mat.pucrs.br/~lori/
10
3. V(Y/X) = ;
4. Cov(Ui, Uj) = 0, para i j;
5. A varivel X permanece fixa em observaes sucessivas;
6. Os erros U so normalmente distribudos.
)
Ei
= mnimo.
) (Yi ab Xi)
i1
i1
(i)
2
(ii)
) y
)X
i
i
b(
) Y bX
n
n
b=
) ( Xi X)( Y i
Y)
) ( Xi X)
) Xi
Yi
) Xi )
Yi
n2
(
)
) X2
) Xi
n) Xi Yi ) Xi )
Yi n) X 2 () X
2
a Y
bX
Utiliza-se o valor Y , porque o valor de Y, obtido a partir da reta estimada de regresso, para
um dado valor de X, uma estimativa do valor E(Y/X), isto , do valor esperado de Y dado X.
Exemplo:
So fornecidos 5 pares de valores, na tabela abaixo, correspondentes as variveis X e Y. A
estimativa da reta de regresso entre X e Y, obtida utilizando as expresses de a e b acima e usando
os resultados obtidos na tabela 2.1.
Tabela 2.1 - Valores para estimar a linha de regresso
X
1
2
4
5
8
20
3
3
7
6
12
31
X2
1
4
16
25
64
110
XY
3
6
28
30
96
163
X = 20 / 5 = 4;
Y = 31/5 = 6,2
) E ) (Y a bX) ) Y na b)
X
Mas
no
)E 2
S= n2
) (Y Y )
)(YabX)
2n2
n2
)E = )(Y Y )
) b
2(X
X)
2
)(Y a bX) = ) [Y Y b(X bX)] = ) (Y
Y)
2b ) (X X)(Y Y) +
Fazendo:
2
) (X X) ) X
) X 2
SXX
n
) Y 2
2
) (Y Y ) ) Y 2
SYY
n
b=
Yi
n) Xi Y i ) X i )
2
n) Xi ()
X i)
Ento vem:
) E
) Xi
Yi
) Xi )
Yi
n2
(
)
) X
)
Xi
n
= ) (Y
abX)2
Assim:
2
S2 = ) E
SXX
n2
) (Y abX)
n2
SYY b
n2
b SXY
= SYY
n2
n2
n2
Exemplo:
Considerando as variveis X e Y acima e a linha de regresso anterior determinar uma
estimativa do erro padro da regresso.
Os clculos necessrios esto na tabela 2.2.
Tabela 2.2 Determinao do erro padro da regresso
X
Yc
E=YYc
E2
1
2
4
5
8
20
3
3
7
6
12
31
2,3
3,6
6,2
7,5
11,40
31
0,7
-0,6
0,8
-1,5
0,6
0
0,49
0,36
0,64
2,25
0,36
4,10
) (Y abX)
2n2
4,10
= 53
= 1,3667
= 1,17
Este mesmo clculo poder ser efetuado pela expresso definida acima, sem a necessidade de
se obter os valores estimados.
Tabela 2.3 Determinao do erro padro da regresso
X
1
2
4
5
8
20
3
3
7
6
12
31
X2
1
4
16
25
64
110
Y2
9
9
49
36
144
247
S XX ) X 2
n
) Y 2
S YY ) Y 2
n
3
6
28
30
96
163
) X) Y
) X 2
XY
SXY ) XY
= 247 - 31 /5 = 54,80
2
= 110 20 /5 = 30
= 163 (20.31)/5 = 39
SYY b2SXX
n2
O valor de b ser:
b = SXY/SXX = 39/30 = 1,30
Portanto o erro padro da regresso ser:
s
SYY b SXY
54,80 1,3.39
4,10
=
= 3 = 1,3667 = 1,1690 = 1,17
n2
52
2.3.1.
DISTRIBUIO DO ESTIMADOR B
Tem-se que:
b = SXY / SXX = ) (X X)(Y Y)
SXX
) Y(X X) ) Y(X
X)
Mas ) (X X) = 0, logo:
SXX
b=
) Y(X X)
SXX
Mas Y = + X + U, ento:
b=
) Y(X
) ( X U)(X
X)
X)
SXX
) (X X)
SXX
SXX
Como SXX = ) (X
X)
= ) (X X)(X X)
=
=0
) X(X X)
S+
XX
) X(X X) X) (X X)
) U(X
X)
SXX
= ) X(X X) ,
pois
Vem: b = + ) U(X
X)
SXX
) U(X X)
SXX
)=
) (X X)
SXX
) (X X)
E(b) = E() = , uma vez que a mdia de uma constante a prpria constante.
Isto, tambm, mostra que b um estimador no-tendencioso de .
Para a varincia, tem-se:
) U(X X)
V(b) = V( + ) =
SXX
) = V(
V(U).
) U(X X) )
(X
X)
SXX
(SXX)
2
Tendo em vista que por hiptese do modelo V(U) = e que ) (X
X)
V(b) = SXX .
(SXX)
2.3.2.
SXX
= SXX, segue:
).
SXX
DISTRIBUIO DO ESTIMADOR A
Quanto distribuio da varivel aleatria a, tem-se:
a = Y - b X . Mas Y = )Y / n, ento:
a=
=
) Y
) ( X U)
bX
)
bX
X +
n
) X
) U
bX
=+
) U
bX
Assim:
E(a) = E() + E( X ) + E(
X +
) U
) E(bX)
= + ) E(U)
n
, pois E(b) =
) U
) V(bX)
=0+0+
) V(U) X V(b)
n2
n
2 X
n
SXX
= 2 (1 S ) .
XX
n
X
SXX
).
Y
Y-Y
Y-Y
Y
Y
-Y
n2
) 2
X
22
SXX
Pelo figura 2.3, pode-se perceber que o desvio em relao a Y (desvio total), isto , Y - Y pode
ser decomposto em dois outros desvios:
)(Y - Y ) = )(Y - Y ) + )( Y - Y )
De fato:
2
) - 2)(Y - Y )( Y - Y )
Mas
)(Y - Y )( Y - Y ) = )(Y - Y )(a + bX - a - b X ) = b)X(Y - Y )- b X )X(Y - Y )
Pelas condies do mtodo dos mnimos quadrados, tem-se:
)( Y - Y ) = 0 e )X(Y - Y ) = 0, em conseqncia
)(Y - Y )( Y - Y ) = 0, logo, segue que:
2
)(Y - Y ) = )(Y - Y ) + )( Y - Y ) ,
isto , que a soma dos quadrados dos desvios calculados em torno da mdia de Y (variao total = VT)
igual soma dos quadrados dos desvios em torno da linha de regresso (variao residual = VR)
mais a soma dos quadrados dos desvios da linha de regresso em torno da mdia (variao explicada =
VE).
2.4.2.
Variao Total: VT ou S 2
Y
2
Variao Explicada: VE ou S 2
b SXX
2
S
VE = b SXX ou VE = | XY [| S
|
[
|
SXX J
= bSXY
XX
(c)
De acordo com a propriedade aditiva das variaes, pode-se calcular VR por diferena. Assim:
2
2.5.1.
1
n
X
SXX
a + tn-2.S
1
n
X
SXX
). Ento,
X
SXX
)=1-
com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativa
de .
2.5.2.
). Ento, fixada
S
SXX
b + tn-2.
)=1-
SXX
de .
2.5.3.
(a)
com tn-2 sendo um valor da distribuio t com n - 2 graus de liberdade e S uma estimativa
E( Y ) = E(a + bX) = E(a) + E(bX) = + E(X) = + X = f(X) = E(Y/X), pois, neste caso, X
constante para cada valor de Y.
Tem-se: Y = a + bX, mas a = Y - b X , ento:
= Y - b X + bX = Y + b(X - X ). A varincia de Y , ser:
V( Y ) = V[ Y - b(X - X )] = V( Y ) + V[b(X - X )] = V (
Y
(X - X )
+ (X - X ) V(b) =
SXX
(X
=
n
-X
) V(Y)
n
2
(X X)2 ]
|
|.
|n
SXX |]
[
2J1
SXX
Portanto:
Y
tem distribuio N( + X, 1 (X X)
n
SXX
P( Y - tn-2. S.
1 (X X)
n
SXX
) E(Y/x) Y + tn-2. S.
1 (X X)
n
SXX
Y)
Uma estimativa do valor individual de Y dado pela reta de regresso Y = a + bX, para um
dado X e o desvio de previso ser dado por Y - Y , cujas propriedades so:
Para a mdia:
E(Y - Y ) = E(Y) - E( Y ) = f(X) - f(X) = 0
Para a varincia, tem-se:
2]
J
2
2 1 (X X)
|
V(Y - Y ) = V(Y) + V( Y ) = + |
[|n
SXX ]|
Ento:
Y - Y tem distribuio N(0,
1 1 (X X)
n
SXX
2]
1 (X X) |
.
1
n
SXX |]
[|
2|
1 1 (X X)
n
SXX
- tn-2. S.
); Y + tn-2. S.
Testar a existncia da regresso testar se o parmetro diferente de zero. Desta forma o que
se quer testar :
H0: = 0 contra as alternativas:
H1: 0;
> 0 ou
<0
Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus de
liberdade, pois sabe-se que:
b tem distribuio Normal com mdia e desvio padro
Z =
, ou seja,
SXX
SXX
2.6.2.
b
S
SXX
Testar o coeficiente linear da regresso testar o valor inicial da regresso, isto , testar o
valor de Y quando X = 0. As hipteses so:
H0: = 0 contra as alternativas:
H1: 0;
> 0 ou
<0
Fixado um nvel de significncia a varivel teste ser a t de Student com n - 2 graus de
liberdade, pois sabe-se que o estimador a, tem uma distribuio:
1
N(, 2 ( X
n
SXX
- http://www.mat.pucrs.br/~lori/
20
) ).
Ento:
- http://www.mat.pucrs.br/~lori/
21
Z=
2 [
| 1 X |
| [ n SXX |
J
2 [
1 X |
|
S| [
|
nS XX J
R = VE / VT =
b SXY
SYY
O coeficiente de determinao indica quantos por cento a variao explicada pela regresso
representa sobre a variao total. Deve-se ter:
2
0R 1
2
Se R for igual a 1, isto significa que todos os pontos observados se situam exatamente sobre
a reta de regresso. Tendo-se, neste caso, um ajuste perfeito. As variaes da varivel Y so 100%
explicadas pelas variaes da varivel X, no ocorrendo desvios em torno da funo estimada.
2
Por outro lado, se R = 0, isto quer dizer que as variaes de Y so exclusivamente aleatrias e
explicadas pelas variaes de outros fatores que no X.
3. EXERCCIOS
(1) Para cada uma das situaes abaixo, diga o que mais adequado: a anlise de regresso ou a anlise de
correlao. Por qu?
(01.1) Uma equipe de pesquisadores deseja determinar se o rendimento na Universidade sugere
xito na profisso escolhida.
(01.2) Deseja-se estimar o nmero de quilmetros que um pneu radial pode rodar antes de ser
substitudo.
(01.3) Deseja-se prever quanto tempo ser necessrio para executar uma determinada tarefa por
uma pessoa, com base no tempo de treinamento.
(01.4) Deseja-se verificar se o tempo de treinamento importante para avaliar o desempenho na
execuo de uma dada tarefa.
(01.5) Um gerente deseja estimar as vendas semanais com base nas vendas das segundas e terasfeiras.
(2) Suponha que uma cadeia de supermercados tenha financiado um estudos dos gastos com mercadorias
para famlias de 4 pessoas. O estudo se limitou a famlias com renda lquida entre 8 e 20 salrios
mnimos. Obteve-se a seguinte equao:
Y=
-1,20 + 0,40X, onde Y = despesa mensal estimada com mercadorias e X = renda lquida
mensal.
(02.1) Estimar a despesa de uma famlia com renda mensal lquida de 15 s.m.
(02.2) Um dois diretores da empresa ficou intrigado com o fato de que a equao sugerir que uma
famlia com renda de 3 s.m. lquidos mensais no gaste nada em mercadorias. Qual a explicao?
(02.3) Explique por que a equao acima no poderia ser utilizada para estimar
(a) As despesas com mercadorias de famlias de 5 pessoas.
(b) As despesas com mercadorias de famlias com renda de 20 a 40 s.m. lquidos mensais.
(3) Utilize os valores abaixo para estimar as equaes de regresso:
2
50
30
900 1600
Vendas em mil (X) 201 225 305 380 560 600 685 735 510 725 450 370 150
Lucro em mil (Y)
17 20 21 23 25 24 27 27 22 30 21 19 15
(5) Suponha que uma populao se constitua dos seis pontos seguintes: (1,
2), (4, 6), (2, 4), (2, 3), (3, 5) e (5, 10)
(05.1) Grafe os pontos em um diagrama de disperso.
Em uma amostra aleatria de 1990, 50 homens americanos entre 35 e 54 anos de idade acusaram a
seguinte relao entre renda anual Y (em dlares) e a escolaridade X (em anos). Y = 1200 + 800X. A
2
renda mdia foi de 10000 dlares e a escolaridade mdia foi de 11,0 anos. Sabendo, ainda, que )X
= 9000 e que o desvio padro residual em relao reta ajustada foi de 7300 dlares, determine:
(08.1) A renda de uma pessoa que tenha completado 2 anos de educao secundria (x = 10
anos). (08.2) O intervalo de 95% de confiana para o coeficiente angular populacional..
(08.3) Se a renda para a escolaridade estatisticamente discernvel ao nvel de 5%.
(08.4) Se vlida a afirmao que cada ano de escolaridade custa 800 dlares?
(9) Uma pesquisa foi realizada com o objetivo de determinar os efeitos da falta de sono sobre a capacidade
de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, mantendo-se cada grupo de 2
pessoas sem dormir por um determinado nmero de horas. Aps cada um destes perodos, cada pessoa
teve de resolver um teste com adies simples, anotando-se ento os erros cometidos. Os dados
resultantes esto na tabela abaixo:
Nmero de erros (Y)
6, 8
6, 10
8, 14 12, 14 12, 16
Nmero de horas sem dormir (X)
8
12
16
20
24
(9.1) Determine a estimativa da linha de regresso do nmero de erros em funo do nmero de
horas sem dormir.
(9.2) Determine a disperso dos termos erro em torno da linha de regresso.
(10) Determine um intervalo de 95% de confiana para o coeficiente angular da reta do exerccio acima.
Interprete o intervalo obtido.
(11) Realizou-se uma pesquisa de mercado com o objetivo de estudar a relao entre o tempo necessrio para
um consumidor tomar uma deciso (sobre o que comprar) e o nmero de embalagens alternativas do
mesmo produto apresentadas a esse consumidor. Eliminaram-se as marcas das embalagens, a fim de
reduzir o efeito da preferncia por uma ou outra marca. Os consumidores fizeram suas escolhas
somente com base na descrio do produto, anotada nas embalagens pelos fabricantes. O tempo
necessrio, Y, para que cada um tomasse sua deciso foi anotado para 15 participantes, resultando nos
seguintes dados:
Tempo para deciso, Y (em segundos)
Nmero de alternativas (X)
5, 7, 8, 8, 9
2
7, 8, 9, 9, 10
3
(11.3) H evidncia suficiente nestes dados de que o tempo de deciso se relaciona linearmente ao
nmero de alternativas oferecidas a esses consumidores?
(12) Na fabricao de um antibitico, a produo depende do tempo. Os dados indicados na tabela, mostram
que um processo resultou na seguinte produo (em quilogramas) de antibiticos por perodo de tempo
(dias) indicados:
Tempo (X = dias)
Produo (Y = em kg.)
1
23
2
31
3
40
4
46
5
52
6
63
(12.1) Por vrias razes conveniente esquematizar a produo em ciclos de 4 dias. Estime o
valor mdio da produo final de antibitico produzido em um perodo de 4 dias. Considere um
intervalo de 95% de confiana.
(12.2) Suponha que o processo de produo, no futuro, se desenvolver em 4 dias. Determine um
intervalo de previso de 95% para a produo. Compare com o intervalo para a produo mdia de
um perodo de 4 dias que foi obtido em (12.1).
(13) Mediu-se a altura de uma amostra de 5 meninos (em polegadas) na idade de 4 anos e novamente na
idade de 18 anos. Os resultados obtidos esto abaixo:
Na idade de 4 anos
Na idade de 18 anos
40
68
43
74
40
70
40
68
42
70
(15.3) Se o coeficiente angular 1 (um), isto significa que existe perfeita correlao entre X e Y.
(15.4) possvel que o coeficiente de correlao amostral seja positivo, quando no existe, de
fato, nenhuma correlao entre as variveis X e Y.
(15.5) No se pode utilizar a tcnica da regresso pelo mtodo dos mnimos quadrados quando a
relao bsica entre X e Y no for linear.
(16) Um estudo de duas safras forneceu as seguintes informaes:
Safra A: Y = 200 + 0,8X, r = 0,70 e S = 30 Safra B: Y = 50 + 1,20X, r = 0,9 e S = 20, onde
Y a produo por alqueire e X a quantidade de chuva (em polegadas) no perodo da safra.
(16.1) Se no houvesse chuva, estas duas equaes poderiam ser usadas para predizer a quantidade
produzida nas duas safras? Por qu?
(16.2) Qual das duas safras tira mais proveito do aumento das chuvas? Por qu?
(16.3) Para qual das duas safras possvel predizer a produo com melhor aproximao? Por
qu?
(17) Os dados abaixo foram obtidos de cinco fbricas diferentes de uma determinada indstria.
Custo total (Y = em milhes)
Produo (X = toneladas)
80
12
44
4
51
6
70
11
61
8
(17.1) Determine um intervalo de confiana de 90% para o custo fixo dessa indstria.
(17.2) Determine um intervalo de confiana de 95% para o custo marginal dessa indstria.
(17.3) Faa uma previso, atravs de um intervalo, para o custo total mdio dessa indstria, para
uma produo de 15t, utilizando uma confiana de 95%.
(17.4) Faa uma previso, atravs de um intervalo, para o custo total dessa indstria, para uma
produo de 15t, utilizando uma confiana de 95%.
(17.5) possvel afirmar, com uma significncia de 1%, que o custo total dessa indstria est
linearmente relacionado ao nvel de produo?
(17.6) Testar se o custo fixo pode ser considerado menor do que 30.
(17.7) Testar se o custo marginal pode ser considerado menor do que 5.
(18) Qual o tamanho mnimo da amostra necessria para que se possa concluir que um coeficiente de
correlao de 0,32 difere significativamente de zero ao nvel de 0,05?
(19) Um coeficiente de correlao, baseado em uma amostra de tamanho n = 18, foi calculado como sendo
0,32. Pode-se concluir aos nveis de significncia (19.1) 0,05 e (19.2) 0,01, que o coeficiente de
correlao, correspondente na populao diferente de zero?
(20) Se o coeficiente de correlao entre X e Y 0,80, que percentagem da variao total permanece noexplicada pela equao de regresso?
(21) Examine os cinco pares de pontos dados na tabela
X
Y
-2
4
-1
1
0
0
1
1
2
4
(22) Os dados abaixo representam o nmero de rendas pessoais tributveis e o registro de automveis de
passageiros, em uma determinada regio.
X = nmero de rendas tributveis (em milhares)
Y = Nmero de carros de passageiros (milhares)
192
23
80
11
162
13
246
31
310
91
4. RESPOSTAS
(01) (01.1) Correlao
(01.4) Correlao
(01.2) Regresso
(01.5) Regresso
(01.3) Regresso
(04) (04.1) Neste caso, com base no diagrama, uma linha reta no adequada.
Custo total X Tamanho do Pedido
4000
3500
3000
2500
2000
1500
1000
500
0
0
20
40
60
80
(04.2) Neste caso, uma linha adequada e sua equao est sobre o grfico abaixo.
Vendas X Lucro
35
30 y = 0.0178x + 14.675
25
20
15
10
5
0
0
100
200
300
400
500
(05) (05.3)
Populao
600
700
Amostra
X
1
4
2
2
3
5
17
Y
Yc
2 1.62
6 7.15
4 3.46
3 3.46
5 5.31
10 9.00
30 30.00
Erro
0.38
-1.15
0.54
-0.46
-0.31
1.00
0.00
X
4
2
3
5
Y
6
4
5
10
800
y = 1.9x - 0.4
10
8
6
4
2
0
0
(06) Basta mostrar que o ponto ( X , Y ) satisfaz a equao de regresso Y = a + bX. Se substituirmos
X por X na equao o resultado dever ser Y . Mas a + b.X = a + b. X = Y - b X + b. X = Y .
Uma vez que a = Y - b X .
(07) (07.1) Y = 4,2589 + 26,2770.X
(07.2) a = Custo fixo b = Custo marginal.
(07.3) s = 0,37. O intervalo de confiana de 95% para o "custo fixo" : [3,09; 5,42] que contm o
valor "5". Portanto no se pode afirmar, a 5% de significncia que o custo fixo seja diferente do
que 5 unidades.
(08) (08.1) Y = 9200
(09) (09.1) Y = 3 + 0,48X
(08.4) No
(09.2) 2,24
(11.2) S = 1,24
(13.2) t3 = 3,00
(13.4) 8,50 65,26
(14) (14.1) -2 seria a taxa de incidncia de cncer pulmonar que no est relacionada ao hbito de
fumar, ou de quem nunca fumou. 1,70 a variao na taxa de cncer pulmonar para cada ano
que a pessoa fumou.
(14.2) Y = -2 + 1,70.20 = 32.
(14.3) No, pois "r" indica associao na amostra e pode ser o mesmo na populao.
(14.4) t48 = 5,20 que significativo a 1%.
(15) (15.1) Tanto um coeficiente de "+1" quanto um de "-1" indicam correlao perfeita entre as
variveis.
(15.2) Coeficiente de regresso igual a zero implica em correlao tambm zero.
(15.3) No necessariamente, pois neste caso "1" o valor de inclinao da linha e no grau de
associao linear entre as duas variveis.
(15.5) A tcnica dos mnimos quadrados pode ser utilizado para ajustar vrios tipos de equao.
(16) (16.1) Neste caso, a interpretao deve ser mais cuidadosa, pois tanto o excesso de chuvas quanto
a falta vo distorcer os dados e estas equaes podem no ser mais vlidas.
(16.2) A safra B tira mais proveito, provavelmente por ser uma cultura que precisa de mais
chuvas.
(16.3) Para a safra B pois existe uma melhor aderncia dos dados a equao.
(17) (17.1) 26,28 7,56
(17.4) [78,45; 101,87]
(17.5) t3 = 11,57
-2.5
-2
-1.5
-1
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
-0.5
0.5
1.5
2.5
(21.2) r = 0
(21.3)
4.5
y=2
3.5
2.5
3
2
1.5
-2.5-2-1.5
-1-0.5
0.5
1.5
2.5
0.5
(21.4) Porque a correlao mostra apenas o relacionamento linear e, neste caso, o relacionamento
do tipo parbola (equao do segundo grau).
(22) (22.1) r = 0,8544
(22.2) Y = -30,4980 + 0,3247X
(22.3) Y = 132 mil
(22.4) X = 122,01 + 2,25.Y
5. REFERNCIAS
a
[BUS86] BUSSAB, Wilton O, MORETTIN, Pedro A. Estatstica Bsica. 3 ed. So Paulo, Atual,
1986.
[DOW89] DOWNING, Douglas, CLARK, Jeff. Statistics the Easy Way. Barrons Educational Series,
Inc. New York, 1989.
[FON76] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade, TOLEDO, Geraldo Luciano.
Estatstica Aplicada. So Paulo: Editora Atlas, 1976.
[FON80] FONSECA, Jairo Simon da, MARTINS, Gilberto de Andrade. Curso de Estatstica. So
Paulo: Editora Atlas S. A., 1980.
[HOF80] HOFFMAN, Rodolfo. Estatstica para Economistas. So Paulo. Livraria Pioneira Editora,
1980.
[KLE78] KLEIBAUM, David G., KUPPER, Lawrence L. Applied Regression Analysis and Other
Multivariable Methods. North Scituate, Massachusetts: Duxbury Press, 1978.
[MAR87] MARKLAND, Robert E., SWEIGART, James R. Quantitative Methods: Applications to
Managerial Decision Making. New York: John Wiley & Sons, 1987. 827p.
[MAS90] MASON, Robert D., DOUGLAS, Lind A. Statistical Techniques in Business And
Economics. IRWIN, Boston, 1990.
[MEY78] MEYER, Paul L. Probabilidade: aplicaes Estatstica. Traduo do Prof. Ruy C. B.
Loureno Filho. Rio de Janeiro, Livros Tcnicos e Cientficos Editora S.A., 1978.
[MIL90] MILLER, Charles D., HEEREN, Vern E., HORNSBY Jr., E. John.
USA: Harper Collins Publishers, 1990.
[REA93] The Statistics Problem Solver.
Jersey, 1993.
[ROT91] ROTHENBERG, Ronald I.
Publishers, Orlando, Florida, 1991.
Mathematical Ideas.
- http://www.mat.pucrs.br/~lori/
30