You are on page 1of 90

1

Apostila Bsica
de Estatstica 2
Silvio Alves de Souza


2
NDICE


Introduo................................................................................................................... 3
Software R .................................................................................................................. 4
Software SPSS ........................................................................................................... 5
Distribuio normal de probabilidade ......................................................................... 6
Testes de Hiptese paramtrico ................................................................................11
Testes No-Paramtrico ............................................................................................25
Distribuio Amostral .................................................................................................31
Regresso Mltipla ....................................................................................................52
Experimentos Multinomiais ........................................................................................65
Tabela de Contingncia .............................................................................................71
Introduo a Sries Temporais ..................................................................................78
Bibliografia .................................................................................................................87
Anexo 1 .....................................................................................................................88
3

Introduo

Esta apostila uma tentativa de compor parte do contedo da disciplina
Estatstica 2 do CEFET MG. Esta disciplina ministrada no curso de
Administrao.
Seu contedo de acordo com o plano de ensino do curso citados acima. Na
verdade um material complementar para os alunos. Ele no os isenta da
necessidade de consultar outras bibliografias.
A disciplina de Estatstica abordada com o auxlio de vrios softwares para
tratamento de dados, entre eles o R e o SPSS.
Os exemplos e exerccios foram montados com o objetivo de contextualizar o
contedo dentro dos vrios cursos. No buscamos priorizar nenhum desses cursos
para que o aluno possa perceber a utilizao da Estatstica em cada rea do
conhecimento.



4
Software R

O software R um software livre utilizado para anlise de dados, clculo e
construo de grficos.
Sua construo foi feita utilizando vrios colaboradores.
Para sua utilizao necessrio conhecimento de sua linguagem prpria, ou
seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas
utilizando seus comandos e outras so necessrias a construo de algoritmos.
O R tem um help que os ajuda na execuo das tarefas.
No decorrer do curso iremos utiliz-lo para anlise de vrios dados e para a
construo de alguns grficos especficos. Os comandos necessrios bem como a
utilizao do software sero apresentados no decorrer das aulas.
A utilizao deste software uma tentativa de demonstrar como utilizar a
tecnologia computacional na anlise de dados.
No anexo 2 encontra-se alguns comandos teis.

5
Software SPSS

O software SPSS um software no-livre utilizado para anlise Estatstica em
geral.
Por no ser um software livre muitas pessoas preferem a utilizao do
software R. No entanto ele muito utilizado no meio empresarial.
Ao contrrio do R o SPSS bem simples de utilizar. Neste caso no
necessrio conhecimento dos comandos.
O SPSS tem um help que os ajuda na execuo das tarefas.
No decorrer do curso iremos utiliz-lo para anlise de vrios dados e para a
construo de alguns grficos especficos.
A utilizao deste software tambm uma tentativa de demonstrar como
utilizar a tecnologia computacional na anlise de dados.




6

Distribuio normal de probabilidade

Uma varivel aleatria X tem distribuio normal se seu histograma tem a
forma de um sino.










Definio
Dados os parmetros e 0 > reais, a funo densidade de probabilidade
da normal dada por:
2
) (
2
1
.
2 .
1
) (

=
x
e x f

Onde = ) ( X E
e
= ) ( X Var
.

Podemos perceber que o clculo de probabilidade usando a distribuio
normal muito difcil devido ao tipo de funo. Uma forma de contornarmos este
problema utilizar a distribuio normal padronizada.
A distribuio normal padronizada tem este nome pois sua mdia 0 e a
varincia um. Com isso os clculos ficam muito mais prticos pois podemos utilizar
as tabelas de probabilidade normal padronizada.
Uma conseqncia importante do fato de uma distribuio Normal ser
completamente caracterizada por sua mdia e desvio-padro que a rea sob a
curva entre um ponto qualquer e a mdia funo somente do nmero de desvios-
padres que o ponto est distante da mdia.
Vendas de auto peas
6
0
0
0
,0
5
5
0
0
,0
5
0
0
0
,0
4
5
0
0
,0
4
0
0
0
,0
3
5
0
0
,0
3
0
0
0
,0
2
5
0
0
,0
2
0
0
0
,0
1
5
0
0
,0
1
0
0
0
,0
5
0
0
,0
0
,
0
200
100
0
Std. Dev = 994,59
Mean = 2516,6
N= 1488,00
7
Como existem uma infinidade de distribuies normais (uma para cada mdia
e desvio-padro), transformamos a unidade estudada seja ela qual for (peso,
espessura, tempo, etc.) na unidade Z, que indica o nmero de desvios-padro a
contar da mdia.
Para padronizar um conjunto de dados que tem distribuio normal s
aplicar a frmula


=
X
z

Utilizao da tabela da normal padronizada
A tabela nos d a rea sobre o grfico, ou seja, a probabilidade.
Mais a frente veremos que o desvio-padro alterado quando vamos
padronizar a mdia de um conjunto de dados. Este resultado encontrado em um
teorema denominado Teorema Central do Limite.

Propriedades da distribuio normal

1) a curva simtrica em torno da mdia;
2)
( ) 0 x f lim
x
=


3) a rea total sob a curva igual a 1;

rea=1
rea=0,5 rea=0,5


8
Exemplo 1: A resistncia trao do papel usado em sacolas de super-mercado
uma caracterstica de qualidade importante.
Sabe-se que essa resistncia segue um modelo Normal com mdia 40 psi e
desvio padro 2 psi.
Se a especificao estabelece que a resistncia deve ser maior que 35 psi,
qual a probabilidade que uma sacola produzida com este material satisfaa a
especificao?
{ } { } 35 X P 1 35 X P =
{ } { } 5 , 2
2
40 35
35 =
)
`


= z P z P X P

Pela tabela da normal padronizada temos probabilidade de 0,0062.
Logo a resposta 1-0,0062 = 99,38%.



Comparao entre mdia e varincia

A
C
B
x
f(x)


9
a) da distribuio A para B muda a tendncia central, mas a variabilidade
constante;
b) da distribuio A para C muda a variabilidade, mas a tendncia central
constante;
c) da distribuio B para C muda a tendncia central e a variabilidade.



Exerccios
1) Utilizando a tabela da distribuio normal padronizada calcule:
a) ( ) 42 , 0 z P <

b) ( ) 75 , 0 z P <

c) ( ) 30 , 0 z P <

d) ( ) 56 , 0 z P >

e) ( ) 72 , 0 z 25 , 0 P < <

f) ( ) 20 , 0 z 25 , 0 P < <

g) o valor de z tal que
( ) 90 , 0 z Z z P = < <
.

2) Suponha que a absoro de gua(%) em certo tipo de piso cermico tenha
distribuio normal com mdia 2,5 e desvio-padro 0,6. Selecionando,
aleatoriamente, uma unidade desse piso, qual a probabilidade de ele acusar
absoro de gua entre 2% e 3,5%?
10
3) Uma fbrica de chocolates comercializa barras que pesam em mdia 200g. Os
pesos so normalmente distribudos. Sabe-se que o desvio padro igual a 40g.
Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar
a) entre 200 e 250g;
b) mais de 230g;
c) menos que 150g.

4) Suponha que uma varivel aleatria X tenha distribuio normal com mdia 5 e
desvio-padro 4. Calcule:
( ) 8 X 2 P <

11
Testes de Hiptese paramtrico

Teste de Hiptese

Em Estatstica, uma hiptese uma afirmao sobre uma propriedade de
uma populao.
Podemos estar interessados em saber informaes sobre a mdia, a
proporo ou a varincia.

Componentes de um teste de hiptese

1) Hiptese nula -
0
H : uma afirmao sobre o valor de um parmetro
populacional. Deve conter o sinal de igualdade e deve escrever-se como = , , .
2) Hiptese alternativa -
1
H : a afirmao que deve ser verdadeira se a hiptese
nula for falsa. No deve conter o sinal de igualdade.

Exemplos:
a) Testar a afirmao de que a mdia populacional 75.
Soluo: Neste caso temos 75 :
0
= H e 75 :
1
H .

b) Testar a afirmao de que a mdia no mximo 2,50.
Soluo: Neste caso temos 50 , 2 :
0
H e 50 , 2 :
1
> H .

3) Erro tipo I: Consiste em rejeitar a hiptese nula quando ela verdadeira.



0
H verdadeira
0
H falsa
Rejeita
0
H Erro tipo I Acerto
No rejeita
0
H Acerto Erro tipo II


4) Nvel de significncia - : A probabilidade do erro tipo I ocorrer.
12
5) Erro tipo II: Consiste em no rejeitar a hiptese nula quando ela falsa.
6) A probabilidade de ocorrer o erro tipo II .
7) Estatstica de teste: uma estatstica amostral baseado nos dados amostrais.
8) Regio crtica: o conjunto de todos os valores da estatstica de teste que
levam rejeio da hiptese nula.
9) Valor Crtico: o valor, ou valores, que separa(m) a regio crtica dos valores
da estatstica de teste que no levam rejeio da hiptese nula.

Concluses no teste de hiptese

Em um teste de hiptese conclumos por:
rejeitar a hiptese nula ou
no rejeitar a hiptese nula.




Tipos de teste

Bilateral (sinal de
1
H : ): a regio crtica est situada nas duas regies.
Neste caso cada rea tem valor
2

.


13


Unilateral esquerdo (sinal de
1
H : <): a regio crtica est situada na parte
esquerda. Neste caso ( ) = I tipo Erro P .



Unilateral direito (sinal de
1
H : >): a regio crtica est situada na parte direita.
( ) = I tipo Erro P .


14
Teste de uma afirmao sobre uma mdia: grandes amostras

Considere uma amostra razoavelmente grande ( 30 n ) para valer o teorema
central do limite, ou que os dados provenham de uma distribuio aproximadamente
normal. Para testarmos alguma informao com respeito mdia populacional
utilizamos a estatstica de teste dada por:

Estatstica de teste

n
x
z
x


=
Os valores crticos so encontrados na Tabela A 2

Obs.: Caso seja desconhecido podemos substitu-lo por s .

Notao
x : mdia amostral;
x
: mdia populacional.
: desvio-padro populacional;
n : tamanho da amostra;


Exemplo:
O tempo mdio entre falhas de um rdio da Telektronic Companhy para
avies de pequeno porte 420 horas. Aps terem sido modificados 35 aparelhos de
rdio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um
tempo mdio de 385 horas para esta amostra, com desvio-padro de 24 horas. Ao
nvel de significncia de 0,05, teste a afirmao de que o tempo mdio, aps as
modificaes, menor que 420 horas .

Soluo:
a) As hipteses so:

<

420 :
420 :
1
0

H
H

15
b) O teste unilateral esquerdo, pois o sinal de
1
H <.
c) O nvel de significncia 05 , 0 = ;
d) Os valores crticos so 645 , 1 =

z ; Logo temos:

e) Os dados amostrais so: 385 = x e 24 = s ;
f) Como n=35 ( 30 n ), a estatstica de teste dada por:

63 , 8
35
24
420 385
=

=
n
x
z
x



g) Concluso: Como a estatstica de teste est na dentro da regio crtica, ento
rejeitamos
0
H .
Exerccios

1) O gerente de uma empresa de transporte suspeita da afirmao de um
vendedor de pneus de que o seu produto tem uma vida mdia de, ao menos,
28 000 milhas. Para verificar a afirmao, a firma instala 40 desses pneus em
seus caminhes, obtendo uma vida mdia de 27 563 milhas, com desvio-
padro de 1 348 milhas. Qual a concluso do gerente, se a probabilidade de
um erro tipo I deve ser 0.01?

2) A vida mdia de uma amostra de 100 lmpadas de certa marca 1615 horas.
Por similaridade com outros processos de fabricao, supomos o desvio-
padro igual a 120 horas. Utilizando um nvel de significncia de 2 %, teste a
afirmao de que a durao mdia de todas as lmpadas dessa marca igual
a 1600 horas.
16
Teste de uma afirmao sobre uma mdia: pequenas amostras

Considere uma amostra pequena ( 30 < n ). Suponha que:
a) os dados provenham de uma distribuio normal
b) o desvio-padro populacional desconhecido.
Para testarmos alguma informao com respeito mdia populacional
utilizamos a estatstica de teste dada por:

Estatstica de teste

n
s
x
t
x

=
Os valores crticos so encontrados na Tabela A 3
O nmero de Graus de liberdade = n 1

Obs.: Caso a varincia populacional seja conhecida ento devemos utilizar a
distribuio normal, independentemente do tamanho da amostra.
n
x
z
x


=
Exemplo:
Os sete valores relacionados a seguir so cargas axiais (em libras) da
primeira amostra de sete latas de alumnio de 12oz. A carga axial de uma lata o
peso mximo que seus lados podem suportar, e deve ser superior a 165 libras,
porque esta a presso mxima aplicada quando se fixa a tampa no lugar. Ao nvel
de significncia de 0,01, teste a afirmao do engenheiro supervisor de que esta
amostra provm de uma populao com mdia superior a 165 libras.

270 273 258 204 254 228 282


Soluo:
17
a) As hipteses so:

>

165 :
165 :
1
0

H
H

b) O teste unilateral direito, pois o sinal de
1
H >;
c) O nvel de significncia 01 , 0 = ;
d) O valor do grau de liberdade de 7-1 = 6. Logo o valor crtico 143 , 3 =

t ;
Logo temos:



e) Os dados amostrais so: 7 , 252 = x e 6 , 27 = s ;

Como n = 7 ( 30 < n ), a estatstica de teste dada por:

407 , 8
7
6 , 27
165 7 , 252
=

=
n
s
x
t
x



f) Concluso: Como a estatstica de teste est na dentro da regio crtica, ento
rejeitamos
0
H .
Exerccios

1) Admitindo que a presso sangunea arterial em homens siga o modelo
Normal, 7 pacientes foram sorteados e tiveram sua presso medida obtendo
os seguintes resultados:

82 - 84 - 78 - 85 - 69 - 80 - 75

18
Utilizando um nvel de significncia de 0,02 , teste a afirmao de a mdia da
presso sangunea de 82.
2) O inspetor de qualidade da JF Construes mediu 25 barras de ao e obteve
as seguintes medidas em metros:

4,51 5,38 4,84 5,33 4,74 4,99 5,15 5,52 5,82 5,45
4,68 4,74 5,53 5,40 4,72 4,97 5,24 4,94 4,75 5,50
4,81 5,25 4,86 4,93 4,95

Pode-se afirmar, com com nvel de significncia de 5%, que tais barras foram
sacadas de um lote cujo comprimento mdio de 5,00 metros?

Teste de uma afirmao sobre varincia ou desvio-padro

Ao testar uma hiptese sobre o desvio-padro ou a varincia
2
de uma
populao, admitimos que os valores da populao sejam distribudos normalmente.

Notao

n = tamanho da amostra
2
s = varincia amostral
2
= varincia populacional

Para testar uma informao sobre desvio-padro ou a varincia
2
a
estatstica de teste dada por:

Estatstica de teste
( )
2
2
2
1

s n
=
Os valores crticos so encontrados na Tabela A 4
O nmero de Graus de liberdade = n 1


19


Exemplo:
O tempo para transmitir 10 MB em determinada rede de computadores varia
segundo um modelo normal, com mdia 7,4 segundos e varincia 1,3 segundos.
Depois de algumas mudanas na rede, acredita-se numa reduo no tempo de
transmisso de dados, Alm de uma possvel mudana na variabilidade. Foram
realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados
os tempos de transmisso, em segundos:

6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,3 6,6 6,3

Resolva:
a) Existe evidncia suficiente de que as mudanas na rede de computadores
alteraram a variabilidade no tempo de transmisso de dados? Ao nvel de
0,05.
b) Existe evidncia suficiente de que as mudanas na rede de computadores
alteraram o tempo mdio de transmisso de dados? Ao nvel de 0,05

Soluo da letra a:

a) As hipteses so:

=
3 , 1 :
3 , 1 :
2
2
0
1

H
H

b) O teste bilateral direito, pois o sinal de
1
H ;
c) O nvel de significncia 05 , 0 = ;
20
d) O valor do grau de liberdade de 10-1 = 9. Logo os valores crticos so
700 , 2
2
= e 023 , 19
2
= ; Logo temos:




e) Os dados amostrais indicam: 261 , 0
2
= s ;
f) a estatstica de teste dada por:

807 , 1
3 , 1
261 , 0 ) 1 10 (
2
=

=

g) Concluso: Como a estatstica de teste est na dentro da regio crtica, ento
rejeitamos
0
H .

Exerccios

1) A cofap alega que a varincia da vida mdia de seus amortecedores de nove
meses. A Chevrolet ensaia 18 peas e encontra varincia de um ano para a vida
mdia das referidas peas. A 5% de significncia, isso lhe permite refutar a alegao
da Cofap?

2) Um laboratrio fez oito determinaes da quantidade de impurezas em pores
de certo composto. Os valores eram (em mg):

12,4 12,6 12,0 12,0 12,1 12,3 12,5 12,7
21

Teste a hiptese de que o desvio-padro 1, ao nvel se significncia de 0,05.

3) Uma mquina de enchimento automtico usada para encher garrafas com
detergente lquido. Uma amostra aleatria de 20 garrafas resulta em uma varincia
amostral de volume de enchimento de 0,0153 (ona fluida)
2
. Se a varincia do
volume de enchimento exceder 0,01 (ona fluida)
2
, existir uma proporo
inaceitvel de garrafas cujo enchimento no foi completo e cujo enchimento foi em
demasia.
H evidncia nos dados da amostra que sugira que o fabricante tenha um problema
com garrafas cheias com falta e excesso de detergente? Use nvel de significncia
de 5%.

Observao:
Quando vamos trabalhar com graus de liberdade cujos valores crticos no so
tabelados podemos aproxima-los utilizando a frmula a seguir

( )
2
2
1 2
2
1
+ = k z
onde
k o nmero de graus de liberdade
z o valor crtico, encontrado na tabela normal padronizada.
Exemplo:
1) Suponha que queiramos fazer o teste

<

21 , 1 :
21 , 1 :
2
2
0
1

H
H

com 05 , 0 = e 120 = n teremos:
a) 119 = k
b) 645 , 1 = z
c) ( ) ( ) 529 , 94 1 119 2 645 , 1
2
1
1 2
2
1
2 2
2
= + = + = k z


22
TESTE DE HIPTESE PARA PROPORO

O teste para proporo aplicado em situaes nas quais queremos verificar
se a proporo de algum atributo na populao pode ser igual a certo valor
0
p .
SUPOSIES:
1) So verificadas as condies para um experimento binomial. Isto , temos um
nmero fixo de provas independentes com probabilidade constante, e cada
prova comporta dois resultados, que designamos sucesso e falha.

2) As condies 5 np e 5 nq so ambas verificadas, de modo que a
distribuio binomial das propores amostrais pode ser aproximada por uma
distribuio normal com np = e npq = . Esta suposio necessria
devido ao fato de termos uma boa aproximao da estatstica de teste, que
neste caso normal.

NOTAO:
n : nmero de provas;
p : proporo populacional (usada na hiptese nula);
n
x
p =
: proporo amostral;
p q =1


A estatstica de teste dada por:
ESTATSTICA DE TESTE:
n
pq
p p
z

=


Os valores crticos so obtidos na tabela A 2 (distribuio normal
padronizada).

23
Exemplos:
1) Uma empresa retira periodicamente amostras aleatrias de 500 peas de sua
linha de produo para anlise da qualidade. As peas da amostra so
classificadas como defeituosas ou no, sendo que a poltica da empresa
exige que o processo produtivo seja revisto se houver evidncia de mais de
1,5% de peas defeituosas. Na ltima amostra, foram encontradas nove
peas defeituosas. Usando nvel de significncia de 1%, o processo precisa
ser revisto?
Soluo:
h) As hipteses so:

>

015 , 0 :
015 , 0 :
1
0
p H
p H

i) O teste unilateral direito, pois o sinal de
1
H >.
j) O nvel de significncia 01 , 0 = ;
k) O valor crtico 33 , 2 =

z ; Logo temos:



l) Os dados amostrais so: 018 , 0
500
9
= = p
m) Critrios para a aproximao normal:

5 , 7 015 , 0 500 = = p n e
5 , 492 985 , 0 500 ) 015 , 0 1 ( 500 = = = q n

n) Estatstica de teste dada por:

24
552 , 0
005436 , 0
003 , 0
500
985 , 0 015 , 0
015 , 0 018 , 0
= =

=
n
pq
p p
z


o) Concluso: Como a estatstica de teste est fora da regio crtica, ento no
rejeitamos
0
H .

2) Em um estudo da eficcia do air-bag em automveis, constatou-se que, em
821 colises de carros de tamanho mdio equipados com air-bag, 46 colises
resultaram em hospitalizao do motorista. Ao nvel de significncia de 0,01,
teste a afirmao de que a taxa de hospitalizao nos casos de air-bag
inferior taxa de 7,8% para colises de carros de tamanho mdio equipados
com cintos automticos de segurana.
3) O controle estatstico de certo processo de fabricao de determinada
lmpada estabeleceu que pelo menos 94% delas tm que estar sem defeito.
Para verificar a validade desta afirmao, foi coletada uma amostra de 150
lmpadas das quais 138 estavam sem defeito.
Com 1% de significncia, h evidncia de que o processo est de acordo com
o esperado?

25
Testes No-Paramtrico


Os testes no-paramtricos so utilizados quando no temos
informao sobre a distribuio da populao.

Vantagens- Menos suposies so necessrias. Em muitos casos, apenas
dados nominais (categricos) ou ordinais (ranks) so necessrios, ao invs de
numricos (intervalares).

Desvantagens- Freqentemente preferimos ter um modelo bem definido
com parmetros importantes tais como mdia e varincia includas para melhor
interpretao.

So vrios os tipos de testes no-paramtricos:

Teste dos sinais;
Teste de postos com sinais de Wilcoxon para duas amostras
dependentes;
Teste da soma de postos de Wilcoxon para duas amostras
independentes;
Teste de kruskal-Wallis;
Correlao por postos;
Teste de repeties para aleatoriedade;
Teste do qui-quadrado;
Teste do qui-quadrado para independncia ou associao;
Teste de Mann-Whitney;
Teste da mediana;


No se refere distribuio da estatstica de teste, mas ao fato de que os
mtodos podem ser aplicados a amostras de populaes de qualquer distribuio.
Esta deve ser especificada apenas em termos gerais (ser continua, simtrica,
26
idntica) sem precisar pertencer a alguma famlia (como normal, uniforme,
exponencial, etc).

QUANDO PRECISAMOS DOS MTODOS NO PARAMTRICOS?

Mesmo se o teste paramtrico no depende crucialmente da suposio de
que a amostra vem de uma distribuio particular, se h alguma dvida quanto a
isso o teste no paramtrico, depende de suposies mais fracas, prefervel.
Mtodos no paramtricos so usualmente os nicos disponveis para dados que
simplesmente especificam ordem ou contagem em vrias categorias.

Teste de Correlao por postos

Referncia: TRIOLA, Mario F. Introduo estatstica.

O teste de correlao por postos pode ser utilizado para verificar se existe
alguma associao entre duas variveis.
A taxa de eficincia do teste de 91%.

Notao:

s
r : coeficiente de correlao por postos para dados amostrais emparelhados;
s
: coeficiente de correlao por postos para todos os dados populacionais
emparelhados;
n : nmero de pares de dados;
d : diferena entre postos para as duas observaes dentro de um par.


O ndice s utilizado em homenagem a Charles Spearman (1863 - 1945).
Ao testar se h ou no correlao, testamos as seguintes hipteses:

=
0 :
0 :
1
0
s
s
H
H


27


Estatstica de teste

A estatstica de teste, para o caso em que no h empate entre os postos,
dada por:

) 1 (
6
1
2
2

=

n n
d
r
s

onde cada valor de d uma diferena entre os postos para um par de dados
amostrais.

Caso haja empate entre os postos ento a estatstica de teste dada por:



=
2 2 2 2
) ( . ) (
) )( (
y y n x x n
y x xy n
r
s

onde x = posto de X e y = posto de Y.
Valores crticos:

Se 30 n , consulte tabela A 9.
Se 30 > n , use a frmula
1

=
n
z
r
s

onde o valor de z corresponde ao nvel de significncia


28
Exemplos

1) A tabela a seguir apresenta 9 dados do volume desgastado do ao e da
viscosidade do leo.

Volume desgastado
Y (10
-4
mm
3
)
Viscosidade
X
240 1,6
181 9,4
193 15,5
155 20
172 22
110 35,5
113 43
75 40,5
94 33

H correlao entre as duas variveis? Use 05 , 0 = .
Soluo:
Passo 1: As hipteses so

=
0 :
0 :
1
0
s
s
H
H


Passo 2: Nvel de significncia 05 , 0 =
Passo 3: Utilizaremos estatstica no-paramtrica pois no temos informao sobre
a populao original.
Passo 4: Estatstica de teste:

Volume desgastado
Y (10
-4
mm
3
)
Viscosidade
X
Posto Y Posto X d
2
d
240 1,6 9 1 8 64
181 9,4 7 2 5 25
193 15,5 8 3 5 25
155 20 5 4 1 1
172 22 6 5 1 1
110 35,5 3 7 4 16
113 43 4 9 5 25
75 40,5 1 8 7 49
94 33 2 6 4 16

Assim temos

= 222
2
d
29
85 , 0
85 , 1 1
720
1332
1
) 1 81 ( 9
) 222 ( 6
1
) 1 (
6
1
2
2
=
=
=

=

n n
d
r
s


Passo 5: valores crticos:

Pela tabela A-9, os valores crticos so 683 , 0 .
Como 85 , 0 =
s
r est dentro da regio crtica ento rejeitamos
0
H . Logo existe
correlao.

0
50
100
150
200
250
300
0 10 20 30 40 50


30
2) Os valores a seguir so referentes s vendas de tubos de ao carbono de certa indstria
no perodo especificado.

X = Ano Y = Venda
80 58
81 85
82 123
83 81
84 57
85 118
86 174
87 147
88 190
89 205
90 255
91 223
92 216
93 297
94 184
95 224
96 318

Existe correlao entre as variveis?


31
Distribuio Amostral


Retirado dos livros: Estatstica aplicada Administrao, Stevenson e
Introduo Estatstica, Triola.

Uma distribuio amostral uma distribuio de probabilidade que nos
mostra como a variao da estatstica amostral ocasionada por variaes na
amostragem aleatria.

Uma estatstica amostral qualquer funo baseada nos dados amostrais
de uma amostra aleatria.
Uma estimativa um valor especfico, ou um intervalo de valores, numrico
de uma estatstica amostral.
Um estimador uma estatstica amostral utilizada para obter uma
aproximao de um parmetro populacional.
Exemplo:
1) Estimador da mdia populacional :

=
=
n
i
i
x
n
x
1
1
.
2) Estimador da varincia populacional
2
:
(
(
(
(
(
(

|
|

\
|

=
=
n
x
x
n
s
n
i
i
n
i
i
2
1
1
2 2
1
1
.
Propriedade do estimador:

Um estimador

dito no tendencioso para o parmetro populacional , se


( ) =

E
Se o estimador

for tendencioso, ento a tendenciosidade dada por


( )

E

onde ( )

= =
i
i
x X xP X E ) ( .


32
Para verificar se um estimador ou no tendencioso deveremos calcular a
esperana. Para o clculo desta esperana algumas propriedades so
fundamentais:

E1) Se c X = , ento ( ) c X E = ;
Prova: X uma varivel aleatria discreta. Ento ( ) c c c X P c X E = = = = 1 . ) ( . .

E2) Se b aX Y + = uma varivel aleatria, ento ( ) b X aE Y E + = ) ( .

Quando estamos interessados em avaliar qual o melhor estimador entre
vrios, utilizamos o erro quadrtico mdio EQM. A seguir temos a definio do
EQM

O erro quadrtico mdio de um estimador

do parmetro dado por


( ) ( )
2

= E EQM
Ou
( ) ( ) ( )
2

idade tendencios Var EQM + =

Algumas propriedades da varincia:

V1) Se c X = , ento 0 ) ( = X Var ;

V2) ) ( ) ( X Var b X Var = +

V3) ) ( ) (
2
X Var a b aX Var = +

V4) ) ( ) ( ) (
2 2
Y Var b X Var a bY aX Var + = +

Exemplo:(Montgomery) Seja
7 2 1
, , , X X X K uma amostra aleatria de uma
populao com mdia e varincia
2
. Considere os seguintes estimadores:
33
7
7 2 1
1
X X X + + +
=
K

2
2
4 6 1
2
X X X +
=
Resolva:
a) Verifique se os estimadores so no-tendenciosos.
b) Qual o melhor estimador?

Soluo:
a) A esperana do primeiro estimador

=
+ + +
=
+ + +
=
|

\
| + + +
=
7
7
) ( ) ( ) (
7
) (
7 2 1
7 2 1
1
K
K
K
X E X E X E
X X X
E E

A esperana do segundo estimador
( )

=
+
=
+
=
|

\
| +
=
2
2
2
) ( ) ( ) ( 2
2
2
4 6 1
4 6 1
2
X E X E X E
X X X
E E

Verificamos que os dois estimadores no so tendenciosos.
b) Varincia do estimador 1
2
2 2 2
2
7 2 1
7 2 1
1
7
1
49
7
) ( ) ( ) (
7
) (

=
+ + +
=
+ + +
=
|

\
| + + +
=
K
K
K
X Var X Var X Var
X X X
Var Var

Varincia do estimador 2
34
( )
( )
2
2 2 2
4 6 1
4 6 1
4 6 1
2
4
6
4
4
4
) ( ) ( ) ( 4
2
4
1
2
2

=
+ +
=
+ +
=
+ =
|

\
| +
=
X Var X Var X Var
X X X Var
X X X
Var Var

O melhor estimador aquele que tem menor EQM. Como a tendenciosidade nula
para ambos estimadores, ento
( ) ( ) ( )
( )
2
1
2
1 1
7
1


=
=
+ =
Var
idade tendencios Var EQM

e
( ) ( ) ( )
( )
2
2
2
2 2
4
6


=
=
+ =
Var
idade tendencios Var EQM

Como ( ) ( )
2 1

EQM EQM < , ento o melhor estimador o primeiro.

Para entendermos como o comportamento da amostra considere o exemplo
a seguir.
Exemplo: considere uma populao formada pelos elementos

1 4 2 3

Percebemos que a mdia populacional de 2,5.
Vamos ento analisar a distribuio amostral. Para isso suponha todas as
amostras de tamanho 2 sem reposio. Temos 6
2 , 4
= C amostras representadas no
quadro a seguir

35
Amostras Mdia
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5

Percebemos que em 2 amostras das 6 (33,33%) encontramos o verdadeiro
valor da mdia populacional. As outras 4 amostras no encontramos a verdadeira
mdia, no entanto servem como uma aproximao.
Poderamos, por exemplo, tomar amostras de tamanho 3 sem reposio.
Neste caso teremos 4
3 , 4
= C amostras representadas no quadro a seguir

Amostras Mdia
1, 4 e 2
3
7

1, 4 e 3
3
8

1, 2 e 3
3
6

4, 2 e 3
3
9

Neste caso percebemos que nenhuma amostra tem mdia igual mdia
populacional.

Tipos de estimativa

Uma estimativa pontual um valor nico usado para aproximar um
parmetro populacional.

Uma estimativa intervalar, ou intervalo de confiana, uma amplitude de
valores que tem probabilidade de conter o verdadeiro valor do parmetro
populacional.
36

O grau de confiana a probabilidade 1 de o intervalo de confiana
conter o verdadeiro valor do parmetro populacional.

Um valor crtico o nmero na fronteira que separa os valores das
estatsticas amostrais provveis de ocorrerem, dos valores que tm pouca chance
de ocorrer.

Quando utilizamos dados amostrais para estimar um parmetro populacional
podemos cometer erros. A margem de erro, denotada por E, a diferena mxima
provvel (com probabilidade 1 ) entre o valor amostral e o verdadeiro valor
populacional. A margem de erro E chamada tambm de erro mximo da
estimativa.

Para entendermos o erro, tomemos o exemplo anterior com amostras de
tamanho 2:
Amostras Mdia Erro
1 e 4 2,5 0
1 e 2 1,5 1
1 e 3 2 0,5
4 e 2 3 0,5
4 e 3 3,5 1,5
2 e 3 2,5 0

Neste caso o erro mximo foi de 1,5.


37
O quadro a seguir nos mostra como calcular os erros, o intervalo de confiana
e o tamanho da amostra para uma populao infinita.

Parmetro Clculo do
erro
Intervalo de confiana Tamanho de
amostra
Mdia
(Grandes
amostras)
n
z E

=
2

E x E x + < <
2
2
(
(


=
E
z
n


Mdia
(Pequenas
amostras)
n
s
t E =
2


E x E x + < <
2
2
(
(


=
E
s t
n


Proporo
n
q p
z E

2
=


E p p E p + < <
2
2
2

E
q p z
n
(

ou
2
2
2
25 , 0
E
z
n
(


Varincia
( ) ( )
2
2
2
2
2
1 1
L R
s n s n

< <



Tabelado

38
Quando trabalhamos com populaes finitas e a amostragem constitui mais
de 5% da populao devemos aplicar o fator de correo. Assim teremos:

Parmetro Clculo do erro Intervalo de
confiana
Tamanho de amostra
Mdia
(Grandes
amostras)
1
2

=
N
n N
n
z E


E x E x + < <
) 1 (
2 2 2
2
2 2
2
+
=
N E z
N z
n


Mdia
(Pequenas
amostras)
1
2

=
N
n N
n
s
t E


E x E x + < <
) 1 (
2 2 2
2
2 2
2
+
=
N E s t
N s t
n


Proporo
1

2

=
N
n N
n
q p
z E


E p p E p + < <
) 1 (
2 2 2
2
2 2
2
+
=
N E z
N z
n



Exerccios: (Triola)

1) Para as temperatura do corpo humano temos 106 = n , F x 20 , 98 = e
F s 62 , 0 = . Para um nvel de significncia de 5% determine:
a) a margem de erro E ;
b) O intervalo de confiana para .

2) Um economista deseja estimar a renda mdia para o primeiro ano de
trabalho de um bacharel por uma faculdade, que teve a feliz idia de fazer
um curso de estatstica. Quantos valores de renda devem ser tomados, se o
economista deseja ter 95% de confiana em que a mdia amostral esteja a
$500 da verdadeira mdia populacional? Suponha que saibamos, por um
estudo prvio, que, para tais rendas, 6250 $ = .
39
3) Deseja-se estimar o preo mdio de venda de um livro-texto para uma
faculdade. Quantos exemplares devemos selecionar, para termos 95% de
confiana de que a mdia amostral esteja a menos de $2 da verdadeira
mdia populacional? (Suponha que os preos variam entre $10 a $90. Use
4 / amplitude = )

4) Os pesquisadores de opinio so atormentados por uma diversidade de
fatores de confuso, como secretrias eletrnicas. Em uma pesquisa junto a
1068 americanos, 673 informaram ter secretria eletrnica (com base em
dados da International Mass Retail Association, relatado em USA Today).
Com esses resultados amostrais, determine:

a) A estimativa pontual da proporo populacional de todos os americanos
que tm secretria eletrnica;
b) A estimativa intervalar de 95% da proporo populacional de todos os
americanos que tm secretria eletrnica.
5) Selecionados aleatoriamente e pesquisados 500 universitrios, verificou-se
que 135 deles tm computadores pessoais (com base em dados da America
Passage Media Corporation).
a) Determine a estimativa pontual da verdadeira proporo de todos os
universitrios que tm computador pessoal;
b) Determine um intervalo de 99% de confiana para a verdadeira proporo
de todos os universitrios que tm computador pessoal.
6) Um estudo de sade envolve 1000 mortes selecionadas aleatriamente,
dentre as quais 331 causadas por doenas cardacas (com base em dados
do Center for Disease Control).
a) Com os dados mostrais, construa um intervalo de confiana de 99% para
a proporo de todas as mortes causadas por doenas cardacas;
b) Utilizando os dados amostrais como estudo piloto, determine o tamanho
de amostra necessrio para estimar a proporo de todas as mortes
causadas por doenas cardacas. Admita um nvel de confiana de 98%,
em que o erro da estimativa no supere 0.01.
40
7) No caso de estimativa da proporo quando temos uma populao
relativamente pequena, de tamanho N, e a amostragem sem reposio,
modificamos o erro para
1

2

=
N
n N
n
q p
z E


Mostre que o o tamanho da amostra pode ser encontrada por
( )
2
2
2
2
2
1

E N z q p
z q p N
n
+
(


8) Uma amostra consiste de 75 aparelhos de televiso adquiridos h vrios
anos. Os tempos de substituio desses aparelhos tm mdiia de 8.2 anos e
desvio-padro de 1.1 anos ( com base em dados de Getting Things Fixed,
Consumer Reports). Construa um intervalo de confiana de 90% para o
desvio-padro dos tempos de substituio de todos os aparelhos de TV
daquela poca.
9) Um artigo de jornal inclui um grfico mostrando que certos dados amostrais
so distribudos normalmente.
a) Inadvertidamente, omitiu-se o grau de confiana quando foi dado o
intervalo de confiana de 944 . 35 581 . 7
2
< < . Determine o grau de
confiana sendo 8 . 3 ; 2 . 45 ; 20 = = = s x n .
b) D-se o seguinte intervalo de confiana: 8 . 45 1 . 19 < < . Determine o
seguinte valor do desvio-padro, que foi omitido. Use 95% de confiana.

10) (Montgomery) Suponha que
1

e
2

sejam dois estimadores do parmetro


. Sabemos que ( ) =
1

E , ( )
2

= E , ( ) 10

1
= Var e ( ) 4

2
= Var . Qual o
melhor estimador?
11) (Montgomery)
a) Mostre que ( )

=
=
n
i
i
X X
n
s
1
2
2
1
um estimador tendencioso para
2
.
b) Qual a tendenciosidade?
41
c) O que acontece com a tendncia a medida que o tamanho da amostra
aumenta?

Teorema Central do Limite

Se
n
X X X , , ,
2 1
L for uma amostra aleatria de tamanho n, retirada de uma
populao (finita ou infinita), com mdia e varincia
2
, e se X for a mdia
amostral, ento a forma limite da distribuio de

n
X
Z


=
quando n tende ao infinito, a distribuio normal padro.


Ou:

Teorema Central do Limite

Se extrairmos todas as amostras aleatrias possveis, de tamanho n, de uma
populao com mdia e varincia
2
, a mdia das mdias se denota por
x
;
assim,

=
x

Por sua vez, o desvio-padro das mdias amostrais se denota por
x
; ento,

n
x

=

42
OBS.: (Triola)
1) O teorema central do limite se aplica quando estamos em face de uma
distribuio de mdias amostrais. Utilizamos o teorema quando o tamanho da
amostra maior do que 30 ou quando a populao original tem distribuio normal.

2) No caso de amostragem sem reposio, quando o tamanho n da amostra
superior a 5% do tamanho N da populao finita (isto , N n 05 , 0 > ), ajustamos o
desvio-padro da mdia amostral
x
multiplicando o pelo fator de correo para
populao finita:
1

N
n N


3) (Stevenson) A figura a seguir nos mostra o efeito do tamanho da amostra sobre a
distribuio amostral. A distribuio binomial foi utilizada como parmetro de
referncia. A probabilidade de sucesso foi mantida constante e variou-se o tamanho
da amostra. Percebemos que medida que o tamanho da amostra cresce a
distribuio amostral das propores tende a uma distribuio normal. Percebe-se
tambm que a variabilidade decresce. Observamos que a mdia da distribuio
amostral sempre igual a proporo.
43


44
4) (Stevenson) A prxima figura nos d uma idia do comportamento da
distribuio amostral considerando a distribuio da populao.



45
Exemplo: Voltando ao exemplo da populao formada pelos elementos

1 4 2 3

e considerando todas as amostras possveis de tamanho 2

Amostras Mdia
1 e 4 2,5
1 e 2 1,5
1 e 3 2
4 e 2 3
4 e 3 3,5
2 e 3 2,5

podemos observar que:
a) Se calcularmos a mdia das mdias (mdia entre os elementos)
2,5 1,5 2 3 3,5 2,5

encontramos 5 , 2 =
x
que corresponde mdia populacional . Assim temos, de
acordo com o teorema, que =
x
.
b) Calculando a varincia das mdias, dados do item (a), encontramos
2
2
=
x
.
Considerando os dados populacionais (1,4,2,3) encontramos
3
15
= .
Como o tamanho da amostra 2 = n e o tamanho da populao 4 = N ,
verificamos que N n 05 . 0 > . Assim devemos aplicar o fator de correo,
encontrando
1

=
N
n N
n
x

. De fato:

46

=
=
=
=
=
=

=
3
5
9
5 3
3 3 3
3 15
3 3
15
3
2
2
3
15
1 4
2 4
2
3
15
1 N
n N
n
x


47
Exerccios:
1) (Triola) Na engenharia humana e no projeto de produtos, freqentemente
importante considerar os pesos das pessoas, de modo que no haja sobrecarga em
avies ou elevadores, as cadeiras no quebrem, e no ocorram outros
acontecimentos perigosos ou embaraosos. Dado que a populao de homens tem
pesos distribudos normalmente com mdia de 173 lb e desvio-padro de 30 lb (com
base em dados do National Health Survey dos EUA), determine a probabilidade de
que:

a) Um homem escolhido aleatoriamente pese mais de 180 lb;
b) Em 36 homens escolhidos aleatoriamente, o peso mdio seja superior a 180
lb.
c) Refaa a letra (b) supondo a populao de homens igual a 500 = N .

2) Uma companhia eletrnica fabrica resistores que tm uma resistncia mdia de
100 ohms e um desvio-padro de 10 0hms. A distribuio de resistncias normal.
Encontre a probabilidade de uma amostra aleatria de 25 resistores ter uma
resistncia mdia menor que 95 ohms.

3) Uma populao consiste nos valores 2, 3, 6, 8, 11, 18.

a) Determine e ;
b) Relacione todas as amostras de tamanho 2 = n que podem ser obtidas sem
reposio;
c) Determine a populao de todos os valores de x achando a mdia de cada
amostra da parte (b);
d) Ache a mdia
x
e o desvio-padro
x
;
e) Verifique que

=
x
e
1

=
N
n N
n
x



48
4) O calor liberado, em calorias por grama, de uma mistura de cimento tem
distribuio aproximadamente normal. A mdia deve ser 100 e o desvio-padro 2.
Desejamos testar

100 :
100 :
1
0

H
H


com uma amostra de tamanho 9 espcimes.

Suponha que a regio de aceitao definida como 5 , 101 5 , 98 X . Encontre a
probabilidade do erro tipo 1 ocorrer.

5) (Stevenson) Um fabricante de baterias alega que seu artigo de primeira categoria
tem uma vida mdia de 50 meses. Sabe-se que o desvio-padro correspondente
de 4 meses. Coleta-se uma amostra de tamanho 36. Que porcentagem destas
amostras acusar vida mdia no intervalo de 1 ms em torno de 50 meses,
admitindo ser 50 meses a verdadeira vida mdia das baterias?

49
Estimador de Mxima Verossimilhana

Um dos melhores mtodos de obter um estimador de um parmetro o mtodo da
mxima verossimilhana. Essa tcnica foi desenvolvida nos anos de 1920 pelo
famoso estatstico britnico Sir R. A. Fisher. Como o nome implica, o estimador ser
o valor do parmetro que maximiza a funo verossimilhana.

Suponha que X seja uma varivel aleatria com distribuio de probabilidade
( ) , x f , em que um nico parmetro desconhecido. Sejam
n
x x x , , ,
2 1
K os
valores observados na amostra aleatria de tamanho n . Ento, a funo
verossimilhana da amostra

( ) ( ) ( ) ( ) , , ,
2 1 n
x f x f x f L = L

O estimador de mxima verossimilhana aquele que maximiza a funo de
verossimilhana.

Passos para se encontrar o estimador de mxima verossimilhana:

1) Encontrar a funo de verossimilhana ) ( L ;
2) Calcular ) ( ln ) ( L l = ;
3) Calcular ) (

l
d
d
;
4) Igualar 0 ) ( =

l
d
d
e resolver em relao ao parmetro escolhido.

Obs.: A funo de verossimilhana da amostra ( ) L apenas a probabilidade

( )
n n
x X x X P = = , ,
1 1
K

50
Exemplo:

Seja X normalmente distribuda, com mdia desconhecida e varincia
2

conhecida. Qual o estimador de mxima verossimilhana para a mdia
considerando uma amostra de tamanho n ?

Sugesto: Utilize ( )
( )
2
2
2
2
1
,

=
x
e x f

Exerccios de estimadores
1) Seja X exponencialmente distribuda com parmetro . A funo de mxima
verossimilhana de uma amostra aleatria de tamanho n,
n
x x x , , ,
2 1
K ?
Considere a funo exponencial como
x
e



2) Refaa o exerccio da distribuio normal considerando conhecido e
encontre o estimador para a varincia
2
.
3) Seja X uma varivel aleatria, com a seguinte distribuio de probabilidade
( )
( )

+
=
contrario caso
x x
x f
, 0
1 0 , 1
,


A funo de mxima verossimilhana para o estimador , considerando uma
amostra aleatria de tamanho n,
n
x x x , , ,
2 1
K ?

Exerccios de reviso

1) Uma amostra aleatria de 200 possuidores de carto de crdito mostra que o
dbito mdio anual nesses cartes, para contas individuais, de $1592, com
desvio-padro de $997. Construa o intervalo de 94% de confiana para o
dbito mdio anual em cartes de crdito para a populao de todas as
contas.
51
2) 470 430 < < um intervalo de 95% de confiana para as vidas (em minutos)
de pilhas Kodak AA. Suponha que este resultado se baseie em uma amostra
de tamanho 100.
a) Construa o intervalo de 99% de confiana;
b) Qual o valor da mdia amostral?
c) Qual o valor do desvio-padro amostral?
d) Se se obtm com os mesmos dados o intervalo de confiana
468 432 < < , qual o grau de confiana?
3) Construa um intervalo de 98% de confiana para a renda mdia de todos os
empregados de tempo integral que tm grau de bacharel. Uma amostra de 25
desses empregados revelou que a distribuio das rendas
aproximadamente normal, com mdia $39.271 e desvio-padro de $18.933.
4) Uma pesquisa de mercado para a Ford Motor Company revela que uma
amostra de 1220 residncias selecionadas aleatoriamente inclui 1054 que
possuem um veculo. Com base nesses resultados, construa um intervalo de
98% de confiana para a porcentagem de todas as residncias que possuem
um veculo.
5) Os valores relacionados so tempos de espera (em minutos) de clientes no
Jefferson Bank, onde os clientes entram em uma fila nica que atendida por
trs guichs. Construa um intervalo de 95% de confiana para o desvio-
padro populacional.

6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7


52
Regresso Mltipla

Este material foi retirado do livro: Estatstica Aplicada e Probabilidade para
Engenheiros. Douglas C. Montgomery & George C. Runger.

1. Definio:

Uma equao de regresso linear mltipla expressa um relacionamento entre
uma varivel dependente ou de resposta,
i
y , e as variveis independentes ou
regressoras ( )
ik i i
x x x , , ,
2 1
K .

O modelo de regresso linear mltiplo com k variveis definido por:

i ik k i i i
x x x y + + + + + = L
2 2 1 1 0

i
k
j
ij j i
x y + + =

=1
0

Onde n i , , 2 , 1 K = e k n >
Notao:

n : tamanho da amostra;
k : nmero de variveis independentes;
y : valor predito da varivel dependente;
ik i i
x x x , , ,
2 1
K : variveis independentes;
k
, , , ,
2 1 0
K : coeficientes de regresso;

: erro.

O parmetro
j
representa a variao esperada na resposta y por unidade
de variao unitria em
j
x quando todos os outros regressores restantes ( ) j i x
i

forem mantidos constantes.

Exemplo:
53
a)
2 1
01253 , 0 74427 , 2 26379 , 2 x x y + + =
;


2. Estimao de Mnimos Quadrados dos Parmetros

O mtodo dos mnimos quadrados pode ser usado para estimar os
coeficientes de regresso no modelo de regresso mltipla.
O objetivo minimizar a funo

= =
=
|
|

\
|
=
=
n
i
k
j
ij j i
n
i
i
x y
L
1
2
1
0
1
2


Queremos minimizar a funo
L
com relao a k
, , , ,
2 1 0
K
. As
estimativas de mnimos quadrados tm de satisfazer

0

2
1 1
0 0
, ,

0
2 1 0
=
|
|

\
|
=


= =
n
i
k
j
ij i
x y
L
k

K
(1)
e

k j x x y
L
ij
n
i
k
j
ij i
j
k
, , 2 , 1 , 0

2
1 1
0 0
, ,

2 1 0
K
K
= =
|
|

\
|
=


= =


(2)


Simplificando as equaes (1) e (2), obtemos as equaes normais de
mnimos quadrados:

54

=
=
=
+ +
=
+
=
+

=
=
=
+ +
=
+
=
+

=
=
=
+ +
=
+
=
+

=
=
n
i
i
y x
n
i
x
k
n
i
i
x x
n
i
x x x
n
i
i
y x
n
i
ik
x x
k
n
i
i
x x
n
i
x x
n
i
i
y
n
i
ik
x
k
n
i
i
x
n
i
i
x n
ik ik ik i ik
n
i
ik
i i i i
n
i
i
1 1

1
2 2

1
1

1 1

1
2 2

1
1

1 1

1
2 2

1
1 1

2
1
1
1 1 1
2
1
1
1



K
M M M M M
K
K



Note que h
1 + = k p
equaes normais, uma para cada um dos coeficientes
desconhecidos da regresso. A soluo para as equaes normais sero os
estimadores de mnimos quadrados.

Exemplo 1: Os dados referem-se a resistncia trao de um fio colado, em um
processo de fabricao de semicondutores, do comprimento do fio e da altura da
garra.
Nmero da
observao
Resistncia
trao
y

Comprimento
do fio
1
x

Altura da garra
2
x

1 9,95 2 50
2 24,45 8 110
3 31,75 11 120
4 35 10 550
5 25,02 8 295
6 16,86 4 200
7 14,38 2 375
8 9,60 2 52
9 24,35 9 100
10 27,50 8 300
11 17,08 4 412
12 37 11 400
13 41,95 12 500
55
14 11,66 2 360
15 21,65 4 205
16 17,89 4 400
17 69 20 600
18 10,30 1 585
19 34,93 10 540
20 46,59 15 250
21 44,88 15 290
22 54,12 16 510
23 56,63 17 590
24 22,13 6 100
25 21,15 5 400

Ajustaremos o modelo

i i i
x x y + + + =
2 2 1 1 0


De acordo com a tabela temos:

71 , 816 . 274 ; 47 , 008 . 8 ; 177 . 77
848 . 531 . 3 ; 396 . 2 ; 294 . 8
206 ; 82 , 725 ; 25
25
1
2
25
1
1
25
1
2 1
25
1
2
2
25
1
2
1
25
1
2
25
1
1
25
1
= = =
= = =
= = =



= = =
= = =
= =
i
i i
i
i i
i
i i
i
i
i
i
i
i
i
i
i
i
y x y x x x
x x x
x y n


Para o modelo a ser ajustado as equaes normais so:

=
=
=
+
=
+

=
=
=
+
=
+

=
=
=
+
=
+

=
=
n
i
i
y x
n
i
x
n
i
x x x
n
i
i
y x
n
i
i
x x
n
i
x x
n
i
i
y
n
i
i
x
n
i
i
x n
i i i i
n
i
i
i i i
n
i
i
1 1
2

1
1

1 1
2 2

1
1

1 1
2 2

1
1 1

2
2
2 2 1
1
2
1 1
2
1
1
1




56

Substituindo as somas temos:

71 , 816 . 274
2

848 . 531 . 3
1

177 . 77
0

294 . 8
47 , 008 . 8
2

177 . 77
1

396 . 2
0

206
82 , 725
2

294 . 8
1

206
0

25
= + +
= + +
= + +





A soluo encontrada :

2 1
01253 , 0 7442 , 2 26379 , 2 x x y + + =
3. Abordagem matricial para a regresso linear mltipla

O modelo de regresso um sistema de
n
equaes, que pode ser expresso
na notao matricial

+ = X y

onde

(
(
(
(

=
(
(
(
(

=
(
(
(
(

=
(
(
(
(

=
n k nk n n
k
k
n
x x x
x x x
x x x
X
y
y
y
y

M M
K
M M M M
K
K
M
2
1
1
0
2 1
2 22 21
1 12 11
2
1
; ;
1
1
1
;


As equaes normais do modelo so:

y X X X
' '

=

' X representa a transposta da matriz X .

A estimativa de mnimos quadrados :

( ) y X X X
'
1
'


=


57
4. Estimativa da varincia

A estimativa da varincia obtida atravs do estimador no-tendencioso

p n
SQ
p n
E
n
i
i

=1
2
2


onde

( ) '
1 1
2 2
= = =

= =
n
i
n
i
i i i E
y y SQ


No denominador temos
p n
que denominado graus de liberdade do erro
ou do resduo.

5. Testes de hipteses para a regresso linear mltipla

5.1. Teste para a significncia da regresso

O teste para a significncia da regresso um teste para determinar se existe
uma relao linear entre as variveis de resposta e as regressoras.
As hipteses so:

= = = =
j um mnimo no para H
H
j
k
0 :
0 :
1
2 1 0

K

A estatstica de teste dada por:

( )
E
R
E
R
MQ
MQ
p n
SQ
k
SQ
F =

=
0


onde
58

(
(
(
(
(
(

|
|

\
|

|
|

\
|
=

= =
n
y
y X
n
y
y y SQ
n
i
i
n
i
i
E
2
1
2
1
' '

'
n
y
y X SQ
n
i
i
E
2
1
' '

|
|

\
|
=


Podemos tambm usar o
2
R
e o
2
R
ajustado como uma estatstica global
para avaliar o ajuste do modelo. Assim temos:

( )
( ) 1
1
2

=
n
SQ
p n
SQ
R
T
E
ajustado


5.2. Testes para os coeficientes individuais de regresso e subconjuntos de
coeficientes

As hipteses para testar se um coeficiente individual de regresso, como
j

,

igual a um dado valor
0 j

=
0 1
0 0
:
:
j j
j j
H
H



A estatstica de teste dada por:

jj
j j
C
T
2
0
0


=



59
6. Intervalos de confiana para a regresso linear mltipla

Um intervalo de confiana de
( )% 1 100 para o coeficiente de regresso
k j
j
, , 2 , 1 , 0 , K = no modelo de regresso linear mltipla dado por:

jj p n j j jj p n j
C t C t
2
, 2
2
, 2



+


7. Previso de novas observaes

Um intervalo de previso de
( )% 1 100 para uma futura observao dado
por:

( ) ( ) ( ) ( )
0
1 '
0
2
, 2 0 0 0
1 '
0
2
, 2 0
' 1 ' 1 x X X x t y Y x X X x t y
p n p n

+ + +



8. Uso computacional

Podemos utilizar vrios softwares para fazer a regresso mltipla: R, SPSS,
Excel, Minitab, etc.
A seguir apresentamos os resultados do exemplo 1, inicial, usando o Excel:


RESUMO DOS RESULTADOS
Estatstica de regresso
R mltiplo 0,990523843
R-Quadrado 0,981137483
R-quadrado ajustado 0,979422709
Erro padro 2,288046833
Observaes 25

Anlise:
R-quadrado ajustado d o grau de relacionamento linear mltiplo, 0,979422709.
Ele leva em considerao o tamanho da amostra e o nmero de variveis.
60
Observaes apresenta o tamanho da amostra, 25.

61

ANOVA
gl SQ MQ F F de significao
Regresso 2 5990,771221 2995,386 572,1671503 1,07546E-19
Resduo 22 115,1734828 5,235158
Total 24 6105,944704
Anlise:
A estimativa da varincia dada por
p n
SQ
p n
E
n
i
i

=1
2
2


Na tabela acima esta estimativa dada por MQ do resduo, 5,235158. Ele
corresponde a soma dos quadrados, SQ, do resduo dividido pelo grau de liberdade,
gl, do resduo.
No F de significao temos o teste de hiptese para verificar se o modelo
linear mltiplo bem ajustado. Neste caso basta que seu valor seja menor
que o nvel de significncia.

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 2,263791434 1,060066238 2,135519 0,04409945 0,065348623 4,462234246
Varivel X 1 2,744269643 0,093523844 29,34299 3,90691E-19 2,550313062 2,938226225
Varivel X 2 0,012527811 0,002798419 4,476746 0,000188266 0,006724246 0,018331377

Anlise:
Na tabela acima temos vrios resultados e testes. Entre eles temos os valores
dos coeficientes da interseo, 2,263791434 , da varivel X1, 2,744269643, e da
varivel X2, 0,012527811.
Tambm testamos se cada coeficiente significativo, ou seja, se ele ser ou
no acrescentado ao modelo. Neste caso s observar na coluna do valor-P.
Caso este valor seja menor que o nvel de significncia ento o coeficiente
significativo, isto , utilizado no modelo.
Valor-P para Interseo: 0,04409945
Valor-P para varivel X1: 3,90691E-19
Valor-P para varivel X2: 0,000188266
Temos tambm o intervalo de confiana para cada coeficiente. Neste caso
s observar seus limites inferiores, na coluna 95% inferiores, e limites
62
superiores, na coluna 95% superiores. Estes valor de 95% definido na hora
de construo do modelo, podendo variar.

Intervalo de confiana para a interseo: [ 0,065348623, 4,462234246]
Intervalo de confiana para a varivel X1: [2,550313062, 2,938226225]
Intervalo de confiana para a varivel X2: [0,006724246, 0,018331377]

RESULTADOS DE RESDUOS
Observao Y previsto Resduos
1 8,37872129 1,57127871
2 25,59600783 -1,146007833
3 33,95409488 -2,204094876
4 36,59678413 -1,596784129
5 27,91365294 -2,893652939
6 15,74643228 1,113567716
7 12,45025999 1,92974001
8 8,403776913 1,196223087
9 28,21499936 -3,864999362
10 27,976292 -0,476291996
11 18,4023283 -1,322328298
12 37,46188206 -0,461882064
13 41,45893285 0,491067154
14 12,26234282 -0,60234282
15 15,80907134 5,840928659
16 18,25199456 -0,361994562
17 64,66587113 4,334128869
18 12,33683074 -2,036830738
19 36,47150602 -1,541506015
20 46,55978893 0,030211071
21 47,06090138 -2,180901385
22 52,56128953 1,558710467
23 56,30778409 0,322215913
24 19,98219043 2,147809568
25 20,9962642 0,153735795

Anlise:
Na tabela acima temos os resduos do modelo, y y = .

63
Exemplo:

1) A energia eltrica consumida mensalmente por uma indstria qumica est
relacionada temperatura mdia ambiente ( )
1
x , ao nmero de dias no ms
( )
2
x , pureza mdia do produto ( )
3
x e s toneladas do produto produzido
( )
4
x . Os dados histricos do ano passado esto disponveis e so
apresentados na tabela a seguir:

y
1
x
2
x
3
x
4
x
240 25 24 91 100
236 31 21 90 95
270 45 24 88 110
274 60 25 87 88
301 65 25 91 94
316 72 26 94 99
300 80 25 87 97
296 84 25 86 96
267 75 24 88 110
276 60 25 91 105
288 50 25 90 100
261 38 23 89 98

Faa:

a) Encontre a reta de regresso;
b) Calcule a estimativa da varincia;
c) Teste a significncia da regresso;
d) Teste os coeficientes;
e) Encontre um intervalo de confiana de 95% para o coeficiente
0
e
1
da
regresso;

64
2) Um estudo foi realizado sobre o desgaste de um mancal, y , e sua relao
com
1
x a viscosidade do leo e
2
x carga. Os dados so o seguinte:

y
1
x
2
x
293 1,6 851
230 15,5 816
172 22 1058
91 43 1201
113 33 1357
125 40 1115

Faa:

a) Encontre a reta de regresso;
b) Calcule a estimativa da varincia;
c) Teste a significncia da regresso;
d) Teste os coeficientes;
e) Encontre um intervalo de confiana de 95% para o coeficiente
0
e
1
da
regresso;




65
Experimentos Multinomiais

Observao: O contedo a seguir foi preparado utilizando o livro Introduo
Estatstica. Autor: M. F. Triola.
Neste tpico usaremos a distribuio qui-quadrado,
2
, como estatstica de teste.

Propriedades:
1. Ao contrrio das distribuies normal e t de Student, a distribuio qui-
quadrado no simtrica;
2. Os valores da distribuio qui-quadrado podem ser 0, zero, ou positivos, mas
nunca negativos;
3. H uma distribuio qui-quadrado diferente para cada nmero de graus de
liberdade, 1 = n GL .
Definio:

Um experimento multinomial um experimento que verifica as seguintes
condies:
1. O nmero de provas fixo;
2. As provas so independentes;
3. Todos os resultados de cada prova devem ser classificados em
exatamente uma dentre vrias categorias;
4. As probabilidades para as diferentes categorias permanecem
constantes (as mesmas) em cada prova.

66
A seguir apresentaremos um teste de aderncia. Ele utilizado para testar a
afirmao de que, em um experimento multinomial, as freqncias observadas nas
diferentes categorias se ajustam a determinada distribuio.
Exemplos:
1) Os confeitos M&M apresentam a seguinte distribuio de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul.
2) comum a crena de que ocorre um maior nmero de acidentes fatais com
automveis em determinados dias da semana, como sexta-feira ou sbado.
3) O gerente de determinado supermercado deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender demanda dos
consumidores, sem que haja perda de sabores menos procurados.
Definio:

Utiliza-se um teste de aderncia para testar a hiptese de que uma
distribuio de freqncias observadas se ajusta (ou adere) a determinada
distribuio terica.


Notao:

O : representa a freqncia observada de um resultado;

E : representa a freqncia esperada de um resultado;

k : representa o nmero de categorias, ou resultados, diferentes;

n : representa o nmero total de provas.

Em situao tpica podemos encontrar a freqncia esperada, E, multiplicando a
probabilidade p de uma categoria pelo nmero de provas diferentes:
np E =
Suposies:
67
Segue as suposies vlidas ao testarmos a proporo populacional alegada para
cada uma das k categorias ( em um experimento multinomial)
1) Os dados constituem uma amostra aleatria;
2) Os dados amostrais consistem em categorias de freqncias para as k
categorias diferentes;
3) Para cada uma das k categorias, a freqncia esperada , no mnimo, 5.
(No h qualquer exigncia de que cada freqncia observada seja no
mnimo igual a 5.)
Estatstica de teste de Aderncia

( )


=
E
E O
2
2


Valores Crticos:

1. Na tabela A 4 encontram-se os valores crticos, tomando-se 1 k
graus de liberdade;
2. Os testes de hiptese de aderncia so sempre unilaterais direita.


68

Exemplo:
1) Os confeitos M&M apresentam a seguinte distribuio de cores: 30% marrons,
20% amarelo, 20% vermelho, 10% laranja, 10% verde e 10% azul. A seguir
apresentamos os dados amostrais.
Tabela: Frequncia dos confeitos M&M
Marron Amarelo Vermelho Laranja Verde Azul
Frequncia
Observada
33 26 21 8 7 5

Teste a afirmao de que a distribuio de cores a afirmada acima. Use nvel de
significncia 5%.
Soluo:
Marron Amarelo Vermelho Laranja Verde Azul
Frequncia
Observada
33 26 21 8 7 5
Frequncia
esperada
30 20 20 10 10 10

Temos que:
Para os confeitos marron: 30 30 , 0 100 = = = np E

Analogamente construmos as freqncias esperadas.
O teste a ser feito :
alegado valor do diferente acima propores das uma menos pelo H
p
p
p
p
p
p H
azul
verde
laranja
vermelho
amarelo
marron
:
10 , 0
10 , 0
10 , 0
20 , 0
20 , 0
30 , 0 :
1
0
=
=
=
=
=
=


Clculo da estatstica de teste:
69

Frequncia
observada
Frequncia
esperada
E O
( )
2
E O
( )
E
E O
2


Marron 33 30 3 9 0,3000
Amarelo 26 20 6 36 1,8000
Vermelho 21 20 1 1 0,0500
Laranja 8 10 -2 4 0,4000
Verde 7 10 -3 9 0,9000
Azul 5 10 -5 25 2,5000

Assim
( )
9500 , 5
2
2
=

E
E O


O valor crtico 11,071.
Como a estatstica de teste < valor crtico, 5,9500<11,071, ento no rejeitamos
0
H .
Exerccios:
1) Fez-se um estudo de 147 acidentes industriais que exigiram tratamento
mdico. Desses acidentes, 31 ocorreram na segunda-feira, 42 na tera-feira,
18 na quarta-feira, 25 na quinta-feira e 31 na sexta-feira.
Teste a afirmao de que os acidentes ocorrem com a mesma proporo nos
cinco dias da semana.
2) O gerente do Supermercado Gleason deve decidir a quantidade de cada
sabor de sorvete que deve estocar a fim de atender demanda dos
consumidores, sem que haja perda de sabores menos procurados. O
fornecedor de sorvete afirma que, entre os sabores mais populares, os
clientes tm as seguintes preferncias: 62% preferem baunilha, 18% preferem
chocolate, 12% preferem napolitano e 8% preferem baunilha com calda.
Uma amostra de 200 clientes acusou os resultados a seguir. Teste se o
fornecedor identificou corretamente as preferncias dos consumidores. Use
nvel de significncia de 5%.

Sabor Baunilha Chocolate Napolitano Baunilha em calda
Clientes 120 40 18 22

70
3) Com nvel de significncia de 0,05 e os dados de acidentes industriais do
exerccio 1, teste a afirmao de um tcnico de segurana de que os
acidentes se distribuem pelos dias teis como se segue: 30% na segunda-
feira, 15% na tera, 15% na quarta, 20% na quinta e 20% na sexta.



71
Tabela de Contingncia

Observao: O contedo a seguir foi preparado utilizando o livro Introduo
Estatstica. Autor: M. F. Triola.
Definio:

Uma tabela de contingncia (ou tabela de freqncia de dupla entrada) uma
tabela em que as freqncias correspondem a duas variveis. (Uma varivel
categoriza as linhas, a outra categoriza as colunas)

As tabelas de contingncias so de grande importncia pois so utilizadas para
analisar resultados de pesquisas.
Usaremos um teste, chamado teste de independncia, usado para determinar se
uma varivel linha de uma tabela de contingncia independente de sua varivel
coluna.

Definio:

Utiliza-se um teste de independncia para testar a hiptese nula de que a
varivel linha e a varivel coluna em uma tabela de contingncia no esto
relacionadas, isto , so independentes.

Obs.: No contexto deste material a palavra contingncia se refere a dependncia,
mas trata-se apenas de uma dependncia estatstica, e no pode ser usada para
estabelecer uma ligao direta de causa e efeito entre as duas variveis.
Hipteses em um teste de independncia

s dependente so iveis as H
tes independen so iveis as H
var :
var :
1
0

72

Suposies:
4) Os dados constituem uma amostra aleatria;
5) Para cada clula na tabela de contingncia, a freqncia esperada , no
mnimo, 5. (No h qualquer exigncia de que cada freqncia observada
seja no mnimo igual a 5.)
Estatstica de teste

( )


=
E
E O
2
2


Valores Crticos:

3. Na tabela A 4 encontram-se os valores crticos, tomando-se graus de
liberdade
( )( ) 1 1 = c r gl
onde:

r: nmero de linhas
c: nmero de colunas.

4. Os testes de hiptese de independncia com tabelas de contingncia
envolvem apenas regies crticas unilaterais direita.


Freqncia esperada para uma tabela de contingncia
( )( )
geral total
colunas total linhas total
E =

73

Exemplo:
2) (Livro Estatstica Aplicada Gesto Empresarial Adriano L. Bruni) Os dados
a seguir referem-se ao cruzamento entre as variveis: possui habilitao e
sexo, de 53 funcionrios de um escritrio de contabilidade.
Tabela: Sexo versus Habilitao

Habilitado
Sim No Total
Feminino 9 12 21
Masculino 25 7 32
Total 34 19 53

Teste se as variveis so independentes. Use nvel de significncia 5%.
Soluo:
O teste a ser feito :

s dependente so iveis as H
tes independen so iveis as H
var :
var :
1
0

Clculo das freqncias esperadas.

Habilitado
Sim No
Feminino 47 , 13
53
34 21
=

53 , 7
53
19 21
=


Masculino 53 , 20
53
34 32
=

47 , 11
53
19 32
=



74

Clculo da estatstica de teste:

Habilitado
Sim No
Feminino
( )
483 , 1
47 , 13
47 , 13 9
2
=


( )
654 , 2
53 , 7
53 , 7 12
2
=


Masculino
( )
973 , 0
53 , 20
53 , 20 25
2
=


( )
742 , 1
47 , 11
47 , 11 7
2
=



Assim
( )
852 , 6 742 , 1 973 , 0 654 , 2 483 , 1
2
2
= + + + =

=

E
E O


Graus de liberdade:
( )( ) ( )( ) 1 1 2 1 2 1 1 = = = c r gl
Valor crtico: 841 , 3
2
=
Como a estatstica de teste > valor crtico, 6,852 > 3,841, ento no rejeitamos
0
H .
Logo as variveis so independentes.
Exerccios:
1) A tabela a seguir apresenta os resultados de 1580 dados amostrais entre a
causa de morte e condio da pessoa.

Causa da Morte
Ferimento
acidental
Doena
Homicdio
Ou Suicdio
Em zona de combate 115 56
29
Fora da zona de combate 175 94
31

2) (Triola) Fez-se uma pesquisa para determinar se h restries, quanto ao
sexo, na confiana que o povo deposita na polcia. Os resultados amostrais
constam da tabela a seguir. Com nvel de 0,05 de significncia, teste a
afirmao de que no h tal restrio.

Confiana na polcia
Muita Alguma Muito pouca ou
75
nenhuma
Homens 115 56
29
Mulheres 175 94
31
Fonte: Ministrio da Justia dos EUA e da Gallup Organization
3) (Triola) A tabela a seguir relaciona resultados de uma pesquisa obtidos de
uma amostra aleatria de vtimas de diferentes crimes. Com nvel de 0,05 de
significncia, teste a afirmao de que o tipo de crime independente do fato
de o criminoso ser um estranho.

Tipo de crime
Homicdio Roubo Assalto
Criminoso era um estranho 12 379
727
Criminoso era conhecido ou
parente
39 106
642

76

Resduos Padronizados
Definio
Os resduos (diferenas entre freqncia observada e esperada) numa forma
padronizada, ou seja, expressos em unidades de desvios-padro dado por

|

\
|
|

\
|

=
TG
TL
TG
TC
E
E O
Z
res
1 1

onde:
O: freqncia observada;
E: freqncia esperada;
TC: total de colunas;
TL: total de linhas;
TG: total geral.

Os resduos padronizados representam valores de relao biunvoca com
probabilidades de ocorrncia, valores maiores que 1,96 ou menores que -1,96 tm
pequenas chances de ocorrncia, e podem assim instruir pontos de corte para um
nvel de significncia de excesso ou falta de ocorrncias, respectivamente.
Exemplo: Voltando ao exemplo 1, temos:
Tabela: Sexo versus Habilitao

Habilitado
Sim No Total
Feminino 9 12 21
Masculino 25 7 32
Total 34 19 53


A freqncia esperada dada por:

Habilitado
Sim No
Feminino
47 , 13 53 , 7
77
Masculino
53 , 20 47 , 11

Os resduos dado por:
|

\
|
|

\
|

=
TG
TL
TG
TC
E
E O
Z
res
1 1


Habilitado
Sim No
Feminino
62 , 2
53
21
1
53
34
1 47 , 13
47 , 13 9
=
|

\
|
|

\
|

62 , 2
53
21
1
53
19
1 53 , 7
53 , 7 12
=
|

\
|
|

\
|


Masculino
62 , 2
53
32
1
53
34
1 53 , 20
53 , 20 25
=
|

\
|
|

\
|

62 , 2
53
32
1
53
19
1 47 , 11
47 , 11 7
=
|

\
|
|

\
|



Anlises:
1) Verificamos inicialmente que o mdulo da diferena entre as freqncias
observadas e esperadas so iguais para todas as clulas. Neste caso no
podemos dizer qual das clulas mais influenciou para o resultado da
estatstica de teste;
2) Analisando os resduos vemos tambm que eles so, em mdulos, iguais.
Considerando um nvel de significncia de 5%, onde o valor crtico seria
1,96, percebemos que ambos os resduos so superiores a este valor. Isto
indica que todos os resultados so igualmente pouco provveis. Sendo assim
elas so significantes. Neste caso no h nenhuma freqncia que causasse
maior impacto, todas tiveram o mesmo impacto.
3) No podemos dizer o que valor 25, na tabela de contingncia, indicasse que o
nmero de homens habilitados seria de maior impacto.


78
Introduo a Sries Temporais

Definio

Uma srie temporal consiste em um conjunto de observaes de
variveis quantitativas coletadas ao longo do tempo.

Exemplos:
1) Vendas mensais de uma fbrica de sorvete;
2) Preo semanal de gasolina;
3) Evoluo do preo dirio de uma ao ao longo do tempo;
4) Temperatura diria em uma cidade.
As sries temporais podem englobar dados dirios, semanais, mensais, etc. Neste
caso a ordem dos dados fundamental.
Os modelos de anlise de sries temporais geralmente preocupam-se em estimar o
comportamento futuro de uma srie, com base em seus dados passados.
Genericamente, os modelos de previso empregados em sries temporais podem
ser apresentados da seguinte forma:
( ) K , , ,

2 1 1 +
=
t t t t
Y Y Y f Y


Componentes de sries temporais
a) Tendncia: descreve um movimento suave, a longo prazo, dos dados, para
cima ou para baixo.
b) Variaes cclicas: correspondem a um certo grau de regularidade a longo
prazo (1 ano, dez anos, 50 anos) no comportamento das sries temporais.
Exemplo: aumento das vendas de bandeira do Brasil em funo da copa do
mundo de futebol.
c) Variaes sazonais: representam regularidades de variaes na srie em
perodos curtos de tempo (semanas, dias, quinzenas, meses, etc), geralmente
dentro de um ano. Exemplo: vendas de ovos de pscoa nos meses de maro
e abril.
79
d) Variaes irregulares ou aleatrias: correspondem a rudos na srie temporal
em decorrncia de fatores variados. Como so aleatrios no so previstos
no modelo.
Exemplos:

Uma srie dita estacionria se ela for convergente. Ela flutua em torno de um
ponto.
Uma srie dita no-estacionria se ela for divergente. Neste caso ela tem raiz
unitria. Uma opo para tornar a srie estacionria aplicar o operador diferena.
80

Exemplo:
1) Dados fictcios
Quadrimestre Periodo Y
1998 1 6,7
1998 2 4,4
1998 3 5,8
1998 4 6,2
1999 1 2,1
1999 2 0,1
1999 3 0,8
1999 4 1,5
2000 1 6
2000 2 3,9
2000 3 4,9
2000 4 4,7
2001 1 12,9
2001 2 10,9
2001 3 11,4
2001 4 11,9
2002 1 8,3
2002 2 5,4
2002 3 6,4
2002 4 6,8
2003 1 11,6
2003 2 9,7
2003 3 10,6
2003 4 11,2
2004 1 19,3
2004 2 16,2
2004 3 17,6
2004 4 18,3
2005 1 13,8
2005 2 11,5
2005 3 12,2
2005 4 12,6

81

2) Para ilustrar dados envolvendo sazonalidade considere a venda de
sorvete:
Ano Quadrimestre
1
Quadrimestre
2
Quadrimestre
3
Total
1998 170 250 180 600
1999 174 245 186 605
2000 168 262 168 598
2001 182 260 160 602
2002 154 240 210 604
Total 848 1257 904 3009


1) Para ilustrar dados envolvendo sazonalidade com mdias mveis considere a
demanda de calados
82
Quadrimestre Demanda
2000:1 11
2000:2 12
2000:3 13
2001:1 19
2001:2 18
2001:3 19
2002:1 26
2002:2 24
2002:3 25


Modelos:
1) Mdias mveis simples
Os modelos de mdias mveis simples sugerem que a estimativa do valor futuro
1

+ t
Y pode ser feita com base em uma mdia aritmtica simples de k valores
passados. Assim,
k
Y Y Y Y
Y
k t t t t
t
1 2 1
1

+
+
+ + + +
=
K

2) Mdias mveis ponderados
No modelo de mdias mveis ponderadas deve-se atribuir um peso para cada ano
analisado. Assim,
1 2 3 1 2 1 1

+ +
+ + + + =
k t k t t t t
Y w Y w Y w Y w Y K

Onde
i
w : pesos

83
Geralmente, dados mais recentes recebem maior ponderao.
3) Alisamento exponencial
A previso feita para o perodo posterior
1

+ t
Y deve ser igual previso feita para o
perodo anterior
t
Y

, acrescido de um ajuste ( ) [ ]
t t
Y Y

, funo do erro da previso
efetuada para o perodo anterior. O valor de deve estar compreendido entre 0 e 1.
Algebricamente temos:
( )
t t t t
Y Y Y Y

1
+ =
+

Expandindo a expresso anterior encontramos:
( ) ( ) ( )
n t
n
t t t t
Y Y Y Y Y
+
+ + + + = 1 1 1

2
2
1 1
K

Para poder aplicar o modelo, assume-se que, no primeiro ano, o valor estimado o
prprio valor realizado.
4) Tendncia com modelo de regresso
Neste modelo utiliza-se a regresso linear simples onde
bx a y + =

onde
( ) ( )( )
( ) ( )
2
2

=
x x n
y x xy n
b

n
x b y
a


=

Anlise da qualidade da previso
1) Desvio mdio absoluto: representa a soma dos desvios absolutos,
representados pelo mdulo da diferena ou diferena absoluta entre a
demanda real e a prevista.

=
n
i
i i
n
Y Y
DMA
1


2) Erro quadrtico mdio: representa a soma dos desvios ao quadrado,
representados pela diferena entre a demanda real e a prevista.
( )

=
n
i
i i
n
Y Y
EQM
1
2


Exemplo:
84
1) Considere o histrico de vendas a seguir
Ms Vendas
Jan 92
Fev 83
Mar 66
Abr 74
Mai 75
Jun 84
Jul 84
Ago 81
Set 75
Out 63
Nov 91
Dez 84

Calcule, utilizando a mdia mvel dos ltimos 3 meses.

a) a previso para o ms de janeiro seguinte
b) Desvio mdio absoluto
c) Erro quadrtico mdio
Soluo:
a) Considerando a mdia dos 3 anteriores meses temos
33 , 79

3
84 91 63

=
+ +
=
+ +
=
janeiro
janeiro
dez nov out
janeiro
Y
Y
Y Y Y
Y

b) Completando a tabela com as previses temos:
Ms Vendas
Y
Previso
Y


Y Y


( )
2

Y Y
Jan 92
Fev 83
Mar 66
Abr 74 80,33 6,33 40,0689
Mai 75 74,33 0,67 0,4489
Jun 84 71,67 12,33 152,0289
Jul 84 77,67 6,33 40,0689
Ago 81 81 0 0
Set 75 83 8 64
Out 63 80 17 289
Nov 91 73 18 324
Dez 84 76,33 7,67 58,8289
Logo
85
481 , 8
9
33 , 76

1
= =

=
n
i
i i
n
Y Y
DMA

c) O erro quadrtico mdio ser
( )
605 , 107
9
4445 , 968

1
2
= =

=
n
i
i i
n
Y Y
EQM

2) Refaa o exemplo anterior utilizando a mdia mvel ponderada com pesos
0.3, 0.4 e 0.5 para o terceiro, segundo e primeiro ms anterior,
respectivamente.
3) A previso antiga da demanda do composto RK era de 100 unidades. A ltima
demanda real foi de 85 unidades. Qual a previso exponencialmente
nivelada para o prximo perodo? Alfa tem valor 0,2.
4) Considere os dados amostrais:
Semana Demanda
1 150
2 159
3 160
4 167
5 173
6 175
7 185
8 188

Utilizando o alisamento exponencial faa as previses para cada semana e para a
semana 9, sendo:
a) Alfa de 0,2
b) Alfa de 0,3
c) Calcule o desvio mdio de cada item anterior, (a) e (b)
d) Com base no desvio mdio, qual a melhor previso?

86
5) O consumo de um componente das Fbricas Tronic os ltimos 10 meses foi
igual a: 750, 680, 740, 710, 690, 640, 670, 720, 700 e 660. Calcular, com
base em anlise de regresso, a previso de consumo para o 11 ms.
87
Bibliografia

1. TOLEDO, Geraldo Luciano. OVALLE, Ivo Izidoro. Estatstica Bsica. 2 edio.
So Paulo: Atlas, 1985.

2. MONTGOMERY, Douglas C., RUNGER, George C.. Estatstica aplicada e
probabilidade para engenheiros. Rio de Janeiro: LTC, 2009.

3. MILONE, Giuseppe. Estatstica: geral e aplicada. So Paulo: Thomson Learning,
2006.

4. BRUNI, Adriano Leal. Estatstica aplicada gesto empresarial. 2 edio. So
Paulo: Atlas, 2008.

5. TRIOLA, Mrio F., Introduo Estatstica. Rio de Janeiro. Editora LTC. 7.
edio, 2008.

88
Anexo 1


Comandos Software R

#=======================================================
Gerar amostras aleatrias
#=======================================================

criar vetor de amostras x

sort(x)# ordena os valores de x.

sample(x,5,T)# gera 5 amostras do vetor x com reposio

sample(x,5)# gera 5 amostras do vetor x sem reposio

#=======================================================
# Mudar diretrio
#=======================================================
Arquivo

Mudar diretorio

Nome da pasta
#=======================================================
# Leitura e Preliminares dos Dados
#=======================================================

Leitura dos dados

gasolina <- scan(file="gasolina.txt")

frango <- scan(file="frango.txt")

alcatra <- scan(file="alcatra.txt")

dados<-data.frame(frango,alcatra) # banco de dados juntos frango + alcatra

attach(dados)# apresenta os nomes das variveis

names(dados)# apresenta os nomes das variveis

dim(dados) # dimenso dos dados

dados[1:15]# apresenta os 15 primeiros resultados



89
#==========================================================
# Estatsticas Descritivas
#==========================================================

summary(gasolina)

summary(frango)

mean(gasolina)

median(gasolina)

quantile(gasolina) # retorna os quartis

var(gasolina)# varincia

cov(frango,alcatra) #Covarincia

cor(frango,alcatra)#correlao

#==============================================================
# Tabela
#===============================================================

table(frango)# apresenta tabela distribuio frequencia simples.


#==============================================================
# Graficos
#===============================================================

boxplot(gasolina,ylab="Preos da Gasolina")

boxplot(frango,alcatra,ylab="Preos",xlab="frango X alcatra")

hist(frango)

plot(alcatra)

pairs(cbind(frango,alcatra)) # faz o grfico de disperso x1 versus x2 e vice
versa

t<-ts(frango) # transforma um conjunto de dados frango em uma srie
temporal

plot(t)# faz o grfico da srie temporal

par(mfrow=c(2,1))#divide a tela em 2.

hist(gasolina)
90

abline(v=mean(gasolina))# faz uma linha na mdia de x1.

abline(v=median(gasolina))# faz uma linha na mediana de x1.

abline(v=quantile(gasolina))# faz uma linha nos quantis de x1.



#==============================================================
Regresso linear
#===============================================================

plot(x, y) # grfico de disperso.

fm <- lm(y ~ x) # regresso entre conjuntos pareados y e x.

fm # apresenta os coeficientes da regresso.

anova(fm)# apresenta tabela anova do modelo.

abline(lm(y~x)) # traa a reta de regresso.

You might also like