You are on page 1of 49

Estatstica Aplicada

Inferencia
Heyder Diniz Silva
2
Sumario
1 Introducao 5
1.1 Tecnicas de amostragem. . . . . . . . . . . . . . . . . . . . . . . 6
1.1.1 Principais tecnicas de amostragem probabilsticas. . . . . 6
1.1.1.1 Amostragem Simples ao Acaso . . . . . . . . . . 6
1.1.1.2 Amostragem Sistematica . . . . . . . . . . . . . 7
1.1.1.3 Amostragem por Conglomerados . . . . . . . . . 7
1.1.1.4 Amostragem Estraticada . . . . . . . . . . . . . 7
1.1.2 Principais tecnicas de amostragem nao probabilsticas. . . 7
1.1.2.1 Inacessibilidade a toda populacao . . . . . . . . 7
1.1.2.2 Amostragem sem norma (a esmo) . . . . . . . . 8
1.1.2.3 Populacao formada por material contnuo. . . . 8
1.1.2.4 Intencional . . . . . . . . . . . . . . . . . . . . . 8
1.2 Amostras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 8
2 Distribuicoes Amostrais 11
2.1 Distribuicao amostral da media . . . . . . . . . . . . . . . . . . . 11
2.1.1 Esperanca e variancia . . . . . . . . . . . . . . . . . . . . 12
2.1.1.1 Amostragem com reposicao . . . . . . . . . . . . 12
2.1.1.2 Amostragem sem reposicao . . . . . . . . . . . . 13
2.1.2 A distribuicao de x . . . . . . . . . . . . . . . . . . . . . . 14
2.1.2.1 Populacoes normais . . . . . . . . . . . . . . . . 14
2.1.2.2 Populacoes nao normais - Teorema Central do
Limite . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Distribuicao amostral da variancia . . . . . . . . . . . . . . . . . 15
2.3 Distribuicao amostral da media quando nao se conhece a variancia 17
2.4 Distribuicao amostral da proporcao . . . . . . . . . . . . . . . . . 18
3 Metodos de estimacao 21
3.1 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Maxima verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Mnimos quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3
4 SUM

ARIO
4 Teoria da estimacao 29
4.1 Propriedades dos Estimadores pontuais . . . . . . . . . . . . . . 30
4.1.1 Nao tendenciosidade . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . 31
4.1.3 Eciencia relativa . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Estimacao por intervalo . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Intervalo de conanca para a media . . . . . . . . . . . 32
4.2.1.1 Variancia conhecida . . . . . . . . . . . . . . . . 32
4.2.1.2 Variancia desconhecida . . . . . . . . . . . . . . 33
4.2.2 Diferenca entre duas media (
a

b
) . . . . . . . . . . . 34
4.2.2.1 Variancias Conhecidas: . . . . . . . . . . . . . . 34
4.2.2.2 Variancias Desconhecidas: . . . . . . . . . . . . . 35
4.2.3 Intervalo de conanca para proporcao . . . . . . . . . . . 36
4.2.3.1 Amostras grandes (n > 30) . . . . . . . . . . . . 36
4.2.3.2 Amostras pequenas (n 30) . . . . . . . . . . . 37
4.2.4 Intervalo de conanca para a diferenca entre proporcoes . 37
4.2.4.1 Amostras grandes (n > 30) . . . . . . . . . . . . 37
4.2.4.2 Amostras pequenas (n 30) . . . . . . . . . . . 37
4.2.5 Intervalo de conanca para a variancia (
2
) . . . . . . . . 38
5 Teoria da decisao (Testes de Hipoteses) 39
5.1 Consideracoes iniciais . . . . . . . . . . . . . . . . . . . . . . . . 39
5.1.1 Hipoteses estatsticas . . . . . . . . . . . . . . . . . . . . . 39
5.1.2 Tipos de erros . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.3 Tipos de testes . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.4 Algoritmo para realizacao de um teste de hipotese . . . . 42
5.2 Estatstica apropriadas para os testes de hipoteses . . . . . . . . 43
5.2.1 Teste de Qui-Quadrado (
2
) . . . . . . . . . . . . . . . . . 43
5.2.1.1 Teste de aderencia . . . . . . . . . . . . . . . . . 44
5.2.1.2 Teste de independencia . . . . . . . . . . . . . . 46
6 Referencias Bibiliogracas 49
Captulo 1
Introducao
Denicao 1.1 (Populacao) conjunto de indivduos com pelo menos uma car-
acterstica observavel em comum.
Denicao 1.2 (Amostra) porcao ou fracao da populacao, retirada segundo
algumas tecnicas especcas, que matem as mesmas caractersticas de interesse
da populacao.
Denicao 1.3 (Parametro) e uma medida associada `a uma caracterstica
populacional Ex: Media (), variancia (
2
), etc.
Denicao 1.4 (Estatstica) e uma medida associada `a uma caracterstica
amostral. Ex: Media ( x), variancia (s
2
).
Um dos principais problemas apresentados na estatstica e o
de se fazer arma coes sobre os parametros populacionais (geralmente descon-
hecidos), como por exemplo saber qual o tempo necessario para o organismo
humano degradar certo composto qumico, qual a producao total de graos de
um pas num determinado ano, qual a altura media da populacao brasileira, ar-
mar se um novo composto e carciniogenico ou nao. E para respondermos a estas
questoes, muitas das vezes, temos que lancar mao do processo de amostragem,
que consiste em estudar apenas uma fracao da populacao (a amostra) e a partir
desta fazer inferencias sobre a populacao. Esquematicamente tem-se:
Figura 1.1: Representacao esquematica do processo de amostragem e inferencia.
Para que o processo anteriormente descrito seja conavel, e
necessario que a amostra utilizada seja representativa da populacao, e para
isso, ela deve ser retirada segundo determinadas tecnicas de amostragem. De
posse de uma amostra, representativa da populacao, para fazermos a inferencia
5
6 CAP

ITULO 1. INTRODUC

AO
sobre os parametros populacionais, a partir desta amostra, e necessario o co-
nhecimento das rela coes existentes entre as estimativas obtidas e os valores dos
parametros populacionais, ou seja, e necessario conhecer a distribuicao amostral
do estimador utilizado, para que se possa fazer uma inferencia segura sobre um
parametro qualquer.
1.1 Tecnicas de amostragem.
Ao coletar uma amostra pode-se faze-lo com reposicao ou sem
reposicao, caso a amostragem seja realizada com reposicao, um mesmo indivduo
tem chance de pertencer mais de uma vez a amostra, o que nao acontece, no
caso da amostragem ser sem reposicao. Independentemente da maneira como a
amostra e coletada (com ou sem reposicao) o importante e que os indivduos que
comporao a amostra deverao ser selecionados atraves de um processo aleatorio
qualquer (sorteio), pois, somente nestas condicoes, podemos aplicar os modelos
probabilsticos da estatstica a esta amostra, o que vai garantir a validade dos
testes estatsticos que serao realizados com base nos resultados destas amostras.
Os principais tipos de amostragem sao:
Probabilsticas ou aleatoria: Quando todos os indivduos da populacao
tem probabilidade conhecida e nao nula de pertencer a amostra, dentre
estas se destacam:
Amostragem simples ao acaso (ASA).
Amostragem sistematica (AS).
Amostragem por comglomerados.
Amostragem estraticada (AE).
Nao probabilstica, nao aleatoria, escolha racional ou escolha justicada:
Quando alguns indivduos da populacao tem probabilidade desconhecida
ou nula de pertencer a amostra, as principais sao:
Inacessibilidade a toda a populacao.
Amostragem sem norma (a esmo).
Populacao formada por material contnuo.
Intencional
1.1.1 Principais tecnicas de amostragem probabilsticas.
1.1.1.1 Amostragem Simples ao Acaso
Esta tecnica so pode ser aplicada em populacoes homogeneas e
de tamanho conhecido. Tecnica: Enumera-se todos indivduos da populacao
e sorteia-se (por meio de um dispositivo aleatorio qualquer), os indivduos
que comporao a amostra. Neste tipo de amostragem podem ser retiradas N
n
amostras diferentes com reposicao ou C
n
N
amostras diferentes sem reposicao.
1.1. T

ECNICAS DE AMOSTRAGEM. 7
1.1.1.2 Amostragem Sistematica

E uma simplicacao do processo anterior. Neste caso, apenas


o primeiro elemento da amostra sera sorteado, e os demais serao retirados em
uma progressao aritmetica, com razao k, em que:
k =
N
n
,
com N = tamanho da populacao e n = tamanho da amostra ate se completar
o tamanho da amostra desejado.
1.1.1.3 Amostragem por Conglomerados
Quando uma populacao apresenta uma subdivisao natural em
grupos menores (denominados conglomerados), sorteia-se um n umero suciente
desses grupos (conglomerados) e todos os elementos destes vao compor a
amostra.
1.1.1.4 Amostragem Estraticada

E uma tecnica utilizada quando a populacao a ser estu-


dada e heterogenea, deste modo, subdivide-se a populacao em estratos (sub-
populacoes) que sejam homogeneos dentro de si, e heterogeneos entre si, e
aplica-se uma das tecnicas de amostragens anteriormente descritas, para retirar-
se sub-amostras dentro de cada estrato, de modo que a amostra nal seja rep-
resentativa da popula cao, como um todo ( contenha indivduos de todos os
estratos). Quanto ao tamanho das sub-amostras retiradas (ni), e classicada
em:
i. Uniforme
Quando de K estratos, retiram-se amostras de mesmo tamanho n, indepen-
dentemente do tamanho do estrato.
ii. Proporcional
Quando o tamanho da amostra retirado em cada estrato (ni) e proporcional
ao tamanho do estrato.
Ex. Para exemplicar os dois tipos de amostragem estraticada
descritos, consideremos um estudo realizados em propriedades rurais de um mu-
nicpio, composto por 1000 propriedades rurais, distribudas, quanto a sua area,
conforme a Tabela 1 e que neste municpio sejam amostradas 50 propriedades:
1.1.2 Principais tecnicas de amostragem nao proba-
bilsticas.
1.1.2.1 Inacessibilidade a toda populacao
A amostragem e realizada na parte da populacao que e acessvel.
8 CAP

ITULO 1. INTRODUC

AO
Tabela 1.1: Distribuicao do n umero de propriedades rurais de um municpio
qualquer, quanto a area e n umero de propriedades a serem amostradas por
estrato (classes)

Area (ha) N umero de Propriedades Amostra estraticada (N=50)


Uniforme Proporcional
0 20 500 10 25
20 50 320 10 16
50 100 100 10 5
100200 50 10 3
200 400 30 10 1
Total 1000 50 50
Ex. Controle de qualidade numa linha de producao de cigarros.
So tem-se acesso aos cigarros que ja estao prontos, embora os que ainda serao
produzidos fazem parte da populacao de cigarros produzidos por aquela linha
producao.
1.1.2.2 Amostragem sem norma (a esmo)
Nao se utiliza nenhum sorteio, para identicar a amostra, muito
embora o amostrador procure ser aleatorio.
Ex. Amostrar 80 frangos num galpao com 3000 frangos,
amostrar peixes em um lago, pessoas em uma praca, etc.
1.1.2.3 Populacao formada por material contnuo.
Processo utilizado para se amostrar lquidos, gases ou solidos.
Homogeniza-se o material a ser amostrado e em seguida colhe-se a amostra.
1.1.2.4 Intencional
O pesquisador escolhe deliberadamente certos elementos da
populacao para formar a amostra, baseado num pre-julgamento.
Ex. Pesquisa de mercado para lancar uma nova marca de leite
longa vida tipo A . O pesquisador selecionara indivduos com poder aquisitivo
medio/alto, que sao os principais consumidores deste produto (publico alvo),
embora toda a populacao independentemente do poder aquisitivo possa ser con-
sumidora deste produto.
1.2 Amostras aleatorias
Denicao 1.5 Amostra aleatoria Uma amostra aleatoria de tamanho n, de
uma variavel aleatoria X e o conjunto das n variaveis aleatorias independentes
1.2. AMOSTRAS ALEAT

ORIAS 9
X
1
, , X
n
, cada uma tendo a mesma distribuicao de X. Ou seja a amostra
sera a n-upla ordenada (X
1
, , X
n
), em que X
i
o valor observado no i-esimo
elemento sorteado.
Consisdere uma populacao formada por 5 indivduos (N = 5),
cuja variavel de interesse seja o n umero de lhos de cada um. Entao, formal-
mente a popula cao ca melhor denida como sendo o conjunto do n umero de
lhos de cada um dos indivduos, que e 0, 1, 2, 2, 4. A distribuicao de probabili-
dades do n umero de lhos destes indivduos e:
x 0 1 2 4
P(X = x)
1
5
1
5
2
5
1
5

= 1
Extraindo-se todas as possveis amostras, com reposicao, desta
populacao 0, 1, 2, 2, 4, a distribuicao de probabilidade da variavel aleatoria bidi-
mensional (X
1
, X
2
) e:
X
1
X
2
0 1 2 4 Total
0
1
25
1
25
2
25
1
25
1
5
1
1
25
1
25
2
25
1
25
1
5
2
2
25
2
25
4
25
2
25
2
5
4
1
25
1
25
2
25
1
25
1
5
Total
1
5
1
5
2
5
1
5
1
Deste modo, verica-se, facilmente que, X
1
e X
2
sao indepen-
dentes e possuem a mesma distribuicao de X.
10 CAP

ITULO 1. INTRODUC

AO
Captulo 2
Distribuic oes Amostrais
Figura 2.1: Representacao esquematica da distribuicao amostral de um esti-
mador.
2.1 Distribuicao amostral da media
Considere-se, a ttulo de exemplo, uma populacao hipotetica,
formada por tres indivduos, para os quais a variavel de interesse (X), seja a nota
nal destes indivduos na disciplina estatstica, a qual segue uma distribuicao
uniforme discreta como apresentado a seguir:
X 8 9 10
P(X = x)
1
3
1
3
1
3

= 1
Figura 2.2: Distribuicao das notas de tres alunos.
Neste caso tem-se:
N = 3;
E(X) = = 9;
V (X) =
2
=
2
3
.
11
12 CAP

ITULO 2. DISTRIBUIC

OES AMOSTRAIS
2.1.1 Esperanca e variancia
2.1.1.1 Amostragem com reposicao
Retirando-se todas as possveis amostras com reposicao, de
tamanho n = 2, tem-se um total de 3
2
= 9 possveis amostras, as quais estao
apresentadas a seguir:
Amostra Indivduos Notas x
1 1;1 8 e 8 8
2 1;2 8 e 9 8,5
3 1;3 8 e 10 9
4 2;1 9 e 8 8,5
5 2;2 9 e 9 9
6 2;3 9 e 10 9,5
7 3;1 10 e 8 9
8 3;2 10 e 9 9,5
9 3;3 10 e 10 10
A distribuicao amostral de x sera:
x 8 8,5 9 9,5 10
P( x = x
i
)
1
9
2
9
3
9
2
9
1
9
Figura 2.3: Distribuicao amostral de x.
Em que:
E( x) =
x
=

n
i=1
x
i
P( x = x
i
) = 9, 0
V ( x) =
2
x
=

n
i=1
[ x
i
E( x)]
2
P( x = x
i
) =
1
3
Assim, verica-se que:
E( x) = 9, 0 = e V ( x) =
1
3
=

2
n
Prova:
x =
1
n

n
i=1
x
i
E( x) = E
_
1
n
n

i=1
x
i
_
=
1
n
E [x
1
+x
2
+ +x
n
]
=
1
n
[E(x
1
) +E(x
2
) + +E(x
n
)]
=
1
n
[ + + +]
=
1
n
n
=
2.1. DISTRIBUIC

AO AMOSTRAL DA M

EDIA 13
V ( x) = V
_
1
n
n

i=1
x
i
_
=
1
n
2
V [x
1
+x
2
+ +x
n
]
=
1
n
2
[V (x
1
) +V (x
2
) + +V (x
n
)]
=
1
n
2
_

2
+
2
+ +
2

=
1
n
2
n
2
=
2
2.1.1.2 Amostragem sem reposicao
Retirando-se todas as possveis amostras sem reposicao, de
tamanho n = 2, tem-se um total de C
n
N
= C
2
3
= 3 possveis amostras, as
quais estao apresentadas a seguir:
Amostra Indivduos Notas x
1 1;2 8 e 9 8,5
2 1;3 8 e 10 9
4 2;3 9 e 10 9,5
A distribuicao amostral de x sera:
x 8,5 9 9,5
P( x = x
i
)
1
3
1
3
1
3
Neste caso,
E( x) =
x
=
n

i=1
x
i
P( x = x
i
) = 9, 0
V ( x) =
2
x
=
n

i=1
[ x
i
E( x)]
2
P( x = x
i
) =
1
6
Assim, verica-se que:
E( x) = 9, 0 = ,
e
V ( x) =
1
6
=

2
n
N n
N 1
O termo
Nn
N1
e conhecido como fator de correcao para
amostragem sem reposicao em populacoes nitas (ASRPF). Uma populacao
14 CAP

ITULO 2. DISTRIBUIC

OES AMOSTRAIS
e considerada nita quando
n
N
> 0, 05 ou seja a amostra representar mais de
5% do tamanho da populacao. Quando tal criterio nao for satisfeito, o fator de
correcao torna-se desprezvel, podendo, portanto ser eliminado.
2.1.2 A distribuicao de x
2.1.2.1 Populacoes normais
Para obtencao da distribuicao amostral da media amostral ( x)
de populacoes com distribuicao normal, torna-se necessario a apresentacao dos
seguintes teoremas:
Teorema 2.1 Se X N(,
2
), entao, Y = aX + b, a = 0 tem distribuicao
normal com media a +b e variancia a
2

2
. Y N(a +b, a
2

2
).
Prova: (DeGroot & Schervish, 2002 (p275))
Teorema 2.2 se X
1
, X
2
, , X
n
sao variaveis aleatorias independentes e com
distribuicao normal de media
i
e variancia
2
i
, (X
i
N(
i
,
2
i
)), entao a soma
X
1
+ X
2
+ + X
n
, tem distribuicao normal com media
1
+
2
+ +
n
e
variancia
2
1
+
2
2
+ +
2
n
.
Prova:
Seja M

(Xi)
(t) a funcao geradora de momentos de X
i
e M

(t) a
funcao geradora de momentos de X
1
+ X
2
+ + X
n
. Sendo X
1
, X
2
, , X
n
independentes, entao
M

(t) =
n

i=1
M

(Xi)
(t)
=
n

i=1
e
(it+
1
2

2
i
t
2
)
= e
(t

n
i=1
i+
1
2
t
2

n
i=1

2
i
)
,
que e a funcao geradora de momentos de uma distribuicao nor-
mal com media =

n
i=1

i
e variancia
2
=

n
i=1

2
i
.
A partir dos dois teoremas anteriores e sabendo que

X =
1
n

n
i=i
Corolario 2.3 X N(,
2
)

X N
_
,

2
n
_
.
2.1.2.2 Populacoes nao normais - Teorema Central do Limite
Se X
1
, X
2
, , X
n
e uma amostra aleatoria de uma distribuicao
qualquer com media e variancia
2
, entao a distribuicao amostral de

X
e dada pelo seguinte teorema, conhecido como Teorema Central do Limite.
Que, do ponto de vista pratico, e de extrema importancia pois permite o
2.2. DISTRIBUIC

AO AMOSTRAL DA VARI

ANCIA 15
uso de metodos baseados na curva normal para inferencias realizadas a par-
tir das medias amostrais, mesmo quando a variavel sob estudo nao siga uma
distribuicao normal.
Teorema 2.4 Seja X uma variavel aleatoria com media e variancia
2
,
entao a variavel aleatoria z =

X

n
tem distribuicao que se aproxima da normal
quando n .
Exemplo 2.1.1 As pessoas que utilizam, diariamente, um elevador tem em
media 65 kg, com desvio padrao 7,5 kg. A capacidade de garga desse elevador
e de 750 kg. Qual o n umero de pessoas que podem entrar no elevador de modo
que a probabilidade de ultrapassar o limite de carga seja de no maximo 0,05?
Solucao:
Pelo TCL, z =

X

n
N(0, 1), entao z =
65
750
n
7,5

n
z : P(z z) = 0.05 = 1, 65
assim,
1, 65 =
65
750
n
7,5

n
n = 12 pessoas
2.2 Distribuicao amostral da variancia
Teorema 2.5 Seja x
1
, x
2
, , x
n
, uma amostra aleatoria de uma variavel
aleatoria X N(,
2
), seja ainda o estimador:
s
2
=

n
i=1
(x
i
x)
2
n 1
entao,
i.
(n1)s
2

2

2
(n1)
;
ii. E(s
2
) =
2
;
iii. V (s
2
) =
2
4
n1
.
Prova:

(n1)s
2

2

2
(n1)
16 CAP

ITULO 2. DISTRIBUIC

OES AMOSTRAIS
n

i=1
(x
i
)
2
=
n

i=1
[(x
i
x) + ( x )]
2
=
n

i=1
[(x
i
x)
2
+ 2(x
i
x)( x ) + ( x )
2
]
=
n

i=1
(x
i
x)
2
+ 2( x )
n

i=1
(x
i
x) +n( x )
2
=
n

i=1
(x
i
x)
2
+n( x )
2
,
conseq uentemente,
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
)
2
n( x )
2
,
portanto,
(n 1)s
2
=
n

i=1
(x
i
)
2
n( x )
2
,
multiplicando ambos os lados da expressao por
1

2
,
(n 1)s
2

2
=

n
i=1
(x
i
)
2

2

n( x )
2

2
=
n

i=1
_
x
i

_
2

_
x

n
_
2
Sabendo que:

n
i=1
_
xi

_
2

2
(n)
;
_
x

n
_
2

2
(1)
, pois
x

n
N(0, 1).
E sendo a distribuicao da media, independente da distribuicao das
variaveis, pode-se somar estas duas distribuicoes, e deste modo,
(n 1)s
2

2

2
(n1)
.
E(s
2
) =
2
.
2.3. DISTRIBUIC

AOAMOSTRAL DAM

EDIAQUANDON

AOSE CONHECE AVARI

ANCIA17
E(s
2
) = E
_
n
i=1
(x
i
x)
2
n 1
_
=
1
n 1
E
_
n

i=1
(x
i
x)
2
_
=
1
n 1
E
_
n

i=1
(x
i
)
2
n( x )
2
_
=
1
n 1
_
n

i=1
E(x
i
)
2
nE( x )
2
_
=
1
n 1
_
n

i=1
V (X) nV (

X)
_
=
1
n 1
_
n
2
n

2
n
_
=
1
n 1
(n 1)
2
=
2
V (s
2
) =
2
4
n1
.
Sabe-se que se Y
2
(v)
, entao, E(Y ) = v e V (X) = 2v.
(n 1)s
2

2

2
(n1)
,
logo,
V
_
(n 1)s
2

2
_
= 2(n 1)
(n 1)
2

4
V (s
2
) = 2(n 1)
V (s
2
) =
2(n 1)
4
(n 1)
2
V (s
2
) =
2
4
n 1
2.3 Distribuicao amostral da media quando nao
se conhece a variancia
Viu-se que se X N(,
2
)

X N(,

2
n
), consequente-
mente, z =
x

n
N(0, 1).
18 CAP

ITULO 2. DISTRIBUIC

OES AMOSTRAIS
Contudo, na maioria das situacoes praticas nao se conhece a
variancia populacional (
2
), mas sim sua estimativa s
2
, obtida a partir de uma
amostra de tamanho n ( geralmente a mesma que esta sendo utilizada para
estimar a media ). Assim torna-se necessario o conhecimento da distribuicao
da variavel:

X
s

n
Teorema 2.6 A variavel
t =

X
s

n
,
tem distribuicao t de Student com n 1 graus de liberdade.
2.4 Distribuicao amostral da proporcao
Teorema 2.7
p p
_
p(1p)
n
N(0, 1).
Prova:
A proporcao de indivduos, portadores de uma certa carac-
terstica, em uma amostra e dada por:
p =
n umero de indiv. na amostra com acaracter

istica
n
Denindo uma variavel aleatoria Y , tal modo que:
y
i
=
_
1, se o indivduo possui a caracterstica;
0, caso contrario;
entao p pode ser escrito como:
p =

n
i=1
y
i
n
= y.
2.4. DISTRIBUIC

AO AMOSTRAL DA PROPORC

AO 19
E( p) = E
_
n
i=1
y
i
n
_
=
1
n
E[y
1
+y
2
+ +y
n
]
=
1
n
[E(y
1
) +E(y
2
) + +E(y
n
)]
=
1
n
[p +p + +p], pois, Y Bernoulli(p)
=
1
n
np
= p
V ( p) = V
_
n
i=1
y
i
n
_
=
1
n
2
V [y
1
+y
2
+ +y
n
]
=
1
n
2
[V (y
1
) +V (y
2
) + +V (y
n
)]
=
1
n
[p(1 p) +p(1 p) + +p(1 p)], pois, Y Bernoulli(p)
=
1
n
2
np(1 p)
=
p(1 p)
n
Pelo teorema central do limite,
y E(( y)
_
V (

Y )
=
p p
_
p(1p)
n
N(0, 1)
20 CAP

ITULO 2. DISTRIBUIC

OES AMOSTRAIS
Captulo 3
Metodos de estimacao
3.1 Momentos
O metodo dos momentos e um dos metodos de estimacao mais
simples e antigos utilizados na estatstica. E consiste, basicamente, em igualar
os momentos populacionais aos amostrais sendo o estimador do parametro em
questao dado pela solu cao deste sistema. Assim, sejam:
M

r
=
1
n
n

i=1
x
r
i
, r 1,
o r-esimo momento amostral de uma variavel aleatoria X.

r
= E[X
r
], r 1,
o r-esimo momento populacional. Entao, o metodo dos momentos consiste na
obtencao dos estimadores para = (
1
, ,
n
), resolvendo as euquacoes:

r
= M

r
, r = 1, , k.
Exemplo 3.1.1 Obter os estimadores da media () e da variancia (
2
) de uma
variavel aleatoria X N(,
2
).
Sabe-se que a funcao geradora de momentos de uma variavel
aleatoria X N(,
2
) e:
M
X
(t) = e
t+
t
2

2
2
O primeiro momento populacional em relacao a origem (

1
) e
dado por:

1
=
dM
X
(t)
dt

t=0
= ( +t
2
)e
t+
t
2

2
2

t=0
=
21
22 CAP

ITULO 3. M

ETODOS DE ESTIMAC

AO
O primeiro momento amostral, em relacao a origem (M

1
) e:
M

1
=

n
i=1
x
i
n
,
Assim, o estimador da media , de uma variavel aleatoria com
distribuicao normal e:
=

n
i=1
x
i
n
.
O segundo momento populacional em relacao a origem (

2
) e
dado por:

2
=
d
2
M
X
(t)
dt

t=0
=
_
(
2
)e
t+
t
2

2
2
+ ( +t
2
)( +t
2
)e
t+
t
2

2
2
_

t=0
=
2
+
2
O segundo momento amostral, em relacao a origem (M

2
) e:
M

2
=

n
i=1
x
2
i
n
,
Assim, o estimador da variancia
2
, de uma variavel aleatoria
com distribuicao normal, pelo metodo dos momentos e dado por:

2
+
2
=

n
i=1
x
2
i
n

2
=

n
i=1
x
2
i
n

2

2
=

n
i=1
x
2
i
n

_
n
i=1
n
_
2

2
=

n
i=1
x
2
i

(

n
i=1
)
2
n
n
Exemplo 3.1.2 Considere-se a necessidade estimar o n umero de Vans, ligadas
`a Cooperativa de Transporte Alternativo de Uberlandia, sabendo que estas sao
numeradas sequencialmente.
Solucao:
Sendo as Vans numeradas sequencialmente, a VA, n umero de
uma Van segue uma distribuicao uniforme discreta, ou seja:
P(X = k) =
1
N
, k = 1, , N;
O primeiro momento populacional e:
3.2. M

AXIMA VEROSSIMILHANC A 23
M

1
= E(X) =
N + 1
2
fazendo: x = M

1
vem:
x =

N + 1
2

N = 2

X 1 (3.1)
Deste modo, o n umero de Vans pode ser estimado a partir de
uma amostra de Vans.Triola (1999), relata que uma estimativa do n umero de
tanques e guerra produzidos pela Alemanha, em junho de 1941, realizada a par-
tir dos n umeros de series dos mesmos foi de 244, e o n umero real, obtido em
registros do governo Alemao foi de 271. resultado bastante satisfatorio, princi-
palmente quando comparado ao valor 1550 tanques estimado pelos metodos tradi-
cionais de espionagem. (Maiores detalhes em: Ruggles and Brodie, A empirical
Approach to economic intelligence in World War II, Journal of the American
Statistical Association, V42.)
As funcoes geradoras de momentos para as principais distribuicoes de probabi-
lidades sao apresentadas na tabela 3.1
Tabela 3.1: Funcoes geradoras de momentos para as principais distribuicoes de
probabilidade
Distribuicao Funcao geradora de momentos
Binomial [pe
t
+ (1 p)]
n
Poisson e
(e
t
1)
Exponencial
1
1
1

t
Normal e
t+

2
t
2
2
Uniforme
1
(ba)t
(e
b
t e
a
t)
Qui-quadrado (1 2t)

n
2
3.2 Maxima verossimilhanca
Considere-se que se deseje estimar a proporcao de criancas, do
sexo feminino, nascidas em famias com 4 lhos. Uma amostra de 100 famlas
com quatro lhos apresentou a distribuicao de freq uencias para o n umero de
criancas do sexo feminino mostrada na tabela 3.2:
Esta variavel aleatoria (n umero de meninas em famlias com 4
lhos) pode ser descrita por um modelo Binomial com n = 4 e uma determi-
nada probabilidade de sucesso p. O problema que apresenta-se entao e, obter
24 CAP

ITULO 3. M

ETODOS DE ESTIMAC

AO
Tabela 3.2: Distribuicao de freq uencias do n umero de famlias com 4, lhos em
relacao ao n umero de meninas em cada famlia
N umero de lhas 0 1 2 3 4 Total
N umero de famlias 6 25 38 25 6 100
uma estimativa p para o parametro p. As freq uencias esperadas do n umero
de famlias com quatro lhos, nas quais existem nenhuma, uma, duas, tres ou
quatro meninas, considerando que esta variavel aleatoria pode ser descrita por
um modelo com p = 0, 6 e p = 0, 5 estao apresentaas nas tabelas 3.3 e 3.4,
respectivamente. Confrontando os resultados apresentados nestas tabelas (3.3
e 3.4) com os resultados da tabela 3.2, verica-se que as freq uencias esperadas,
considerando o valor p = 0, 50 estao bem mais proximas aos valores espera-
dos do que as para p = 0, 60. Portanto, a partir de amostra obtida (3.2) e
mais prudente armar que esta originou-se de uma distribuicao binomial com
p = 0, 50 do que p = 0, 60. Entao p = 0, 50 e uma estimativa mais verossmel
para p do que p = 0, 60. Sendo este o princpio do metodo de estimacao da
maxima verossimilhanca.Tomar como estimador de um parametro o valor

que maximiza a funcao de verossimilhanca da amostra.


Tabela 3.3: Freq uencias esperadas do n umero de famlias com quatro lhos, em
relacao ao n umero de meninas considerando o modelo Binomial com p = 0, 6
N umero de lhas 0 1 2 3 4 Total
N umero de famlias 2,56 15,36 34,56 34,56 12,96 100
Tabela 3.4: Freq uencias esperadas do n umero de famlias com quatro lhos, em
relacao ao n umero de meninas considerando o modelo Binomial com p = 0, 5
N umero de lhas 0 1 2 3 4 Total
N umero de famlias 6,25 25,00 37,50 25,00 6,25 100
Denicao 3.1 (Funcao de verossimilhanca) Sejam X
1
, , X
n
uma
amostra aleatoria de tamanho n da variavel aleatoria X, com funcao densidade
(ou de probabilidade) f(x|), com , onde e o espaco parametrico. A
funcao de verossimilhanca de correspondente a amostra aleatoria observada e
dada por:
L(x; ) =
n

i=i
f(x
i
|) (3.2)
3.2. M

AXIMA VEROSSIMILHANC A 25
Exemplo 3.2.1 Considere (X
1
, , X
n
) uma amostra aleatoria de uma
variavel aleatoria X N(,
2
), como por exemplo as alturas da populacao
brasileira. Como visto, os valores (X
1
, , X
n
) sao independentes entre si
e possuem distribuicao N(,
2
) entao, a verossimilhanca deste amostra sera
(equacao 3.2):
L(x; ,
2
) =
n

i=i
1

2
2
e

1
2
(
x
i

)
2
=
_
1

2
2
_
n
e

1
2

n
i=1
(
x
i

)
2
Sendo o estimador de maxima verossimilhanca para um
parametro , o valor

que maximiza L(x, ), este e obtido pela soulucao do
sistema:
L(x, )

= 0 (3.3)
Uma vez que a funcao ln e monotona crescente, e facil vericar
que o valor

que maximiza L(x, ) tambem maximiza l(x, ) = lnL(x, ). l(x, )
e comumente chamada funcao suporte, e devido a maior facilidade na obtencao
da derivada de uma soma de variaveis, em relacao ao produto das mesmas, os
estimadores de maxima verossimilhanca, sao geralmente obtidos por:
l(x, )

= 0 (3.4)
Exemplo 3.2.2 Obter os estimadores de maxima verossimilhanca para a media
e a variancia
2
de uma variavel aleatoria X N(,
2
).
Sabe-se que:
L(x; ,
2
) =
_
1

2
2
_
n
e

1
2

n
i=1
(
x
i

)
2
Portanto, l(x, ,
2
) = lnL(x, ,
2
) e:
l(x, ,
2
) =
n
2
ln2
2

i=1
(x
i
)
2
2
2
Assim,
26 CAP

ITULO 3. M

ETODOS DE ESTIMAC

AO
l(x, ,
2
)

= 0
2
n

i=1
x
i

2
2
= 0
n

i=1
(x
i
) = 0
=

n
i=1
x
i
n
(3.5)
l(x, ,
2
)

2
= 0

n
2
2
+
1

4
n

i=1
(x
i
)
2
= 0

n
2
2
=
1

4
n

i=1
(x
i
)
2

2
=

n
i=1
(x
i
)
2
n
(3.6)
Um problema do metodo da maxima verossimilhanca e que ape-
sar das boas propriedades estatsticas, este metodo, nem sempre conduz a esti-
madores esplcitos, isto e o sistema de equacoes
l(x,)

= 0 nem sempre apre-


senta uma solucao algebrica, sendo necessario a utilizacao de procedimentos
iterativos (Newton-Raphson, Algortmos EM, etc.) para obtencao das estima-
tivas de maxima verossimilhan ca.
3.3 Mnimos quadrados
O metodo de mnimos quadrados (Least Square) e utilizado
quado interessa-se em decompor a variavel aleatoria X na forma:
X
i
= E(X
i
) +e
i
,
em que:
E(X
i
) e o modelo pelo qual deseja-se descrever a variavel;
e
i
e o erro de estimacao associado `a X
i
Assim o metodo visa obter os estimadores

E(X) que minimizem
os erros de etimacao e
i
. Uma medida do erro total de estimacao e dada por

n
i=1
e
i
, contudo este valor e sempre nulo. Uma medida do erro de estimacao
e dada entao pela soma dos quadrados dos desvios

n
i=1
e
2
i
. Asim sendo, os
estimadores de mnimos quadrados sao obtidos, pela solucao do sistema:
3.3. M

INIMOS QUADRADOS 27
S(x, )

= 0 (3.7)
em que: S(x, ) =

n
i=1
e
2
i
Exemplo 3.3.1 Obter o estimador de mnimos quadrados para a esperanca
matematica ()de uma variavel aleatoria X assumindo os valores x
i
, x
2
, , x
n
.
O modelo a ser adotado e:
x
i
= E(X) +e
i
,
entao,
e
i
= x
i
E(X),
conseq uentemente,
S(x, )

= 0

n
i=1
(x
i
)
2

= 0
2
n

i=1
(x
i
) = 0
=

n
i=1
x
i
n
28 CAP

ITULO 3. M

ETODOS DE ESTIMAC

AO
Captulo 4
Teoria da estimacao
Denicao 4.1 (Estimador) Consideremos uma amostra (x
1
, x
2
, x
3
, . . . , x
n
)
de uma variavel aleatoria que deve descrever uma caracterstica de interesse
da populacao. Seja um parametro que desejamos estimar, como por exemplo
a media = E(x) ou a variancia
2
= V (x). Um estimador,

, do parametro
e uma variavel aleatoria, que e funcao das observacoes x
1
, x
2
, x
3
, . . . , x
n
.
Assim,
x =

n
i=1
xi
n
e um estimador da media poupulacional ,
s
2
=

n
i=1
(xi x)
2
n1
e um estimador da variancia populacional
2
Denicao 4.2 (Estimativa) Estimativa e o valor numerico assumido pelo es-
timador quando os valores observados x
1
, x
2
, x
3
, . . . , x
n
sao considerados.
Assim,
x = 70kg e uma estimativa da media poupulacional ,
s
2
= 9kg
2
e uma estimativa da variancia populacional
2
Estimacao por ponto e por intervalo.
Quando a estimativa de um parametro populacional e dada
por um unico valor, tem-se uma estimativa pontual do parametro popula-
cional, desconhecido, como por exemplo a altura media de uma amostra de
500 universitarios e x = 1, 68m, e uma estimativa pontual da verdadeira al-
tura media da populacao de universitarios. Porem sabe-se que x N(;

2
n
),
assim sendo, para cada amostra retirada da popula cao, podera se obter uma
diferente estimativa para . Deste modo, torna-se mais interessante obter-se, a
partir, de uma determinada amostra, um intervalo que apresente uma probabi-
lidade conhecida de conter o verdadeiro parametro populacional, ou seja obter
uma estimativa por intervalo para o parametro em questao, como por exemplo
P(1, 60 1, 76) = 0, 95, isto e, existe 95% de conanca em se armar que a
verdadeira media populacional esteja entre 1,60 e 1,76 metros. Apesar disto, o
uso de estimativas pontuais e imprescindvel, haja vistas, serem necessarias para
a obtencao das estimativas por intervalo. Deste modo desejavel que estas esti-
mativas sejam bastantes conaveis, e para isso e necessario que os estimadores
29
30 CAP

ITULO 4. TEORIA DA ESTIMAC



AO
que as fornecerao apresentem boas propriedades, aliado ao fato de serem obtidas
a partir de amostras representativas.
4.1 Propriedades dos Estimadores pontuais
4.1.1 Nao tendenciosidade
Um estimador

e dito um estimador nao tendencioso do
parametro se
E(

) =
obs. Os termos nao tendencioso, nao viciado, nao viesado e
imparcial sao sinonimos.
Ex1.: x =

n
i=1
xi
n
e um estimador nao tendencioso da media
populacional
prova:
E( x) = E
_
n
i=1
x
i
n
_
=
1
n
E
_
n

i=1
x
i
_
=
1
n
E [x
1
+x
2
+ +x
n
]
=
1
n
[E(x
1
) +E(x
2
) + +E(x
n
)]
=
1
n
[ + + +]
=
1
n
n
=
Ex2.:s
2
=

n
i=1
(xi x)
2
n
e um estimador tendencioso da
variancia populacional
2
.
4.1. PROPRIEDADES DOS ESTIMADORES PONTUAIS 31
prova:
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
+ x)
2
=
n

i=1
[(x
i
) ( x )]
2
=
n

i=1
(x
i
)
2
2
n

i=1
(x
i
)( x ) +
n

i=1
( x )
2
= como ( x ) e uma constante e
n

i=1
(x
i
) = n( x ), tem-se:
n

i=1
(x
i
x)
2
=
n

i=1
(x
i
)
2
n( x )
2
Portanto,
E
_
s
2

= E
_
n
i=1
(x
i
)
2
n( x )
2
n
_
=
1
n
_
n

i=1
E
_
(x
i
)
2

nE
_
( x )
2

_
=
1
n
{nV (X) nV ( x)}
=
1
n
_
n
2
n

2
n
_
=
n 1
n

2
Deste modo, verica-se que s
2
e um estimador tendencioso de

2
. Um estimador nao tendencioso e facilmente obtido por:
s
2
=
n
n 1
s
2
=

n
i=1
(x
1
x)
2
n 1
(4.1)
4.1.2 Consistencia
Um estimador

e um estimador consistente do parametro se:
i. lim
n
E[

] = ;
ii. lim
n
V (

) = 0.
x =

n
i=1
xi
n
e um estimador consistente da media populacional
, pois
32 CAP

ITULO 4. TEORIA DA ESTIMAC



AO
i. E( x) =
ii. lim
n
V (

x) = lim
n

2
n
= 0.
4.1.3 Eciencia relativa
Se
1
e
2
sao dois estimadores nao tendenciosos de , entao,
1
e mais eciente que
2
se:
V (
1
) < V (
2
)
A eciencia relativa do estimador
1
, em relacao ao estimador

2
e dada por:
Ef
1,2
=
V (
2
)
V (
1
)
(4.2)
4.2 Estimacao por intervalo
Conhecendo-se a distribuicao amostral do estimador, de um
parametro , pode-se facilmente determinar um intervalo que apresente uma
conanca 1 para , como sera visto a seguir.
4.2.1 Intervalo de conanca para a media
4.2.1.1 Variancia conhecida
Sabe-se que x N(;

2
n
), assim a variavel z =
x

n
tera dis-
tribuicao N(0; 1). Fixando-se um nvel de conanca (1 ) vira:
P(z

2
z z

2
) = 1
P(z

2

x

n
z

2
) = 1
P(z

n
x z

n
) = 1
P( x z

n
x +z

n
) = 1
P( x +z

n
x z

n
) = 1 reorganizando vem
P( x z

n
x +z

n
) = 1
E o intervalo de conanca para , com uma conanca 1
pode ser entao escrito como:
IC()
1
= x z

n
(4.3)
em que
n e o tamanho da amostra.
Obs. Se ocorrer amostragem sem reposicao em popula cao nita
(ASRPF) o intervalo de conanca para a media sera:
4.2. ESTIMAC

AO POR INTERVALO 33
IC()
1
= x z

n
_
N n
N 1
(4.4)
onde:
N e o tamanho da populacao;
n e o tamanho da amostra.
Exemplo 4.2.1 Uma maquina produz rolamentos que apresentam desvio
padrao de 0, 042 polegadas em seu diametro. Desejando-se conhecer o diametro
medio dos rolamentos produzidos por esta maquina, extraiu-se uma amostra de
100 rolamentos, observando-se uma media igual a 0, 824 polegadas. Obter o in-
tervalo com 0, 90 de conanca para o verdadeiro diametro medio dos rolamentos.
Solucao:
Tem-se x = 0, 824 = 0, 042 n = 100 1 = 0, 90 substituindo
esses valores em 4.3 vem:
IC()
0,90
= 0, 824 z
0,05
0, 042

100
= 0, 824 1, 65
0, 042

100
= 0, 824 0, 007
Interpretacao: Como e um parametro e nao uma variavel
aleatoria, a interpretacao correta do intervalo de conanca e: Construdos to-
dos os intervalos do tipo x 1, 65

n
, 90% deles conterao o parametro . Na
pratica, apenas um unico intervalo e construdo, no presente exemplo tal inter-
valo foi [0, 817; 0, 831]. Esse intervalo e entao comumente chamado intervalo de
conanca de 90% para . Isto e tem-se 90% de conanca de que esse intervalo
contenha o valor , no sentido de que 90% dos intervalos assim construdos
conteriam .

E obviamente incorreto, do ponto de vista da estatstica classica


ou freq uentista, dizer que a probabilidade do intervalo [0, 817; 0, 831] conter o
valor e 0,90. Pois essa probabilidade e 0 ou 1, dependendo de pertencer ou
nao ao intervalo ao intervalo xo.
4.2.1.2 Variancia desconhecida
Quando nao se conhece
2
e conseq uentemente , mas sim sua
estimativa s, o intervalo de conanca para a media sera dado por:
Amostras Pequenas (n 30)
IC()
1
= x t

2
s

n
, (4.5)
t

2
com n 1 graus de liberdade,
em que:
n e o tamanho da amostra.
34 CAP

ITULO 4. TEORIA DA ESTIMAC



AO
Obs. Se ocorrer amostragem sem reposicao em populacao nita
(ASRPF) o intervalo de conanca para a media sera:
IC()
1
= x t

2
s

n
_
N n
N 1
, (4.6)
t

2
com n 1 graus de liberdade,
onde:
N e o tamanho da populacao;
n e o tamanho da amostra.
Amostras Grandes (n > 30)
Foi visto que `a medida que aumenta-se o tamanho da amostra,
a distribuicao t se Student se aproxima da distribuicao normal, deste modo,
quando se estiver trabalhando com amostras grandes (n > 30) pode-se utilizar
a distribuicao normal padronizada, z, em lugar da t na obtencao dos intervalos
de conanca, mesmo que
2
seja desconhecida.
Exemplo 4.2.2 Um Cia adquiriu 500 cabos. Uma amostra de 30 deles sele-
cionados ao acaso apresentou tensao de ruptura media igual a 2400 kg com
desvio padrao de 150 kg. Obter o intervalo com 95% de conanca para a ver-
dadeira tensao media de ruptura destes cabos.
solu cao:
Tem-se:N = 500 n = 30 x = 2400 s = 150 1 = 0, 95
n
N
=
30
500
= 0, 06 > 0, 05 ocorreu ASRPF.
IC()
0,95
= 2400 t
0,025
150

30
_
500 30
500 1
= 2400 (2, 045)(27, 38)(0, 97)
= 2400 54, 31
Interpretacao: Existe 95% de conanca em se dizer que a ver-
dadeira tensao media de ruptura dos cabos esta entre 2345,69 e 2454,31kg.
4.2.2 Diferenca entre duas media (
a

b
)
.
4.2.2.1 Variancias Conhecidas:
IC(
a

b
)
1
= x
a
x
b
z

2
a
n
a
+

2
b
n
b
(4.7)
em que:
4.2. ESTIMAC

AO POR INTERVALO 35
x
a
e x
b
sao as estimativas pontuais das medias das populacoes
a e b, respectivamente;

2
a
e
2
b
as variancias das populacoes a e b, respectivamente e
n
a
e n
b
os tamanhos das amostras das populacoes a e b, respec-
tivamente.
Obs: Se ocorrer ASRPF deve-se multiplicar a variancia da pop-
ula cao na qual ocorreu ASRPF pelo fator de correcao
Nn
N1
.
Exemplo 4.2.3 As empresas A e B produzem tubos para esgoto com a
variancias em seus diametros iguais a 8mm
2
e 10mm
2
, respectivamente. Uma
amostra de 48 tubos da empresa A apresentou diametro medio igual a 40mm, e
uma amostra de 36 tubos da empresa B apresentou diametro medio de 42mm.
Verique, por meio de um intervalo de conanca com 0, 95 de probabilidade, se
existe diferenca entre os diametros medios dos tubos das marcas A e B.
Solucao:
Pop. A Pop. B

2
A
= 8
2
B
= 10
x
A
= 40 x
B
= 42
n
A
= 48 n
B
= 36
IC(
a

b
)
0,95
= x
a
x
b
z
0,025

2
a
n
a
+

2
b
n
b
= 40 42 1, 96
_
8
40
+
10
42
= 2 1, 2973
Conclusao: Pode-se armar com 95% de conanca que a ver-
dadeira diferenca entre os diametros medios dos tubos produzidos pelas empresas
A e B esta entre 2 1, 2973mm, isto e entre -3,2973 e -0,7027 mm. Como
esse intervalo nao compreende o valor 0 (zero) Tem-se 95% de conanca em
armar que os diametros medios dos tubos produzidos por estas empresas nao
sao iguais.
4.2.2.2 Variancias Desconhecidas:
Quando desconhece-se as variancias populacionais (
2
a
e
2
b
)
torna-se necessario a substituicao de seus valores parametricos por suas esti-
mativas amostrais (s
2
a
e s
2
b
). Neste caso, deve-se utilizar a distribuicao t de
Student, em lugar da normal. Alem desta alteracao deve-se considerar ainda
se as duas populacoes sao homocedasticas ou heterocedasticas, isto e, se as
variancias populacionais (desconhecidas) sao iguais ou diferentes, o que pode
ser aferido por meio de um teste de hipotese para homogeneidade das variancias
(Cap 7).
Populacoes homocedasticas
36 CAP

ITULO 4. TEORIA DA ESTIMAC



AO
Sendo as populacoes homocedasticas (
2
a
=
2
b
=
2
), assim, s
2
a
e s
2
b
sao duas estimativas para um mesmo parametro (
2
) entao, o intervalo de
conanca para a diferenca entre duas medias e dado por:
IC(
a

b
)
1
= x
a
x
b
t

2
s
p
_
1
n
a
+
1
n
b
, (4.8)
t

2
com n
a
+n
b
2 graus de liberdade.
em que:
s
p
=

(n
a
1)s
2
a
+ (n
b
1)s
2
b
n
a
+n
b
2
Populacoes heterocedasticas
Sendo as populacoes heterocedasticas (
2
a
=
2
b
), assim, s
2
a
e s
2
b
sao estimativas de diferentes parametros, nao podendo, pois serem combinadas
em um unico valor. Entao o intervalo de conanca para a diferenca entre duas
medias e dado por:
IC(
a

b
)
1
= x
a
x
b
t

s
2
a
n
a
+
s
2
b
n
b
(4.9)
t

2
com v graus de liberdade.
em que:
v =
_
s
2
a
na
+
s
2
b
n
b
_
2

s
2
a
na

2
na1
+

s
2
b
n
b

2
nn1
Exemplo 4.2.4
4.2.3 Intervalo de conanca para proporcao
4.2.3.1 Amostras grandes (n > 30)
O intervalo de conanca para a proporcao e dado por:
IC(P)
1
= p z

2
_
p q
n
(4.10)
em que:
p e a proporcao estimada na amostra;
q = 1 p e;
n e o tamanho da amostra.
Obs: Se ocorrer ASRPF, o intervalo de conanca para pro-
porcao e dado por:
IC(P)
1
= p z

2
_
p q
n
_
N n
N 1
(4.11)
4.2. ESTIMAC

AO POR INTERVALO 37
4.2.3.2 Amostras pequenas (n 30)
Quando a amostra for pequena deve-se utilizar a distribuicao
t de Student, em lugar da normal e o intervalo de conanca para a proporcao
sera dado entao por:
IC(P)
1
= p t

2
_
p q
n
, (4.12)
t

2
com n 1 graus de liberdade
Obs: Se ocorrer ASRPF, o intervalo de conanca para pro-
porcao e dado por:
IC(P)
1
= p t

2
_
p q
n
_
N n
N 1
(4.13)
t

2
com n 1 graus de liberdade
4.2.4 Intervalo de conanca para a diferenca entre pro-
porcoes
Dadas duas amostras independentes, de populacoes diferentes,
o intervalo de conanca para a diferenca entre as proporcoes nestas populacoes
e dado por:
4.2.4.1 Amostras grandes (n > 30)
IC(P
a
P
b
)
1
= ( p
a
p
b
) z

2
_
p
a
q
a
n
a
+
p
a
q
b
n
b
(4.14)
em que:
p
a
e a proporcao estimada na amostra;
q
a
= 1 p
a
;
q
a
= 1 p
a
;
n
a
e n
b
sao os tamanhos das amostras a e b, respectivamente
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da
variancia, referente `a populacao na qual ocorreu ASRPF pelo fator de correcao
Nn
N1
.
4.2.4.2 Amostras pequenas (n 30)
IC(P
a
P
b
)
1
= ( p
a
p
b
) t

2
_
p
a
q
a
n
a
+
p
a
q
b
n
b
(4.15)
t

2
com n
a
+n
b
2 graus de liberdade
Obs: Se ocorrer ASRPF, deve-se multiplicar o componente da
variancia, referente `a populacao na qual ocorreu ASRPF pelo fator de correcao
Nn
N1
.
38 CAP

ITULO 4. TEORIA DA ESTIMAC



AO
4.2.5 Intervalo de conanca para a variancia (
2
)
O intervalo de conanca para a variancia populacional e dado
por:
Sabe-se que
(n 1)s
2

2
sin
2
n1
Entao,
P
_
(n 1)s
2

2
1

2

2

(n 1)s
2

2
_
= 1
E o intervalo de conanca para a variancia sera:
IC(
2
)
1
=
_
(n 1)s
2

2
1

2
;
(n 1)s
2

2
_
(4.16)
Captulo 5
Teoria da decisao (Testes de
Hipoteses)
5.1 Consideracoes iniciais
Uma hipotese cientca e qualquer armacao que possa ser refu-
tada, caso contrario pertencera a outro ramo do conhecimento humano, como
por exemplo a religiao. Assim sendo, a hipotese: Os motores da marca x
sao mais economicos que os da marca y e uma hipotese cientca, pois qual-
quer pessoa que duvide, ou queira comprova-la, pode montar um experimento
e averiguar sua veracidade. Por outro lado, a hipotese: Deus existe, nao
pode ser avaliada, nao sendo, portanto, cientca. Uma determinada hipotese
e tida como verdadeira, se em sua avaliacao nao forem encontrados indcios
que a desaprovem, permanecendo assim ate que se prove o contrario. Para que
uma hipotese cientca seja testada, ela deve ser convertida em uma hipotese
estatstica, que e uma arma cao sobre um parametro populacional. Um teste de
hipotese, fundamenta-se em um conjunto de regras, que permitem, a partir dos
resultados experimentais (amostrais) rejeitar ou nao tal hipotese, associando a
esta decisao uma determinada conanca.
5.1.1 Hipoteses estatsticas
Para a realizacao de um teste de hipoteses, deve-se formular
duas hipoteses estatsticas, a saber:
Hipotese de nulidade (H
0
) e a hipotese que sera testada, sendo geralmente
formulada com o intuito de ser rejeitada.
Hipotese alternativa (H
a
) e qualquer hipotese que contrarie H
0
.
Suponha que esteja-se interessado em vericar se a verdadeira
performance (km/litro de combustvel) dos veculos, de determinada marca,
39
40 CAP

ITULO 5. TEORIA DA DECIS

AO (TESTES DE HIP

OTESES)
equipados com motores 1.6 c.c. seja de 14km/l, como arma o fabricante,
ou se este e inferior a 14km/l. Entao deve-se formular as seguintes hipotese
estatsticas:
_
H
0
: = 14km/l
H
a
: < 14km/l
Para vericar a veracidade da hipotese H
0
, deve-se conduzir
um experimento (coletar uma amostra), no qual sera medida a performance
de varios carros, que fornecerao uma estimativa da performance media, e sua
variancia, a partir das quais, verica-se a veracidade da hipotese H
0
. Suponha
que no experimento acima tenham sido avaliados 9 carros, e que estes tenham
apresentado uma performance media de 13 km/l, com variancia 4(Km/l)
2
. Pelo
simples fato desta amostra de 9 carros ter apresentado uma performance media
inferior a informada pelo fabricante (14 km/l), nao se pode concluir que esta
armativa seja falsa, pois como ja e sabido, esta estimativa esta sujeita uma
distribuicao amostral. Deste modo, para verica a veracidade de H
0
, assume-se
que esta hipotese seja verdadeira, isto e = 14 km/l. e calcula-se a probabili-
dade de uma amostra, com tamanho n = 9, retirada desta populacao, fornecer
uma estimativa inferior a estimativa obtida (13 km/l). Caso esta probabilidade
seja alta, nao havera nenhuma razao para rejeitar a hipotese H
0
(isto e duvi-
dar de sua veracidade), sendo esta tida como verdadeira. Nesta situacao disse
que a diferenca observada entre a media amostral (13 km/l) e a populacional
(14 km/l) nao e signicativa, da a terminologia usual de que o teste foi nao
signicativo, usada para dizer que a hipotese H
0
nao foi rejeitada. Por outro
lado, se a probabilidade de se obter esta estimativa for pequena (p < 0, 05) ha
razoes para acreditar que a verdadeira media populacional seja menor do que
se imaginva, ou seja a verdadeira performance deve ser menor que 14 km/l.
Nesta situacao, diz-se que a diferenca foi signicativa, portanto a hipotese H
0
deve ser rejeitada (o teste foi signicativo). Obs: Nao existe nenhum argumento
cientco para se xar o nvel de probabilidade limite de um teste em 0, 05. Este
e apenas um valor usual, devido a facilidade de sua obtencao em tabelas. No
nosso exemplos temos:
_
H
0
: = 14km/l
H
a
: < 14km/l
na amostra de n = 9 carros obteve-se x = 13 km/l e s
2
=
4 (km/l)
2
; sabendo-se que xsinN
_
,

2
n
_
, assumido = 14 km/l, e como nao
se conhece
2
, mas sim s
2
, tem-se:
x t
(8)
_
14,
4
9
_
graco
t
c
=
x

n
=
13 14
2

9
= 1, 5
Entao,
5.1. CONSIDERAC

OES INICIAIS 41
P|
H0
( x 13) = P(t 1, 5) = 0, 1720
como esta probabilidade e alta, nao ha razoes para acreditar
que a verdadeira performance media seja inferior a 14 km/l
5.1.2 Tipos de erros
Ao realizar-se um teste de hipotese, pode-se incorrer em dois
tipos de erros, que serao discutidos a seguir. Suponha que a hipotese H
0
formu-
lada, no exemplo anterior seja verdadeira, isto e a performance media dos carros
realmente e de 14 km/l, isto e ( = 14 km/l), e por efeito de acaso obtenha-se,
na amostra, uma estimativa de performance, cuja probabilidade de ocorrencia
seja muito baixa, o que levaria a rejeicao da hipotese H
0
: = 14 km/l, que
e verdadeira. Entao ter-se-a cometido um erro denominado erro Tipo I (re-
jeitar uma hipotese H
0
) verdadeira. A probabilidade de se cometer este erro
e denominada nvel de signicancia () sendo esta, determinada (xada) pelo
pesquisador. Por outro lado, a hipotese formulada pode ser falsa, isto e na ver-
dade = 14 km/l, e por efeito de acaso obter uma estimativa, que nos leve a
nao rejeicao da hipotese H
0
: = 14 km/l. Nesta situac ao ter-se-a cometido
o erro Tipo II (aceitar H
0
falsa). A probabilidade de cometer este erro e (),
sendo esta uma funcao de , H
0
e do tamanho amostral. As probabilidades de
se cometer os erros Tipo I e Tipo II, ( e ) sao inversamente proporcionais,
como pode ser observado na g?, sendo que, a unica maneira de se diminuir
simultaneamente e e aumentando o tamanho amostral (n).
Figura 5.1: Erros Tipo I e Tipo II.
Figura tipos de erros
Os tipos de erros que podem ser cometidos em um teste de
hipoteses, bem como suas probabilidades estao resumidos na tabela 5.1
Tabela 5.1: Tipos de erros passveis de serem cometidos ao se testar uma
hipotese
Decisao
Realidade Rejeita H
0
Nao Rejeita H
0
H
0
verdadeira 1
(erro Tipo I) Decisao correta
H
0
falsa 1
Decisao correta (erro Tipo II)
42 CAP

ITULO 5. TEORIA DA DECIS

AO (TESTES DE HIP

OTESES)
5.1.3 Tipos de testes
De acordo com o tipo de hipotese formulada pode-se ter os
seguintes tipos de testes de hipoteses:
i. Teste Bilateral: Apresenta duas regioes de rejeicao de da hipotese H
0
,
situadas nos extremos da distribuicao amostral, e utilizado para testar as
hipoteses do tipo:
_
H
0
: =
H
a
: =
ii. Teste Unilateral a Direita: Apresenta uma unica regiao de rejeicao da
hipotese H
0
, situada no extremo superior da distribuicao amostral, e uti-
lizado para testar as hipoteses do tipo:
_
H
0
: =
H
a
: >
iii. Teste Unilateral a Esquerda Apresenta: uma regiao de rejeicao da hipotese
H
0
, situada no extremo inferior da distribuicao amostral, e utilizado para
testar as hipoteses do tipo:
_
H
0
: =
H
a
: <
5.1.4 Algoritmo para realizacao de um teste de hipotese
i. Formular as hipotese H
0
e H
a
;
ii. Fixar o valor de ;
iii. Construir a regra de decisao (regioes de rejeicao e nao rejeicao de H
0
);
iv. Calcular a estatstica adequada para o teste;
v. Tomar a decisao;
vi. Conclusao.
Exemplo. Aplicando-se este algoritmo ao exemplo da perfor-
mance media dos carros tem-se:
i.
_
H
0
: = 14km/l
H
a
: < 14km/l
ii. = 0, 05
iii. t
0,05
(8) = 1, 860 Regra: rejeitar H
0
se t
calc
1, 860
5.2. ESTAT

ISTICA APROPRIADAS PARA OS TESTES DE HIP

OTESES43
iv.
t
calc
=
x
0
s

n
=
13 14
2

9
= 1, 5
v. Como t
calc
= 1, 5 > t
tab
= 1, 860, nao rejeita-se a hipotese H
0
, pois o
valor da estatstica teste (t
calc
) encontra-se na regiao de nao rejeicao de H
0
.
vi. Conclui-se pelo teste t de Student, ao nvel de 0, 05 de probabilidade que a
verdadeira performance media destes carros nao e inferior a 14 km/l.
5.2 Estatstica apropriadas para os testes de
hipoteses
Parametro Presuposicoes Estatstica Distribuicao
X N(,
2
) t
calc
=
x0
s

n
n > 30 N(0, 1)
n 30 t
(n1)

b
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)

2
a
=
2
b
t
calc
=
xa x
b
(a
b
)
sp

1
na
+
1
n
b
s
p
=
_
(na1)s
2
a
+(n
b
1)s
2
b
na+n
b
2
n > 30 N(0, 1)
n 30 t
(na+n
b
2)
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)

2
a
=
2
b
t
calc
=
xa x
b
(a
b
)

s
2
a
na
+
s
2
b
n
b
n > 30 N(0, 1)
n 30 t
(v)
v =

s
2
a
na
+
s
2
b
n
b

s
2
a
na

2
na1
+

s
2
b
n
b

2
nn1
dados pareados
t
calc
=

dd0
s
d

n
d
i
= x
i antes
x
i depois
n > 30 N(0, 1)
n 30 t
(n1)
p t
calc
=
pp0

p(1 p)
n
n > 30 N(0, 1)
n 30 t
(n1)
p
a
p
b
t
calc
=
pa p
b
(p0a
p0
b
)

pa(1 pa)
n
+
p
b
(1 p
b
)
n
n > 30 N(0, 1)
n 30 t
(na+n
b
2)

2
a

2
b
X
a
N(
a
,
2
a
)
X
b
N(
b
,
2
b
)
F
calc
=
s
2
a
s
2
b

2
b

2
a
F
(na1),(n
b
1)
5.2.1 Teste de Qui-Quadrado (
2
)
O teste de Qui-Quadrado e utilizado para comparacao entre as
freq uencias observadas as esperadas segundo um modelo probabilstico qualquer.
44 CAP

ITULO 5. TEORIA DA DECIS

AO (TESTES DE HIP

OTESES)
Uma medida da discrepancia entre as freq uencias observadas e
esperadas e dada por:

2
calc
=
k

i=1
(F
oi
F
ei
)
2
F
ei
; (5.1)
em que:
F
oi
e a freq uencia observada;
F
ei
e a freq uencia esperada.
A expressao 5.1 fornece um valor sempre positivo, e pode-se
demonstrar que
2
calc

2
v
. Em que
2
v
e uma distribuicao Qui-Quadrado com
v graus de liberdade.
Assim, a estatstica 5.1 pode ser utilizada tanto para vericar
a aderencia das freq uencias observadas a um modelo, (teste Qui-Quadrado de
aderencia), como para vericar a independencia entre duas variaveis.
5.2.1.1 Teste de aderencia

E utilizado para vericar o ajustamento de um modelo de pro-


babilidade aos dados observados, ou seja, vericar se as diferencas entre as
freq uencias observadas e esperadas sao estatisticamente signicativas.
Neste caso o n umero de graus de liberdade (v) sera:
v = k 1 m,
em que:
k e o n umero de classes, e
m o n umero de parametros estimados para se obter as freq.
esperadas.
Exemplo 5.2.1 . Em seus experimentos com ervilhas, Mendel, ao cruzar plan-
tas de sementes amarelas lisas com plantas de sementes verdes enrugadas, obser-
vou a seguinte descendencia na geracao F
2
: 315 plantas com sementes amarelas
lisas, 108 com sementes amarelas enrugadas, 101 com sementes verdes lisas e
32 com sementes verdes enrugadas. De acordo com os postulados de Mendel
a segregacao esperada nesta geracao deveria seguir a proporcao de 9:3:3:1 Ve-
ricar se a teoria da segregacao independente dos genes explica a segregacao
observada.
Solucao:
Hipoteses a serem testadas:
_
proporcao = 9 : 3 : 3 : 1
proporcao = 9 : 3 : 3 : 1

_

2
= 0

2
> 0
Obter as freq uencia esperadas
5.2. ESTAT

ISTICA APROPRIADAS PARA OS TESTES DE HIP

OTESES45
classes F
o
F
e
Amarelas lisas 315 312,75
Amarelas enrugadas 108 104,25
Verdes lisas 101 104,25
Verdes enrugadas 32 34,75
Total 56 556
Obter a estatstica
2
calc

2
calc
=
(315 312, 75)
2
312, 75
+ +
(32 34, 75)
2
34, 75
= 0, 470
como nenhum parametro foi estimado, o n umero de graus de
liberdade sera: v = 4 1 0 = 3
Verica-se na tabela de
2
que
2
(0,01)
(3) = 11, 345
Como
2
calc
<
2
tab
o teste foi nao signicativo.
Exemplo 5.2.2 A distribuicao do n umero de gols/partida, realizadas pelo
Cruzeiro, durante o Brasileirao 2001, foi:
Tabela 5.2: N umero de gols por partida marcados pelo Cruzeiro Esporte Clube
durante o campeonato brasileiro de 2002.
N umero de gols 0 1 2 3 4
N umero de partidas 8 9 4 2 3
Vericar se o n umero de gols por partida pode ser modelado
segundo uma distribuicao de Poison
Solucao:
Para obtencao das freq uencias esperadas pela distribuicao
torna-se necessario estimar o n umero medio de gols: x = 1, 35 gols por partida,
em em seguida obter a distribuicao de probabilidade do n umero de gols/partidas:
Tabela 5.3: Probailidades estimadas via modelo de Poisson do n umero de
gols por partida marcados pelo Cruzeiro Esporte Clube durante o campeonato
brasileiro de 2002.
n umero de gols 0 1 2 3 4
Prob. 0,26 0,35 0,23 0,10 0,04
Assim a freq uencia esperada pela distribuicao de Poison sera
dada pelo produto da probabilidade do cruzeiro realizar um determinado n umero
de gols em uma partida pelo n umero de partidas realizadas:
46 CAP

ITULO 5. TEORIA DA DECIS

AO (TESTES DE HIP

OTESES)
Tabela 5.4: Frequencias esperadas do n umero de gols por partida marcados pelo
Cruzeiro Esporte Clube durante o campeonato brasileiro de 2002, estimadas pelo
modelo Poisson.
N umero de gols 0 1 2 3 4
N umero de partidas (Fo) 8 9 4 2 3
Fe 6,76 9,10 6,24 2,86 1,04
Tabela 5.5: N umero de alunos matriculados em dois coledios em relacao `a classe
social dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20 40 40 100
B 50 40 30 120
Total 70 80 70 220
O valor da estatstica
2
sera:

2
calc
=
(8 6, 76)
2
6, 76
+
(9 9, 10)
2
9, 10
+ +
(3 1, 04)
2
1, 04
= 4, 98
Comparando esse valor com o de
2
Tabela
= com 3 graus de liber-
dade (5-1-1) tem-se que o pvalor=0.1732, portanto nao rejeita-se H
0
.
5.2.1.2 Teste de independencia
O teste
2
de independencia e aplicado a tabelas de con-
tingencia, as quais sao construidas no intuito de estudar a relacao entre duas
variaveis categoricas. Considere-se como exemplo a tabela 5.6 na qual estao
apresentados os n umero de alunos matriculados nos coledios A e B, em relacao
`a sua classe economica (alta, media ou baixa).
A estatstica utilizada para o teste e

2
calc
=
h

i=1
k

j=1
(Fo
ij
Fe
ij
)
2
Fe
ij
(5.2)
em que:
Fo
ij
e a freq uencia observada na casela ij;
Fe
ij
e a freq uencia esperada na casela ij, a qual e dada por:
Fe
ij
=
(Total da lina i)(total da coluna j)
total geral
5.2. ESTAT

ISTICA APROPRIADAS PARA OS TESTES DE HIP

OTESES47
Tabela 5.6: N umero de alunos matriculados em dois coledios em relacao `a classe
social dos mesmos
Classe social
colegio Alta Media Baixa Total
A 20(31,82) 40(36,36) 40(31,82) 100
B 50(31,18) 40(43,64) 30(38,18) 120
Total 70 80 70 220
( ) Freq uencia esperada
Sob H
0
, a estatstica 5.2 tem distribuicao de
2
com
v = (h 1)(k 1) p
graus de liberdade, sendo p o n umero de parametros estimados.
No exemplo tem-se:
substituindo esses resultados em 5.2

2
calc
=
(20 31, 82)
2
31, 82
+
(40 36, 36)
2
336, 36
+ +
(30 30, 18)
2
30, 18
= 20, 27
Verica-se na tabela de
2
que o valor de
2
0,05
(2) = 5, 99. Como
o valor de
2
calc
e maior que o de
2
tab
, este se encontra na regiao de rejeicao de
H
0
portanto, rejeita-se a hipotese de independencia entre os colegios e a classe
social dos alunos. Ou seja pode-se armar, ao nvel de 0,05 que a classe social
e o colegio no qual os alunos estudam nao sao independentes.
48 CAP

ITULO 5. TEORIA DA DECIS

AO (TESTES DE HIP

OTESES)
Captulo 6
Referencias Bibiliogracas
TRIOLA, M.F. Introducao `a Estatstica, 7
a
Ed.Rio de
Janeiro, LTC, 1999,410p.
DeGROOt, M. H; SCHERVISH, M.J. Probability and
Statistics 3
th
Ed.Boston, Addison Wesley, 2002, 816p.
49

You might also like