You are on page 1of 15

Estatistica II aula teórica

1. Teoria Estatística de Estimação

Nos capítulos anteriores foram tratados aspectos, como a estatística descritiva, cujo objectivo era
fundamentalmente o de caracterizar conjuntos restritos de dados, teoria das probabilidades e suas
distribuições.

Neste capítulo, vamos considerar o processo de obtenção de informações sobre uma população a partir dos
resultados observados numa amostra. O problema aqui considerado é um dos enfoques principais da
inferência estatística. No âmbito da inferência estatística, ganha-se uma nova dimensão, ao calcular
estatísticas, existe um objectivo adicional de caracterizar a população a partir da qual a amostra foi retirada,
procurando designadamente estimar parâmetros desta população.

Consideremos as situações

• Generalização sobre a temperatura da nossa sopa com base na primeira colherada


• Estimação da esperança de vida um par de sapatos com experiencia passada.

É exactamente isso, que fazemos na inferência estatística, só que o fazemos de maneiras mais ciêntífica. O
que com que a aplicação da inferência estatística seja científica é o facto de ter em conta a maneira de
seleccionar a amostra e expressarmos a nossa generalização em termos especifica de probabilidade.

Exemplo1.1. Em vez de dizer que os pares de sapatos duram cinco anos, dá-se m intervalo de anos e
estabelece-se um nível de probabilidade associado à ele.

3 ≤ 𝜇𝜇 ≤ 7 ; com p=95% e 𝜇𝜇 é o número médio de anos.

Geralmente não nos interessamos por saber tudo o que se passa numa população, quando já sabemos as
características da amostra, mas só algumas características "parâmetros" a partir de distribuições amostrais.

É suficientemente claro que o objectivo da amostragem e o da inferência estatística é estimar os parâmetros


da população, conhecidas as estatísticas amostrais revestidas de certo grau de segurança. Trata-se de estimar
as quantidades desconhecidas da média, desvio padrão e proporção das distribuições populacionais.

a estimação é feita com base ou com auxilio de um estimador ou seja de uma fórmula que descreve o modo
de calcular o valor do parâmetro populacional. o valor de um estimador

Definição 1.1. (estimador pontual). É um valor que é usado para estimar qualquer parâmetro populacional
desconhecido.

dr. Langa pág. 1


Estatistica II aula teórica

Definição 1.2. (estimativa por intervalo). É aquela que é dada por dois valores consecutivos que são
usados para estimar o intervalo onde se encontra o parâmetro populacional desconhecido, com a
especificação de um certo grau ou nível de probabilidade.

Exemplo 1.2. A altura de Artur é mais ou menos 1.68 cm, este valor significa que a altura verdadeira do
Artur está entre 1.675 à 1.685 ou entre 1.67 à 1.69 conforme o nível de precisão requerido.

1.1. Estimativas pontuais

Dada uma população de tamanho N, normalmente distribuída, se dela foi extraída uma amostra aleatória de
n, é de esperar que a amostra esteja também normalmente distribuída. Se não conhecer os valores dos
parâmetros populacionais a média 𝜇𝜇 a variância 𝜎𝜎 2 e proporção de sucessos p(s), então eles podem ser
substituídos pelos estimadores pontuais obtidos na amostra.

∑ 𝑋𝑋 𝑖𝑖
a. o estimador pontual da média populacional 𝜇𝜇 é : �𝑥𝑥 =
𝑛𝑛
∑(𝑥𝑥 𝑖𝑖 −𝑥𝑥̅ )2
b. o estimador pontual da variância populacional 𝜎𝜎 2 é : 𝑠𝑠 2 = 𝑛𝑛 −1
𝑥𝑥
c. o estimador pontual d a proporção na população P é: 𝑝𝑝 = 𝑛𝑛

1.2. Estimativa de parâmetros por intervalos de confiança


1.2.1. Estimativa para amostras grandes
a. Intervalo de confiança de média populacional

se X é normalmente distribuído 𝑋𝑋 ≈ 𝑁𝑁(𝜇𝜇, 𝜎𝜎), então a média amostral �𝑥𝑥, tem distribuição de probabilidade
𝜎𝜎 2
normal com média 𝜇𝜇 e variancia 𝑛𝑛

De acordo com o teorema de limite central, qualquer que seja a distribuição de X com valor médio 𝜇𝜇 e
variância populacional conhecida 𝜎𝜎 2 ou para n suficientemente grande (𝑛𝑛 ≥ 30) retirado desta
𝜎𝜎
distribuição �𝑥𝑥 é aproximadamente normal 𝑥𝑥̅ ≈ 𝑁𝑁(𝜇𝜇; )
√𝑛𝑛

se para cada valor da média amostral, for reduzido a z, a estatística z será também aproximadamente
normal.

𝑥𝑥̅ − 𝜇𝜇
𝑧𝑧 = 𝜎𝜎 ⟹ 𝑧𝑧 ≈ 𝑁𝑁(0; 1)
√𝑛𝑛

Onde z – satisfaz a simetria da curva normal.

dr. Langa pág. 2


Estatistica II aula teórica

da simetria da distribuição normal chega-se ao intervalo

−𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝑧𝑧 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐

Substituindo o valor de z pela expressão correspondente

𝑥𝑥̅ − 𝜇𝜇
−𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝜎𝜎 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐
√𝑛𝑛

Isolando a média populacional terá:

𝜎𝜎 𝜎𝜎
𝑥𝑥̅ − 𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
√𝑛𝑛 √𝑛𝑛

Exemplo 1.3. Em uma superfície de terra molhada foram medidos os comprimentos de 36 minhocas em cm.
Assumindo que as medidas populacionais são normalmente distribuídas com variância 4, calcula a 95% o
intervalo de confiança para o cumprimento médio se da amostra se obteve a média de 10.3

𝜎𝜎 𝜎𝜎
Dados: Resolução: 𝑥𝑥̅ − 𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
√𝑛𝑛 √𝑛𝑛
N=36 2 2
𝜎𝜎 2 = 4 (𝜎𝜎 = 2) 10.39 − 1.96 ∗ ≤ 𝜇𝜇 ≤ 1.96 ∗ + 10.39
𝛾𝛾 = 95% Z=1.96 √36 √36
9.74 ≤ 𝜇𝜇 ≤ 11.04
𝜇𝜇𝑥𝑥 = 𝑥𝑥̅ = 10.39
Resposta:
Com 95% de confiança pode-se dizer que a verdadeira média da população das minhocas está entre
9.74 e 11.04

Teorema: quando o desvio padrão populacional não é conhecido ele é substituído pela estatística amostral,
tendo-se calculado a variância amostral, desde que amostra seja grande e o intervalo de confiança da média
será:

𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
√𝑛𝑛 √𝑛𝑛

Exemplo 1.4. Construir o intervalo de confiança de média populacional, a partir das estatísticas amostrais:
média 26.2 e desvio padrão 5.15, a um nível de confiança de 99%, sabendo que a amostra tinha 32
unidades.

Dados Resolução
N=32 𝑠𝑠 𝑠𝑠
𝑥𝑥̅ = 26.2 𝑥𝑥̅ − 𝑧𝑧𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑧𝑧𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
S=5.15 √𝑛𝑛 √𝑛𝑛
𝛾𝛾 = 99% Z=2.57 5.15 5.15
26.2 − 2.57 ∗ ≤ 𝜇𝜇 ≤ 2.57 ∗ + 26.2
√32 √32

dr. Langa pág. 3


Estatistica II aula teórica

23.696≤ 𝜇𝜇 ≤ 28.704
Resposta: a um nível de confiança de 99% pode-se afirmar que o intervalo 23.696 à 28.704 contem a
verdadeira média populacional.

b. Intervalo de confiança da variância populacional

O estimador da variância populacional 𝜎𝜎 2 é S.

2
(𝑛𝑛 − 1) ∗ 𝑠𝑠 2
𝑋𝑋𝑛𝑛−1 =
𝜎𝜎 2

Substituindo o valor de x2, e isolando a 𝜎𝜎 2 obtêm-se o intervalo de confiança para a variância


populacional. Onde n-1 indica o número de graus de liberdade da distribuição do qui-quadrado

(𝑛𝑛 − 1) ∗ 𝑠𝑠 2 2
(𝑛𝑛 − 1) ∗ 𝑠𝑠 2
≤ 𝜎𝜎 ≤
𝑋𝑋𝑠𝑠2 𝑋𝑋𝑖𝑖2

Exemplo 1.5 . Dada uma amostra de tamanho 10, e variância 4. Construir um intervalo de confiança
para a variância populacional ao nível de confiança de 90%.

Dados Resolução
O valor do qui-quadrado, é obtido através:
n=10 𝜃𝜃 2
𝛾𝛾 = 90% = 0.9 2
= 0.05. assim 𝑋𝑋𝑠𝑠2 = 𝑋𝑋(9;0.05) = 16.9
1 − 𝛾𝛾 = 𝜃𝜃 = 1 − 0.9 = 0.1 O valor do qui-quadrado inferior, é também obtido da seguinte
maneira:
1 − 𝜃𝜃
= 0.95
n-1=9 2
2
𝑋𝑋𝑠𝑠2 = 𝑋𝑋(9;0.95) = 3.33
(𝑛𝑛 − 1) ∗ 𝑠𝑠 2 (𝑛𝑛 − 1) ∗ 𝑠𝑠 2
2
≤ 𝜎𝜎 ≤ ⟹
𝑋𝑋𝑠𝑠2 𝑋𝑋𝑖𝑖2
9∗4 9∗4
≤ 𝜎𝜎 2 ≤ ⟹
16.9 3.33
2.13 ≤ 𝜎𝜎 2 ≤10.81
Resposta: ao nível de confiança de 90% pode-se dizer que a verdadeira variância populacional
está entre 2.13 à 10.81 inclusive.

c. Intervalo de confiança do desvio padrão populacional

Como o desvio padrão é raiz quadrada da variância, pode-se usar a seguinte formula:

dr. Langa pág. 4


Estatistica II aula teórica

(𝑛𝑛 − 1) ∗ 𝑠𝑠 2 (𝑛𝑛 − 1) ∗ 𝑠𝑠 2
� 2 ≤ 𝜎𝜎 ≤ �
𝑋𝑋𝑠𝑠 𝑋𝑋𝑖𝑖2

d. Intervalo de confiança da proporção

Consideremos uma população binomial com P a proporção de sucessos na população de uma certa
𝑥𝑥
característica. A proporção amostral 𝑝𝑝 = 𝑛𝑛 é usada como estimador da proporção p(s),onde x é o
𝑥𝑥
número de elementos com a característica pesquisada na amostra de tamanho n. Logo 𝑝𝑝 = 𝑛𝑛 é a

proporção de sucessos na amostra.

se passarmos para escores reduzidos a proporção amostral, temos

𝑝𝑝 − 𝑃𝑃
𝑧𝑧 =
�𝑃𝑃(1 − 𝑃𝑃)
𝑛𝑛

logo, o intervalo de confiança da proporção de sucessos P da população obtida a partir de uma amostra de
tamanho n, com p sucessos a um nível de confiança 𝛾𝛾 será:

P(1 − P) P(1 − P)
P − zcr ∗ � ≤ Ps ≤ zcr ∗ � +P
n n

Exemplo 1.6. Um medicamento novo foi experimentado em 2500 indivíduos, tendo-se revelado eficaz em
80% dos casos. Determine o intervalo de confiança da proporção do medicamento ser eficaz para a
probabilidade de 0.95.

Dados Resolução
n=2500
P(1 − P) P(1 − P)
P=0.8 P − zcr ∗ � ≤ Ps ≤ zcr ∗ � +P
𝛾𝛾 = 0.95, z= n n
1.96
0.8(1 − 0.8) 0.8(1 − 0.8)
0.8 − 1.96 ∗ � ≤ Ps ≤ 1.96 ∗ � + 0.8
2500 2500
0.78 ≤ Ps ≤0.82

Resposta: com um erro de 5% pode-se dizer que o intervalo de confiança de que o medicamento seja
eficaz é de 78% à 82%.

dr. Langa pág. 5


Estatistica II aula teórica

1.2.2. Estimativa para mostras pequena

Naturalmente, quando os números de unidades amostrais tendem a zero deve-se esperar um maior risco de
erro ao generalizar as conclusões tiradas desta amostra. Para minimizar este tipo de erro de amostragem as
fórmulas anteriores serão modificadas.

a. Intervalo de confiança da média

Como o valor do desvio padrão populacional 𝜎𝜎 não é conhecido, ele irá ser substituído pelo desvio padrão
amostral s. No entanto, se a amostra for pequena, para minimizar o erro decorrente da substituição da
variância populacional 𝜎𝜎 2 pela variância amostral corrigida s2 é introduzida uma nova variável reduzida t,
da distribuição t de Student, definida pela fórmula:

𝑥𝑥̅ − 𝜇𝜇
𝑡𝑡 = 𝑠𝑠
√𝑛𝑛

se não for conhecido o desvio padrão populacional, e o volume da amostra não exceder 30 unidades, o
intervalo de confiança da média populacional dependerá do desvio padrão amostral.

𝑠𝑠 𝑠𝑠
𝑥𝑥̅ − 𝑡𝑡𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑡𝑡𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
√𝑛𝑛 √𝑛𝑛

Exemplo 1.7. Suponha que se extraia uma amostra de tamanho 25 de uma população com média e desvio
padrão desconhecido. Suponha que a média amostral seja 4.004 e o desvio padrão amostral seja 0.366.
determinar intervalo com 99% de confiança para média populacional.

Dados Resolução
𝑠𝑠 𝑠𝑠
n=25 𝑥𝑥̅ − 𝑡𝑡𝑐𝑐𝑐𝑐 ≤ 𝜇𝜇 ≤ 𝑡𝑡𝑐𝑐𝑐𝑐 + 𝑥𝑥̅
𝛾𝛾 = 99% 𝑡𝑡0.01 ;24 = 2.8 √𝑛𝑛 √𝑛𝑛
2
𝜇𝜇𝑥𝑥 = 𝑥𝑥̅ = 4.004 0.366
4.004 − 2.8 ≤ 𝜇𝜇
𝑠𝑠 = 0.366 √25
0.366
+ 4.004 ≤ 2.8
√25
3.799 ≤ 𝜇𝜇 ≤ 4.209
Resposta: o intervalo de confiança, através dos dados do exercício é de 3.799 à 4.209 para
um nível de confiança de 99%.

dr. Langa pág. 6


Estatistica II aula teórica

2. Testes de Hipóteses

Até agora estudamos como, a partir de uma amostra de uma população, podemos obter uma estimativa
pontual ou estabelecer um intervalo mais ou menos aproximado para encontrar os parâmetros que regem a
lei de probabilidade de uma variável aleatória definida sobre a população. É o que denominávamos
estimativa pontual e estimativa por intervalo de confiança, respectivamente. Será agora apresentado um
outro procedimento de Inferência Estatística – o teste de hipóteses – cujo objectivo fundamental é o de
verificar se dados amostrais (ou estimativas obtidas a partir deles) são ou não compatíveis com
determinadas populações (ou com valores previamente fixados dos correspondentes parâmetros
populacionais). O resultado do teste corresponde inevitavelmente a uma das duas respostas possíveis para
aquela questão: afirmativa ou negativa. Em ambos casos corre-se o risco de errar. Uma das características
do teste de hipóteses é, justamente, a de permitir controlar ou minimizar o tal risco.

Para facilitar a compreensão da metodologia utilizada no teste de hipóteses, o procedimento básico nela
envolvido será decomposto em quatro fases, designadamente:

i) Definição de hipóteses
ii) Identificação da estatística de teste e caracterização de sua distribuição
iii) Definição da regra de decisão, com especificação do nível de significância do teste
iv) Cálculo da estatística de teste e tomada de decisão.

2.1. Definição das hipóteses

Uma hipótese estatística, ou simplesmente hipótese, é uma alegação ou afirmação sobre o valor de um
único parâmetro (característica da população de uma distribuição de probabilidade), sobre os valores de
vários parâmetros ou sobre a forma de uma distribuição de probabilidade inteira.

Definição 1: (Hipótese nula). Representada por H0, é a legação inicialmente assumida como verdadeira (a
suposição de afirmação de prioridade). A hipótese alternativa representada por Ha é a afirmação
contraditória a H0.

A hipótese nula será rejeitada em favor da hipótese alternativa somente se a evidência da amostra sugerir
que H0 seja falsa. Se a amostra não contradisser fortemente H0, continuaremos a acreditar na verdade da
hipótese nula. As duas conclusões possíveis de uma análise do teste de hipóteses são, então, rejeitar H0 ou
não rejeitar H0

2.2. Identificação da estatística de teste e caracterização de sua distribuição

dr. Langa pág. 7


Estatistica II aula teórica

A estatística que é utilizada para verificar a plausibilidade da hipótese nula designa-se por estatística de
teste. Para que tal possa cumprir a sua função, é necessário conhecer a sua distribuição quando que é
verdadeira a hipótese nula.

2.2.1. Tipos de testes

Iremos considerar os seguintes tipos de testes:

a. Teste bilateral
𝐻𝐻0 : 𝜃𝜃 = 𝜃𝜃0
𝐻𝐻𝑎𝑎 : 𝜃𝜃 ≠ 𝜃𝜃0

b. Teste unilateral à direita


𝐻𝐻0 : 𝜃𝜃 = 𝜃𝜃0
𝐻𝐻𝑎𝑎 : 𝜃𝜃 > 𝜃𝜃0

c. Teste unilateral à esquerda

𝐻𝐻0 : 𝜃𝜃 = 𝜃𝜃0
𝐻𝐻𝑎𝑎 : 𝜃𝜃 < 𝜃𝜃0

2.3.Definição da regra de decisão, com especificação do nível de significância do teste

Quando estabelecemos um procedimento do teste, podemos incorrer em dois tipos de erros: Erros do Tipo I
e Erros do tipo 2

I. O de rejeitar a hipótese nula quando ela é de facto verdadeira. Este erro é denominado erro do tipo
I. a probabilidade (α) deste tipo de erro ocorrer
é controlada pelo estatístico (analista) e é
denominada nível de significância do teste.
II. O de aceitar a hipótese nula quando ela é falsa. Este erro é denominado erro do tipo II. A
probabilidade deste erro ocorrer é representada por β.

A tabela abaixo mostra os dois tipos de erros.

H0 é verdadeira H0 é falsa
Aceitar H0 1-α (coeficiente de confiança) Β
Rejeitar H0 α (nível de significância) 1-β (poder do Teste)

dr. Langa pág. 8


Estatistica II aula teórica

2.4. Cálculo da estatística de teste e tomada de decisão


2.4.1. Região Crítica do Teste

O objectivo do teste de hipóteses é decidir, usando uma estatística 𝜃𝜃�, se a hipótese nula é ou não aceitável.
Esta decisão é tomada através da consideração de uma região crítica. Ou seja, a região crítica é a região
onde rejeitamos a hipótese nula.

É importante destacar que a região crítica é sempre construída sob a hipótese de H0 ser verdadeira. A
probabilidade α de se cometer um erro tipo Ié um valor arbitrário e recebe o nome de nível de significância
do teste.

2.5. Procedimento Geral do Teste de Hipóteses

O procedimento padrão para a realização de um teste de hipóteses é o seguinte:

I. Fixa-se qual a hipótese H0 a ser testada e qual a hipótese alternativa;


II. Usa-se a teoria estatística e as informações disponíveis para decidir qual estatística (estimador)
será usada para testar a hipótese H0
III. Fixa-se a probabilidade α de cometer o erro tipo I e usa-se este valor para construir a região crítica
do teste. Essa região é construída sob H0, a partir de
𝛼𝛼 = 𝑃𝑃(𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝐻𝐻0 \ 𝐻𝐻0 𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣𝑣)
IV. Através da amostra, calcula-se a estatística de teste;
V. Se a estatística de teste pertencer à região crítica, rejeita-se a hipótese nula, caso contrário, não
rejeitamos a H0

2.5.1. Testes para média de uma população com uma amostra grande

Vamos aplicar o procedimento geral para o caso em que queremos testar uma hipótese sobre a média de
uma população que tem variância conhecida.

i) Definição das hipóteses:


𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
a) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 ≠ 𝜇𝜇0
𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
b) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 > 𝜇𝜇0
𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
c) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 < 𝜇𝜇0

dr. Langa pág. 9


Estatistica II aula teórica

ii) Escolha da Estatística para o teste


∑ 𝑋𝑋
Neste caso, utilizaremos a estatística 𝑋𝑋� = 𝑖𝑖 . Assim pelo teorema de limite central sabemos
𝑛𝑛

que:
𝑋𝑋� − 𝜇𝜇
𝑍𝑍 = 𝜎𝜎 ≈ 𝑁𝑁(0,1)
� 𝑛𝑛

iii) Fixado o nível de significância do testeα)( e supondo H 0 verdadeira, podemos construir a
região critica do teste como:
𝜎𝜎 𝜎𝜎 𝜎𝜎
a) 𝑅𝑅𝑅𝑅 = �𝑥𝑥̅ ; 𝑃𝑃 �𝑋𝑋� ≤ 𝜇𝜇0 − 𝑍𝑍1−𝛼𝛼 𝑜𝑜𝑜𝑜 𝑋𝑋� ≥ 𝜇𝜇0 + 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; 𝜇𝜇0 − 𝑍𝑍1−𝛼𝛼 �∪
2 √𝑛𝑛 2 √𝑛𝑛 2 √𝑛𝑛

𝜎𝜎
�𝜇𝜇0 + 𝑍𝑍1−𝛼𝛼 ; +∞�
2 √𝑛𝑛

A região crítica também pode ser escrita em termos de valores padronizados, ou seja

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �|𝑍𝑍| ≥ 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−𝛼𝛼 � ∪ �𝑍𝑍1−𝛼𝛼 ; +∞�


2 2 2

𝜎𝜎 𝜎𝜎
b) 𝑅𝑅𝑅𝑅 = �𝑥𝑥̅ ; 𝑃𝑃 � 𝑋𝑋� ≥ 𝜇𝜇0 + 𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �𝜇𝜇0 + 𝑍𝑍1−𝛼𝛼 ; +∞�. Ou então,
2 √𝑛𝑛 2 √𝑛𝑛

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �𝑍𝑍 > 𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �𝑍𝑍1−2𝛼𝛼 ; +∞�


2 2

𝜎𝜎 𝜎𝜎
c) 𝑅𝑅𝑅𝑅 = �𝑥𝑥̅ ; 𝑃𝑃 �𝑋𝑋� ≤ 𝜇𝜇0 − 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; 𝜇𝜇0 − 𝑍𝑍1−𝛼𝛼 � ou então,
2 √𝑛𝑛 2 √𝑛𝑛

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �𝑍𝑍 ≤ −𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−2𝛼𝛼 �


2 2

∑ 𝑋𝑋 𝑖𝑖
iv) Estatística de teste: dada uma amostra de tamanho n, a estatística de teste será 𝑥𝑥
���0 = , ou
𝑛𝑛

então, considerando o intervalo com valores padronizados, a estatística de teste será:


���
𝑋𝑋0 − 𝜇𝜇0
𝑧𝑧0 = 𝜎𝜎
� 𝑛𝑛

v) ���0 ∈ 𝑅𝑅𝑅𝑅 𝑜𝑜𝑜𝑜 𝑧𝑧0 ∈ 𝑅𝑅𝑅𝑅, rejeitamos H0, caso contrário, não rejeitamos H0
Conclusão: se 𝑋𝑋

Exemplo 1: Seja X uma população normal com variância 36. Dessa população, toma-se uma amostra de
tamanho 16, obtendo-se uma média amostral de 43. Ao nível de 10%, testar as hipóteses:

𝐻𝐻0 : 𝜇𝜇 = 45
𝐻𝐻𝑎𝑎 : 𝜇𝜇 ≠ 45

dr. Langa pág. 10


Estatistica II aula teórica

Dados:

𝜎𝜎 2 = 36, 𝑋𝑋� = 43, 𝑛𝑛 = 16, 𝛼𝛼 = 10%

i) Hipóteses
𝐻𝐻0 : 𝜇𝜇 = 45
𝐻𝐻𝑎𝑎 : 𝜇𝜇 ≠ 45
ii) Escolha da estatística do teste

𝑋𝑋� − 𝜇𝜇
𝜎𝜎 ≈ 𝑁𝑁(0,1)
� 𝑛𝑛

iii) Construir a região crítica


O erro do tipo I é 𝛼𝛼 = 10%,e o teste é bilateral então a região crítica será:

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �|𝑍𝑍| ≥ 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−0.1 � ∪ �𝑍𝑍1−0.1 ; +∞�


2 2 2

𝑅𝑅𝑅𝑅 = ]−∞; −𝑍𝑍0.45 ] ∪ [𝑍𝑍0.45 ; +∞[


𝑅𝑅𝑅𝑅 = ]−∞; −1.645] ∪ [1.645; +∞[

Ou seja, se Z calculado cair dentro desse intervalo a hipótese nula será rejeitada.

iv) Calcular a estatística de teste


𝑋𝑋� − 𝜇𝜇 43 − 45 8
𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐 = 𝜎𝜎 = = − = −1.333
� 𝑛𝑛 6� 6
√ 4

v) Conclusão

O valor calculado Z=-1.33 não cai na região crítica (−1.645 < −1.333 < 1.645), de modo que a
hipótese nula não pode ser rejeitada com nível de significância 0.1. os dados não dão forte apoio à alegação
de que a média real difere do valor projectado de 45.

Exemplo 2: uma fábrica anuncia que o índice de nicotina dos cigarros da marca X apresenta-se abaixo de 26
mg por cigarro. Um laboratório realiza 10 análises do índice obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 14.
Sabendo-se que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância de
5.36 mg2, pode-se aceitar a afirmação do fabricante, ao nível de 5%?

Dados:

𝜎𝜎 2 = 5.36, 𝑛𝑛 = 10, 𝛼𝛼 = 5%

dr. Langa pág. 11


Estatistica II aula teórica

26 + 24 + 23 + 22 + 28 + 25 + 27 + 26 + 28 + 14
𝑋𝑋� = = 24.3
10

i) Hipóteses
𝐻𝐻0 : 𝜇𝜇 = 26
𝐻𝐻𝑎𝑎 : 𝜇𝜇 < 26
ii) Escolha da estatística do teste

𝑋𝑋� − 𝜇𝜇
𝜎𝜎 ≈ 𝑁𝑁(0,1)
� 𝑛𝑛

iii) Construir a região crítica


O erro do tipo I é 𝛼𝛼 = 10%,e o teste é unilateral à esquerda então a região crítica será:

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �𝑍𝑍 ≤ −𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−2𝛼𝛼 �


2 2

𝑅𝑅𝑅𝑅 = �−∞; −𝑍𝑍1−2×0.05 � = ]−∞; −𝑍𝑍0.45 ] = ]−∞; −1.645]


2

Ou seja, se Z calculado cair dentro desse intervalo a hipótese nula será rejeitada.

iv) Calcular a estatística de teste


24.3 − 26 1.7
𝑍𝑍𝑐𝑐𝑐𝑐𝑐𝑐 = =− = −2.32
2.3152� 0.7321
3.1623
v) Conclusão

O valor calculado Z=-2.32 cai na região crítica (-∞ <-2.32 <-1.645), de modo que a hipótese nula é rejeitada
com nível de significância 0.05. os dados dão forte apoio de que o anúncio da fábrica referente ao índice de
nicotina dos cigarros da marca X apresenta abaixo de 26 mg por cigarro é verdadeira.

2.5.2. Teste para a proporção populacional

Consideremos uma população X onde X=1 com probabilidade p e X=0 com probabilidade 1-p. assim, a
estatística de teste será a proporção amostral 𝑝𝑝̂ . Pelo teorema de Limite Central

𝑝𝑝 (1−𝑝𝑝) 𝑝𝑝�−𝑝𝑝 0
𝑝𝑝̂ ≈ 𝑁𝑁(𝑝𝑝, 𝑛𝑛
) então o Z será calculado da seguinte forma: 𝑍𝑍 = 𝑝𝑝 (1−𝑝𝑝 0 )
� 0
𝑛𝑛

Assim, podemos aplicar o teste de hipóteses seguindo os seguintes passos:

dr. Langa pág. 12


Estatistica II aula teórica

i) Retirada uma amostra aleatória de tamanho n dessa população queremos testar hipóteses do
tipo:
𝐻𝐻0 : 𝑝𝑝 = 𝑝𝑝0
a) �
𝐻𝐻𝑎𝑎 : 𝑝𝑝 ≠ 𝑝𝑝0
𝐻𝐻0 : 𝑝𝑝 = 𝑝𝑝0
b) �
𝐻𝐻𝑎𝑎 : 𝑝𝑝 > 𝑝𝑝0
𝐻𝐻0 : 𝑝𝑝 = 𝑝𝑝0
c) �
𝐻𝐻𝑎𝑎 : 𝑝𝑝 < 𝑝𝑝0
ii) Escolha da Estatística para o teste

Neste caso, utilizaremos a proporção.

iii) Portanto, dado um nível de significânciaα a região do teste será respectivamente:


𝑝𝑝 0 (1−𝑝𝑝 0 ) 𝑝𝑝 0 (1−𝑝𝑝 0 )
a) 𝑅𝑅𝑅𝑅 = �0, 𝑝𝑝0 − 𝑧𝑧1−𝛼𝛼 � 𝑛𝑛
� ∪ �𝑝𝑝0 + 𝑧𝑧1−𝛼𝛼 �
𝑛𝑛
, 1� ou
2 2

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �|𝑍𝑍| ≥ 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−𝛼𝛼 � ∪ �𝑍𝑍1−𝛼𝛼 ; +∞�


2 2 2

𝑝𝑝 0 (1−𝑝𝑝 0 )
b) 𝑅𝑅𝑅𝑅 = �𝑝𝑝0 + 𝑧𝑧1−𝛼𝛼 � , 1� ou
2 𝑛𝑛

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �𝑍𝑍 > 𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �𝑍𝑍1−2𝛼𝛼 ; +∞�


2 2

𝑝𝑝 0 (1−𝑝𝑝 0 )
c) 𝑅𝑅𝑅𝑅 = �0, 𝑝𝑝0 − 𝑧𝑧1−𝛼𝛼 � 𝑛𝑛
� ou
2

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �𝑍𝑍 ≤ −𝑍𝑍1−2𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−2𝛼𝛼 �


2 2

Onde zα é um valor tabelado tal que 𝑃𝑃(0 ≤ 𝑍𝑍 ≤ 𝑧𝑧𝛼𝛼 ) e Z:N(0,1).

iv) Estatística de teste: dada uma amostra de tamanho n, a estatística de teste será:

v) Conclusão: se ���
𝑋𝑋0 ∈ 𝑅𝑅𝑅𝑅 𝑜𝑜𝑜𝑜 𝑧𝑧0 ∈ 𝑅𝑅𝑅𝑅, rejeitamos H0, caso contrário, não rejeitamos H0

Exemplo 3: uma estacão de televisão afirma que 60% dos televisores estavam ligados no seu programa
especial da última segunda-feira. Uma rede concorrente deseja contestar essa afirmação e decide usar uma
amostra de 200 famílias para um teste. Qual deve ser o procedimento adoptado para avaliar a veracidade da

dr. Langa pág. 13


Estatistica II aula teórica

afirmação da estacão, admitindo que, das 200 famílias pesquisadas, 104 estavam assistindo o programa?
Utilize um nível de 5%.

Dados:

𝑃𝑃 = 60%, 𝑛𝑛 = 200, 𝑛𝑛𝑝𝑝 = 104 𝛼𝛼 = 5%

104
𝑝𝑝̂ = = 0.52
200

i) Hipóteses
𝐻𝐻0 : 𝑝𝑝 = 0.6

𝐻𝐻𝑎𝑎 : 𝑝𝑝 ≠ 0.6
ii) Escolha da estatística do teste
𝑝𝑝(1 − 𝑝𝑝) 𝑝𝑝̂ − 𝑝𝑝0
𝑝𝑝̂ ≈ 𝑁𝑁 �𝑝𝑝, � 𝑒𝑒𝑒𝑒𝑒𝑒â𝑜𝑜 𝑍𝑍 =
𝑛𝑛
�𝑝𝑝0 (1 − 𝑝𝑝0 )
𝑛𝑛

iii) Construir a região crítica

O erro do tipo I é 𝛼𝛼 = 0.05%,e o teste é bilateral então a região crítica será:

𝑅𝑅𝑅𝑅 = �𝑧𝑧; 𝑃𝑃 �|𝑍𝑍| ≥ 𝑍𝑍1−𝛼𝛼 � = 𝛼𝛼� = �−∞; −𝑍𝑍1−𝛼𝛼 � ∪ �𝑍𝑍1−𝛼𝛼 ; +∞�


2 2 2

𝑅𝑅𝑅𝑅 = �−∞; −𝑍𝑍1−0.05 � ∪ �𝑍𝑍1−0.05 ; +∞� = ]−∞; −𝑍𝑍0.475 ] ∪ [𝑍𝑍0.475 ; +∞[


2 2

𝑅𝑅𝑅𝑅 = ]−∞; −1.96] ∪ [1.96; +∞[

Ou seja, se Z calculado cair dentro desse intervalo a hipótese nula será rejeitada.

iv) Calcular a estatística de teste


𝑝𝑝̂ − 𝑝𝑝0 0.52 − 0.6 0.08
𝑍𝑍 = = =− = −2.35
0.034
�𝑝𝑝0 (1 − 𝑝𝑝0 ) �0.6 × 0.4
𝑛𝑛 200
v) Conclusão

O valor calculado Z=-2.35 cai na região crítica (-∞ <-2.35 <-1.96), de modo que a hipótese nula é rejeitada
com nível de significância 0.05. os dados dão forte apoio de que a afirmação dada pela estacão de televisão
não é verdadeira.

dr. Langa pág. 14


Estatistica II aula teórica

2.5.3. Teste para a média de uma população com amostra pequena

Consideremos agora, o caso em que queremos testar hipóteses sobre a média de uma população com
distribuição normal, porém, com variância desconhecida. Para isso, teremos que estimar a variância através
da estatística S2. Além disso, utilizaremos o facto de que

(𝑋𝑋� − 𝜇𝜇)
≈ 𝑡𝑡(𝑛𝑛−1)
𝑆𝑆�
√𝑛𝑛

(𝑋𝑋� −𝜇𝜇 )
Assim, a estatística do teste será 𝑇𝑇 = 𝑆𝑆�
√𝑛𝑛

Assim, podemos aplicar o teste de hipóteses seguindo os seguintes passos:

i) Queremos testar hipóteses do tipo:


𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
a) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 ≠ 𝜇𝜇0
𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
b) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 > 𝜇𝜇0
𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0
c) �
𝐻𝐻𝑎𝑎 : 𝜇𝜇 < 𝜇𝜇0
ii) Fixado um nível de significânciaα, a região critica do teste será dada respectivamente por:
𝑆𝑆 𝑆𝑆 𝛼𝛼
a) 𝑅𝑅𝑅𝑅 = �−∞, 𝜇𝜇0 − 𝑡𝑡𝛼𝛼 � ∪ �𝜇𝜇0 + 𝑡𝑡𝛼𝛼 , +∞� ou 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = ±𝑡𝑡(𝑛𝑛 − 1, 2 )
√𝑛𝑛 √𝑛𝑛
𝑆𝑆
b) 𝑅𝑅𝑅𝑅 = �𝜇𝜇0 + 𝑡𝑡2𝛼𝛼 , +∞� ou 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = +𝑡𝑡(𝑛𝑛 − 1, 𝛼𝛼)
√𝑛𝑛
𝑆𝑆
c) 𝑅𝑅𝑅𝑅 = �−∞, 𝜇𝜇0 − 𝑡𝑡2𝛼𝛼 � ou 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = −𝑡𝑡(𝑛𝑛 − 1, 𝛼𝛼)
√𝑛𝑛

dr. Langa pág. 15

You might also like