Apostila de Probabilidade e Estatística - Completa

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
Instituto de Matemática
Departamento de Estatística
PROBABILIDADE E ESTATÍSTICA
MAT02219
Professor: Marco Antônio Giacomelli
www.mat.ufrgs.br/~giacomo/
Porto Alegre, agosto de 2015.

1- INTRODUÇÃO
1.1. Ciências Estatísticas
Na medida em que foi sendo colocado diante de novos desafios, decorrentes

especialmente do crescimento da população – quando as atividades e as relações sócio-
econômicas tornaram-se mais complexas – o ser humano precisou aprimorar,
sistematicamente, os instrumentos existentes, além de criar outros para continuar
garantindo sua sobrevivência. Nesse processo de evolução, que perdura até os dias atuais,
novas necessidades e dificuldades foram se sucedendo, sempre desafiando o ser humano a
ultrapassá-las.
Para registrar, classificar, controlar e estudar, mais adequadamente, fenômenos, fatos,

eventos e ocorrências foram sendo criadas, desenvolvidas e aperfeiçoadas muitas técnicas
de análise de informações e métodos quantitativos. Esses avanços facilitaram a resolução
de inúmeros problemas que o homem encontrava para realizar as atividades básicas de
produção, comércio, transportes, etc.
Nestes últimos anos houve necessidade de aprofundar estudos, realizar experimentos

e pesquisas mais específicas, inclusive para avaliar os resultados das atividades
desenvolvidas. Por essa razão, os conhecimentos teóricos e os métodos de análise de dados
quantitativos vêm sendo aprimorados continuamente.
O conjunto de técnicas e métodos de pesquisa, experimentação e inferências mais

utilizadas para alcançar esses objetivos são o que modernamente se conhece como Ciências
Estatísticas, onde se destaca a seguinte gama de conhecimentos: Teoria dos Jogos,
Planejamento de Experimentos, Teoria das Filas, Controle de Qualidade, Teoria das
Decisões, Séries Temporais, Econometria e outras técnicas.
1.2. Divisão da Estatística:
Estatística Descritiva: descrição, resumo e organização das informações. Compreende o

uso de tabelas, gráficos e medidas-resumo.
Estatística Inferencial: através do particular (amostra) faz induções a respeito do todo

(população), controlando a probabilidade de erro (por isso estudaremos a Teoria das
Probabilidades).
2
Exemplo 1: projeção da percentagem de votos para um candidato numa eleição.
Exemplo 2: comparação de adubos
Os três canteiros são expostos à mesma incidência de luz, tipo de solo, mas recebem adubos
diferentes. No final do experimento será medida a altura das plantas.
3
2 - ESTATÍSTICA DESCRITIVA
2.1. Definições
População: conjunto universo de elementos que possuem ao menos uma característica em

comum. O tamanho da população é representado por N.
Exemplo 1: total de eleitores que compareceram ao último pleito.
Dimensão de uma população: finita ( N<  )

infinita enumerável ( N=  )
não enumerável ( N=  )
Censo: é a investigação exaustiva de toda a população.
Exemplo 2: Censo Demográfico Brasileiro, Censo Escolar do MEC
Amostra: é um subconjunto da população, isto é, uma parte da população retirada segundo

alguns critérios. O tamanho da amostra é representado por n .
Exemplo 3: pesquisa pré-eleitoral do instituto IBOPE, Pesquisa Nacional por

Amostragem de Domicílios (PNAD).
Amostragem: é o processo de obtenção de uma amostra da população.
4
2.2. Escalas de mensuração
Variáveis: são as características de interesse em uma população ou amostra.
Variáveis Qualitativas: Expressam qualidade e subdividem-se em:
Nominais: os níveis da variável são categorias de qualidade.

Exemplo 4: tipo de variedade de batata, cor, etc.
Ordinais: os níveis da variável são ordenados de acordo com a intensidade do fenômeno.

Exemplo 5: atribuir graus de 1 a 4 para uma característica não mensurável como aderência
de uma tinta numa superfície metálica.
Z  “Grau de aderência da tinta”
1  pouca ; 2  regular; 3  boa ; 4  ótima
Exemplo 6: (Contra-exemplo):
X  “Marca da tinta”,
Y  “Cor da tinta”
1  branca; 2  preta; 3  prata ; 4  vermelha
Marca Cor Aderência

A 1 4
B 2 4
C 4 3
D 3 1
E 2 2
média= 2,4 2,8
As médias na tabela acima foram obtidas pelo EXCEL. Observe que as variáveis Y e Z não
são quantitativas, portanto não se poderia calcular média para estas. A média de 2,4 para Y
não tem interpretação, pois não faz sentido “cor média”!
5
Variáveis Quantitativas: expressam uma quantidade numérica, subdividem-se em:
Discretas: podem assumir valores observados somente em pontos isolados em uma

escala.
Exemplo 7: número de defeitos num lote de 100 peças, números de falhas diárias numa
máquina, etc.
Contínuas: Podem assumir qualquer valor em um conjunto não enumerável.
Exemplo 8: comprimento, área, velocidade, temperatura.
2.3. Arredondamentos de números
Regras:
(1a ) quando o primeiro algarismo a ser descartado for 0,1,2,3 ou 4 deverá ser
sumariamente abandonado (arredondamento por falta) e o último algarismo a permanecer
fica inalterado.
(2a) quando, porém, for 5, 6, 7, 8 ou 9, o último algarismo a permanecer será aumentado

de uma unidade ( arredondamento por excesso).
Exemplo 9:
72,8  73 (arredondamento para a unidade)

72,8146  72,81 (arredondamento para o centésimo)
72,8146  72,815 (arredondamento para o milésimo)
737,638  740 (arredondamento para a dezena)
6
Exemplo 10: arredondamentos em divisões podem causar grandes diferenças
5 5
(A)  263157,894737 (B)  250000
0,000019 0,00002
5
(C)  500000  diferença de 90% em relação a (A)
0,00001
Exemplo 11:
( A) 0,0028  0,0003  0,00000084

( B ) 0,003  0,0003  0,0000009  diferença de 7,14% em relação a (A)
Exemplo 12: arredondamentos em potências podem causar diferenças
8
( A) 2,825  4056,4639174
8
( B) 2,83  4114,25763921
(C ) 2,82   3999,38180577
8
( D ) 2,8  3778,01998336  diferença de 7,37% em relação a (A)

8
Exemplo 13: calculadoras podem cometer erros de truncamento
Sabemos que lim n 1  n2   e 2  7,38905609893 . Vamos observar a

n
convergência através da calculadora.
n
1  n2 n
1 3
5 5,37824
20 6,72749
50 7,1066833
100 7,244646
1000 7,37431
10000 7,387578
100000 7,388908
1E6 7,38904
1E8 7,389005595
1E11 7,38905609
1E12 1
7
2
Para n=1E12 1  n2 n  1 , pois a calculadora arredondou a fração soma para zero.
n
Considerações:
(1ª) Recomenda-se utilizar toda a precisão de sua calculadora, ou seja, utilizar o modo
standard (padrão). Arredondamentos somente para resultados finais. Resultados
intermediários devem ser armazenados nas memórias secundárias (variáveis).
(2ª) Estrutura de memória em calculadoras cientificas comuns
MS ( memory store ) armazena diretamente um valor na memória

RM (recover memory) recupera o conteúdo da memória
MC (memory clear) limpa a memória , faça isto antes de qualquer nova operação
M+ acumula valores na memória
A tecla 2ndf aciona a segunda função correspondente a uma tecla . Por exemplo,
pressionando-se a tecla ln o resultado será o logaritmo natural. Se for necessário calcular
a exponencial, deve-se pressionar a tecla 2ndf e depois ln.
2.4. Resumo de conjuntos de dados
Um conjunto de valores será representado por: x1 , x 2 ,...., x n (no caso de amostra)

e x1 , x 2 ,...., x N (no caso de população).
8
2.4.1. Medidas de posição (tendência central)
Média: requer escala de mensuração quantitativa.
Média aritmética
n
x  x 2    xn
 x
i 1
i
Na amostra: X  1 
n n
x1  x 2    x N 
xi
i 1
Na população:   
N N
Observação: em uma seqüência aritmética (progressão aritmética) o termo central entre

dois termos é obtido pela média aritmética. Por exemplo: a n  5n  2 , isto é, { 7 12
a  a3 7  17
17 .......}. Então, a 2  1   12 .
2 2
Exemplo 14: realize a soma dos seguintes quocientes, truncando-os em duas casas
decimais:
1 3 4 6 7 8 2 3 2
        
9 9 9 9 9 9 9 9 9
 0,11  0,33  0,44  0,66  0,77  0,88  0, 22  0,33  0,22  3,96
Observe que o truncamento em cada fração resultou em erro na resposta final É mais
1  3  4  6  7  8  2  3  2 36
eficiente realizar uma única divisão, ou seja:   4.
9 9
Média geométrica
Na amostra: m g  n x1  x 2    x n , xi  0 para i
Na população:  g  N x1  x2    x N , xi  0 para i
Observação: em uma seqüência geométrica (progressão geométrica) o termo central entre

dois termos é obtido pela média geométrica. Por exemplo: a n  6  3 n , isto é, {18 54
162 ......}. Então, a 2  2 a1  a 3  2 18  162  54
9
Média harmônica
n
Na amostra: mh  n
, xi  0 para i
1

i 1 x i
N
Na população:  h  N
, xi  0 para i
1

i 1 x i
Observação: em uma seqüência harmônica o termo central entre dois termos é obtido
1
pela média harmônica. Por exemplo: a n  , isto é, {1 1/2 1/3 .......}. Então,
n
2 1
a2  
1 3 2
Observações:
(1ª) A média mais conhecida e utilizada é a aritmética, pois sua fórmula é mais simples,
além de não ficar restrita a valores positivos.
(2ª) Na expressão do cálculo da média harmônica, pode-se verificar que ela é definida
como sendo o inverso da média aritmética dos inversos.
(3ª) Interpretação da média aritmética: é o centro de gravidade (equilíbrio) de um conjunto,

e é empregada com a finalidade de representatividade dos valores.
(4ª) As três médias mantém a seguinte relação entre elas, desde que os valores sejam

positivos: X  m g  mh
Exemplo 15: interpretação física da média aritmética
10
mi xi é o momento de massa da i-ésima partícula
n n
 i 1
mi é a massa total;  i 1
mi xi é o momento de massa do sistema
n

X
 i 1
mi x i
é o centro de massa do sistema
n
 i 1
mi
Exemplo 16: produto interno bruto no Brasil
 27,614  44,073    719,519

X   233,8213
11
m g  11 27,614  44,073    719,519  151,9199
11
mh   95,5663
1 1 1
 
27,614 44,073 719,519
Note que a média harmônica ameniza o efeito do crescimento exponencial da série.

A diferença percentual entre média harmônica e aritmética é de 144,67%.
11
Exemplo 17: um concurso público, para um certo cargo, consiste em uma prova, dividida
em quatro áreas. Cada área contém 20 questões. Para aprovação é preciso que o candidato
obtenha média harmônica ponderada no mínimo igual a 13. Um candidato apresentou o
seguinte desempenho:
Área Peso No. de acertos

Português 3 17
Matemática 3 7
Conhecimentos Gerais 2 16
Informática 1 14
Façamos as médias aritmética, geométrica e harmônica:
 3  17  3  7  2  16  1  14 118
X    13,11111
3  3  2 1 9
9
m g  9 17 3  7 3  16 2  141  12,21177 , mh   11,22935
3 3 2 1
  
17 7 16 14
Como a média harmônica do candidato foi inferior a 13, então ele não foi aprovado no
concurso. Note que se o critério de aprovação fosse pela média aritmética, então ele seria
aprovado!
A mediana: requer escala de medida ordinal ou quantitativa.

A mediana de um conjunto ordenado de valores, denotada por Med, é definida
como o valor que separa o conjunto em dois subconjuntos de mesmo tamanho.
 x n 1  , se n é ímpar
 2


Med = 

 (x n2   x n2 1 )
 , se n é par
2
sendo x   a amostra ordenada em ordem crescente.
12
Exemplo 18:
(a) pesos em kg de cinco pessoas: {66; 62; 60; 70; 58}
(b) alturas em cm de seis pessoas: {180; 165; 175; 182; 177; 160}
A moda
A moda de um conjunto de valores, denotada por Mo, é definida como o valor

mais freqüente no conjunto. Convém lembrar que a moda pode não ser única, isto é, um
conjunto pode ser bimodal, trimodal, etc. No caso em que todas freqüências forem iguais
diremos que não há moda.
Exemplo 19:
(a) dado o conjunto {1; 2; 2; 3; 3; 4; 4; 4; 7; 9; 15} a moda é Mo=4, pois este valor é o
mais freqüente.
(b) para o conjunto { 1; 1 ; 2 ; 2 ; 2 ; 3 ; 4 ; 4 ; 4} teremos duas modas:
Mo (1) =2 e Mo ( 2) =4
13
Observações: a mediana exige ordenação das categorias e, por sua vez, é indicada nas
seguintes situações:
(1ª) quando se deseja obter o ponto que divide o conjunto em duas partes de mesmo
tamanho.
(2ª) quando há resultados extremos que afetariam a Média de maneira acentuada.
Exemplo 20: peso de bovinos em kg {508 543 560 562 2500}

Med=560; x  934,60
O peso de 2500 kg é dito uma observação estranha (outlier), e por isso elevou
consideravelmente o peso médio.
Escalas de mensuração e medidas de tendência central
Nominal: moda
Ordinal: moda, mediana
Quantitativa discreta e contínua: moda, mediana e média
14
2.4.2. Medidas de dispersão (variabilidade):
Observação: as medidas de dispersão são para variáveis com escala quantitativa
Amplitude: a medida de dispersão mais simples, porém “rústica”, é a amplitude,

anotada por “h”, e definida como a diferença entre os valores extremos do conjunto, isto é:
h = xmax – xmin  0
Variância e o desvio padrão absolutos
As medidas mais utilizadas são a variância e o desvio padrão. Estas medidas têm
como ponto de referência a média aritmética.
Na amostra:
2 2 2 n 2
   
       
x
 1  X  x
  2  X     x
 n  X   
i 1 
x i  X 

S2         é a variância.
n 1 n 1

A variância é a soma dos quadrados das distâncias em relação à X :
15
Comparação de três amostras com mesma média aritmética:
n 2
2
 x  n X 
 
i
Observação: Uma expressão alternativa é S 2  i 1 .
n 1
A variância, por ser um quadrado, não permite comparações com a unidade que
estamos trabalhando. Para se ter uma medida de variabilidade com a mesma unidade da
variável utiliza-se a raiz quadrada da variância, denominado de desvio padrão:
S  S2 .
N
2
x i
Na população:  2  i 1
  2 é a variância e    2 é o desvio padrão.
N
16
Observações:
(1ª) variância e desvio padrão são não negativos.
(2ª) Em Mecânica a variância tem como interpretação o momento de inércia de uma massa,
em relação a um eixo perpendicular que passe pelo centro de gravidade (que é a média)
(3ª) o desvio padrão mede o grau de dispersão dos valores em torno da média, ou seja, é
variabilidade média (em unidades de medida) em torno da média aritmética.
Exemplo 21: número de pessoas por domicílio: {5; 6; 3; 3; 2; 3; 3; 3; 4; 4; 3; 2; 7; 4}

h = xmax - xmin = 7-2=5 ; X  3,71435
S 2

5 2

 6 2    7 2  4 2  14  3,71435
2
 2,0659 ; S  1,4373
13
Cada observação pode ser escrita em função da média e do desvio padrão, por exemplo:
6  3,71435  k  1,4373  k  1,6
Exemplo 22 (o problema do truncamento de números): os valores seguintes são espessuras

em mm de chapas de alumínio: { 6,34 6,38 6,40 6,38 6,36 6,36 6,38 6,20 6,42 6,28}.
Obtenha média, desvio padrão e coeficiente de variação.
Solução:
2
n  10 ,  xf  63,5 , x f  403, 2628 ;

X  6,35 ; S 2  0,0042 ; S  0,064807 ; CV  1,020589%
Se o valor do somatório dos quadrados for arredondado para décimos, então:
17
2
2 403,3  10  6,35
S   0,00833333 ; S  0,09128709 ; CV  1,437592% , que é
9
diferente do resultado sem fazer arredondamento.
A variância e o desvio padrão relativos
A variância relativa, representada por VR, é o quociente entre a variância

absoluta e o quadrado da média, isto é:
S2 
VR   100% , se X  0 .
 2
X
O coeficiente de variação é a raiz quadrada da variância relativa, isto é:
S
CV  
 100% .
X
Observação: o coeficiente de variação é interpretado como o grau de variabilidade

relativa em torno da média.
1,4373
Exemplo 23: em relação ao exemplo 21, CV   100%  38,6963%
3,7143
18
Propriedades das medidas
Seja {x1 , x 2 , , x n } uma amostra onde foi observada a variável X :
 
(i) y i  xi  c i , c  R  Y  X  c e S Y2  S X2
 
(ii) y i  cxi i , c  0  Y  c X e S Y2  c 2 S X2
 
(iii) y i  cxi  b i , c  0 , b  R  Y  c X  b e S Y2  c 2 S X2

x X 
(iv) y i  i i  Y  0 e S Y2  1
SX
2.5. Distribuições de freqüências
Para se trabalhar com grandes conjuntos de dados é necessário inicialmente

agrupá-los. O agrupamento é feito em tabelas, denominadas de distribuições de
freqüências. Para se construir uma distribuição de freqüências fazemos distinção entre dois
tipos de variáveis: a variável contínua que é o resultado de uma mensuração e a variável de
contagem. Em geral, variáveis discretas são agrupadas em distribuições por ponto ou
valores e variáveis contínuas em distribuições por classes ou intervalos. A separação não é
rígida e depende basicamente dos dados considerados. Pode-se construir uma distribuição
por classes mesmo quando a variável é discreta.
2.5.1. Distribuições de freqüências por ponto (ou valores)
Considere-se um conjunto de valores resultados de uma contagem. Poderia ser, por

exemplo, o número de irmãos dos alunos da turma U, disciplina de Estatística.
Exemplo 24: número de irmãos dos alunos da turma U - disciplina Estatística
0116313110 451 110224131211

115564110214 322 1021123010
19
Distribuição de freqüências por ponto do número de irmãos dos alunos
No. de irmãos ( x ) No. de alunos ( f ) xf x2 f
0 7 0 0
1 21 21 21
2 8 16 32
3 5 15 45
4 4 16 64
5 3 15 75
6 2 12 72
Total 50 95 309
Medidas de tendência central e dispersão: no caso de uma tabela de distribuição de

freqüência por ponto as fórmulas ficam:
k k k 2

  xi  f i  xi  f i  xi2  f i  n X 
 
X  i 1
k
 i 1
, S 2  i 1
n n 1
fi 1
i
sendo f i a freqüência absoluta (ou simples), que é o número de vezes que ocorre o valor
xi , e k o número de valores distintos no conjunto.
Observação: as outras medidas: mediana, moda, desvio padrão e coeficiente de variação,

têm as mesmas fórmulas.
 95
Exemplo 25: em relação ao exemplo acima, X   1,9 ; Mo=1; Med=1
50
2
2 309  50  1,9 
S   2,6224 ; S  1,6194 ; CV=85%.
49
20
2.5.2. Distribuições de freqüências por classes (ou intervalos)
Ao construirmos a distribuição de freqüências por classes haverá perda de

informação, mas haverá uma melhor organização na apresentação e compreensão, como
ilustra o exemplo a seguir.
Exemplo 26: vendas semanais (em mil reais) de gêneros alimentícios:
30 34 35 35,8 36,2 37,1 37,5 37,9 38 38,3 39 39,3 42,5 43,3 44,5
40 40,1 40,2 40,2 40,3 40,4 40,7 40,8 41 41,1 41,4 42 44,7 44,8 44,9
49,4 49 45,6 49,7 49,4 46 48 46,5 45,4 47,6 46,3 45,9 47,6 49,8 49,6
49,8 49,7 49,7 45,7 48,5 49,7 49,8 49,6 45,5 47,3 48,9 48,9 46,4 45,6 45
47 45,5 49,4 48,1 48,8 49,3 49,7 47,4 48,2 48,9 45,1 46,7 49,1 46 49,5
48,3 48,3 46,9 48,7 48,6 53,6 52,3 51,9 52 53,2 50,8 50,8 51,4 53,4 53,9
50,1 51,5 51,3 54,2 50,2 50,7 50,4 54,8 54 54 53,4 50,6 51,5 53,7 54,6
52,4 50,1 53,2 52,1 50,6 51,8 51 53,7 50,2 53,8 50,1 50,9 52 52,3 52,2
52,1 52,3 57,7 57,5 55,3 56,9 55,2 56,7 57,6 57,9 58,8 56,7 59,5 59,7 55,6
55,5 57,7 56,9 57,3 56,8 55 58 56 56,6 56,9 55,7 59,5 58,8 57,1 56,5
59,2 57,5 60,8 60,5 62,9 62,3 61,2 61,6 63,2 62,5 63,3 63,5 63,6 64,8 62,2
63,5 60,4 64,4 61 62,4 66 68
Por exemplo, com 5 classes e com amplitudes iguais a oito a tabela fica:
Tabela de distribuição de freqüências com 5 classes

Vendas xi fi Fi Percentual xi  f i xi2  f i
30.0000 |— 38.0000 34 8 8 4.6512 % 272 9248
38.0000 |— 46.0000 42 31 39 18.0233 % 1302 54684
46.0000 |— 54.0000 50 78 117 45.3488 % 3900 195000
54.0000 |— 62.0000 58 41 158 23.8372 % 2378 137924
62.0000 |— 70.0000 66 14 172 8.1395 % 924 60984
Total -------- 172 -------- 100% 8776 457840
21
Algoritmo para a construção de uma tabela de distribuição freqüências por intervalos
(1º) Determinar a amplitude dos dados: h  x max  x min .
(2º) Decidir sobre o número de classes k a ser utilizado. Recomenda-se um número de

classes entre 5 e 15. Para que a decisão não seja totalmente arbitrária, pode-se usar a raiz
quadrada do número de valores, ou seja, k  n .
(3º) Determinar a amplitude de cada classe. Sempre que possível manter todas as
amplitudes iguais. Para tanto, deve-se dividir a amplitude dos dados “h” pelo número de
h
classes “k”, arredondando para mais, ou seja, hi  .
k
(4º) Contar o número de valores pertencentes a cada classe. As classes devem ser disjuntas
(sem intersecção). Em geral, utiliza-se a notação (|--- ), para indicar um intervalo fechado à
esquerda e aberto à direita. Também poderia ser utilizado o intervalo aberto à esquerda e
fechado à direita (---|), aberto de ambos os lados ( --- ) ou ainda fechado de ambos os lados
(|---|).
Elementos de uma tabela de distribuição de freqüências por intervalos
Intervalos xi fi Fi fri Fri xi  f i xi2  f i
l1 |------- L1 x1 f1 F1 fr1 Fr1 x1  f1 x12  f 1

l 2 |------- L2 x2 f2 F2 fr2 Fr2 x2  f 2 x 22  f 2
l k |------- Lk xk fk n frk 1 xk  f k x k2  f k
Total ---- n ---- 1 ---- x i  fi x 2
i  fi
k é o número de classes
l i é o limite inferior de classe
Li é o limite superior de classe
22
l i  Li
xi  é o ponto médio de classe
2
hi  Li  l i é a amplitude de classe
f i é a freqüência absoluta de classe
Fi é a freqüência acumulada de classe, ou seja,
F1  f1 ; F2  f 1  f 2 ; ......; Fk  f 1  f 2    f k  n
fi
fri é a frequência relativa de classe, isto é, fri 
n
Fri é a frequência relativa acumulada de classe, ou seja,
Fr1  fr1 ; Fr2  fr1  fr2 ; ......; Frk  fr1  fr2    frk  1
Medidas de tendência central e dispersão
No caso de uma tabela de distribuição de freqüência por intervalos as fórmulas

para média e variância ficam as mesmas do caso de distribuições por ponto, exceto que
onde tiver xi você deve utilizar o ponto médio de classe. As fórmulas da mediana e moda
são o resultado de interpolações.
Mediana: para localizar a classe mediana procuramos na coluna das freqüências

n
absolutas acumuladas a primeira Fi tal que Fi  .
2
n 
 2  Fm 1 
Med = l m  hm   
 fm 
 
23
lm o limite inferior da classe mediana
hm a amplitude da classe mediana
fm a freqüência simples da classe mediana
Fm 1 a freqüência acumulada da classe anterior à mediana
Moda pelo processo de King: O primeiro passo é localizar a classe modal, aquela
com maior freqüência absoluta.
 f m 1 
Mo = l m  hm    .
f
 m1  f m 1 
lm o limite inferior da classe modal
hm a amplitude da classe modal
f m1 a freqüência simples da classe posterior à modal
f m1 a frequência simples da classe anterior à modal
Exemplo 27: com relação ao exemplo 26, para a tabela com 5 classes:
2
 8776 457840  172  51,02325
X   51,02325 ; S 2   58,82986 ; S  7,67006 ,
172 171
7,670101 n
CV   100  15,0325% . Uma vez que 117   86 então a classe mediana é
51,02325 2
 86  39 
46|-------54. Aplicando a fórmula: Med  46  8     50,82051 . A classe modal
 78 
é 46|-------54, pois tem maior freqüência absoluta. Assim,

 41 
Mo  46  8     50,55555 .
 41  31 
24
Medidas descritivas para os dados não agrupados:

X  50,87034 ; Med= 50,5 ; Mo=49,7; S 2  52,6735 ; S  7,2576 CV  14,2668% .
N de Amplitude  Med Mo S CV
classes X
5 8 51,02325 50,8205 50,55555 7,67006 15,0325%
8 5 50,98837 50,7143 48,5 7,13569 13,99478%
13 3,10 51,91234 49,2870 50 7,18284 13,83653%
Dados Não ----------- 50,87034 50,5 49,7 7,2576 14,2668%
agrupados
Histograma para a distribuição de freqüências com 13 classes
25
3 - FUNDAMENTOS DA PROBABILIDADE
3.1. Objeto de estudo da Teoria da Probabilidade
A Teoria da Probabilidade tem como objeto de estudo os fenômenos aleatórios. No

dicionário Michaelis da língua portuguesa “aleatório” tem o sentido de eventual, fortuito,
incerto.
Fenômenos determinísticos: o resultado observado é completamente determinado pelas

condições sob as quais o fenômeno ocorreu.
Exemplo 1 (fenômeno determinístico): desconsiderando a resistência do ar, e sob a

presença de gravidade, dois corpos de massa diferente atingem o solo ao mesmo instante.
Modelos Determinísticos:
F  m  a , sendo F a força resultante, m a massa do corpo e a a aceleração
E  m  c 2 , sendo E energia, c a velocidade da luz
Fenômenos aleatórios: o resultado não é determinado pelas condições de realização do

fenômeno.
Exemplo 2: Teoria do Caos para a origem do Universo
Exemplo 3: leitura da tensão, em volts, em diferentes instantes: {124 126 127 120 127}.
26
3.2. Modelos Probabilísticos
Modelos probabilísticos são modelos matemáticos que descrevem fenômenos

aleatórios. Experimentos aleatórios são fenômenos aleatórios executados por nós.
Exemplo 4 (Exemplos de Experimentos Aleatórios):
EX1: Jogue um dado e observe o nº da face de cima
EX2: Jogue uma moeda 3 vezes e observe o nº de caras
EX3:Jogue uma moeda 3 vezes e observe a seqüência de faces
EX4: no. de peças defeituosas em um lote contendo N
EX5: tempo de duração de uma lâmpada até esta queimar
EX6: lance uma moeda até que ocorra a face cara pela primeira vez
Espaço Amostral: é o conjunto de todos os resultados possíveis de um experimento

aleatório.
Notação:  ,    .
Exemplo 5 (Exemplos de espaços amostrais): com relação aos exemplos anteriores,
 1  {1,2,3,4,5,6}
 2  {0,1,2,3}
 3  {KKK, CCC, KKC, KCK, CKK, CCK, CKC, KCC}

C  ”cara” K  ”coroa”
 4  {0,1,2,...., N }
 5  t  R : 0  t  T 
 6 = { C, KC, KKC, KKKC, ........}
27
Tipos de espaços amostrais
Finito: 1 ,  2 ,  3 ,  4
Infinito enumerável:  6
Não-enumerável:  5
Evento: é um subconjunto do espaço amostral.
Notação: A, B, C
A  , B  , C  ,
Observação:  é dito evento certo e Ø evento impossível.
Tipos de eventos:
Simples: formado por um único elemento do espaço amostral.
Composto: é a combinação de dois ou mais elementos do espaço amostral.
Exemplo 6: lance um dado e observe a face de cima. Escreva os seguintes eventos:

A: “ocorre a face 6”
B: “ocorre face par”
C: “ocorre face superior a 6 ”
D: “ocorre face menor ou igual a 6”
Solução:   {1,2,3,4,5,6} ; A={6}; B={2,4,6}; C= Ø; D= 
3.3. Operações com eventos
Seja  um espaço amostral e A,B eventos. Então, as seguintes operações com

eventos são definidas:
28
(1º ) Evento união:
A B : “ ocorre somente A, ou ocorre somente B, ou ocorrem ambos”
(2º ) Evento intersecção:
A B : “ocorre A e B simultaneamente”
(3º) evento complementar: Ac : “não ocorre A”
(4º) evento diferença: A  B : “ocorre A e não B”

    
nota: A  B  B c  A ; A  B  A  A B e A  A B  B c  A 
29
3.4. Alguns resultados sobre a teoria dos conjuntos
(1º) A A  A A A  A
  
(2º) A B C  A B  A C   
A B  C    A B   A C 
(3º)  A  A  A  
A Ø  A A Ø  Ø

(4º) A B 
c
 Ac  B c A B 
c
 Ac  B c A 
c c
A
Eventos exclusivos: A, B   são mutuamente exclusivos se A B  Ø .
Eventos não exclusivos: A B  Ø .
Definição: Seja uma família de eventos A1 , A2 ,....   . Os eventos { A1 , A2 ,....} são

mutuamente exclusivos (disjuntos) dois a dois se e somente se Ai  A j  Ø , i  j .
Definição: uma união de eventos A, B tais que A B  Ø é dita união disjunta.


Notação: A B
Exemplo 7: lance uma moeda 3 vezes e observe a seqüência de faces “C  Cara” e

“K  Coroa”. Enumere os eventos:

A: “ocorre pelo menos uma coroa”
B: “ocorre coroa no primeiro lançamento”
C: “ocorre cara no segundo lançamento”
A c , B c , B C , B C
solução: cada elemento do espaço amostral é da forma: ( ______ ______ _______ )

1º lanç 2º lanç 3º lanç
Assim,
  {CCC, KKK, CCK,CKC, KCC,KKC, KCK, CKK}
O experimento de lançar 3 moedas também tem o mesmo espaço amostral , sendo que cada
elemento é da forma : ( ________ _________ ________)
1ª moeda 2ª moeda 3ª moeda
30
A = { KKK, KKC, KCK, CKK,CCK,CKC,KCC}; B= { KKK, KCC, KKC, KCK}
C= { CCC, CCK, KCC, KCK}; A c  {CCC}; B c = {CCC,CCK,CKC, CKK}
B C ={ KKK, KCC, KKC, KCK, CCC, CCK}; B C = { KCK, KCC}
3.5. Concepções de Probabilidade
A concepção clássica de probabilidade: todos resultados possíveis do experimento
1
são igualmente prováveis. P ( )  ,    , N #  .
N
Exemplo 8: lançamento de um dado honesto, observando-se a face de cima.
1
  {1,2,3,4,5,6} , P (1)  P (2)  .....  P (6) 
6
Nota: a concepção clássica de probabilidade é válida somente para espaços amostrais

finitos.
Observações:
(1ª) P(A) lemos como a “probabilidade do evento A”.
(2ª) Uma probabilidade não tem unidade de medida. É um grau entre 0 e 1 (ou 0% e 100%).
A concepção freqüencista de probabilidade: a probabilidade de um evento é medida

observando-se a freqüência relativa do mesmo em uma sucessão de realizações do
experimento. A freqüência relativa é definida como:
31
rn ( A)
f r( n ) ( A)  ,
n
rn ( A) = ”número de ocorrências do evento A em n realizações do experimento”.
A frequência relativa é um número entre zero e 1. A probabilidade do evento A

será P ( A)  lim n f r( n) ( A) , se o limite existir, ou seja, se a seqüência { f n ( A) : n  1}
convergir.
Exemplo 9: Defina A como sendo a face resultante no lançamento da moeda foi cara.
n Resultado rn ( A) f r( n ) ( A)
1 C 1 1
2 C 2 1
3 K 2 2/3
4 C 3 3/4
.
.
.
A concepção axiomática de probabilidade: construção de uma teoria matemática para as

probabilidades, com base em “axiomas”.
32
Exemplo 9: axiomática de Kolmogorov
3.6. Axiomas da Teoria das Probabilidades (Kolmogorov)
Uma medida é dita probabilidade se e somente se:
(1) P( A)  0, A  
(2) P   1
(3) P A1  A2    P( 1 )  P( A2 )   , se A1 , A2 ,  , estiverem contidos em  e
forem disjuntos dois a dois.
3.7. Propriedades das Probabilidades
As propriedades a seguir decorrem imediatamente dos axiomas:
 
(1ª) P A C  1  P ( A) :

  A A c  P ()  P ( A)  P ( A c )  P ( A c )  1  P ( A)
(2ª) P   0 : P ( )  P (  c )  1  P ( )  1  1  0
(3ª) Se A  B , então P( A)  P( B) e P( B  A)  P( B)  P( A) :
(4ª) P( A)  1 : por (3ª), P( A)  P()  1
(5ª) para A, B eventos quaisquer, P A  B   P( A)  P( B)  P A  B 
(6ª) para A, B, C , eventos quaisquer
      
P A B C  P  A   P B   P C   P A B  P A C  P B  C  P A B C   
33
1
Exemplo 10: suponha que A,B,C sejam eventos tais que P(A) = P(B) = P(C) = ,
4
1
A B  C  B   e P ( A C )  . Qual a probabilidade de que ao menos um dos
8
eventos A,B ou C ocorram?
1 1 5
Solução: pela propriedade (6ª) , P ( A B C )  3    , pois A B C 
4 8 8
3.8. Métodos de enumeração
Princípio da multiplicação: tarefas realizadas seqüencialmente, isto é, n1  n2    n k
Princípio da adição: tarefas realizadas de forma mutuamente exclusivas, isto é,

n1  n2    n k
Seja uma população finita constituída de N elementos. Considere uma amostra de

tamanho n. Então:
34
(1º) o número de amostras com reposição, considerando a ordenação, é N n . Amostras
diferem pela ordenação.
(2º) o número de amostras sem reposição, considerando a ordenação é.

N!
ANn  ; n≤N
( N  n)!
ANn
(3º) o número de amostras sem reposição, desconsiderando a ordenação é C Nn  .
n!
N!
Também vale que C Nn  ; n≤N
( N  n)!n!
Exemplo 11: seja um conjunto    1, 2 , 3 e considere uma amostra de tamanho dois.
Então: N=3 e n=2.
No processo com reposição sempre é considerada a ordenação, assim, as amostras

possíveis são:
( 1 , 1 ) ( 1, 2 ) ( 1, 3 ) ( 2 , 1 ) ( 2 , 2 ) ( 2 , 3 ) ( 3 , 1 ) ( 3 , 2 ) ( 3 , 3 ) ,
1 1 1
portanto:  
P  i , j     2
3 3 3
No Processo sem reposição, considerando ordenação, teremos: ( 1, 2 ) ( 1, 3 ) ( 2 , 1 )

( 2 , 3 ) ( 3 , 1 ) ( 3 , 2 ) , e portanto:
1 1 1 1
 
P  i , j      2
3 2 6 A3
No Processo sem reposição, desconsiderando ordem, teremos: ( 1, 2 ) ( 1, 3 ) ( 2 , 3 ) .
Note que no caso em que a ordem é desconsiderada, algumas pessoas respondem que
1 1 1
 
P  i , j     , que está errado, pois a soma de todas as probabilidades não será
3 2 6
 
1. Quando a ordem não é considerada, P  i , j  é multiplicada por n! , que é o número
de réplicas da amostra, isto é:
1 1 1 1
 
P  i , j   2     2
3 2 3 C3
35
Isto acontece porque as réplicas, que eram do caso com ordenação, serão consideradas
iguais, como mostra a figura abaixo:
Exemplo 12: considere um congresso onde compareceram 35 engenheiros, 25

matemáticos e 15 físicos. Se for formada, ao acaso, uma comissão de 10 membros, qual a
probabilidade de que esta seja constituída de:
(a) 5 engenheiros, 3 matemáticos e 2 físicos?
(b) Exclusivamente de engenheiros, ou de matemáticos, ou de físicos?
Solução:
(a) pelo princípio da multiplicação,
35  34  33  32  31 25  24  23 15  14
5 3 2  
C C C
35 25 15 120 6 2  0,094577978
10

C 75
75  74  73  72  71  70  69  68  67  66
3628800
(b) pelo princípio da adição,
10 10
C 35 C 25 C1510
10
 10  10  0,0002254
C 75 C 75 C 75
36
3.9. Probabilidade condicional
Definição: seja  um espaço amostral e A, B   eventos. Definimos a probabilidade

condicional de A , dado que ocorreu B , por :
 P( A B)
 , P( B)  0
P( A | B)   P( B)
0, c.c.

Observação: A interpretação de P( A | B) é que uma vez conhecido o fato de que o evento

B ocorreu, então não é mais necessário pensar em todo o espaço amostral. Na verdade,
agora B passa a ser o “espaço amostral reduzido ”.
37
Exemplo 13: extrair sem reposição, considerando a ordem das cores, duas bolas de uma
urna com 5 azuis e 3 brancas.
Para facilitar, faremos distinção apenas nas cores das bolinhas. Assim,
  (b, b); (b, a ); (a, b); (a, a )
Defina B = “1ª bola é branca” e A = “a 2ª bola é azul”
B  {(b, b); (b, a)} ; B c  {( a, b); (a, a )}
A  {(b, a ); (a, a )} ; A c  {(b, b); (a, b)}
B A  {(b, a )} ; B c  A  {(a, a)}
A31  A51 15
P ( B A)   .
A82 56
Outra maneira de obter P ( B A) é através da probabilidade condicional, isto é,

3 5 15
 
P B A  P( B )  P A | B    
8 7 56
.
Exemplo 14: outra maneira de resolver o Exemplo 12 (a). Note que algumas pessoas
responderiam que a solução é
 35 34 31   25 23   15 14 
                , que está errada!, pois a ordem em que os
 75 74 71   70 68   67 66 
membros são formados não está fixada, ou seja, é preciso levar em conta todas as posições
dos membros dentro da comissão! A resposta correta é:
C 355  C 25
3
 C152 10!  35 34 31   25 23   15 14 
10
               
C 75 5!3!2!  75 74 71   70 68   67 66 
 0,094577978
38
10!
Note que é dito coeficiente trinomial.
5!3!2!
3.10. Propriedades das probabilidades condicionais
(1ª) 0  P( A | B)  1 :
(2ª) P ( A B )  P ( B )  P ( A | B )
P ( A B )  P ( A)  P ( B | A)
  
P ( A B C )  P ( B  C )  P A | B  C  P (C )  P ( B | C )  P ( A | ( B  C ))
Exemplo 15: considere uma urna contendo 5 bolas brancas, 4 verdes e 3 pretas. Uma
pessoa retira, sem reposição, 3 bolas. Qual a probabilidade:
(a) ocorrer a seguinte seqüência de cores: verde, preta e branca?

(b) saírem três cores diferentes?
(c) ocorrer pelo menos uma branca?
(d) sabendo-se que na 1ª extração saiu uma verde, qual a probabilidade de saírem mais duas
verdes?
Solução: se fizermos distinção entre bolas de mesma cor, então a cardinalidade do espaço
amostral será A123  1320 . Logo, será um trabalho árduo escrever todo  . Fazendo
distinção apenas das cores,   {bbb, bbv, bvb, vbb, vpb, , ppp} , #   33  27 .
4 3 5
(a)  
12 11 10
(b) Defina A o evento “ocorrem três cores diferentes”. Note que algumas pessoas
#A 6 2
responderiam que P( A)    , que está errado! Este raciocínio somente valeria
#  27 9
se houvesse mesmo número de bolas para as três cores e, além disso, se o processo fosse
C 51  C 41  C 31 5 4 3 3
com reposição! O correto é 3
 3!    .
C12 12 11 10 11
39
C 51  C 72 C 52  C 71 C 53 5 7 6 5 4 7 5 4 3 37
(c) 3
 3
 3  3    3      
C12 C12 C12 12 11 10 12 11 10 12 11 10 44
7 6 5 37
ou 1    
12 11 10 44
P(vvv) 3 2
(d) Pvv | v    
P (v ) 11 10
3.11. Teorema de Bayes
Definição: Seja  um espaço amostral. Um conjunto de eventos B1 , B 2 ,....., B k  

forma uma partição de  se e somente se:
(1º ) B i  B j  Ø , i  j
k
(2º) B i 
i 1
(3ª) P ( Bi )  0 , i  {1,2,...., k}

Teorema da Probabilidade Total: Seja  um espaço amostral, B1 , B 2 ,....., B k   uma

partição de  e A um evento qualquer. Então:
k
P( A)  i 1 P( Bi )  P( A | Bi )
40
Prova: 
A  A B1 A B  A B . Assim,
2 k
P ( A)  P A B   P A B     P A B  

1 2 k
 P ( B1 ) P ( A | B1 )  P ( B2 ) P ( A | B2 )    P ( B k ) P ( A | B k )
Teorema de Bayes: Seja  espaço amostral, B1 , B 2 ,....., B k uma partição e A evento

qualquer. Então,
P( A | B j )  P( B j )
P( B j | A)  k
, j  1,2,....., k .
 P( A | B )  P( B )
i 1
i i
Prova: P( B j | A) 

P A B j  P( A | B j )  P( B j )
k
P( A)
 P( A | B )  P( B )
i 1
i i
Exemplo 16: Numa fábrica de parafusos, as máquinas A,B,C produzem 25, 35 e 40 por
cento do total produzido, respectivamente. Da produção de cada máquina, 5, 4 e 2 por
cento, respectivamente, são defeituosos. Escolhe-se ao acaso um parafuso e verifica-se
que ele é defeituoso. Qual a probabilidade de que o parafuso seja oriundo das máquinas:
(a) A ? (b) B ? (c) C ?
41
Solução:
Representação das percentagens de produção das 3 máquinas
As informações de “entrada” são:
P( A)  0,25 , P( B)  0,35 , P(C )  0,40
PD | A  0,05 , PD | B   0,04 , PD | C   0,02
Pelo Teorema da Probabilidade Total:
P ( D)  P ( A D)  P ( B D)  P (C  D) 
P ( A) P ( D | A)  P ( B ) P ( D | B )  P (C ) P ( D | C ) 
0,25  0,05  0,35  0,04  0,40  0,02 ,0345
Pela fórmula de Bayes:
P( A) P( D | A) 0,25  0,05
P ( A | D)    0,3623
P( D ) 0,0345
P( B) P( D | B) 0,35  0,04
P ( B | D)    0,4058
P( D ) 0,0345
42
P (C ) P ( D C ) 0,40  0,02
P (C D )    0,2319
P ( D) 0,0345
3.12 - Independência Probabilística
Definição: dois eventos são probabilisticamente independentes se e somente se

P ( A B )  P ( A)  P ( B ) .
Observação: da definição acima segue que P( A | B)  P( A) e P( B | A)  P( B) , ou seja,

a ocorrência de um deles não altera a probabilidade de ocorrência do outro.
Definição: três eventos A, B, C são ditos mutuamente independentes se e somente se:
(1º) são independentes dois a dois
(2º) P ( A B C )  P ( A)  P ( B )  P (C ) .
Observação: eventos mutuamente disjuntos não têm nenhuma relação com eventos
mutuamente independentes.
(a) suponha P( A)  0 , P( B)  0 e A B Ø Então, P ( A B )  0 , mas

P( A)  P( B )  0 , ou seja, são exclusivos mas não são independentes.
(b) P ( A B )  0 e P ( A B )  P ( A)  P ( B ) , ou seja, independentes, mas não

exclusivos.
(c) P ( A B )  0 e P ( A B )  P ( A)  P( B ) , ou seja, não exclusivos e não independentes.
(d) A  Ǿ e B  Ω. Então, P ( A B )  P (Ǿ)=0 e P( A)  P( B)  0 , ou seja,

independentes e exclusivos.
Exemplo 17: A finalidade deste exemplo é mostrar que extração de amostras com
reposição possui a propriedade de independência probabilística, mas se o processo for sem
reposição não haverá independência. Suponha uma urna contendo 7 bolas vermelhas e 5
bolas pretas. Considere o experimento aleatório de extrair 4 bolas ao acaso. Descreva o
espaço amostral com as respectivas probabilidades, nos casos com e sem reposição. Na
extração sem reposição considere a ordenação interna da amostra.
43
Solução:
(1ª) com reposição: se fizermos distinção entre bolas de mesma cor então a cardinalidade
do espaço amostral será #   12 4  20736 . Logo, será um trabalho árduo escrever todo
 . Se não fizermos distinção entre bolas de mesma cor então
  {vvvv, vvvp, vvpv,....., pppp} , ou seja, #   2 4  16 .
4
7 7 7 7 7
P (vvvv)  P (v )  P (v | v)  P (v | vv )  P (v | vvv)        
12 12 12 12  12 
 P (v )  P (v )  P ( v )  P (v )
3
7 7 7 5 7 5
P (vvvp)  P (v )  P (v | v)  P (v | vv )  P ( p | vvv)           
12 12 12 12  12   12 
 P (v )  P (v )  P ( v )  P ( p )
3
7 5
P (vvpv )  P (vpvv)  P ( pvvv)  P (vvvp)      
 12   12 
4
5 5 5 5 5
P ( pppp )  P ( p)  P ( p | p )  P ( p | pp)  P ( p | ppp )        
12 12 12 12  12 
 P ( p)  P ( p )  P ( p)  P ( p )
Concluímos que os eventos são independentes.
(2ª) sem reposição: agora neste tipo de extração a mesma bola não pode aparecer mais que
uma vez.
4
7 6 5 4 A7
P (vvvv)  P (v )  P (v | v)  P (v | vv)  P (v | vvv)      4
12 11 10 9 A12
4
7
P (v )  P (v )  P (v )  P (v )   
 12 
Como P(vvvv)  P(v )  P(v )  P(v)  P(v) , não há independência probabilística.
A73  A51 A54

P (vvpv )  P (vpvv)  P ( pvvv)  P (vvvp)  ; P ( pppp ) 
A124 A124
44
P(vvpp )  P(vppv )  P( pvvp)  P(vpvp)  P( pvvp )  P( pvpv)
P(vppp )  P( pvpp)  P( ppvp )  P( pppv)
Exemplo 18 (Confiabilidade de Sistemas):
E “o sistema funciona”
Ai  “i-ésimo componente do sistema”
A probabilidade de Ai funcionar é p
Assuma que os componentes sejam mutuamente independentes.
(a) dois componentes em série
 
P ( E )  P A1  A2  P  A1   P  A2   p  p  p 2
(b) dois componentes em paralelo
   
P ( E )  P A1  A2  P  A1   P  A2   P A1  A2  p  p  p  p  2 p  p 2
45
(c) três componentes em sistema misto
     
P ( E )  P A1  A2  P A1  A3  P A1  A2  A1  A3  p 2  p 2  p 3  2 p 2  p 3
46
4 - VARIÁVEIS ALEATÓRIAS DISCRETAS
4.1. Variáveis aleatórias
Definição: seja  um experimento aleatório e  o espaço amostral associado a esse

experimento. Uma função X , que associe a cada elemento    um número real
X ( ) , é denominada de variável aleatória (v.a).
Observação: em algumas situações o resultado  do espaço amostral já constitui uma

característica numérica que desejamos registrar. Assim, tomamos X ( )   .
Exemplo 1: lançamento de duas moedas. Considere a v.a. X sendo o número de faces

CARA.
  {CC , KK , CK , KC} C  ”cara” e K  ”Coroa”
Definição: uma v.a X é dita discreta quando o conjunto dos valores possíveis de X é
finito ou infinito enumerável.
 X  {x1 , x 2 ,....., x n } ou  X  {x1 , x 2 ,.....} .
47
4.2. Função massa de probabilidade (fmp)
Definição: a função massa de probabilidade (f.m.p) de uma v.a. discreta é:
f :  X  [0,1] ; xi  f ( xi )  P( X  xi )
Condições para ser uma f.m.p:
(1ª) 0  f ( xi )  1 , x i   X
(2ª)  x i  X
f ( x i ) 1 ,
(3ª) f ( x i )  0 se x i   X
Exemplo 2: seja X o número de faces cara em 3 lançamentos de uma moeda tal que
3 1
P (C )  e P( K )  .
4 4
xi 0 1 2 3 
f ( xi ) 1/64 9/64 27/64 27/64 1
1 1 1 1
f (0)  P ( X  0)  P ( KKK )    
4 4 4 64
   
f (1)  P ( X  1)  P (CKK ) ( KCK ) ( KKC ) 
 
3 3 3 9
 P (CKK )  P ( KCK )  P ( KKC )    
64 64 64 64
   
f (2)  P ( X  2)  P (CCK ) ( KCC ) (CKC ) 
 
9 9 9 27
 P (CCK )  P ( KCC )  P (CKC )    
64 64 64 64
3 3 3 27
f (3)  P ( X  3)  P (CCC )    
4 4 4 64
48
Representação gráfica da fmp do exemplo 2
4.3. Esperança matemática de uma v.a. discreta
A esperança matemática da v.a. X é definida como: E ( X )   x  x i f ( x i ) .

i X
notações: E ( X ),  , EX
Observações:

(1ª) A esperança matemática é a média da população, enquanto X é a média da amostra,
ou seja, uma estimativa de EX.
(2ª) Interpretamos a esperança matemática como sendo o centro de gravidade (equilíbrio)

de uma fmp, e é empregada com a finalidade de representatividade dos valores de  X .
Exemplo 3: Uma fábrica opera com 3 marcas de máquinas: A, B, C. O gerente deseja

saber qual marca tem menor custo médio de manutenção.
49
Marca A Marca B Marca C
Tipo de Custo do Probab. Custo do Probab. Custo do Probab.

defeito Conserto(X) de Conserto(Y) de Conserto(Z) de
Falha falha falha
Mecânico 33 0,50 32 0,48 34 0,45
Elétrico 34 0,20 36 0,21 35 0,27
Hidráulico 50 0,30 47 0,31 51 0,28
EX  33  0,50  34  0,20  50  0,30  38,3 ; EY  37,49 ; EZ  39,03
A marca B tem menor custo médio, logo deve ser a preferida.
Propriedades da Esperança:
(1ª) E (k )  k , se k for uma constante
(2ª) E (kX )  kE ( X ) , se k for uma constante
(3ª) E (aX  b)  aE ( X )  b, a, b  R
(4ª) E ( X  Y )  E ( X )  E (Y )
n n
(5ª) E (i 1 X i )  i 1 E ( X i )
4.4. Variância e desvio padrão de uma v.a. discreta
Definição: Seja X v.a discreta com f.m.p f e espaço amostral  X  {x1 , x 2 ,......} .
Definimos a variância de X por
2
Var ( X )   x   x i  EX  f ( xi ) .
i X
Definição: o desvio padrão é definido como DP ( X )  Var ( X ) .
Notações: V ( X ), Var ( X ),  X2 , DP( X ),  X .
50
Observações:
(1ª) uma fórmula alternativa para a variância é Var ( X )   xi  X

 2
xi2 f ( xi )  EX  .
(2ª) Var ( X )  0 .
(3ª) a variância tem como unidade de medida o quadrado da unidade de medida de X .
(4ª) o DP (desvio padrão) tem mesma unidade de medida que a v.a. X , e mede o grau de
dispersão dos valores de  X em torno de EX .
(5ª) podemos também utilizar o coeficiente de variação de X , definido como

DP
CV   100% . O CV é interpretado como o grau de variabilidade relativa em torno
| EX |
da esperança, ou seja, CV é uma medida relativa, enquanto DP é absoluta.
Exemplo 4:
xi 0 1 2 3 
f ( xi ) 1/8 3/8 3/8 1/8 1
2
24  3  3
E ( X )  1,5 , Var ( X )     ,
8 2 4
3
DP( X )  e CV  57,735% .
4
Propriedades da variância
(1ª) Var (c)  0, c constante;
(2ª) Var (cX )  c 2Var ( X ) ;
(3ª) Var (aX  b)  a 2Var ( X ), a, b  R .
51
4.5. Modelos probabilísticos discretos
4.5.1. Modelo Binomial
Seja um experimento aleatório com dois resultados possíveis, isto é,   {1 ,  2 } ,

com P(1 )  p e P( 2 )  1  p  q . A variável aleatória X , tal que X (1 )  1 (ocorreu
um sucesso) e X ( 2 )  0 (ocorreu um fracasso) é dita modelo de Bernoulli. O que é um
“sucesso” ou um “fracasso” é subjetivo.
Exemplo 5: lançamento de uma moeda equilibrada
 ={cara, coroa}
P X  1  0,5 e P X  0   0,5 .
Exemplo 6:  ={ fator RH+ ; fator RH-}
Sabe-se, da Biologia, que P X  1  0,85 e P X  0  0,15 .
52
Sendo X 1 , X 2 ,...., X n v.a’s. independentes e identicamente distribuídas segundo
n
uma Bernoulli de parâmetro p , então X  i 1 X i é dita binomial de parâmetros n e p .
Notação: X ~ Binomial (n, p )
fmp: f ( x, n, p )  C nx p x q n  x , x  0,1,2....., n
Esperança e Variância de uma v.a. Binomial
 n
 n n
EX  E i 1 X i  i 1 E ( X i )  i 1 p  np
VarX  np(1  p )
Exemplo 7: suponha que 40% dos moradores de um município são favoráveis à

implantação de um novo sistema de coleta e reciclagem de lixo. Se 5 pessoas forem
entrevistadas (independentemente), qual a probabilidade de:
(a) nenhuma ser favorável (b) no máximo 2 serem favoráveis

(c) no mínimo 4 serem favoráveis (d) entre 2 (incluso) e 5 (excluso) serem favoráveis
Solução: vamos denotar X como o número de pessoas favoráveis ao projeto

X ~ Binomial (5;0,40)
(a) P ( X  0)  C 50  0,40 0  0,60 5  0,07776
53
P ( X  2)  P ( X  0)  P ( X  1)  P ( X  2) 
(b)
 C 50  0,40 0  0,60 5  C 51  0,401  0,60 4  C 52  0,40 2  0,60 3  0,68256
(c) P ( X  4)  P ( X  4)  P ( X  5)  C 54  0,40 4  0,601  C 55  0,40 5  0,60 0  0,08704
P (2  X  5)  P ( X  2)  P ( X  3)  P ( X  4) 
(d)
C 52  0,40 2  0,60 3  C 53  0,40 3  0,60 2  C 54  0,40 4  0,601  0,6528
Exemplo 8: no exemplo anterior, se 50 pessoas forem entrevistadas, qual o número

esperado de favoráveis?
Solução: E ( X )  50  0,40  20 ; Var ( X )  50  0,40  0,60  12 , CV  17,3205%
4.5.2. Modelo Uniforme Discreto
1
fmp: f ( xi )  , i  {1,2....., N } .
N
 xi  i   X  {1,2,....., N }

caso particular:  1
 f (i )  N
Notação: X ~ Unif ( N )
Gráfico da função massa de probabilidade de uma uniforme discreta
54
N 1 ( N 2  1)
Esperança e variância de uma Uniforme discreta: EX  ; Var ( X )  .
2 12
Exemplo 9: X= “no. de pontos marcados na face superior de um dado”.
x 1 2 3 4 5 6 
f (x ) 1/6 1/6 1/6 1/6 1/6 1/6 1
6 1
E( X )   3,5
2
Exemplo 10: a amostra a seguir é o resultado de 24 lançamentos de um dado equilibrado
Face 1 2 3 4 5 6 Total
No. ocorrências 4 4 5 4 3 4 24
 1  4  2  4  3  5  4  4  5  3  6  4 82
X    3, 416666
24 24
Em n lançamentos de um dado a soma das faces divida por n é aproximadamente 3,5.
4.5.3. Modelo Hipergeométrico
Nota: a denominação do modelo tem relação com a série hipergeométrica.
Experimento aleatório: Seja uma população de tamanho N com r elementos

possuindo uma característica em comum. O experimento consiste em extrair uma amostra,
sem reposição, e observar se a unidade amostral possui a característica. Se tiver diremos
que ocorreu um “sucesso”. A v.a. X  ”número de sucessos na amostra” é tal que
 X  {0,1,...., min( n, r )} .
C rx  C Nnxr
f.m.p: f ( x , N , n, r )  P ( X  x )  , x  {0,1,...., min( n, r )} .
C Nn
Notação: X ~ H ( N , n, r )
55
Esperança e variância de uma Hipergeométrica:
 N n r
E ( X )  np , Var ( X )  np (1  p) , p
 N 1  N
r
Observação: para N   e mantendo p  constante, a fmp de uma hipergeométrica
N
converge para a binomial . Logo, para uma população grande, os processos com e sem
reposição ficam muito próximos.
Exemplo 11: pequenos motores são guardados em caixas de 25 unidades. Um inspetor de

qualidade examina cada caixa, antes da posterior remessa, testando cinco motores. Se
houver no máximo dois motores defeituosos, a caixa é aceita, caso contrário todos os 25
deverão ser testados. Sabendo-se que há 4 motores defeituosos numa caixa, qual a
probabilidade de que seja necessário testar todos motores dessa caixa?
Solução: X  “número de motores defeituosos”
 X  {0,1,2,3,4} ; N  25 , n  5 e r4
P(examinar toda a caixa) = P( X  3) 

C 43  C 212 C 44  C 21
1
 P ( X  3)  P ( X  4)  5
 5
 0,0162055
C 25 C 25
Agora assuma que N  250 e r  40 . Então  X  {0,1,2,3,4,5} :
P (examinar toda a caixa) = P( X  3)  P( X  3)  P( X  4)  P( X  5)  0,03027575
40
Usando a aproximação pela binomial, com p   0,16 :
250
P ( X  3)  C 53  0,16 3  0,84 2  C 54  0,16 4  0,841  C 55  0,16 5  0,84 0  0,0317587
56
4.5.4. Modelo de Poisson
A distribuição de Poisson é o modelo probabilístico que descreve um experimento

aleatório, cuja variável aleatória X é o número de sucessos em um intervalo de
comprimento t .
Exemplo 12: aplicações do modelo de Poisson:
(1º) no. de chamadas telefônicas recebidas por um PBX durante um período de tempo.
(2º) no. de falhas de um computador durante 1 dia.
(3º) no. de veículos que chegam a um pedágio durante 1 hora.
(4º) no. de falhas em 1 metro de tecido de algodão.
e  t (t ) x
fmp: f ( x, t )  , x  0,1,2,.......
x!
sendo e  2,7182882..... , e t  0 o número médio de “sucessos” no intervalo de

comprimento t .
Notação: X ~ Pois(; t )
Esperança e variância de uma Poisson: EX  t Var ( X )  t .
57
Gráfico da fmp de uma Poisson
Exemplo 13: Numa central telefônica chegam 300 chamadas por hora. Qual a
probabilidade de que:
(a) em 1 minuto não haja nenhuma chamada?
(b) em 2 minutos ocorram 8 chamadas?
(c) em 0,5 minutos ocorram no mínimo 2 chamadas?
Solução: X  ”número de chamadas em um intervalo de t minutos”
300
  5 é o número esperado de chamadas em 1 minuto ( t  1 )
60
(a) P( X  0)  e 
 0  e 5  0,00673
0!
8
 2  2 
8
10 10
(b) P( X  8)  e e  0,1126
8! 8!
P ( X  2)  1  P ( X  2)  1  P ( X  1)  1  P ( X  0)  P ( X  1) 
(c)  2,50 2,51 
 1  e  2 ,5      1  3,5  e
 2 ,5
 1  0,2873  0,7127
 0! 1! 
58
5 - VARIÁVEIS ALEATÓRIAS CONTÍNUAS
De uma maneira geral, medidas de grandezas físicas, como coordenadas espaciais,

peso, tempo, temperatura e voltagem, são descritas mais adequadamente como variáveis
aleatórias contínuas.
5.1. Função densidade de probabilidade (fdp)
Definição: Diz-se que X é variável aleatória contínua se existir uma função f,

denominada de função densidade de probabilidade (f.d.p), tal que:
(1º) f ( x )  0 , x  R

(2º)  f ( x)dx  1

b
(3º) para    a  b   , P (a  X  b)   f ( x )dx
a
Observações:
(1ª) f (x ) não é probabilidade.

x
(2ª) Uma vez que P ( X  x )   f ( y )dy  0 , então no caso contínuo:
x
P(a  X  b)  P(a  X  b)  P(a  X  b)  P(a  X  b) , ou seja,
P ( X  a )  P ( X  b)  0 .

(3ª) Se g é tal que g ( x)  0 e  g ( x)dx  K  1 , então a função

g ( x)
f ( x)  é uma função densidade.
K
59
Exemplo 1: : um cano cilíndrico para escoamento de água tem raio 2 cm e comprimento
10 cm.
O volume de água que escoa pelo cano é dado por V    2 2  10. A taxa de
água que passa pelo cano no intervalo [0, x] , 0< x<10, é a derivada do volume, ou
seja, g ( x )    2 2. A função g não é densidade de probabilidade, pois
. Mas, é f.d.p.
A percentagem de volume de água que passa pelo cano, no intervalo [0, x],
0< x<10, é .
5.2. Função de Distribuição Acumulada de uma v.a. contínua
x
F : R  [0,1] F ( x)   f ( y)dy  P X  x  ,

onde f é f.d.p
Propriedades:
(1ª) lim x  F ( x )  0 e lim x  F ( x )  1
(2ª) F é contínua e não-decrescente em R
d
(3ª) f ( x)  F ( x) se F for derivável em x
dx
0 se F não for derivável em x
(4ª) P(a  X  b)  F (b)  F (a ) ; P ( X  a)  1  F ( a ) .
60
Exemplo 2: seja a função a seguir
(a) Mostre que é fdp
(b) Obtenha a fda
(c) Usando a fda obtenha P( X  0,6) , P( X  0,4) e P(0,2  X  0,5)
Solução:
1
2 1
(a)  2 xdx  x 0 1
0
(b)
x x
x  0: F ( x)   f ( y )dy   0dy 0
 
x 0 x
2 x
0  x  1: F ( x)   f ( y)dy   0dy   2 ydy  y 0  x2
  0
x 0 1 x
2 1
x  1 : F ( x)   f ( y)dy   0dy   2 ydy   0dy  y
  0 1
0 1
Nota: em x  1 ,
F ( x )  F (1) 1 1 0
lim x 1  lim x 1  lim x 1 0
x 1 x 1 x 1
,
F ( x )  F (1) x 2 1
lim x 1  lim x 1  lim x 1 ( x  1)  2
x 1 x 1
logo, F não é derivável em x=1 (veja a figura abaixo).
61
(c) P ( X  0,6)  F (0,6)  0,6 2  0,36 , P ( X  0,4)  1  F (0,4)  1  0,4 2  0,84
P (0,2  X  0,5)  F (0,5)  F (0,2)  0,5 2  0,2 2  0,21
5.3. Esperança e variância de v.a’s contínuas

Esperança: EX   xf ( x)dx


condição de existência: E | X |  | x | f ( x)dx  

 
Variância: Var ( X )   ( x  EX ) 2 f ( x)dx  E ( X 2 )  ( EX ) 2 , onde E ( X 2 )  x
2
f ( x)dx
 
condição de existência: E | X | 2  
Importante: mesmas propriedades da esperança e variância são válidas para o caso

contínuo.
Exemplo 3: o conteúdo de cinzas (em percentagem) no carvão pode ser considerado uma
variável aleatória contínua com f.d.p :
 1
 x 2 ;10  x  25
f ( x )   4875
0; c.c.
62
O conteúdo de cinzas esperado em um particular espécime de carvão é:
25
1
E( X )   x 2 f ( x)dx  19,5 por cento.
4875 10
Exemplo 4: seja X v.a. com densidade a seguir
Mostre que f é densidade e encontre EX e Var(X).
1
 x2 1 x3 1 
Solução:  f ( x )dx 6   0  0  1
0 2 3 
1
 x3 1 x4 1  1 1
EX   xf ( x )dx 6   0  0   6  ;
0 3 4  12 2
1
 x4 x5  6 1
E ( X 2 )   x 2 f ( x )dx 6   1
0  1
0  ; Var ( X ) 
0 4 5  20 20
63
5.4. Modelos probabilísticos contínuos
5.4.1. Modelo Uniforme contínuo
Função densidade de probabilidade:
Notação: X ~ U [a, b]
Função de distribuição acumulada
64
Esperança e variância
b
1 x2 b b 2  a 2 (b  a)(b  a ) a  b
EX   x dx  a   
a
ba 2(b  a ) 2(b  a) 2(b  a ) 2
(b  a) 2
V ar ( X ) 
12
Exemplo 5: Os geradores de números pseudo-aleatórios, de calculadoras e computadores,

têm distribuição uniforme contínua em [0,1). Por exemplo, no EXCEL o comando é :
ALEATORIO( )
Por exemplo, foram gerados 18 números:
0,156829637 0,846649578 0,469263346 0,577564193 0,664633565 0,462117229

0,973857121 0,964847015 0,968308066 0,981239892 0,322957938 0,118940193
0,937166033 0,135396175 0,840436215 0,023279616 0,431708782 0,587640809
A média desses valores gerados é 0,495327.
Exemplo 6: considere um relógio circular de ponteiros. O relógio pode parar, por falta de
bateria, em qualquer quadrante. Defina X o ângulo formado pelo ponteiro maior quando
o relógio parar. Determinar:
(a) fdp (b) fda (c) probabilidade do ponteiro parar entre -90 e 0 graus
Solução:
0, x  360
 1  x  360
 , 360  x  0 
(a) f ( x )   360 (b) F ( x )   ,360  x  0
0, c.c.  360
1, x  0
65
5.4.2. Modelo Exponencial
Este modelo possui aplicações em diversas áreas: Biologia, Engenharia, Computação.

Na Teoria da Confiabilidade está associada à probabilidade de falha de componentes em
um sistema.
0, x  0
Função densidade de probabilidade: f ( x,  )   x ;  0
 e , x  0
O parâmetro  é a taxa (intensidade) de falhas.
Notação: X ~ Expon( )
Exemplo 7: distribuições exponenciais de parâmetros 2; 1,5 e 0,6
66
0, x  0
Função de distribuição acumulada: F ( x,  )    x
1  e , x  0
1 1
Esperança e variância da exponencial: EX  , Var ( X )  2 .
 
Exemplo 8: o tempo de duração (em horas) de um componente eletrônico é exponencial de

1
parâmetro   . Qual a probabilidade de que o componente:
500
(a) tenha duração entre 300 e 600 horas?
(b) dure mais do que a média?
Solução: X denota o tempo de duração do componente em horas
(a)
 
P (300  X  600)  F (600)  F (300)  1  e 600  1  e 300  e 0, 6  e 1, 2  0,247617
1
(b) A media de X é    500 . Assim,

 
P ( X  500)  1  F (500)  1  1  e 500  e 1  0,367879
67
5.4.3. A distribuição Normal (Gaussiana)
A distribuição Normal é de grande importância em Probabilidade e em Inferência

Estatística. A distribuição normal foi introduzida pela primeira vez por Abraham de Moivre
em um artigo no ano 1733. O nome "distribuição normal" foi criado por Charles S. Peirce,
Francis Galton e Wilhelm Lexis, por volta de 1875.
Exemplo 9 ( Exemplos de aplicação da normal):
(1º) distribuição das alturas de pessoas

(2º) distribuição dos valores de depósitos bancários
(3º) distribuição do quociente intelectual (QI)
(4º) distribuição da produção de cereais
1  1  x    2 
Função densidade: f ( x,  ,  )   exp    ,    x   ;
2 2  2    
      ;   (0,)
Notação: X ~ N ( , ) .
Gráfico da densidade normal
Propriedades da distribuição normal:
(1ª) f ( x )  0 .
(2ª) A área sob a densidade f é igual a 1. Para mostrar isto faz-se mudança para
coordenadas polares.
68
(3ª) Para três distribuições normais X 1 , X 2 , X 3 de mesmo parâmetro  , se  1   2   3 ,
então a v.a X 3 é mais leptocúrtica (afinada) que X 2 e por sua vez X 2 é mais leptocúrtica
que X 1 .
(4ª) ponto de máximo: x   , pontos de inflexão: x     e x     .
(5ª)
(6ª) EX  Md  Mo   ; Var ( X )   2 .
69
X 
(7ª) Se X ~ N ( , ) então Y  a  bX ~ N (a  b ; | b |  ) e Z  ~ N (0;1) .

Função de distribuição acumulada da Normal padrão
Seja Z ~ N (0;1) . A função de distribuição acumulada de Z é denotada por
z
1  v2 
( z )    exp  dv .
 2  2
Propriedades de 
(1ª) lim z   ( z )  0 e lim z   ( z )  1
(2ª)  (0)  0,5
(3ª) P(a  Z  b)   (b)   (a ) e P( Z  b)  1   (b)
(4ª) Pela simetria da densidade,  ( z )  1  ( z)
(5ª) Se X ~ N ( ; ) é preciso padronizá-la , para poder usar a tabela da normal padrão:
70
a X  b a b b   a
P(a  X  b)  P     P Z       
              
Nota: As áreas A e B têm formas diferentes, mas tem igual valor.

Tabela de  : fornece P( Z  z ) , z  [3,79;3,79] , que é área hachurada na figura abaixo.
No exemplo, P( Z  1,27)  0,8980 .
71
Exemplo 10: Seja Z ~ N (0;1)
(a) P( Z  1)   (1)  0,8413

(b) P( Z  1,57)   (1,57)  0,9418
(c) P(1,96  Z  1,96)   (1,96)   (1,96)  0,9750  0,025  0,95
(d) P( Z  1,64)  1   (1,64)  1  0,9495  0,0505
(e) P(2,32  Z  2,01)   (2,01)   (2,32)  0,0222  0,0102  0,012
(f) P( Z  4)  (4)  0 e P( Z  4)  1   (4)  1  1  0 . Mas, pelo computador
P( Z  4)  0,000031671242 , ou seja, na tabela a área foi arredondada para zero.
Exemplo 11: os depósitos efetuados por clientes de um banco têm distribuição normal
com média 100,00 e desvio padrão 15,00 unidades monetárias. Um cliente é selecionado
ao acaso. Qual a probabilidade de que o depósito efetuado por ele seja:
(a) 100,00 u.m. ou menos ? (b) pelo menos 110,00 u.m.?

(c) um valor entre 120,00 e 150,00 u.m.? (d) maior que 140,00 u.m.?
Solução: denotemos por X o valor dos depósitos
 X  100,00 100,00  100,00 

(a) P  X  100,00   P    P ( Z  0)   (0)  0,5
 15,00 15,00 
(b)
 X  100,00 110,00  100,00   2
P  X  110,00   P     P Z   
 15,00 15,00   3
 1   (0,67)  1  0.7486  0, 2514
(c)
 120,00  100,00 X  100,00 150,00  100,00 
P 120,00  X  150,00  P   
 15,00 15,00 15,00 
 P 1,33  Z  3,33   (3,33)   (1,33)  0.9996 - 0.9082  0,0914
(d)
 X  100,00 140,00  100,00 
P  X  140,00   P     P Z  2,67   1   (2,67) 
 15,00 15,00 
 1  0.9962  0,0038
72
Tabela da Normal Padrão Inversa:  1 : fornece as coordenadas tais que z   1 ( ) ,
ou seja:

P( Z  z )  (áreas unilaterais superiores)
2
P(| Z | z )   (áreas bilaterais)
Exemplo 12: Para uma normal padrão, obtenha z tal que :
(a) P( Z  z )  0,9750 (b) P( Z  z )  0,95 (c) P( Z  z )  0,01 (d) P( z  Z  z )  0,95
Solução:
(a)
z  1,96
73
Também poderá utilizar a tabela da normal inversa, com a área unilateral de 0,025, como
mostra a figura abaixo:
(b) Neste caso não encontraremos a área 0,95 na tabela da normal padrão. Isto acontece
porque a tabela é limitada em duas decimais para as coordenadas. O valor exato, usando
o computador, é z  1,64485362695 .
Você pode utilizar a media aritmética das duas coordenadas:
1,64  1,65
z  1,645 . Também poderá utilizar a tabela inversa da normal padrão, cujo
2
valor da coordenada é z=1,6445.
74
(c) Neste caso, a área deseja é a cauda inferior. Pela tabela da normal inversa, obtemos
z = 2,3263, e portanto - z = -2,3263.
(d) Pela tabela da normal inversa , z=1,96.
Exemplo 13: as alturas de 10000 alunos de uma escola têm distribuição normal de média
170 cm e desvio padrão 5cm.
(a) qual o número esperado de alunos com altura superior a 165 cm?
(b) qual o intervalo simétrico em torno da média que conterá 75% das alturas dos alunos?
Solução: denotemos por X a altura dos alunos
 X  170 165  170 

(a) P X  165  P    PZ  1  1  (1)  1  0,1587  0,8413
 5 5 
O nº de esperado é 10000  0,8413 = 8413 alunos.
75
(b) Temos que encontrar k tal que
P  k  X    k   P( k  Z  k )   (k )   ( k )  0,75
Pela Tabela Inversa da Normal Padrão, para área bilateral de 0,25, obtêm-se que
k  1,15 . Portanto, o intervalo em torno de  é
170  1,15  5;170  1,15  5  164,25;175,75.
76
6 - AMOSTRAGEM E ESTIMAÇÃO DE PARÂMETROS
6.1. Parâmetros e Estatísticas
Definição: denomina-se amostra aleatória a n  upla  X 1 , X 2 , , X n  de v.a´s com mesma

distribuição de probabilidade.
Exemplo 1:  X 1 , X 2 ,, X n  com distribuição binomial de parâmetros m e p .
Definição: um parâmetro é uma medida usada para descrever uma característica numérica
da população.
Exemplo 2:   0,85 é a proporção de pessoas com fator RH+
Exemplo 3: a função-produção é definida como Y  K  Q B , sendo Y o valor do produto

e Q a quantidade produzida, K e B parâmetros.
Definição: uma estatística (ou estimador) é uma característica numérica da amostra, isto é,
uma estatística T é uma função de T  f  X 1 , X 2 ,  , X n  .
n
X
i 1
i
Exemplo 4: P  , onde X i  1, se for RH+
n
= 0, se for RH-
Nota: uma vez que T é função de v’as, então também será aleatória.
Definição: uma estimativa é um valor particular assumido pelo estimador

t  f ( x1 , x2 ,....xn )
25
Exemplo 5: numa amostra de 30 pessoas, 25 tem RH+. Assim, p   0,83 .
30
Observação: por convenção representamos a amostra observada (e as estimativas) por

letras minúsculas.
77
Notações usuais:
Medidas Parâmetro Estimador Estimativa

Média  k k

X 
 i 1
fi X i 
x
 i 1
f i xi
n n
Variância  2 2 2
k 2  k 2 
 i i   X 
f X  n  i i   x 
f x  n
S   i 1
2    s   i 1
2   
n 1 n 1
Desvio padrão  S s
Amplitude  H h
Proporção  P p
Correlação  R r
6.2. Propriedades dos Estimadores:
(1ª) Um estimador é dito não tendencioso ou não enviesado, se E (T )   , onde  é um

parâmetro populacional
Exemplo 6: “a média de todas médias amostrais possíveis é igual à média populacional”,


ou seja, E( X )   .
 k 2 
 fi X i   2
 
Exemplo 7: E S 2   2 , mas E V 2     2 , onde V 2   i 1    X  .
 n   
 
 
(2ª) Uma seqüência Tn n 1 de estimadores de  é dita consistente se:
lim n   E (Tn )   e lim n   Var (Tn )  0
 2 
Exemplo 8: como E ( X )   e lim n  0 , então X é consistente.
n
(3ª) Se T e H são dois estimadores não tendenciosos de  e Var (T )  Var ( H ) então

dizemos que T é mais eficiente que H.
78
Exemplificação de quatro estimadores onde foram feitas 18 observações
6.3. Estimação por ponto e por intervalo
Estimação por ponto: é a estimativa resultante da amostra.
Estimação por intervalo: a estimação por ponto não permite julgar a magnitude do erro
que estamos cometendo. Daí surge a idéia de construir os intervalos de confiança, que são
fundamentados na distribuição amostral do estimador.
P  I .C .  
 é dito grau de confiança, que é a probabilidade do parâmetro pertencer ao intervalo
  1   é a probabilidade de não pertencer ao intervalo
79
Construção de intervalos de confiança: o teorema a seguir é o alicerce dos Intervalos de
Confiança.
Teorema (Teorema Central do Limite): Para uma amostra aleatória ( X 1,...., X n ) e um

estimador Tn  f ( X 1 ,...., X n ) de máxima verossimilhança do parâmetro  , tal que
E (Tn )   , tem-se:
Tn  E (Tn ) 
n 
Zn   N (0,1)
Var (Tn )
6.4. Intervalos de confiança
6.4.1. IC para a média populacional  quando o desvio padrão  é

conhecido
Pelo Teorema Central do Limite,
 
 
 X  E X  
        
P  z tab   z tab   1    P  X  z tab     X  z tab    1   ,
  
   n n 
 Var  X  
   
onde z tab é tal que 21   ( z tab )    .
80
Assim, o intervalo de confiança para  , de grau   (1   )  100% , é dado por
 

IC  X    , onde   z tab
 é dito erro de estimação (ou erro amostral).
  n
 
Observação: note que o erro de estimação é a semi-amplitude do I.C.
Exemplo 9: suponha que se esteja estudando a altura de pessoas numa certa população.

Sabe-se que  =15. A amostra de 100 indivíduos resultou em x =170 . Construa
intervalos de confiança para a média populacional com:
(a) 1   =0,90 (b) 1   =0,95 (c) 1   =0,99
solução:
 15 15 
(a) 170  1,645  ;170  1,645    167,54;172,46
 100 100 
 15 15 
(b) 170  1,96  ;170  1,96    167,06;172,94
 100 100 
 15 15 
(c) 170  2,575  ;170  2,575    166,14;173,85
 100 100 
81
Interpretação do Intervalo de Confiança: espera-se que (1   )  100% dos
intervalos originados de amostras de mesmo tamanho contenham o parâmetro  .
Observações:
(1ª) Não se utiliza grau de confiança igual a 100%, pois neste caso o intervalo fica a
própria reta real! De fato, para que P  z tab  Z  z tab   1 , então é preciso que
z tab   .
(2ª) Um grau de confiança igual a 0% resulta em um intervalo degenerado (que é a própria

estimativa por ponto!). De fato, para que P  z tab  Z  z tab   0 , então é preciso que
z tab  0 .
(3ª) Não existe um valor ideal para o grau de confiança. Nunca se deve utilizar os
extremos 0% e 100%. Os valores mais usuais são 0,99; 0,95 e 0,90, mas não há uma
justificativa formal para usá-los, são apenas valores de referência mais encontrados em
artigos e livros.
(4ª) O desvio padrão  influencia diretamente na amplitude do I.C., ou seja, se  for

grande, então o I.C. será amplo. O grau de confiança também é responsável pela amplitude
do I.C. Mantendo  fixado, se n aumentar então a amplitude do I.C. irá diminuir, ou
seja, ficará mais preciso.
82
6.4.2. IC para a média populacional  quando o desvio padrão  é
desconhecido
A distribuição t-student:
Foi introduzida por William Gosset, que utilizou o pseudônimo “um estudante”.
Essa distribuição aparece quando substituímos o desvio padrão  pelo respectivo
estimador S . A t-student é similar à normal padrão, isto é, e simétrica em torno do zero e
tem a forma de um sino, sendo mais baixa (achatada) que a normal. Além disso, a t-student
converge à normal padrão.
Notação: X ~ t (v) , onde v  0 é o parâmetro da distribuição.
Comparação entre a normal padrão e a t-student
83
Em inferência estatística esse parâmetro assume valores inteiros positivos e tem a
denominação de “graus de liberdade”. O conceito de graus de liberdade (GL) é o número de
valores que poderemos atribuir de maneira arbitrária. Por exemplo, suponha que temos três
parcelas, cujos valores devem ser não negativos e somarem 14:
4 + 7 + = 14
Então, teremos a “liberdade” de atribuir apenas dois valores, pois o último ficará
“amarrado” (determinado).
A tabela da t-student é tal que se você entrar com GL=n-1 e a área, você obterá a
coordenada. Para GL maior que 120, utiliza-se a normal padrão.
84
Modelo de Tabela t-student
 
 S 
IC  X  t tab , onde t tab é tal que P (| T | t tab )   , T ~ t (n  1)
 n
 
Exemplo 10: de 1500 placas de memória fabricadas retirou-se uma amostra de 30

unidades, observando-se o tempo até a primeira falha. Obteve-se as seguintes estatísticas:

x  800 h e s  100 h. Construa um IC de 99% para a média da população.
 100 100 
Solução: IC = 800  2,7564  ;800  2,7564    749,68;850,31
 30 30 
Observação: o desvio padrão amostral S influencia diretamente na amplitude do I.C. Se

a variabilidade na amostra for alta, o I.C. será mais amplo. Aumentando-se a amostra, o
I.C. deverá ficar mais preciso (com menor amplitude).
85
6.4.3. IC para a variância populacional  2
A distribuição Qui-Quadrado: a distribuição origina-se da soma de quadrados

de distribuições normais. A densidade dessa distribuição é assimétrica à direita. O nome
“QUI” vem da letra grega  .
Algumas distribuições Qui-Quadrado
Notação: X ~ Qui  Quadrado(v ) , onde v  0 é o parâmetro da distribuição.
Assim como na t-student, em inferência estatística esse parâmetro assume valores

inteiros positivos, e denomina-se “graus de liberdade”. A tabela da Qui-Quadrado é tal
que se você entrar com GL e a área, você irá obter a coordenada.
86
Modelo de Tabela Qui-Quadrado
 
 (n  1) S 2 (n  1) S 2 
O intervalo de confiança para a variância é: IC  , , onde
 qsup qinf 
 
P (qinf  X  qsup )  1   ; X ~ Qui  Quadrado(n  1)
 (n  1) S 2 (n  1) S 2 
O intervalo de confiança para o desvio padrão é: IC   , 
 qsup qinf 
Exemplo 11: O setor de qualidade de uma indústria de parafusos deseja estimar a variação
dos comprimentos de parafusos produzidos. Obtenha intervalo de confiança de grau 95%
para  . A amostra foi a seguinte: 12,2 12,4 12,1 12,0 12,7 12,4 14,0 13,7 13,9 14,1
13,9 13,7 13,5 12,2 12,5 13,6.

Solução: x  13,05625 s 2  0,634624 s  0,796633
 15  0,634624 15  0,634624 
IC   ;   0,58848;1,23295
 27,4884 6,2621 
87
6.4.4. IC para a proporção populacional
 
 P (1  P ) 
IC   P  z tab onde P é a proporção amostral e z tab é tal que
n ,
 
21   ( z tab )    .
Exemplo 12: suponha a seguinte amostra sobre a intenção de voto em um candidato:
{1; 0; 1; 1; 1; 1; 0; 0; 1; 1; 0; 0; 0; 0; 0; 1; 0; 0; 1; 0}
1  “a favor”; 0  “contra”
Construa um IC de 98% para a proporção.
9
Solução: p   0, 45
20
 0,45  0,55 0,45  0,55 

IC = 0,45  2,325  ;0,45  2,325    0,1913;0,7086
 20 20 
6.5. Dimensionamento de amostras
Estimação da média
 

Vimos que para a média populacional, I .C.   X   , X    , onde
 

  z tab  é o erro de estimação absoluto. Isolando n nesta última equação obtemos
n
o tamanho da amostra:
2
2 
população infinita: n   z tab  2 , onde z tab é tal que 21   ( z tab )    .

n N
população finita: m  .
Nn
88
Observações:
(1ª) se  for desconhecido então utiliza-se algum valor já utilizado em uma pesquisa
semelhante que já foi realizada, ou realiza-se uma pesquisa incial (amostra piloto) para
obter uma estimativa.
(2ª) O tamanho da amostra n e o erro de estimação  tem relação inversa, como mostra
a figura:
Exemplo 13: deseja-se estimar a renda dos moradores do bairro da Gávea , no Rio de
Janeiro, sabendo-se que o desvio padrão da renda é de 300,00. Exige-se um erro absoluto
máximo de 20,00 e um grau de confiança de 95%. Qual deve ser o tamanho da amostra?
1,96 2  300 2
Solução: n   864,36  865
20 2
5000  864,36
Supondo N=5000, m   736,96  737
5000  864,36
89
Estimação da proporção
 r é o erro de estimação relativo
2   (1   )
população infinita: n   z tab  , onde z tab é tal que 21   ( z tab )    .
 r2
n N
população finita: m  .
Nn
Observações:
(1ª) o erro de estimação para a proporção está em termos relativos, visto que uma
proporção é uma medida relativa (sem unidade de medida).
(2ª) Se  for desconhecida, pode-se utilizar alguma estimativa de uma pesquisa anterior.
Também pode-se assumir o maior valor possível   (1   )  0,25 . Desta forma,
ztab 2  0,25
n .
 r2
Exemplo 14: Uma amostra preliminar de 50 famílias foi selecionada de N=4000 famílias.
Constatou-se que na amostra 30 famílias possuíam renda superior a 1000,00. Qual deve ser
o tamanho da amostra, com grau de confiança de 99% e erro de estimação máximo de 5%?
Solução:
30
p  0,6 ; z tab  2,575
50
2
n
2,575  0,6  0, 4
 636,54  637 ; m
4000  636,54
 549,15  550
2
0,05 4000  636,54
2
Se usarmos  (1   )  0,5  0,5  0,25 , n
2,575  0,25
 663,06  663 e m  569
0,05 2
90
7 – TESTES DE HIPÓTESES
7.1. Definições
Hipótese conceitual: é a hipótese formulada utilizando termos específicos na área em

estudo.
Hipótese operacional: é a formulação matemática da hipótese conceitual
Exemplo 1: o biodiesel é menos poluente que o diesel convencional
Como trabalhar matematicamente com essa hipótese? Iremos comparar as médias de

emissões de partículas de óxido de enxofre por cm 3 . Um grupo de veículos vai rodar com
biodiesel e outro com o convencional. Vamos denotar por  B a média de emissão de
partículas por cm 3 usando biodiesel, e por  C usando o diesel comum.
Hipóteses :  B =  C e  B < C
Hipóteses estatísticas
Em inferência estatística uma hipótese é uma suposição formulada a respeito dos

parâmetros de uma distribuição de probabilidade de uma ou mais populações. Esta hipótese
será testada com base em resultados amostrais, sendo aceita ou rejeitada. Ela somente será
rejeitada se o resultado da amostra for improvável de ocorrer sob a suposição da hipótese
ser verdadeira.
Denominaremos por H 0 (hipótese nula) a hipótese a ser testada, e por H 1

(hipótese alternativa) a negação de H 0 . Através de um teste aceitaremos ou
rejeitaremos H 0 . A nossa decisão terá uma probabilidade de erro. Essa probabilidade de
erro é controlada (escolhida pelo pesquisador). Um pesquisador nunca poderá escrever
num artigo ou relatório frases do tipo: “o teste de hipótese mostrou que....”, mas deverá
apresentar qual a probabilidade de erro que ele admitiu no teste.
O quadro abaixo apresenta o que pode acontecer em um teste de hipóteses:
91
Exemplo 2: suponha um julgamento num tribunal
As probabilidades desses erros são chamadas  e  respectivamente, ou seja:


 = P(erro tipo I) = P(rejeitar H 0 | H 0 é verdadeira)
   P(aceitar H 0 | H 0 é verdadeira), que é o grau de confiança
 = P(erro tipo II) = P(aceitar H 0 | H 0 é falsa)
 = P(rejeitar H 0 | H 0 é falsa)
Nível de significância de um teste: é o valor de  no teste, ou seja, é a probabilidade de

rejeitar H 0 , dado que é verdadeira. Os valores mais utilizados para  são: 0,01; 0,05 e
0,10.
Observações:
(1ª) No enfoque de Fisher, a preocupação é com os testes de significância, dando

exclusiva atenção ao erro tipo I. Neste curso seguiremos o enfoque de Fisher.
(2ª) Fisher, um dos precursores da Teoria Estatística, usou o valor de 5% para facilitar o
ensino da Teoria, e por isso ficou como um valor “consagrado”.
7.2. Etapas de um teste de hipóteses
(1ª) Formular as hipóteses estatísticas: a hipótese nula a respeito de um parâmetro  deve

conter a igualdade e alternativa pode ser bilateral ou unilateral.
H0 :   0 H1 :    0 (bilateral)
   0 (unilateral à esquerda)
   0 (unilateral à direita).
92
(2ª) Fixar o nível de significância do teste.
(3ª) Calcular a estatística do teste.
(4ª) Tomada de decisão: rejeitar H 0 se a estatística do teste estiver na região crítica

(região onde a hipótese nula é rejeitada), caso contrário não se rejeita H 0 . A região crítica
dependerá de  e do tipo de hipótese alternativa.
Observações:
7.3. Testes de hipóteses
7.3.1.Teste de hipóteses para a média de uma população
(a)  conhecido
H 0 :   0
  
 X  0 
estatística do teste: z c    n
  
 
H 1 bilateral ( H 1 :    0 ): rejeita H 0 se | z c | > z tab , tal que 21   ( z tab )    .
H 1 unilateral à direita ( H 1 :    0 ): rejeita H 0 se z c > z tab , tal que 1   ( z tab )   .
H 1 unilateral à esquerda ( H 1 :    0 ): rejeita H 0 se z c <  z tab , tal que 1   ( z tab )   .
93
Observações:
(1ª) se  for grande, a estatística z c não será sensível o bastante para detectar diferença

significante entre X e  0 .
(2ª) aumentando a amostra, o teste ficará mais sensível para detectar diferenças
significativas.
(3ª) O teste unilateral é mais rigoroso que o bilateral. Na figura abaixo, o valor tabelado do
(u ) (b )
teste unilateral é menor que no bilateral. Se z tab  z c  z tab , então o teste unilateral irá
rejeitar a hipótese nula, mas o bilateral não.
94
(4ª) Para ∝ fixado, z tab também ficará fixado. Variando os valores de  0 , pode-se
“manipular” z c de maneira que leve à aceitação ou rejeição de H 0 .
Fixando  0 , z c também ficará fixado. Variando ∝ poderemos “manipular” z tab de

maneira que leve à aceitação ou rejeição de H 0 .
A manipulação de ∝ ou  0 é uma clara evidência de que o pesquisador está sendo

tendencioso, protegendo seus próprios interesses!
95
Exemplo 3: uma linha de produção fabrica parafusos cujo diâmetro tem desvio padrão

  1,22716 . Tomou-se uma amostra de tamanho 20, cujas estatísticas foram x  3,735 e
s  3,8756 . Com   0,05 , teste H 0 :   5 contra
(a) H 1 :   5 (b) H 1 :   5
(c) Em relação ao item (b), apresente um  que levaria à aceitação de H 0 .
Solução:
 3,735  5 
zc    20  4,61
 1,22716 
(a) z tab  1,96 . Como | z c | z tab , rejeitamos H 0 .
(b)  z tab  1,645 . Como z c   z tab , rejeitamos H 0 .
(c) Temos que encontrar um - z tab tal que z c   z tab . Note que  z tab  4,65 leva-nos à
aceitação! Mas,   P ( Z   z tab )  0,000001659 , que é um absurdo!
Exemplo 4: Na tabela constam as medidas mensais dos comprimentos de parafusos (em

mm) de uma linha de produção.
96
Mês X1 X2 X3 X4 X5 Média
1 0,65 0,7 0,65 0,65 0,85 0,7
2 0,75 0,85 0,75 0,7 0,65 0,74
3 0,75 0,72 0,8 0,7 0,75 0,744
4 0,6 0,7 0,7 0,75 0,65 0,68
5 0,7 0,75 0,65 0,8 0,8 0,74
6 0,6 0,75 0,75 0,85 0,7 0,73
7 0,75 0,8 0,65 0,75 0,7 0,73
8 0,6 0,7 0,8 0,75 0,75 0,72
9 0,65 0,8 0,85 0,74 0,75 0,758
10 0,6 0,7 0,6 0,8 0,65 0,67
11 0,8 0,75 0,7 0,76 0,7 0,742
12 0,85 0,75 0,79 0,65 0,7 0,748
13 0,7 0,7 0,75 0,75 0,7 0,72
14 0,65 0,7 0,85 0,75 0,6 0,71
15 0,74 0,75 0,74 0,75 0,79 0,754
16 0,75 0,9 0,92 0,8 0,65 0,804
17 0,69 0,9 0,8 0,93 0,88 0,84
18 0,78 0,88 1,02 0,98 1,03 0,938
19 1 1 1,02 0,98 1,04 1,008
20 0,99 1,01 1,02 0,99 1,04 1,01
21 1,03 1,05 1,06 0,99 1,03 1,032
22 1,06 1,07 1,09 1,1 1,1 1,084
23 1,08 1,08 1,1 1,12 1,14 1,104
24 1,1 1,12 1,15 1,13 1,14 1,128
25 1,12 1,14 1,16 1,18 1,2 1,16
O departamento de controle de qualidade deseja informações acerca da

uniformidade dos comprimentos dos parafusos. Segundo as normas da empresa, o processo
de produção estará sob controle se o comprimento médio dos parafusos tiver 0,7 mm.
Sabe-se, do manual das máquinas que produzem as peças, que a média e o desvio padrão
dos comprimentos são 0,70 e 0,07 mm, respectivamente.
Gráfico de controle é uma ferramenta amplamente utilizada em controle de

qualidade. Consiste em construir uma “banda de confiabilidade” em torno da média. Para
cada nova amostra, se constrói um intervalo de confiança para a média populacional.
Traduzindo para testes de hipóteses: H 0 :   0,70 contra H 1 :   0,70 , onde o nível
de significância adotado geralmente é 0,05. No gráfico, aparecerão os limites inferiores e
superiores do intervalo de confiança. Se a média amostral estiver dentro do intervalo então
não haverá evidências para rejeitar H 0 , que é a hipótese de que o processo de produção
está sob controle.
97
Xi ; i=1,2,3,4,5 são as cinco medidas observadas para cada mês
Os limites dos intervalos de confiança são:
0,07 0,07
0,70  1,96   0,64 e 0,70  1,96   0,76
5 5
Como se pode observar pelo gráfico, a partir do 16º mês as médias amostrais
começam a “cair” fora da “banda” de segurança (confiança) evidenciando claros
indícios de que o processo está fora da especificação.
(b)  desconhecido
H 0 :   0
  
 X  0 
Estatística do teste: t c    n
 S 
 
H 1 bilateral: rejeita H 0 se | t c | > t tab , P (| T | t tab )   , T ~ t (n  1)
H 1 unilateral à direita: rejeita H 0 se t c > t tab , P (T  t tab )  
H 1 unilateral à esquerda: rejeita H 0 se t c < - t tab , P (T  t tab )  
98
Exemplo 5: em relação ao Exemplo 3, vamos supor que  era desconhecido. Use
  0,05 .
 3,735  5 
Solução: t c     20  1,4597
 3,8756 
(a) t tab  2,093 . Como | t c | t tab , não rejeitamos H 0 .

(b) t tab  1,7291 . Como t c  t tab , não rejeitamos H 0 .
3,8756
Nota: como CV   100%  103,76% é elevado, o teste não foi sensível o
3,735
bastante para detectar diferença significativa!
99
7.3.2.Teste de hipóteses para a proporção de uma população
H 0 :  0
 P  0 
Estatística do teste: z c    n , sendo P a proporção amostral.
  (1   ) 
 0 0 
H 1 bilateral(    0 ): rejeita H 0 se | z c | > z tab , tal que 21   ( z tab )   
H 1 unilateral à direita(    0 ): rejeita H 0 se z c > z tab , tal que 1   ( z tab )   .
H 1 unilateral à esquerda(    0 ): rejeita H 0 se z c <  z tab , tal que 1   ( z tab )   .
Exemplo 6: uma estação de TV afirma que 60% dos televisores estavam ligados no seu
programa especial de sábado. Uma rede concorrente deseja contestar essa afirmação, e
decide entrevistar 200 domicílios. Desses 200, 104 deram respostas afirmativas. Teste a
hipóteses H 0 :   0,6 e H 1 :   0,6 , com : (a)   0,01 (b)   0,05 .
0,52  0,6
Solução: z c   2,31
0,24
200
(a)  z tab  2,325 , então não rejeitamos H 0 para 1% de significância .
(b)  z tab  1,645 , logo rejeitamos H 0 para 5% .
100
7.3.3. Teste de hipóteses para a igualdade de médias de duas populações
(a) desvios padrões populacionais conhecidos
H 0 :  X  Y
 
   
 XY 
Estatística do teste: z c   , n é o tamanho da amostra para X e m para Y
2 2
  X  Y 
 
 n m 
H 1 bilateral(  X   Y ): rejeita H 0 se | z c | > z tab , tal que 21   ( z tab )   
H 1 unilateral à direita(  X   Y ): rejeita H 0 se z c > z tab , tal que 1   ( z tab )   .
H 1 unilateral à esquerda(  X  Y ): rejeita H 0 se z c < - z tab , tal que 1   ( z tab )   .
Exemplo 7: deseja-se verificar se duas máquinas de empacotar café são homogêneas com
relação ao peso neto. Sabe-se, pelo manual das máquinas, que o desvio padrão de ambas é
 X   Y    20 gramas. Foram obtidas amostras de 60 unidades para cada máquina.
Teste se a média da máquina X é significativamente maior que a de Y, utilizando
  0,10 .
Estatísticas X Y
Média 500,01 g 497 g
Amostra 60 60
Solução: H 0 :  X  Y contra H 1 :  X   Y
 
 
 500,01  497,00 
zc  
2 2   0,8243 ; z tab  1,2816
 20 20 
  
 60 60 
Como z c  z tab então não rejeita-se H 0 .
101
(b) desvios padrões populacionais desconhecidos
H 0 :  X  Y
   
 
X Y (n  1) S X2  (m  1) S Y2
Estatística do teste: t c    , S
1 1  nm2
S  
 n m 
H 1 bilateral: rejeita H 0 se | t c | > t tab , P (| T | t tab )   , T ~ t (n  m  2)
H 1 unilateral à direita: rejeita H 0 se t c > t tab , P (T  t tab )  
H 1 unilateral à esquerda: rejeita H 0 se t c < - t tab , P (T  t tab )  
Exemplo 8: duas técnicas de vendas são aplicadas por duas equipes de vendedores: a
técnica A por 12 vendedores e a B por 15. No final de um mês obtiveram-se os seguintes
resultados:
Estatísticas A B
Média 68 76
Variância 50 50,8
Amostra 12 15
Teste se a média do grupo B é maior que a do A, usando   0,05 .
Solução: H 0 :  B   A contra H1 :  B   A .
14  50,8  11  50 76  68
s  7,1026 ; t c   2,908 ; t tab  1,7081
25 1 1
7,1026  
15 12
Como t c  t tab rejeitamos H 0 .
102
7.3.4.Teste de hipóteses para a igualdade de proporções de populações
H 0 :  X  Y
PX  PY
Estatística do teste: z c  , PX , PY são as proporções amostrais
PX (1  PX ) PY (1  PY )
 )
n m
H 1 bilateral(  X   Y ): rejeita H 0 se | z c | > z tab , tal que 21   ( z tab )    .
H 1 unilateral à direita(  X   Y ): rejeita H 0 se z c > z tab , tal que 1   ( z tab )   .
H 1 unilateral à esquerda (  X   Y ): rejeita H 0 se z c < - z tab , tal que 1   ( z tab )   .
Exemplo 9: a matriz de uma empresa de embalagens quer comparar a proporção de itens

que são rejeitados pelo setor de qualidade em duas de suas filiais. As amostras resultaram
no seguinte: n  200 ; p X  0,05 e m  210 ; pY  0,052 .
(a) Teste H 0 :  X   Y contra H 0 :  X   Y , com   0,05 .
(b) Em (a), qual  levaria à rejeição de H 0
Solução:
0,05  0,052
zc   0,092
0,05  (1  0,05 ) 0,052(1  0,052)

200 210
(a) Para teste unilateral à esquerda, com   0,05 , aceita-se H 0 , pois  z tab  1,645 .
(b) Mas, qual valor de  levaria à rejeição de H 0 ? Temos que encontrar um z tab tal que
z c  z tab . Note que  z tab  0,09 leva-nos à rejeição. Mas,
  P( Z  0,09)  0,4641    0,4641 , que é um absurdo!
103
7.4 – Significância amostral
Quando realizamos testes de hipóteses partimos de um valor fixado para  ,

permitindo tomar uma decisão entre H 0 e H 1 . Quando utilizamos o computador, o
programa não irá utilizar um  pré-fixado, ou seja, o programa deixa a critério do
usuário fixar o nível de significância. O computador calcula o valor-p ( ou significância
amostral) . De posse do valor-p comparamos com  utilizando a seguinte regra de
decisão: se valor-p <  então rejeitamos H 0 . Valores pequenos de p significam que
a probabilidade de rejeitar H 0 , supondo que seja verdadeira, é pequena. O conceito de
“pequeno” é incumbência do usuário, que decide qual  utilizar. Contudo, há três
interpretações freqüentemente utilizadas em trabalhos de pesquisa:
 Significativa, quando p for menor que 0,05
 Muito significativa, quando p for menor que 0,01;
 Altamente significativa, quando p for menor que 0,001;
104
Exemplo 10: teste a hipótese de que o diâmetro médio de parafusos seja de 57 mm.
Diâmetro 56,5 56,6 56,7 56,8 56,9 57 57,1 57,2 57,3 Total
Freqüência 1 2 2 4 10 5 4 2 1 31
Solução: H 0 :   57 contra H 1 :   57

x  56,9161 s  0,18275 ;
t c  2,555 ; p  0,0157 . Como p  0,05 então é significativo.
105
8 – CORRELAÇÃO E REGRESSÃO LINEAR
8.1. O coeficiente de correlação linear de Pearson
O diagrama de dispersão nos fornece uma idéia do tipo de relacionamento entre duas
variáveis quantitativas X e Y. Uma forma de quantificar a relação entre duas variáveis
quantitativas é através do coeficiente de correlação linear de Pearson.
Exemplo 1:
Carga aplicada em uma mola, em kg (X): 1 2 3 4 5 6 7 8 9 10
Alongamento da mola, em cm (Y): 0,5 1,0 2,0 2,5 4,0 5,0 5,3 6,2 6,8 7,2
Definição: o coeficiente de correlação linear de Pearson para duas variáveis é definido

como:
 
R
XYi i i nXY
2 2
    
  X i2  n X    Yi 2  n Y  
 i    i   

106
Exemplo 2: para o exemplo anterior,
Planilha do Excel
288, 4  10  5,5  4,05

r  0,992 .
385  10  5,5 217,11  10  4,05 
2 2
O Excel também tem o comando que calcula diretamente a correlação linear: Correl( )
Resultados:
(1º)  1  R  1
(2º) se Y e X tiverem uma relação linear perfeita diretamente proporcional ( Y  a  bX )

então R  1
107
(3º) se Y e X tiverem uma relação linear perfeita inversamente proporcional ( Y  a  bX )
então R  1
(4º) se Y e X forem independentes então R  0 . Contudo, a recíproca não vale, R  0

não implica Y e X independentes. Na figura, há uma relação perfeita Y  X 2 , contudo,
R  0.
(5º)
|R| Interpretação da correlação

0 a 0,40 Fraca
0,40 a 0,70 Regular
0,70 a 0,80 Boa
0,80 a 0,99 Ótima
1 Perfeita
108
Teste de hipóteses para o coeficiente de correlação
H0 :   0 contra H1 :   0
R n2
Estatística do teste : t c 
1  R2
Regra de decisão: rejeita-se H 0 se t c  t tab , onde P (| T | t tab )   , T ~ t (n  2) .
0,992  10  2
Exemplo 3: para o exemplo anterior, t c   22,2263 e p  1,7748  10 8 ,
2
1  (0,992)
que é altamente significante.
8.2. O modelo linear simples
O modelo linear simples é definido como Yi   0   1 X i   i , i=1,.....,n., onde:
 0 , 1 são os parâmetros do modelo que deverão ser estimados;
X é dita variável preditora;
Y é dita variável resposta (dependente).
 é ditto erro aleatório
109
O método que usaremos para estimar os parâmetros do modelo é o dos Mínimos
Quadrados. Neste método, minimiza-se a soma dos quadrados das distâncias d i (ver
figura). Os estimadores de  0 e  1 são, respectivamente:
n  
X Y
i 1
i i nXY  
b1  2
, b0  Y  b1 X .
n
2 

i 1
X i  n X
 
n 2

2

i 1
Yi  n Y 
 
Observação: da relação b1  R  segue que b1 e R têm o mesmo
n  2
2  
X
i 1
i  n X 
 
sinal.
Exemplo 4: para o exemplo anterior,
288,4  10  5,5  4,05

b1  2
 0,795758 ; b0  4,05  0,795758  5,5  0,326667
385  10  5,5
^
O modelo ajustado ficou Y  0,326667  0,795758  X . Para x=7,5 kg, o valor estimado
para y será 5,6415 cm. Pelo EXECEL os comandos são: inclinação() e intercepção().
8.3. Modelos não lineares
Modelo Exponencial: Y    exp{x} , x  R
Modelo Logaritmico: Y      ln( x) , x  0
x 
Modelo Hiperbólico: Y  , x
x 
exp{  x   }
Modelo Logístico: Y  , x R
1  exp{  x   }
110

Apostila de Probabilidade e Estatística - Completa

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apostila de Probabilidade e Estatística - Completa

Uploaded by

Copyright:

Available Formats

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

Professor: Marco Antônio Giacomelli

Porto Alegre, agosto de 2015.

1.1. Ciências Estatísticas

Na medida em que foi sendo colocado diante de novos desafios, decorrentes

Para registrar, classificar, controlar e estudar, mais adequadamente, fenômenos, fatos,

Nestes últimos anos houve necessidade de aprofundar estudos, realizar experimentos

O conjunto de técnicas e métodos de pesquisa, experimentação e inferências mais

1.2. Divisão da Estatística:

Estatística Descritiva: descrição, resumo e organização das informações. Compreende o

Estatística Inferencial: através do particular (amostra) faz induções a respeito do todo

Exemplo 2: comparação de adubos

População: conjunto universo de elementos que possuem ao menos uma característica em

Exemplo 1: total de eleitores que compareceram ao último pleito.

Dimensão de uma população: finita ( N<  )

Censo: é a investigação exaustiva de toda a população.

Exemplo 2: Censo Demográfico Brasileiro, Censo Escolar do MEC

Amostra: é um subconjunto da população, isto é, uma parte da população retirada segundo

Exemplo 3: pesquisa pré-eleitoral do instituto IBOPE, Pesquisa Nacional por

Amostragem: é o processo de obtenção de uma amostra da população.

Variáveis: são as características de interesse em uma população ou amostra.

Variáveis Qualitativas: Expressam qualidade e subdividem-se em:

Nominais: os níveis da variável são categorias de qualidade.

Ordinais: os níveis da variável são ordenados de acordo com a intensidade do fenômeno.

Z  “Grau de aderência da tinta”

1  pouca ; 2  regular; 3  boa ; 4  ótima

Marca Cor Aderência

Discretas: podem assumir valores observados somente em pontos isolados em uma

Contínuas: Podem assumir qualquer valor em um conjunto não enumerável.

Exemplo 8: comprimento, área, velocidade, temperatura.

2.3. Arredondamentos de números

(2a) quando, porém, for 5, 6, 7, 8 ou 9, o último algarismo a permanecer será aumentado

72,8  73 (arredondamento para a unidade)

( A) 0,0028  0,0003  0,00000084

Exemplo 12: arredondamentos em potências podem causar diferenças

( D ) 2,8  3778,01998336  diferença de 7,37% em relação a (A)

Exemplo 13: calculadoras podem cometer erros de truncamento

Sabemos que lim n 1  n2   e 2  7,38905609893 . Vamos observar a

convergência através da calculadora.

(2ª) Estrutura de memória em calculadoras cientificas comuns

MS ( memory store ) armazena diretamente um valor na memória

2.4. Resumo de conjuntos de dados

Um conjunto de valores será representado por: x1 , x 2 ,...., x n (no caso de amostra)

Média: requer escala de mensuração quantitativa.

Observação: em uma seqüência aritmética (progressão aritmética) o termo central entre

Observação: em uma seqüência geométrica (progressão geométrica) o termo central entre

(3ª) Interpretação da média aritmética: é o centro de gravidade (equilíbrio) de um conjunto,

Exemplo 15: interpretação física da média aritmética

Exemplo 16: produto interno bruto no Brasil

 27,614  44,073    719,519

m g  11 27,614  44,073    719,519  151,9199

Note que a média harmônica ameniza o efeito do crescimento exponencial da série.

Área Peso No. de acertos

Façamos as médias aritmética, geométrica e harmônica:

A mediana: requer escala de medida ordinal ou quantitativa.

sendo x   a amostra ordenada em ordem crescente.

(a) pesos em kg de cinco pessoas: {66; 62; 60; 70; 58}

A moda de um conjunto de valores, denotada por Mo, é definida como o valor

(b) para o conjunto { 1; 1 ; 2 ; 2 ; 2 ; 3 ; 4 ; 4 ; 4} teremos duas modas:

(2ª) quando há resultados extremos que afetariam a Média de maneira acentuada.

Exemplo 20: peso de bovinos em kg {508 543 560 562 2500}

Escalas de mensuração e medidas de tendência central

Observação: as medidas de dispersão são para variáveis com escala quantitativa