Apo Bas

Universidade Federal Rural do Rio de Janeiro
Instituto de Ciências Exatas
Departamento de Matemática
Estatística Básica
Viviane Leite Dias de Mattos
Março de 2010
1
Unidade 1 – Representação Tabular
1 – Introdução
De acordo com a Escola Nacional de Ciências Estatísticas, o que modernamente se conhece como Ciências
Estatísticas, ou simplesmente Estatística, é um conjunto de técnicas e métodos de pesquisa que entre
outros tópicos envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a
inferência, o processamento, a análise e a disseminação das informações. O desenvolvimento e o
aperfeiçoamento de técnicas estatísticas de obtenção e análise de informações permite o controle e o
estudo adequado de fenômenos, fatos, eventos e ocorrências em diversas áreas do conhecimento.
De um modo geral, pode-se dizer que a estatística se divide em duas partes: a Estatística Descritiva, que
se preocupa com a descrição de dados, organizando-os e resumindo-os, e a Estatística Inferencial, que
cuida da análise e interpretação dos dados propriamente dita. O ponto central da análise estatística
moderna é a tomada de decisões sob condições de incerteza, o que é possibilitado pela estatística
inferencial que permite que suas conclusões transcendam os dados analisados. As técnicas utilizadas com
esta finalidade baseiam-se na teoria da probabilidade.
Tipos de estudo mais utilizados: pesquisa observacional e pesquisa experimental.
Nos processos de obtenção de dados é necessário que sejam perfeitamente bem definidos o que medir
(variável), como medir (instrumentos e escalas) e em quem medir (população e amostra).
2 – População e amostra
População ou universo é o conjunto de todos os elementos que tem as características daqueles que se
deseja estudar, passíveis de serem observados ou mensurados (o todo), enquanto que amostra é uma
parcela deste todo. De maneira geral, em todo o levantamento por amostragem, os resultados são
conseguidos mais rapidamente e de maneira mais econômica.
O interesse em estudar uma amostra, entretanto, não está nas informações que ela fornece sobre ela
mesma, mas, nas informações que, através dela, pode-se obter sobre a população que ela representa, ou
seja, uma amostra permite fazer inferências sobre uma população. Logo, a amostra deve ter as mesmas
características da população que representa. Para garantir esta representatividade deve-se definir
adequadamente seu tamanho e seu processo de seleção. Esta definição depende de fatores inerentes à
situação analisada (variabilidade da população), bem como de critérios adotados pelo pesquisador (erro
admitido e confiabilidade).
Dá-se o nome de amostragem à técnica utilizada para selecionar os elementos que irão compor a amostra.
3 – Variável e dado
Chama-se variável a toda característica investigada em uma população ou amostra. Por exemplo: a
secretaria de um município deseja obter informações sobre o perfil socioeconômico dos profissionais
ligados à produção rural, investigando algumas de suas características, tais como: sexo, idade, estado civil,
escolaridade, .... . Sexo, idade, estado civil e escolaridade são as variáveis do estudo.
A mensuração de uma variável gera uma informação que é denominada de dado. Feminino, 25 anos, solteira
e curso superior são dados. Os dados obtidos normalmente são colocados em banco de dados criados em
planilhas eletrônicas ou softwares estatísticos, com uma aparência similiar ao apresentado na figura 1.1.
2
FIGURA 1.1 – Banco de dados
Produtor Gênero Idade Est.civil Escolaridade ... ... ...

1 Fem 25 Solteiro Superior ... ... ...
2 Masc 21 Solteiro Fundamental ... ... ...
... ... ... ... ... ... ... ...
n Masc 27 Solteiro Superior ... ... ...
4 – Tipos de variável
O ato de medir um elemento (unidade amostral) consiste em associá-lo a um dado, que pode ser um número
ou uma categoria.
Os diferentes tipos de mensuração (escala) podem caracterizá-lo como qualitativo (atributo ou qualidade)
ou quantitativo (número).
Escala qualitativa Dado qualitativo Variável qualitativa
Escala quantitativa Dado quantitativo Variável quantitativa

4.1 – Escalas qualitativas
Quando os possíveis resultados são atributos ou categorias, a variável é dita qualitativa. Para medir
variáveis qualitativamente podem ser usadas escalas nominais ou ordinais.
A escala nominal é o mais baixo nível de mensuração e permite considerar os membros de uma mesma
classe ou categoria como equivalentes e os membros que pertencem a classes distintas, diferentes.
Suponha que vai ser realizada uma pesquisa de opinião sobre a implantação da pena de morte no país e os
entrevistados podem se posicionar como contra, a favor ou indiferentes. Se dois entrevistados optam por
uma mesma categoria, pode-se concluir que têm opiniões semelhantes; se optam por categorias distintas,
têm opiniões diferentes.
As variáveis gênero e estado civil, citadas anteriormente, também são exemplo de mensuração por meio
de escala nominal.
Já a escala ordinal é um pouco mais precisa, pois permite que as diversas categorias consideradas possam
ser colocadas em ordem, de acordo com determinado critério. Suponha que um instrumento mensura a
variável tamanho da propriedade com atividade leiteira por meio da escala: pequena, média, grande. Se
dois indivíduos forem classificados na mesma categoria, pode-se dizer que são semelhantes em relação à
característica investigada; se enquadrados em categorias distintas, são diferentes. Além disto, também
se pode dizer que todos os indivíduos enquadrados na categoria pequena apresentam a característica
mensurada menos intensa que os enquadrados na categoria médio, que por sua vez, apresentam-na menos
intensa que os enquadrados na categoria grande.
Em relação à quantidade de categorias consideradas pela escala de mensuração, as escalas qualitativas

classificam-se em dicotômicas (duas categorias) ou politômicas (mais de duas categorias).
4.2 – Escalas quantitativas
Quando os possíveis resultados de uma variável são números, a variável é dita quantitativa. As
mensurações quantitativas podem utilizar escalas intervalares ou escalas de razão.
As escalas intervalares, além de distinguir resultados distintos e colocá-los em ordem, permitem
comparar as diferenças entre dois resultados quaisquer. Estas escalas numéricas apresentam um ponto
zero relativo adotado por convenção ou por conveniência. Como exemplo deste tipo de escala, têm-se as
3
escalas Celsius e Farenheit, utilizadas para medir a temperatura. Se a temperatura está zero grau, isto
não significa que não exista temperatura.
As escalas de razão são as mais precisas. Possuem as mesmas características das escalas intervalares e,
além disso, um verdadeiro ponto zero. São exemplo deste tipo de escala as mensurações de distância. Se a
distância entre dois pontos quaisquer for 0 cm, por exemplo, isto significa que entre eles não existe
distância, o que caracteriza o zero absoluto. Com este tipo de escala, além de poder dizer se dois
elementos são semelhantes ou diferentes, é possível dizer o quanto é superior ou inferior. Se a distância
entre os pontos A e B é 4 cm e entre C e D é 8 cm, pode-se dizer que a distância entre C e D é o dobro da
distância entre A e B.
As variáveis quantitativas classificam-se em discretas ou contínuas conforme seus possíveis valores possam
ou não, respectivamente, ser enumerados. As primeiras resultam normalmente da enumeração ou contagem
de elementos, como por exemplo: quantidade mensal de nascimentos em determinado hospital, quantidade
de casos de AIDS notificados, quantidade de profissionais da área da saúde em determinada região;
quantidade de peixes capturados em arrasto de praia; quantidade de aranhas encontradas em residências
na cidade do Rio de Janeiro, quantidade de ovelhas de determinada raça etc. As variáveis contínuas
resultam da mensuração de sua intensidade, como por exemplo: peso de natimortos, estatura de alunos,
densidade de amostras de ouro, quantidade de ácido acetilsalicílico presente em determinado comprimido
etc, caracterizando-se por apresentar o conjunto dos números reais ou um intervalo deste conjunto de
números reais como conjunto domínio.
FIGURA 1.2 – Classificação das variáveis de acordo com o nível de mensuração
Escala
Qualitativa Quantitativa
Nominal Ordinal Intervala De razão
FIGURA 1.3 – Classificação das variáveis qualitativas de acordo com a quantidade de categorias usadas na
mensuração
Escalas Qualitativas
Dicotômica Politômica
FIGURA 1.4 – Classificação das variáveis quantitativas
Escalas Quantitativas
Discreta Contínua 4
5 – Representação Tabular
Depois de realizar uma coleta de dados, obtém-se uma quantidade muito grande de informações,
totalmente desorganizadas, que dificilmente poderão ser interpretadas em seu estado bruto. Para tal, é
necessário que sejam organizadas, o que pode ser feito por meio de tabelas, gráficos e medidas
descritivas.
Uma tabela é uma disposição sistemática, simples e clara, em linhas e colunas, de dados. Elas conseguem
resumi-los em pequeno espaço, facilitando sua compreensão e análise, bem como, sua comparação com
outras informações. Podem ser utilizadas simplesmente em caráter informativo, como síntese, como
também podem consistir na primeira etapa de uma análise estatística mais sofisticada. Apresentam a
vantagem de serem mais breves que as exposições descritivas e mais exatas que a representações
gráficas.
A apresentação de uma tabela deve obedecer a alguns critérios, conforme tratem de dados qualitativos ou
quantitativos.
5.1 – Dados qualitativos
Quando são utilizadas escalas qualitativas, basta associar cada categoria a um valor que informa o número
de vezes que ela apareceu na amostra. Se a escala for nominal, as informações são ordenadas na tabela
pelas freqüências (normalmente ordem decrescente); caso seja ordinal, pelas categorias (normalmente
ordem crescente).
As tabelas apresentam cinco partes: título, cabeçalho, coluna indicadora, corpo e fonte. Quando
necessário, também podem apresentar notas ou observações de rodapé.
- título – Normalmente é colocado em cima da tabela da forma mais clara possível, apresentando
o fato estudado, o local e a época em que foram registrados os dados. Podem ser incluídos
subtítulos que devem ser apresentados do geral para o particular.
- cabeçalho - É colocado logo abaixo do título indicando o que cada coluna contém. Pode ser
representado por uma única linha ou várias, quando existirem subdivisões da série apresentada.
Neste caso, também se deve partir do geral para o particular.
- coluna indicadora - É a primeira coluna da tabela e indica o que cada linha contém.
- corpo - É a parte numérica da tabela, onde estão as informações propriamente ditas.
- fonte - É o organismo responsável pelas informações contidas na tabela, aparecendo logo abaixo
desta.
- notas ou observações - São informações de natureza geral ou específica, servindo para
esclarecer ou conceituar seu conteúdo ou parte dele. No caso de se relacionar apenas a uma
parte deverá ser indicado por um número arábico entre parênteses à esquerda do valor. Estas
notas ou observações podem vir abaixo da fonte.
Exemplo:
TABELA 1.1: Análise dos níveis de sobrepeso em moradores da zona rural de Pombal/PB
nível indivíduos
baixo 12
moderado 32
alto 34
muito alto 29
total 107
Fonte: Pontes e cols. (2005)
5
Mais detalhes sobre normas de apresentação de tabelas podem ser obtidos na Norma Brasileira.
Observações:
k – quantidade de classes, categorias ou níveis da variável estudada;
ki – i-ésima classe (i = 1, 2, 3, ...., k);

n – quantidade de observações;
ni – quantidade de observações na i-ésima classe, também chamada de freqüência absoluta ou freqüência;

ni
fi = - freqüência relativa ou proporção da i-ésima classe (quociente entre a freqüência absoluta de
n
uma classe e a soma de todas elas);
f % i = 100 * f i - freqüência percentual ou percentagem da i-ésima classe (produto entre a proporção e

100).
nível Freqüência (ni) Proporção (fi) Porcentagem (f%i)
baixo 12 0.1121 11.21
moderado 32 0.2991 29.91
alto 34 0.3178 31.78
muito alto 29 0.2710 27.10
Em uma mesma tabela podem ser apresentados dados referentes a duas variáveis, sendo usadas as
chamadas tabelas de contingência ou de dupla entrada, conforme exemplo a seguir.
nível indivíduos
masculino feminino total
baixo 11 1 12
moderado 23 9 32
alto 9 25 34
muito alto 4 25 29
total 47 60 107
5.2 – Dados quantitativos

A tabulação de dados resultantes de variáveis discretas, quando não houver uma quantidade muito grande
de diferentes valores observados, pode ser feita da mesma forma que em uma distribuição de freqüência
de dados qualitativos, construindo-se uma tabela do tipo:
Valores (x) Freqüência(n)

x1 n1
x2 n2
... ...
xk nk
Suponha, por exemplo, que o professor da turma A de Estatística realiza uma prova para seus alunos,
encontrando os seguintes resultados:
6
5 7 2 0 9
1 8 2 3 4
7 9 7 6 4
6 8 9 9 6
Com o objetivo de avaliar o rendimento da turma, ele resolve organizar as informações em uma distribuição
de freqüência. Primeiramente, forma o rol (colocação dos valores em ordem crescente de grandeza):
0 1 2 2 3
4 4 5 6 6
6 7 7 7 8
8 9 9 9 9
Em seguida associa os valores à sua freqüência de ocorrência, da seguinte maneira:
Valores (x) Freqüência (n)

0 1
1 1
2 2
3 1
4 2
5 1
6 3
7 3
8 2
9 4
Complementando a construção da tabela, tem-se:

TABELA 1.4 - Notas de Estatística, turma A/UFRRJ, 2009
Notas Alunos
0 1
1 1
2 2
3 1
4 2
5 1
6 3
7 3
8 2
9 4
Fonte : Fictícia
Quando a quantidade de diferentes valores for grande ou quando estivermos trabalhando com variável
contínua, costuma-se agrupar os dados, criando novas classes, categorias ou níveis. Para tal, deve-se
determinar a quantidade de classes a serem criadas (k) e o intervalo a ser utilizado para a determinação
das novas categorias. A quantidade de classes não deverá ser inferior a 5 nem superior a 15 (20 segundo
alguns autores), devendo, entretanto, atender aos objetivos do trabalho.
Existem algumas expressões que podem ser utilizadas na determinação desta quantidade, entre as quais
k = 1+ 3,3 log n (fórmula de sturges), onde k representa a quantidade de níveis ou categorias (valor
inteiro) e n, a quantidade de dados.
7
Por sua simplicidade, entretanto, a mais usada na prática é a expressão:
k= n
Depois de definir a quantidade de níveis ou classes, determina-se sua amplitude através da expressão:
x max − xmin
A=
k
onde: x max = maior valor do conjunto de dados; xmin = menor valor do conjunto de dados; A = amplitude
ou intervalo de classe; k = número de níveis ou categorias.
Após, deve-se proceder a formação destas categorias. Normalmente toma-se como limite inferior da
primeira classe o menor valor do rol. O limite superior desta classe será a soma deste limite inferior com
o intervalo determinado. Os limites das demais classes seguem uma progressão aritmética de razão igual
ao intervalo encontrado. Isto significa que basta somar a estes valores o intervalo encontrado.
Considerando o exemplo citado anteriormente, como apareceram diversos diferentes valores associados a
baixas freqüências, é aconselhável agrupá-los em classes. A quantidade ideal de classes é dada por:
k = n = 4,47
Como em uma distribuição de freqüência só podemos ter uma quantidade inteira de classes, este valor
deve ser arredondado. A distribuição em questão deveria ter 5 classes. A amplitude dessas classes é:
9−0
A= = 1,8
5
A partir do menor valor do rol (0) e do intervalo, (1,8), são definidos os limites das classes de acordo com
uma progressão aritmética. Estes seriam: 0; 1,8; 3,6; 5,4; 7,2 e 9,0, dispostos da seguinte maneira:
classes
0.0 ├─ 1.8
1.8 ├─ 3.6
3.6 ├─ 5.4
5.4 ├─ 7.2
7.2 ├─┤ 9.0
De acordo com o rol, cada uma destas classes é associada a uma freqüência de ocorrência, portanto:
classes n
0.0 ├─ 1.8 2
1.8 ├─ 3.6 3
3.6 ├─ 5.4 3
5.4 ├─ 7.2 6
7.2 ├─┤ 9.0 6
Observe que o intervalo relativo à última classe foi fechado em seu limite superior. Isto ocorreu devido ao
fato de existirem no rol valores exatamente iguais a este limite superior.
Após, complementa-se a tabela com título, cabeçalho e fonte.
8
TABELA 1.5 - Notas de Bioestatística, turma A/UFRRJ, 2009
notas alunos
0.0 ├─ 1.8 2
1.8 ├─ 3.6 3
3.6 ├─ 5.4 3
5.4 ├─ 7.2 6
7.2 ├─┤ 9.0 6
Fonte : Fictícia
O pesquisador pode, entretanto, utilizar outros intervalos que julgue mais adequado ao seu trabalho. Na
tabela construída, por exemplo, poderia fazer a tabulação com intervalo de classe igual a 2,0.
TABELA 1.6 - Notas de Bioestatística, turma A/UFRRJ, 2009

notas alunos
0.0 ├─ 2,0 2
2,0 ├─ 4,0 3
4,0 ├─ 6,0 3
6,0 ├─ 8,0 6
8,0 ├─ 10,0 6
Fonte: Fictícia
O pesquisador pode, entretanto, utilizar outros intervalos que julgue mais adequado ao seu trabalho.
Suponha, por exemplo, que para tabular o número de ovinos comercializados a cada hora em um remate, foi
encontrado i = 35,5. As classes formadas seriam: 50 ├─ 85,5; 85,5 ├─ 121,0 ; etc. Não tem sentido,
entretanto, dizer que em uma hora foram comercializados entre 50 e 85,5 ovinos, ficando mais adequado
utilizar para intervalo de classe um número inteiro, como 35 ou 36, por exemplo.
5.3 - Conceitos
Para variáveis quantitativas, os símbolos normalmente utilizados para definir uma classe são ├─ e ├─┤.
Outras notações também podem ser utilizadas desde que não dêem margem à dupla interpretação.
- Limites da i-ésima classe (l i ; Li ) - São os valores extremos da classe. Cada classe apresenta dois
limites, o inferior (menor valor) e o superior (maior valor). Para efeito de cálculo ignora-se o fato do
intervalo que define a classe ser aberto ou fechado, o mesmo não acontecendo na hora da tabulação.
- Amplitude da i-ésima classe ( Ai ) - É a diferença entre o limite superior e o limite inferior da

classe. Ai = Li − l i
Li + l i
- Ponto médio de uma classe (xi) - É o valor central da classe. xi =
2
- Freqüência acumulada de uma classe (nai) – É a soma das freqüências de todas as classes
i
anteriores, incluindo esta. nai = ∑ ni
i =1
9
Apêndice 1 – Algumas considerações sobre somatório
Seja um conjunto de dados formado por n valores x1 , x 2 , x3 , x 4 , ... , x n . O i-ésimo termo deste conjunto é
representado por xi , sendo i = 1,2,3,..., n . Isto significa que x1 é o primeiro valor, x 2 é o segundo valor,
x3 é o terceiro valor e assim sucessivamente.
Freqüentemente nas expressões estatísticas, a exemplo do que ocorreu no cálculo das freqüências
relativas ou proporções, os n valores de um conjunto são somados, sendo usado o símbolo ∑ , que
significa somatório, para representar este procedimento. A soma de x1 + x 2 + x3 + x 4 + ... + xn é
n
representada por ∑x
i =1
i , indicando que devem ser somados todos os valores de x, desde a posição 1 até a
posição n.
Por exemplo:
4
- se é necessário somar os quatro primeiros dados, faz-se ∑x
i =1
i = x1 + x 2 + x3 + x 4 ;
- se é necessário somar os cinco últimos dados de um grupo de vinte, faz-se

20
∑x
i =16
i = x16 + x17 + x18 + x19 + x 20 .
Na prática, quando se deseja somar todos os valores de um conjunto, é bastante usual empregar
n
simplesmente a notação ∑ x em lugar de ∑x
i =1
i .
Observações:
- O somatório do produto dos dados de uma série multiplicados por uma constante é igual à soma dos dados
multiplicada por esta constante.
n n
∑ cxi = c∑ xi
i =1 i =1
- O somatório da soma (ou diferença) de duas séries de dados é igual ao somatório de um adicionado
(subtraído) ao somatório do outro.
n n n
∑ ( xi ± y i ) = ∑ xi ± ∑ y i
i =1 i =1 i =1
- O somatório do quadrado dos dados é diferente do quadrado do somatório dos valores.

2
n
 n 
∑
i =1
x ≠  ∑ xi 
2
i
 i =1 
- O somatório do produto de duas séries de dados é diferente do produto do somatório destes dados.
n n n
∑ (xi . yi ) ≠ ∑ xi .∑ yi
i =1 i =1 i =1
10
Unidade II – Representação Gráfica
1 - Introdução
A representação gráfica consiste em organizar os dados coletados em desenhos, tendo o objetivo de dar
uma clara e rápida interpretação, embora muitas vezes, não transmita idéias com precisão. Existem
gráficos de análise e gráficos de apresentação.
Em um gráfico de apresentação, o desenho deve vir acompanhado de título e fonte, e quando necessário,
legenda e observações ou notas. O título, a fonte e as observações ou notas seguem as mesmas instruções
das tabelas. Já a legenda deve ser utilizada quando, num mesmo gráfico, são apresentadas duas ou mais
variáveis identificadas por linhas, cores ou hachuras diferentes.
Existem vários tipos de gráficos: diagramas, estereogramas, pictogramas, cartogramas, organogramas e
fluxogramas. Os mais utilizados em trabalhos científicos para apresentação de resultados são os diagramas
e, entre estes, os diagramas em barras, em colunas e em setores para variáveis qualitativas e histograma e
gráfico em linhas para variáveis quantitativas. Para análise de dados são muito empregados o diagrama ramo
e folhas e o diagrama de caixas (box plot).
2 – Diagrama em colunas
FIGURA 2.1 – Peso total das carcaças de animais abatidos - 1º Trimestre de 2009 - Brasil
2500
2000
Peso (1000tn)
1500
1000
500
0
suino bovino frango
Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

Nota - Os dados divulgados são oriundos de estabelecimentos que estão sob inspeção federal, estadual ou
municipal.
Neste tipo de diagrama (Figura 2.1), são traçadas várias colunas, uma para cada categoria, que devem
apresentar a mesma largura. Já a altura deve ser proporcional à freqüência da categoria que representa e
o espaço entre as colunas costuma variar de metade até 2/3 de sua largura. É usual organizá-las de uma
forma sistemática para facilitar a interpretação do fato apresentado: se a escala for nominal, as colunas
devem ser ordenadas pela sua magnitude; se for ordinal, pelas categorias.
3 – Diagrama em barras
Neste tipo de diagrama (Figura 2.2) a formação das barras segue o mesmo critério das colunas. A escolha
entre barras e colunas normalmente é feita em função da forma de identificação das categorias. Se forem
extensas, são usadas barras; em caso contrário, colunas.
11
frango
bovino
suino
0 500 1000 1500 2000 2500

Peso (1000tn)

municipal.
4 – Diagramas em setores
Este tipo de gráfico (Figura 2.3) é utilizado quando se deseja evidenciar as freqüências percentuais,
expressando cada categoria como percentagem de um total. Um círculo, que representa o total de
observações, é dividido em setores associados a cada uma das categorias da variável, com tamanhos
proporcionais às suas freqüências de ocorrência. Não é recomendado quando a quantidade de categorias
for muito grande (mais que oito).
Da mesma forma que nos gráficos anteriores, é usual organizá-lo de uma forma sistemática para facilitar a
interpretação do fato apresentado: se a escala for nominal, os setores devem ser ordenados por sua
magnitude; se for ordinal, pelas categorias.
53%
suino
bovino
13%
frango
34%

municipal.
5 – Representação de tabelas de contingência

Em tabelas de contingência são utilizadas, pelo menos, duas variáveis. Neste caso, na representação
gráfica, a identificação destas variáveis é feita por meio de uma legenda.
12
1000
800
peso (1000 tn)

600
400 bovinos
suinos
200
frangos
0
Janeiro Fevereiro Março

Nota - Os dados divulgados são oriundos de estabelecimentos que estão sob inspeção federal, estadual ou municipal.
2000000
1500000
peso (1000 tn)
1000000
frangos
500000 suinos
bovinos
0
Janeiro Fevereiro Março


6 – Histograma
Os histogramas (Figura 2.7) são os gráficos normalmente utilizados para representar variáveis
quantitativas (contínuas ou discretas com uma grande quantidade de diferentes valores). A variável
investigada é marcada no eixo horizontal, em classes, e as densidades no eixo vertical.
13
Para cada classe ou categoria é traçada uma coluna com base igual à sua amplitude e área proporcional à sua
freqüência de ocorrência. Sua altura é associada a uma medida denominada de densidade ( d i ),
ni
determinada por: di = , onde ni e Ai representam, respectivamente, a freqüência e a amplitude da i-
Ai
ésima categoria.
Este gráfico pode ser traçado a partir de freqüências relativas (proporção) e freqüências percentuais
(porcentagem). Nestes casos a densidade é determinada, respectivamente, por:
fi 100 * f i
di = e di =
Ai Ai
onde fi representa a freqüência relativa ou proporção. A área total do histograma representa todas as
observações, portanto, será igual a n se for um histograma de freqüências, igual a 1 se for um histograma
de proporções e igual a 100 se for um histograma de porcentagens.
Obs 1: Quando a amplitude das classes for constante, o que ocorre na maioria das situações por facilitar a
leitura das informações, a altura das colunas torna-se proporcional à freqüência, proporção ou
porcentagem.
Obs 2: Se o histograma se apresentar muito irregular e houver uma quantidade suficientemente grande de
observações, esta irregularidade pode ser amenizada com o aumento amplitude das classes. Este diagrama
é chamado de histograma alisado.
Os dados da tabela 2.1 se referem à pressão sistólica de uma amostra de 30 mulheres que procuraram o
pronto atendimento do Hospital Universitário de Pelotas em março de 2009. A representação gráfica
destas informações está nas figuras 2.7, 2.8 e 2.9.
TABELA 2.1 - Pressão sanguínea sistólica de mulheres de 30 anos. HU de Pelotas, 2009
Pressão (mm de Hg) Mulheres
95 ├── 100 6
100 ├── 105 11
105 ├── 110 12
110 ├── 115 17
115 ├── 120 18
120 ├── 125 11
125 ├── 130 9
130 ├── 135 6
135 ├── 140 4
140 ├── 145 4
145 ├── 150 1
150 ├── 155 1
Fonte: Fictícia
7 Polígono de freqüência
O traçado deste diagrama (Figura 2.8) é similar ao traçado do histograma, caracterizando-se por ser
também um gráfico de área. Marcam-se pontos que tem como coordenadas o ponto médio de uma classe e
sua densidade. Unem-se os pontos e, posteriormente, os extremos da linha traçada com o eixo das
abscissas (ponto médio de classes imediatamente inferior a primeira e imediatamente posterior a última).
O polígono traçado tem área igual à do histograma.
14
OBS: Se o intervalo de classe for constante, as ordenadas dos pontos correspondem a sua freqüência.
FIGURA 2.7 - Pressão sanguínea sistólica de mulheres de 30 anos. HU de Pelotas, 2009

20
18
16
14
pacientes
12
10
8
6
4
2
0
95 100 105 110 115 120 125 130 135 140 145 150 165
pressão (mm de Hg)

Fonte: Fictícia
Fonte: Fictícia
8 Ogiva
Este diagrama (Figura 2.9) também é traçado em um sistema de coordenadas cartesianas que apresenta o
eixo das abscissas graduado de acordo com a variável apresentada em classes e o eixo das ordenadas em
freqüências acumuladas. A partir do limite inferior da primeira classe, associado à freqüência zero, traça-
se uma poligonal ascendente definida por pontos que tem como coordenadas o limite superior da classe e a
respectiva freqüência acumulada.
120
100
80
pac ien tes
60
40
20
0
90 100 110 120 130 140 150 160
pressão (mm de Hg)

Fonte: Fictícia
15
9 Ramo e folhas
Este tipo de gráfico é especialmente útil no estudo de variáveis quantitativas por fornecer uma idéia da
forma da distribuição de uma variável. Para tal, divide-se a informação em duas partes: a primeira é o ramo
e a segunda a folha.
Todos os ramos devem ter o mesmo comprimento.
Todas as informações que tiverem o mesmo ramo são colocadas em uma mesma linha.
Se os ramos ficarem muito carregados, é possível subdividí-los.
Os valores abaixo, obtidos na secretaria de registros acadêmicos de uma IES do Rio de Janeiro, em junho
do corrente ano, se referem à idade de 50 estudantes do gênero feminino. Estes dados representados por
meio do ramo e folhas estão na figura 2.10. (Peres e Cunha, 2001),
16 18 18 18 19 19 20 20 21 23
17 18 18 18 19 19 20 20 22 24
17 18 18 19 19 19 20 20 22 24
18 18 18 19 19 19 20 21 22 27
18 18 18 19 19 20 20 21 22 29
Os valores abaixo obtidos na secretaria de registros acadêmicos de uma IES do Rio de Janeiro, em junho
do corrente ano, se referem à estatura de 50 estudantes do gênero feminino. Os dados representados por
meio do ramo e folhas estão na figura 2.11. (Peres e Cunha, 2001),
151 155 158 160 161 162 164 165 168 169
153 155 159 160 161 163 164 166 168 170
154 156 160 160 161 163 164 166 168 171
154 157 160 160 161 163 164 167 169 172
155 158 160 161 162 163 165 168 169 174
FIGURA 2.10 - Idade (em anos) de 50 estudantes do gênero feminino de uma IES do Rio de Janeiro, 2009
1 1 6
2 1 7 7
14 1 8 8 8 8 8 8 8 8 8 8 8 8 8 8
12 1 9 9 9 9 9 9 9 9 9 9 9 9
9 2 0 0 0 0 0 0 0 0 0
3 2 1 1 1
4 2 2 2 2 2
1 2 3
2 2 4 4
0 2
0 2
1 2 7
0 2
1 2 9
Fonte: Secretaria da IES
16
FIGURA 2.11 – Estatura (em cm) de 50 estudantes do gênero feminino de uma IES do Rio de Janeiro, 2009
4 15 1 3 4 4
7 15 5 5 5 6 7 8 9
22 16 0 0 0 0 0 0 0 1 1 1 1 1 2 2 3 3 3 3 4 4 4 4
12 16 5 5 6 6 7 8 8 8 8 9 9 9
4 17 0 1 2 4
Fonte: Secretaria da IES
10 Gráfico em linhas
Este diagrama (Figura 2.12) é traçado em um sistema de coordenadas cartesianas, sendo especialmente útil
na representação de variáveis que variam em função do tempo (séries temporais ou cronológicas). O tempo
é representado no eixo horizontal.
FIGURA 2.12 – Bovinos/efetivo nos estabelecimentos agropecuários. Brasil, 1940-2010
200
bovinos (em 1000000 un)
150
100
50
0
1940 1950 1960 1970 1980 1990 2000 2010
Fonte: IBGE, Censo agropecuário.

Obs: O valor de 2010 é uma previsão.
17
Unidade III - Medidas Descritivas
1 Introdução
Nem sempre uma tabela ou um gráfico são convenientes ou suficientes para a síntese de um fenômeno
medido quantitativamente. Muitas vezes, é necessário representar o fato estudado de maneira mais
sistemática, o que pode ser feito por meio das medidas descritivas que sintetizam as propriedades de uma
distribuição.
As quatro principais propriedades de uma distribuição são a tendência central, a dispersão, a assimetria e a
curtose.
De maneira geral, os dados costumam ser mais numerosos em torno de um valor central (valor típico),
diminuindo gradativamente à medida que se afastam deste valor. As medidas de tendência central tentam
localizar este valor central, enquanto as de dispersão, a variabilidade em torno deste valor.
2 – Medidas de tendência central

2.1 - Média aritmética
A medida de tendência central mais utilizada é a média aritmética ( x ou M e ), ou simplesmente, média,

definida como: média aritmética de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, o
n
∑x i
quociente entre a soma de todos os valores e o número deles, ou seja, x= i =1
.
n
Exemplo: Sejam os dados 2, 4, 6, 8 e 10.
2 + 4 + 6 + 8 + 10
x= = 6 un
5
Esta medida é única e rigorosamente definida por uma fórmula matemática, sendo influenciada por todos os
valores que compõe o conjunto. É bastante estável, apresentando razoável uniformidade de amostra para
amostra, o que é muito importante para uma análise estatística. Possui também importantes propriedades
matemáticas.
Propriedade 1 - A soma dos desvios dos valores de um conjunto em relação a sua média aritmética é nula,
∑ (x )
n
ou seja: i − x = 0.
i =1
Propriedade 2 - A soma dos quadrados dos desvios dos valores de um conjunto em relação a média
∑ (x ) < ∑ (x
n 2 n 2
aritmética é mínimo, ou seja: i −x i − k ) , para qualquer k ≠ x .

i =1 i =1
Propriedade 3 - Somando-se, subtraindo-se, multiplicando-se ou dividindo-se os valores de um conjunto por
uma determinada constante, sua média ficará, respectivamente, adicionada, subtraída, multiplicada ou
dividida por esta mesma constante.
OBS 1: Quando aparecerem valores repetidos, a média aritmética pode ser calculada por:
18
k
∑ (x .n ) i i
x= i =1
k
∑n
i =1
i
onde k representa a quantidade de diferentes valores e ni a freqüência do i-ésimo valor.

Exemplo: Sejam os dados 2, 2, 3, 3, 3, 3, 3, 6, 6, 6, 6, 10, 10.
2 + 2 + 3 + 3 + 3 + 3 + 3 + 6 + 6 + 6 + 6 + 10 + 10
x= = 4,85 un
13
(2 + 2) + (3 + 3 + 3 + 3 + 3) + (6 + 6 + 6 + 6) + (10 + 10)
x= = 4,85 un
13
(2 * 2) + (3 * 5) + (6 * 4) + (10 * 4)
x= = 4,85 un
13
2, 3, 6 e 10 são valores de xi e 2, 5, 4 e 2 são valores de ni.
OBS 2: A média aritmética pode ser simples ou ponderada, conforme todos os valores tenham ou não a
mesma importância (peso). Neste último caso, seu cálculo segue as fórmulas apresentadas anteriormente,
com a substituição de ni por pi (peso).
2.4 -Mediana
A mediana ( M d ) tenta encontrar o centro de uma distribuição de valores x1 , x 2 , x3 , x 4 , ... , x n ,

dividindo-o em dois grupos com a mesma quantidade de elementos: 50% dos valores são menores e 50%
dos valores são maiores do que o valor mediano.
n +1
Na amostra, a posição deste elemento pode ser encontrada por Posição M d = , sendo a mediana
2
M d = x Posição M . Quando o resultado de Posição M d não for inteiro, pode-se considerar apenas a parte
d
x Posição Md + x Posição Md +1
inteira e fazer a média entre o x PosiçãoMd 1 e seu consecutivo, ou seja: Md = .
2
Esta medida é de fácil interpretação, mas apresenta pouca estabilidade em amostras, não sendo
influenciada por valores extremos. É possível fazer mudanças radicais no conjunto sem alterar o seu
resultado.
Exemplo: Os valores a seguir se referem a teores de proteína bruta (%) em folhas verdes de pastagem
capim-elefante: 8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20.
11 + 1
Posição M d = =6 M d = x6 = 14 %
2
8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20
OBS: Quando aparecerem valores repetidos a mediana pode ser identificada pelas freqüências acumuladas,
correspondendo ao valor que apresenta freqüência acumulada maior ou igual a 50% dos valores. Nestes
casos, entretanto, não é a medida mais adequada.
2.5 - Moda
19
Moda ( M O ) de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, o valor que ocorre com
maior freqüência. Esta medida pode não existir, como pode não ser única, sendo pouco estável em amostras.
Não é influenciada por valores extremos, sendo possível fazer mudanças radicais no conjunto sem alterar o
seu resultado.
Se a moda dos salários de professores de Educação Agrícola que atuam no ensino médio é de R$3500,00,
isto significa que este é o salário mais freqüente entre estes professores.
Exemplo: Sejam os dados 2, 2, 6, 8, 10, 10, 10, 15, 18, 20, 25.
M O = 10 un
Exemplo: Sejam os dados 8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20.
M O = 12 % e M O = 15 %
Exemplo: Sejam os dados 2, 5, 6, 8, 10, 13, 14, 15, 18, 20, 25.
M O não existe
2.6 - Como representar a tendência central?
Em geral, a medida mais utilizada para identificar o valor típico de um conjunto é a média aritmética,
desde que a distribuição não apresente uma assimetria muito acentuada nem outliers.
Para uma análise estatística de dados, considera-se um conjunto de valores como ideal, quando existe uma
exata repartição destes em torno de um ponto central, situação em que o conjunto é identificado como
simétrico (gráfico (a) da Figura 3.1). Neste caso, a média coincide com a mediana e com a moda, tornando-
se a medida preferida em função de suas propriedades matemáticas. Esta situação ideal, na prática,
dificilmente se verifica, mas conjuntos com assimetria não acentuada podem ser tratados como
simétricos.
Em conjuntos assimétricos (gráficos (b) e (c) da Figura 3.1), a média tende a se deslocar para o lado da
cauda mais longa, razão pela qual a mediana surge como opção para representar a tendência central. Esta
medida também é mais robusta que a média em relação à presença de outliers (valores fora do padrão).
A mediana não é recomendada para identificar o valor típico de um conjunto quando existirem muitos
valores repetidos, caso em que é preferível utilizar a média ou a moda.
FIGURA 3.1 – Distribuição de freqüência simétricas e assimétricas
(a) (Me = Mo = Md ) (b) (Mo < Md < Me) (c) (Me > Md > Mo )
3 – Medidas Separatrizes ou Quantis
Estas medidas servem para dividir o conjunto de valores em grupos com a mesma quantidade de elementos,
sendo especialmente úteis quando o conjunto não é simétrico. Os quantis mais usados são: quartil, decil e
percentil
20
3.1 - Quartis
Quartis ( Q j ) de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , são, por definição, valores que dividem o
conjunto em quatro grupos com a mesma quantidade de elementos. A cada um destes grupos, pertencem
25% dos valores, sendo que cada conjunto apresentará três quartis: primeiro ou inferior (Q1 = Qi ) ,
segundo ou central (Q2 = M d ) e terceiro ou superior (Q3 = Qs ) .
n +1
O primeiro quartil é precedido por n/4 observações, logo, PosiçãoQ1 = e Q1 = x posiçãoQ1 . Se
4
PosiçãoQ1 não for inteiro, pode-se considerar apenas a parte inteira e fazer a média entre o x PosiçãoQ1 e
seu consecutivo.
3(n + 1)
O terceiro quartil é precedido por 3n/4 observações, logo, PosiçãoQ3 = e Q3 = x PosiçãoQ 3 . Se
4
PosiçãoQ3 não for inteiro, pode-se considerar apenas a parte inteira e fazer a média entre o x PosiçõaQ3 e
seu consecutivo.
Uma outra maneira de localizar os quartis é encontrar a mediana (= Q2 ) , dividir o conjunto em dois grupos
e, em cada um deles encontrar novamente a mediana, que corresponderiam a Q1 e Q3 .
Se, por exemplo, o quartil inferior do peso de 1000 vacas leiteiras é 360 kg, o quartil central, 400 kg, e o
quartil superior, 421 kg, é possível afirmar que: 250 vacas tem peso inferior a 360 kg; 500 vacas tem peso
inferior a 400 kg; 750 vacas tem peso inferior a 421 kg; 500 vacas tem peso entre 360 kg e 421 kg; etc.
Exemplo: Considere os valores referentes aos teores de proteína bruta (%) em folhas verdes de pastagem
capim-elefante: 8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20. Seu primeiro quartil, mediana e terceiro quartil são:
8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20
Q1 Md Q3
11 + 1
PosiçãoQ1 = =3 Q1 = x3 = 11 %
4
Isto significa que 25% das amostra apresenta teor de proteína bruta inferior ou igual a 11%.
3(11 + 1)
PosiçãoQ3 = =9 Q3 = x9 = 16 %
4
Isto significa que 75% das amostra apresenta teor de proteína bruta inferior ou igual a 16%.
3.3 - Percentis
Percentis ( Pj ) de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , são, por definição, valores que dividem
o conjunto em cem grupos com a mesma quantidade de elementos. A cada um destes grupos, pertencem 1%
dos valores, sendo que cada conjunto terá noventa e nove percentis. A ordem do percentil indica a
porcentagem de valores menores ou iguais a ele. Se, por exemplo, o vigésimo percentil do peso de 1000
vacas é 350 kg, é possível afirmar que: 200 vacas têm peso inferior ou igual a 350 kg.
Por analogia, o j-ésimo percentil ( j = 1,2,3,...,99) é precedido por j.n

100
observações, ocupando a posição
 n +1
PosiçãoPj = j   . Se este número não for inteiro, considera-se a parte inteira e faz-se a média com
 100 
21
seu consecutivo.
OBS: Existem várias maneiras de identificação dos quantis e nem sempre seus resultados coincidem.
 n +1 j
OBS: Simplificação da posição dos percentis - PosiçãoPj = j   = (n + 1)
 100  n
PosiçãoP80 =
80
(n + 1) = 0,8(n + 1) PosiçãoP80 = 0,8(n + 1)
100
PosiçãoP45 = 0,45(n + 1)
4 - Medidas de dispersão
4.1 - Amplitude Total ( AT )

Amplitude total de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é, por definição, a diferença entre o
maior e o menor dos valores, ou seja: AT = x Max. − x Min.
Pode ser utilizado com a média, a moda ou a mediana, desde que não se necessite de muita exatidão, pois é
uma medida instável e muito rudimentar. Em uma série de valores os extremos são, em geral, uma questão
de acaso. Como esta medida depende destes extremos, varia muito, apresentando a tendência de aumentar
quando se eleva o número de elementos.
Se existir um conjunto de valores com amplitude total igual a dez unidades, pode-se concluir que a
diferença máxima entre dois valores quaisquer deste conjunto é dez unidades. Se um conjunto apresentar
amplitude total igual a zero, pode-se concluir que todos os valores são iguais.
Exemplo: (Considere os valores referentes aos teores de proteína bruta (%) em folhas verdes de pastagem
capim-elefante: 8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20. Sua amplitude é: AT = 20 − 8 = 12 %
2
4.3 - Variância ( s )
Variância de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a média aritmética dos

quadrados dos desvios em relação à média aritmética destes valores.
∑ (x )
n
2
i −x
s2 = i =1
n −1
Em amostras costuma-se utilizar, o denominador (n-1), pois o cálculo desta medida é feito a partir de uma
estimativa do valor médio, existindo n-1 valores de afastamentos independentes.
Exemplo: Sejam os dados 2, 4, 6, 8 e 10. Sua variância é:
xi xi − x (x i −x )
2
30
2 -4 16 x= = 6 un
4 -2 4
5
40
6 0 0 s2 = = 10 un2
8 2 4 4
10 4 16
∑ = 30 0 40
Algebricamente, a expressão utilizada pode ser modificada com o objetivo de amenizar o cálculo. A
22
expressão equivalente é:
2
 n 
n
 ∑ xi 
∑ xi −  i =1 
2
n
s 2 = i =1
n −1
Exemplo:
2
xi xi
30
2 4 x= = 6 un
4 16 5
6 36
220 −
(30)2
8 64 5 = 10 un2
s2 =
10 100 5 −1
∑ = 30 220
Esta medida deve ser utilizada em conjunto com a média aritmética, sendo uma das medidas de dispersão
mais utilizadas por suas propriedades matemáticas e pela possibilidade de emprego na inferência
estatística. Entretanto, sua unidade elevada ao quadrado dificulta a interpretação (ver desvio padrão).
OBS: Quando aparecerem valores repetidos, a variância pode ser calculada por:
2
 k 
 ∑ ( xi .ni )
∑( )
k
xi2 .ni −  
i =1
∑ [(x ) ]
k k
∑ ni
2
i − x .ni i =1
s =
2 i =1
k
ou s2 = k
i =1
∑n i =1
i −1 ∑n
i =1
i −1
onde k representa a quantidade de diferentes valores (que formam classes ou níveis) e ni a freqüência da i-
k
ésima classe. Lembre que ∑n
i =1
i = n.
4.4 - Desvio-padrão ( s )
Desvio-padrão de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a raiz quadrada positiva

da variância deste mesmo conjunto, ou seja:
s = s2
Exemplo: Sejam os dados 2, 4, 6, 8 e 10. Seu desvio padrão é:
Como s 2 = 10 un2, s = 10 = 3,16 um.

A interpretação desta medida está vinculada à média aritmética. De acordo com Chebyschey, num conjunto
 1 
de valores com média x e desvio padrão s, pelo menos 1 − 2 .100% dos dados estão compreendidos no
 k 
intervalo x ± ks , com K > 1. Se, por exemplo, K=2, pode-se afirmar que pelo menos 75%
23
  1 
=  1 − 2 2  .100 dos valores estão compreendidos no intervalo x ± 2 s .
 
Caso a distribuição seja normal pode-se afirmar que 68,26% dos valores estão compreendidos em um
intervalo que admite a variação de um desvio padrão em torno da média aritmética ( x ± 1s ), 95,45% dos
valores estão compreendidos em um intervalo que admite a variação de dois desvios padrões em torno da
média aritmética ( x ± 2 s ), e, 99,73% dos valores estão compreendidos em um intervalo que admite a
variação de três desvios padrões em torno da média aritmética ( x ± 3s ).
Exemplo: As notas de Introdução à Bioestatística se distribuem normalmente em torno da média 7,5 com
desvio padrão de 0,5. Isto significa que:
- aproximadamente 68,26% dos alunos obtiveram nota pertencente ao intervalo 7,5 ± 0,5 ou [7,0;8,0];
- aproximadamente 95,45% dos alunos obtiveram nota pertencente ao intervalo 7,5 ± 1,0 ou [6,5;8,5];
- aproximadamente 99,73% dos alunos obtiveram nota pertencente ao intervalo 7,5 ± 1,5 ou [6,0;9,0] .
4.5 - Coeficiente de Variabilidade (C v )
Coeficiente de variabilidade de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, o desvio

padrão destes valores expresso como valor relativo ou percentual da média aritmética do conjunto, ou seja:
s s
Cv = ou Cv = .100 .
x x
Deve ser utilizado ao lado da média aritmética quando for necessário fazer comparações entre conjuntos
de valores muito discrepantes em relação a ordem de grandeza ou medidos em diferentes unidades.
Exemplo: (CALLEGARI-JACQUES, 2003) A média e o desvio padrão para a espessura do endosperma de
sementes são, respectivamente, 3,5mm e 1,29mm, enquanto que a média e o desvio padrão para o peso são,
respectivamente, 0,020g e 0,009g.
A partir destas informações é possível concluir que o peso das sementes varia mais que sua espessura, pois
0,009 1,29
para o peso Cv = .100 = 45% , enquanto que para a espessura, C v = .100 = 37% .
0,020 3,5
4.6 - Desvio interquartílico (d )
q
Desvio interquartílico de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a diferença

entre o terceiro (ou superior) e primeiro (ou inferior) quartil do conjunto de valores, ou seja: d q = Q3 − Q1
Deve acompanhar a mediana, representando a amplitude do intervalo onde estão contidos 50% dos valores
centrais de um conjunto.
Exemplo: Considere os valores referentes aos teores de proteína bruta (%) em folhas verdes de pastagem
capim-elefante: 8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20. Seu primeiro quartil, mediana e terceiro quartil são:
8, 10, 11, 12, 12, 14, 15, 15, 16, 18 e 20
Q1 Md Q3
Portanto d q = 16 − 11 = 5 %.
24
4.7 – Observações
a) Somando-se ou subtraindo-se os valores de um conjunto por uma determinada constante, sua medida de
dispersão não se altera.
b) Multiplicando-se ou dividindo-se os valores de um conjunto por uma determinada constante, sua medida
de dispersão fica multiplicada ou dividida pelo módulo desta mesma constante. A variância fica multiplicada
ou dividida pelo quadrado desta constante.
4.8 - Utilização das medidas
Ao representar um conjunto de valores, deve-se optar pelas medidas clássicas (média aritmética, variância,
desvio-padrão e coeficiente de variabilidade) ou pelas medidas baseadas na ordenação dos dados (mediana,
quartis e desvio interquartílico). As primeiras devem ser utilizadas quando não existem valores
discrepantes ou fora do padrão (outlier), assim como também quando não existir uma assimetria muito
acentuada.
Um valor é dito discrepante quando ele se diferencia muito dos demais.
Um conjunto de valores é dito assimétrico quando existe uma maior concentração de valores menores ou
maiores, não existindo uma exata repartição em torno do ponto central. Nestas situações, a média e a
mediana são diferentes e a assimetria torna-se mais acentuada com o aumento desta diferença.
Estas propriedades podem ser avaliadas gráfica (histograma, ramo e folhas e Box plot) e analiticamente
(coeficientes).
a) método gráfico
Um gráfico de análise, extremamente útil na investigação de propriedades dos dados, é o Box Plot,
especialmente indicado para investigação da presença de outliers e assimetria. Ele é traçado a partir de
algumas medidas: mediana ( M d ), quartis ( Q1 e Q3 ) e desvio interquartílico ( d q ), assim como valores
máximo e mínimo.
Depois de adotar uma escala, traça-se uma caixa de qualquer largura, com base no primeiro quartil e topo
no terceiro quartil, colocando-se uma linha horizontal na altura da mediana. Na base da caixa (primeiro
quartil) traça-se uma linha perpendicular, para baixo, que pode ter comprimento de 1,5 dq ou até o menor
valor do conjunto se estiver a uma distancia inferior a 1,5 dq. Na topo da caixa (terceiro quartil) traça-se
uma outra linha, também perpendicular mas para cima, que pode ter comprimento de 1,5 dq ou até o maior
valor do conjunto se estiver a uma distancia inferior a 1,5 dq.
Os valores que ficarem fora da área de abrangência destas linhas são plotados com * ou o, sendo
identificados como outliers. A comparação das duas partes da caixa, bem como das linhas, permite uma
primeira avaliação da assimetria dos dados. O gráfico mostrado na figura 3.2 apresenta a idade de um
grupo de informantes, evidenciando uma pequena assimetria (maior concentração de valores menores) e
ausência de um outlier.
b) método analítico
Outlier - Analiticamente a presença de outlier pode ser detectada a partir da mediana ( M d ), quartis ( Q1
e Q3 ) e desvio interquartílico ( d q ).
Se xi > Q3 + 3dq , xi é identificado como um outlier superior extremo.

Se xi > Q3 + 1,5dq , xi é identificado como um outlier superior.
Se xi < Q1 − 1,5dq , xi é identificado como um outlier inferior.

25
Se xi < Q1 − 3dq , xi é identificado como um outlier inferior extremo.
Figura 3.2 – Box Plot

Assimetria
Existem vários coeficientes que podem ser usados para mensurar a intensidade da assimetria de um
conjunto de dados. O mais utilizado mede esta propriedade por meio de momentos.
Chama-se momento de ordem r centrado em a, m(r , a ) , de um conjunto de n valores,

x1 , x 2 , x3 , x 4 , ... , x n , ao valor encontrado pela expressão:
n
∑ (x − a)
r
i
m(r , a ) = i =1
.
n
Existem duas categorias de momentos que são especiais: os centrados na origem e os centrados na média.
A principal medida de posição, média aritmética, e a principal medida de dispersão, variância, são momentos
centrados na origem e na média aritmética, respectivamente.
A intensidade da assimetria de um conjunto de valores pode ser medida por um coeficiente ( a3 ), calculado
a partir destes momentos.
m 3, x
( )
a3 =
m( 2 , x ) m( 2 , x )
∑ (x ) ∑ (x )
n n
2 3
−x −x
( ) ( )
i i
onde m 2, x = i =1
e m 3, x = i =1
.
n n
A interpretação do resultado é feita da seguinte maneira:
a3 < 0 - assimetria negativa (maior concentração de valores acima da média);
a3 = 0 - simetria (exata repartição de valores);
26
a3 > 0 - assimetria positiva (maior concentração de valores abaixo da média).
Exemplo:
xi xi − x (x i −x ) (x
2
i −x )3
x=
30
= 6 un
2 -4 16 -64
5
4 -2 4 -8 ( )
m 2, x =
40
5
= 8 un2
6 0 0 0
8
10
2
4
4
16
8
64
( ) 0
m 3, x = = 0 un3
5
∑ = 30 0 40
0 a3 =
0
= 0 Dados simétricos
8 8
OBS: Alguns autores sugerem que se a 3 < 0,5 , os dados podem ser tratados como simétricos.
Curtose - Uma outra propriedade dos dados que pode ser também mensurada pelos momentos é a curtose,
que se refere ao maior ou menor achatamento da representação gráfica dos dados, estando associada à
dispersão. Este coeficiente é calculado pela expressão:
m( 4 , x )
a4 = 2
m( 2 , x )
∑ (x ) ∑ (x )
n n
2 4
−x −x
( ) ( )
i i
onde m 2, x = i =1
e m 4, x = i =1
.
n n
A interpretação do resultado é feita da seguinte maneira.
a 4 > 3 - a curva denomina-se leptocúrtica, indicando dados com pouca variabilidade;
a 4 = 3 - a curva denomina-se mesocúrtica, indicando uma variabilidade ideal;

a 4 < 3 - a curva denomina-se platicúrtica, indicando dados com muita variabilidade.
Exemplo:
xi xi − x (x i −x ) (x
2
i −x )4
x=
30
= 6 un
2 -4 16 256
5
4 -2 4 16 ( )
m 2, x =
40
5
= 8 un2
6 0 0 0
8
10
2
4
4
16
16
256
( )
m 4, x =
544
5
= 108,8 un4
∑ = 30 0 40
544
108,8
a 4 = 2 = 1,7 Dados platicurticos
8
11 – Cálculo de medidas em dados agrupados em classes de freqüência
Em algumas situações é possível que seja necessário o cálculo de alguma medida descritiva para
representar dados já organizados em uma tabela. Se não for possível ter acesso aos dados originais, é
possível encontrar valores bastante APROXIMADOS das medidas desejadas pelas expressões
27
apresentadas a seguir.
9.1) Média aritmética – basta substituir cada classe pelo respectivo ponto médio e aplicar a expressão
usada para dados com repetições.
k
∑ (x .n ) i i
x= i =1
k
∑ni =1
i
onde: k é a quantidade de classes; x i é o ponto médio da i-ésima classe; ni freqüência da i-ésima classe.
Exemplo: (Adaptado de CALLEGARI-JACQUES, 2003) Os dados abaixo se referem a um indicador da
função hepática de vacas: quanto maior seu valor, pior está a função hepática.
indicador ni xi xi .ni
0 ├─ 10 42 5 210
1605
10 ├─ 20 31 15 465 x= = 16,89 U/mL
20 ├─ 30 10 25 250 95
30 ├─ 40 4 35 140
40 ├─ 50 1 45 45
50 ├─ 60 1 55 55
60 ├─ 70 1 65 65
70 ├─ 80 5 75 375
∑ = 95 1605
9.2) Mediana, Quartis e Decis
n 
Ai  − n ai −1 
M d = li +  
2
Mediana :
ni
onde: l i é o limite inferior da classe que contém a medida; Ai é a amplitude da classe que contém a
 k
 nai−1
medida; n é a quantidade de dados  n = ∑ ni  ; ni é a freqüência da classe que contém a medida;
 i =1 
é a freqüência acumulada da classe anterior à que contém a medida. A classe que contém a medida é
n +1
localizada pela sua posição: Posição Md =
2
 n 
Ai  j. − nai −1 
Q j = li +  
4
Quartil: j = 1,2 ou 3 .
ni
A expressão é a mesma, alterando apenas a classe que contém a medida, localizada pela sua
n +1
posição: Posição Q j = j. .
4
28
 n 
Ai  j. − n ai −1 
Pj = l i +  
100
Percentil: j = 1,2,3,.....,99. .
ni
A expressão é a mesma, alterando apenas a classe que contém a medida, localizada pela sua posição:
n +1
Posição Pj = j. .
100
Exemplo:
TGP ni nai Mediana

0 ├─ 10 42 42
95 + 1
10 ├─ 20 31 73 Posição M d = = 48
20 ├─ 30 10 83 2
30 ├─ 40 4 87 48 < 73 segunda classe
40 ├─ 50 1 88 10.(48 − 42)
M d = 10 + = 11,93 U/mL
50 ├─ 60 1 89 31
60 ├─ 70 1 90
70 ├─ 80 5 95
Primeiro Quartil Nonagésimo percentil
Posição Q1 =
95 + 1
= 24 Posição P90 = 0,9(95 + 1) = 86,4
4 83 < 86,4 < 87 quarta classe
24 < 42 primeira classe
10.(86,4 − 83)
10.(24 − 0) P90 = 30 + = 38,5 U/mL
Q1 = 0 + = 5,71 U/mL 4
42
9.5) Variância - basta substituir cada classe pelo respectivo ponto médio e aplicar a expressão usada para
dados com repetições.
2
 k 
 ∑ ( xi .ni )
∑( )
k
xi2 .ni −  
i =1
∑ [(x ) ]
k k
∑ ni
2
i − x .ni i =1
s =
2 i =1
k
ou s2 = k
i =1
∑n
i =1
i −1 ∑n
i =1
i −1
onde: k é a quantidade de classes; x i é o ponto médio da i-ésima classe; ni freqüência da i-ésima classe.
29
Exemplo:
TGP ni xi xi .ni (x i −x )
2
(x − x ) .n
i
2
i
0 ├─ 10 42 5 210 141,48 5942,36 1605

10 ├─ 20 31 15 465 3,59 111,29 x= = 16,89 U/mL
95
20 ├─ 30 10 25 250 65,70 656,95
29458,95
30 ├─ 40 4 35 140 327,80 1311,20 s2 = = 313,39 (U/mL)2
40 ├─ 50 1 45 45 789,91 789,91 95 − 1
50 ├─ 60 1 55 55 1452,01 1452,01
60 ├─ 70 1 65 65 2314,12 2314,12
70 ├─ 80 5 75 375 3376,22 16881,11
∑ = 95 1605
29458,95
30
Unidade IV – Análise Bivariada
1 - Introdução
Um estudo que necessite de uma análise de dados, na maioria das vezes, envolve várias variáveis. Também,
na maioria das vezes, é conveniente avaliar a associação entre as variáveis envolvidas como parte de um
estudo exploratório. Por exemplo, de maneira geral, em qualquer população, as pessoas de maior estatura
pesam mais e as pessoas de menor estatuta pesam menos. Pode-se dizer então que as variáveis peso e
altura de uma pessoa estão associadas ou correlacionados, o que não significa uma relação de causa e
efeito.
Além disso, muitos estudos podem ser realizados com o objetivo específico de avaliar o possível
relacionamento entre variáveis.
Existem várias técnicas que podem ser empregadas com esta finalidade e, quando aplicadas a duas variáveis
são denominadas técnicas bivariadas, podendo variar conforme sejam ambas as variáveis qualitativas,
ambas quantitativas ou uma qualitativa e outra quantitativa.
2 – Variáveis quantitativas
A primeira etapa de qualquer análise desta natureza em variáveis quantitativas consiste no traçado de um
gráfico denominado diagrama de dispersão, construído em um sistema de coordenadas cartesianas. Neste
sistema são plotados pontos que representam um par de resultados das variáveis observadas.
Os dados da tabela 4.1 representam as variáveis tempo de execução de determinada tarefa (x) e idade (y)
em uma amostra de 06 trabalhadores da zona rural, com médias, respectivamente, de 5,34 horas e 42,5
anos, que representadas em um sistema de coordenadas geram o gráfico apresentado na figura 4.1.
TABELA 4.1: Tempo de atividade física semanal e idade

Pessoa 01 02 03 04 05 06
Tempo, em horas (X) 3 3 4 6 6 10
Idade, em anos (Y) 34 38 40 45 48 50
FIGURA 4.1 – Idade e tempo de execução de determinada tarefa de um grupo de entrevistados. RJ, 2009
55
50
idade (anos)
45
40
35
30
25
0 3 6 9 12
tempo (horas)
Este gráfico sugere a existência de alguma relação entre as variáveis (a medida que x aumenta, y também
parece aumentar), podendo-se partir para uma avaliação mais aprofundada que consistiria em medir a
intensidade da correlação por meio de um coeficiente.
A maneira mais simples de verificar se duas variáveis quantitativas estão correlacionadas é verificar se ela
variam conjuntamente, ou seja, se a medida que uma se afasta de sua média, a outra também se afasta de
sua média.
31
FIGURA 4.2: Tempo de execução de determinada tarefa (a) e idade (b)
(a) (b)
12 55
10 50
Tempo (horas)
Idade (anos)
8 45
6 40
4 35
2 30
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 7
Pessoa Pessoas
Os gráficos (a) e (b) da figura 4.2 evidenciam que para ambas as variáveis as três primeiras pessoas estão
abaixo da média e as outras acima. Elas parecem variar em torno da média da mesma forma, o que sugere
algum tipo de associação.
A variabilidade de um conjunto de dados associados a uma variável pode ser medida a partir dos
afastamentos dos valores em relação à sua média, ou seja, por sua variância:
∑ (x ) ∑ (x )( )
n n
2
i −x i − x . xi − x
s =
2 i =1
= i =1
n −1 n −1
Para avaliar a variabilidade entre duas variáveis é necessário verificar se as mudanças que ocorrem em uma
delas ocorrem também na outra. Isto pode ser avaliado pelo produto dos afastamentos em relação á média
de cada uma das variáveis, ou seja:
∑ (x )( )
n
i − x . yi − y
s =
2 i =1
n −1
Esta medida é denominada de covariância. Se ambos afastamentos forem positivos ou negativos, o produto
será positivo, indicando variação no mesmo sentido. Quando uma variável se afasta de sua média, a outra
também se afasta de sua média no mesmo sentido. Se um afastamento for positivo e o outro negativo, o
produto será negativo, indicando que as variáveis variam em sentidos contrários.
O grande inconveniente desta medida para avaliar a associação entre variáveis é que ela depende da escala
usada na mensuração das variáveis. Dois resultados só podem ser comparados se as variáveis forem
medidas com a mesma unidade. Tal fato sugere a necessidade de padronização.
A unidade de medida usada na padronização é o desvio padrão, ou seja, a covariância será expressa em
unidades de desvio padrão, dando origem a um coeficiente denominado de coeficiente de correlação de
Peason.
cov( x, y )
rx , y = .
s x .s y
32
Para realizar o cálculo é melhor utilizar a fórmula modificada:
n.∑ ( x. y ) − (∑ x )(
. ∑ y)
rx , y =
[n.∑ x ][ ]
, onde x e y são as variáveis observadas e n, a quantidade de
− (∑ x ) . n.∑ y 2 − (∑ y )
2 2 2
observações.
Padronizando a covariância são encontrados valores que variam entre –1 e +1.
R=+1 Correlação perfeita positiva

0 < R < +1 Correlação positiva
R=0 Não há correlação
-1 < R < 0 Correlação negativa
R=-1 Correlação perfeita negativa
Estes resultados podem ser associados aos diagramas de dispersão apresentados na figura 4.3.
FIGURA 4.3: Diagramas de dispersão
R=-1 -1 < R < 0 R=0
0 < R < +1 R=+1
A partir deste coeficiente também é possível determinar o coeficiente de determinação (r2), que indica
quanto por cento da variação de Y (X) pode ser explicado estatisticamente pelo conhecimento de X (Y).
Exemplo:
Par x y xy x2 y2
1 3 34 102 9 1156
2 3 38 114 9 1444
3 4 40 160 16 1600
4 6 45 270 36 2025
5 6 48 288 36 2304
6 10 50 500 100 2500
32 255 1434 206 11029
33
6.(1434) − (32)(
. 255)
rx , y = = 0,8996
[6.(206) − (32) ].[6.(11029) − (255) ]
2 2
Existe correlação linear positiva e forte entre idade e tempo de execução da tarefa, ou seja, na amostra
analisada, as pessoas com mais idade demoram mais para executar a tarefa.
O coeficiente de determinação é 0,809, o que significa que a variação de uma variável explica 80,9% da
variação da outra.
Existem vários coeficientes que podem ser utilizados para medir a intensidade de uma correlação entre
variáveis medidas quantitativamente. Para que se possam fazer inferências, a utilização de um ou de outro
depende de escolha algumas propriedades dos dados. O coeficiente de correlação linear de Pearson, por
exemplo, requer:
- pares relacionados – cada valor de X corresponde a um valor de Y;
- variáveis medidas em escala quantitativa;
- normalidade para ambas as variáveis;
- linearidade entre as variáveis X e Y;
- homocedasticidade – variâncias das variáveis X e Y semelhantes.

3 – Variáveis qualitativas
A primeira etapa de qualquer análise desta natureza consiste na construção de tabelas de contingência ou
tabelas de dupla entrada.
A planilha abaixo apresenta duas variáveis: tipo de prova (1-tipo 1, 2-tipo 2) e sexo (1-feminino e 0-
masculino) relativa aos alunos que estiveram presentes na primeira prova da disicplina de Estatística Básica
-T01, em 21/10/2009.
aluno tipo p sexo aluno tipo p sexo aluno tipo p sexo

1 1 1 14 2 0 26 2 0
2 1 0 15 2 1 27 2 0
3 2 1 16 2 1 28 2 1
4 2 0 17 2 0 29 2 0
5 2 0 18 1 1 30 2 0
6 1 1 19 1 1 31 1 0
7 2 1 20 2 1 32 1 0
8 2 1 21 2 1 33 2 1
9 2 1 22 1 0 34 1 0
10 1 1 23 2 0 35 1 1
11 1 0 24 1 0 36 2 1
12 2 1 25 1 1 37 2 0
13 1 0
Estas variáveis, a partir da frequência de ocorrência de cada uma delas, podem ser organizadas em uma
tabela da seguinte maneira:
TABELA 4.2: Distribuição dos alunos de Estatística Básica -T01 que realizaram a prova em 21/10/2009
34
sexo
Tipo de prova
Masculino Feminino Total
Tipo 1 8 7 15
Tipo 2 10 12 22
Total 18 19 37
Estes valores podem ser transformados em percentagens em relação aos totais por linha (Tabela 4.3) e em
relação aos totais por coluna. Para analisar a associação entre variáveis qualitativas deve-se observar se a
distribuição de uma delas é alterada conforme a categoria da outra. Pela tabela 4.3, observa-se que existe
divergência na distribuição dos alunos por sexo, por tipo de prova, sugerindo associação entre as variáveis.
Tabela 4.3: Distribuição dos alunos de Estatística Básica -T01 que realizaram a prova em 21/10/2009
sexo
Tipo de prova
Tipo 1 53,3% 46,7% 100%
Tipo 2 45,5% 54,5% 100%
Total 48,6% 51,4% 100%
Considerando as proporções de alunos do sexo masculino (48,6%) e feminino (51,4%), determina-se a

quantidade de alunos esperada destas categorias para cada tipo de prova (tabela 4.4). A associação é
avaliada pelo afastamento dos valores observados (noij - frequencias da tabela 4.2) dos valores
teoricamente esperados se não houvesse associação (neij - frequencias da tabela 4.4).
sexo
Tipo de prova
Tipo 1 7 8 (15) 100%
Tipo 2 11 11 (22) 100%
Total (18) 48,6% (19) 51,4% (37) 100%
Estes afastamentos ou desvios são elevados ao quadrado para eliminação dosinal, sendo representados por
valores relativos, ou seja:
(no − neij )
2
afastamentoij =
ij
neij
A estatística que mede os afastamentos de totas as frequencias consideradas chama-se quiquadrado,
sendo encontrada pela soma de todos os afastamentos relativos, ou seja:
35
r  (noij − neij )2 
s
χ = ∑∑ 
2

i =1 j =1  ne 
 ij
A intensidade da associação é medida pelo coeficiente de contingência, encontrado pela expressão

χ2
C= , onde n é a quantidade de observações (tamanho da amostra). A interpretação deste
χ2 +n
coeficiente é similar a anterior. Entretanto, além de não assumir valores negativos, muitas vezes não atinge
1, pois seu valor máximo depende da quantidade de categorias das variáveis envolvidas. Um novo
χ2
coeficiente, o coeficiente de contingência corrigido é encontrado pela expressão T= n , que
(r − 1)(. s − 1)
atinge valor máximo quando r=s.
Exemplo:
sexo
Tipo de prova
Masculino Feminino
Tipo 1 8 / 7 7 / 8
Tipo 2 10 / 11 12 / 11
χ2 =
(8 − 7 )2 + (10 − 11)2 + (7 − 8)2 + (12 − 11)2 = 0,449675
7 11 8 11
χ2
χ2 n
C= = 0,1096 T= = 0,1102
χ2 +n (r − 1)(. s − 1)
OBS: Neste cálculo, com finalidade pedagógica, os valores das frequencias esperadas foram arredondadas.
Conclusão: Existe associação muito fraca entre sexo e tipo de prova. Na amostra analisada, existe uma leve
tendência dos alunos do sexo feminino terem recebido mais provas do tipo 1 que os alunos do sexo
masculino.
Observação 1: Os percentuais também podem ser determinados por coluna, conforme Tabela 4.5.
sexo
Tipo de prova
Tipo 1 44,4% 36,8% 40,5%

Tipo 2 55,6% 63,2% 59,5%
Total 100% 100% 100%
Observação 2: As frequencias esperadas podem ser determinadas por:
neij =
∑ linha * ∑ coluna
∑ total
36
4 – Variáveis qualitativas e quantitativas
Nestes casos, para a variável quantitativa, são utilizadas medidas descritivas (n, x , s, s2, Md, Q1, Q3, dq,
Xmin e Xmax) e box plots, determinados por categoria da variável qualitativa. Histogramas e ramo e folhas
também podem ser úteis.
Considere as variáveis nota e sexo (1-feminino e 0-masculino) realtiva aos alunos que estiveram presentes
na primeira prova da disicplina de Estatística Básica - T01, em 21/10/2009.
Como a variável qualitativa apresenta duas categorias, divide-se o grupo em dois (masculino e feminino) e
calculam-se as medidas descritivas, apresentadas na Tabela 4.6. Após, traçam-se box plots, um para cada
categoria da variável qualitativa, conforme o apresentado na Figura 4.4.
A análise dos resultados sugere que existe relação entre as duas variáveis e que os alunos do sexo
masculino se sairam um pouco melhor que os do sexo feminino.
Tabela 4.6 – Medidas descritivas da variável nota, segundo o sexo
Sexo n x s s2 Md Q1 Q3 dq Xmin Xmax
Masc 18 5,73 1,63 2,64 5,2 4,52 6,77 2,2 3,5 9,6
Fem 19 4,69 1,89 3,59 4,8 3,10 6,00 2,9 1,7 8,3
FIGURA 4.4 – Box Plot da variável nota, segundo o sexo
37
Unidade V – Probabilidade
1 - Experiência aleatória ou fenômeno aleatório

Freqüentemente, tanto na vida pessoal como profissional, somos obrigados a tomar decisões. Quando esta
decisão está associada a um fenômeno determinístico, ela é simples porque sabemos o que vai acontecer.
Entretanto, o mesmo não acontece se nossa decisão estiver associada ou depender do resultado de um
fenômeno aleatório, porque, neste tipo de experiência, o resultado não pode ser previsto com certeza.
Temos que tomar a decisão lidando com a incerteza.
Os exemplos clássicos de fenômenos aleatórios estão relacionados a jogos de azar, como:

a) jogar uma moeda e observar a face que cai voltada para cima. Não sabemos qual a face que vai
ocorrer, apenas que será uma das duas existentes;
b) jogar um dado e observar a face que cai voltada para cima. Não sabemos qual a face que vai
ocorrer, apenas que será uma das seis existentes;
c) observar o peso, em Kg, de bebes recém nascidos. Sabemos que os resultados estão em um
intervalo, mas não sabemos o peso de determinado bebê antes de medi-lo;
d) número de alunos que assistem a uma aula. Sabemos apenas que o máximo é a quantidade de alunos
matriculados na disciplina.
Em situações de incerteza, normalmente tomamos a decisão em função do resultado que tem maior
probabilidade de ocorrência. Nestas situações, os modelos probabilísticos são extremamente úteis porque
conseguem descrever de maneira razoável o comportamento probabilístico dos resultados do fenômeno que
está sendo observado.
2 – Espaço amostral
Associados a uma experiência aleatória estão os seus possíveis resultados. Dá-se o nome de espaço
amostral, ao conjunto destes possíveis resultados, sendo representado por Ω.
No exemplo a, Ω = {cara, coroa}

No exemplo b Ω = {1,2,3,4,5,6}.
No exemplo c, {
Ω = x 1≤ x ≤ 8 . }
No exemplo d, Ω = {x 0 ≤ x ≤ n}, sendo n a quantidade de alunos matriculados.
Um espaço amostral pode ser:

finito – quando apresenta uma quantidade limitada de resultados possíveis, como o exemplo a;
infinito – quando é formado por uma quantidade infinita de resultados;

enumerável – quando os possíveis resultados podem ser listados;
não-enumerável – quando os possíveis resultados não podem ser listados, sendo representados pelo
conjunto dos números reais ou intervalos contidos neste conjunto.
Um espaço amostral enumerável é dito discreto, enquanto um espaço não-enumerável é dito contínuo.
3 – Ponto amostral
38
Cada elemento de um espaço amostral é denominado ponto amostral. Por exemplo, o espaço amostral
correspondente ao lançamento de um dado, ( Ω = {1,2,3,4,5,6}), contém 6 pontos amostrais.
A quantidade de pontos amostrais de um espaço amostral é usualmente representada por n.
4 - Evento
Qualquer subconjunto de um espaço amostral que se tenha interesse em estudar é denominado de evento,
sendo representado normalmente por qualquer letra maiúscula do alfabeto. Por exemplo, no lançamento de
um dado, é possível definir um evento A como sendo a ocorrência de número par, logo, A = {2,4,6} .
Como Ω e os eventos a ele associados são conjuntos, é possível realizar com os eventos as mesmas
operações realizadas com conjuntos, logo:
- o conjunto A U B representa a ocorrência do evento A ou do evento B;
- o conjunto A ∩ B representa a ocorrência do evento A e do evento B;
- o conjunto A representa a não ocorrência do evento A;

- o conjunto A − B representa a ocorrência do evento A e não ocorrência do evento B.
Existem alguns eventos que recebem uma denominação especial:

- evento impossível é o evento representado pelo conjunto vazio;
- evento certo é o evento representado pelo espaço amostral;

- eventos mutuamente exclusivos são eventos representados por conjuntos disjuntos ( A ∩ B = ∅).
Convém salientar que pode existir mais de uma maneira de representar um espaço amostral. Por exemplo,
ao lançar duas moedas, posso dizer que os resultados possíveis são: ocorrência de nenhuma cara, de uma
cara ou de duas caras, como também posso dizer que são CC, CK, KC ou KK. A escolha entre estas duas
maneiras depende do fato de ser ou não importante a ordem em que os resultados ocorrem.
5 – Conceitos de probabilidade
Sempre que formos encontrar um valor de probabilidade, ele deve estar associado a um evento: o valor
encontrado quantifica a possibilidade do evento ocorrer.
5.1 – Conceito clássico ou probabilidade a priori
Seja Ω um espaço amostral composto por n pontos amostrais equiprováveis. A probabilidade do evento A
ocorrer, P( A) , é dada pela razão entre o número de pontos amostrais favoráveis à realização deste evento
(nA ) e o número de pontos amostrais de Ω, ou seja:
P( A) =
nA
n
Exemplo: Seja A o evento ocorrência do número quatro no lançamento de um dado. No espaço amostral
correspondente, Ω = {1,2,3,4,5,6}, existe apenas um resultado favorável à ocorrência do evento A, pois
A = {4} . Sua probabilidade de ocorrência será:
P ( A) =
nA 1
=
n 6
Exemplo: Seja B o evento ocorrência do número par no lançamento de um dado. Considerando que no espaço
amostral Ω = {1,2,3,4,5,6} existem três resultados favoráveis à ocorrência do evento B, pois B = {2,4,6} ,
sua probabilidade de ocorrência será:
39
P ( A) =
nA 3 1
= =
n 6 2
Este conceito clássico possui algumas restrições, pois só pode ser usado em situações em que o espaço é
finito, enumerável e equiprovável.
5.2 – Conceito estatístico ou probabilidade a posteriori
Calcula-se a probabilidade como freqüência relativa. Considere uma seqüência de repetições de uma mesma
experiência sob condições idênticas. Seja nA,o número de ocorrências do evento A e n, o número de vezes
( )
em que a experiência foi repetida. A probabilidade do evento A ocorrer, P A , á dada por:
P( A) = lim
nA
n →∞ n
À medida que o número de repetições da experiência aumenta, a freqüência relativa se aproxima do valor
da probabilidade. Este conceito, além de necessitar de um “n” grande, o que é bastante subjetivo, tem o
inconveniente, assim como o conceito clássico, de não ser aplicado a espaços contínuos.
Exemplo: Em 600 lançamentos de um dado, o número 4 ocorreu 150 vezes. Qual a probabilidade de, num
lançamento deste mesmo dado, obter-se o número 4?
A = ocorrência de 4 no lançamento de um dado
P ( A) =
150 1
=
600 4
6 – Axiomas da probabilidade
Seja um experimento aleatório e um espaço amostral Ω associado a ele. A cada evento Ai, associaremos um
número real denominado probabilidade de ocorrência de Ai, P ( Ai ) , que deve satisfazer os seguintes
axiomas:
a) 0 ≤ P( Ai ) ≤ 1 ;
b) P(Ω ) = 1 ;
c) se A1 , A2 ,..., An são eventos mutuamente exclusivos, então
P( A1 ∪ A2 ∪ ... ∪ An ) = P( A1 ) + P( A2 ) + ... + P( An ) .
Exemplo: Consideremos a experiência de lançamento de um dado, que tem como espaço amostral o conjunto
Ω = {1,2,3,4,5,6}. É certo que um destes resultados irá ocorrer, logo, P(Ω ) = 1 . Consideremos que A1
representa a ocorrência da face 2 e A2, a ocorrência da face 4, portanto, P ( A1 ) = 1 6 e P ( A2 ) = 1 6 .
Estes eventos são mutuamente exclusivos e a probabilidade de união é dada pela soma das probabilidades
de cada um.
Pelo conceito clássico, tem-se:
P( A1 ∪ A2 ) = P({2,4}) =
2 1
= .
6 3
Pelo axioma, tem-se:
P( A1 ∪ A2 ) = P( A1 ) + P( A2 ) =
1 1 2 1
+ = = .
6 6 6 3
40
7 – Propriedades elementares da probabilidade
Os axiomas descritos no item 6 originam uma série de propriedades.

7.1 – Se Ǿ é o evento impossível, então P(∅) = 0.
7.2 - Para qualquer evento ()

A ⊆ Ω , sendo A o complementar de A, então P A = 1 − P ( A) .
7.3 – Se A1 e A2 são dois eventos quaisquer, não necessariamente mutuamente exclusivos, então:
P( A1 ∪ A2 ) = P( A1 ) + P ( A2 ) − P( A1 ∩ A2 ) .
Esta propriedade é também conhecida como teorema da soma ou regra da soma das probabilidades,
podendo ser generalizada para k eventos de um espaço amostral Ω. Neste caso:
P ∪ Ai  = ∑ P( Ai ) − ∑ P (Ai ∩ A j ) +... + (− 1) P( A1 ∩ A2 ∩ ... ∩ Ak )

 k  k
k +1
 i =1  i< j
8 – Probabilidade Condicional
Em muitas situações, as ocorrências de dois eventos estão relacionadas. Por exemplo, considere a
experiência de escolher aleatoriamente uma palavra em um dicionário da língua portuguesa. Seja A o evento
ocorrência da letra u nesta palavra e B, o evento ocorrência de letra q nesta mesma palavra. O evento A
tem uma certa probabilidade de ocorrência, mas, ao saber que B ocorreu, A tem maior chance de
acontecer, pois a letra q raramente ocorre em uma palavra sem vir seguida da letra u.
Podemos então, calcular a probabilidade de ocorrência de A, condicionada à ocorrência de prévia de B. Esta

probabilidade, denominada de probabilidade condicional é representada por P( A B ).
Como desejamos encontrar a probabilidade de A ocorrer, sob a condição de que B tenha ocorrido, parece
razoável encontrar esta probabilidade proporcional a P( A ∩ B ) , que seria definida a partir da relação
entre o evento A ∩ B e o próprio evento B. Parece razoável considerá-la como uma relação entre o
tamanho de A ∩ B e o tamanho de B, sendo este tamanho mensurado pela probabilidade, logo:
P( A ∩ B )
P(A B ) =
P (B )
A única restrição refere-se ao fato de que P(B ) > 0 . Seja o exemplo:
TABELA 5.1: Distribuição dos alunos segundo sexo e curso, Universidade X, ano 2009
Curso Alunos Total
Homens Mulheres
Matemática 70 40 110
Física 15 15 30
Estatística 10 20 30
Computação 20 10 30
Total 115 85 200
Um aluno é selecionado aleatoriamente do grupo descrito na tabela 5.1. Qual a probabilidade de seja um
aluno do curso de estatística?
P (E ) =
30
200
Qual a probabilidade de que seja um aluno do curso de estatística, sabendo-se que é do sexo feminino?
41
20 20 200 P (E ∩ F )
P(E F ) = = =
85 85 / 200 P (F )
Exemplo: Dois dados são lançados simultaneamente, sendo observadas as faces voltadas para cima.
Encontre a probabilidade de saírem faces iguais, sabendo que a soma é menor ou igual a 5.
A = faces iguais
B = soma menor ou igual a cinco
P( A ∩ B ) 2 36
P(A B ) =
2 1
= = =
P (B ) 10 36 10 5
9 – A regra do produto
Uma das conseqüências da probabilidade condicional é a regra do produto, obtida ao se isolar a

probabilidade da intersecção, ou seja:
P( A ∩ B )
P(A B ) =
P (B )
P( A ∩ B ) = P(B ).P ( A B )
Esta é a expressão usada para encontrar a probabilidade de ambos os eventos, A e B, ocorrerem. O
evento condicionado é B, mas o inverso também é possível.
P( A ∩ B ) = P( A).P(B A)
Para três eventos, a regra do produto pode ser escrita como:
P( A ∩ B ∩ C ) = P( A).P(B A).P(C A ∩ B )
É importante que seja observada a seqüência lógica dos eventos para elaborar as expressões.
Exemplo: Uma comissão é composta por 4 pessoas com sangue fator Rh- e 8 pessoas com sangue fator Rh+.
Escolhem-se, sem reposição, duas pessoas.
a) Qual a probabilidade de que ambas tenham sangue fator Rh-?
P( A1 ∩ A2 ) = P( A1 ).P ( A2 A1 ) =
4 3 1
. =
12 11 11
b) Qual a probabilidade de que só uma possua sangue fator Rh-?
P( A1 ∩ V2 )∪ P(V1 ∩ A2 ) = P( A1, V2 )+ P(V1 , A2 ) = P( A1 ).P (V2 A1 ) + P(V1 ).P( A2 V1 ) =

8 8 16
+ =
33 33 33
10 – Eventos independentes
Dois eventos são ditos independentes quando a ocorrência de um não influencia a ocorrência do outro, ou
seja:
P ( A B ) = P ( A) e P ( B A ) = P ( B ) .
Caso esta igualdade não se verifique, os eventos são ditos dependentes.
42
Exemplo: Uma caixa contém 5 bolinhas azuis e 4 verdes. A probabilidade de extração de uma segunda
bolinha de cor verde dependente da cor ocorrida na primeira extração. Se esta foi verde, a probabilidade
da segunda também ser será 3/8; se foi azul, 4/8.
11 – Teorema da probabilidade total
Considere um espaço amostral Ω particionado em k eventos: B1 , B2 ,...., BK , satisfazendo as seguintes

condições:
i) Bi ∩ B j = φ para todo i ≠ j;
k
ii) U Bi = Ω ;
i =1
iii) P(Bi ) > 0 para i = 1, 2, ..., k.

Seja A um evento qualquer desse espaço amostral. Então:
A = ( A ∩ B1 ) ∪ ( A ∩ B2 ) ∪ ....... ∪ ( A ∩ Bk )
Como Bi ∩ B j = φ , os eventos A ∩ Bi são mutuamente exclusivos, logo:
P( A) = P( A ∩ B1 ) + P( A ∩ B2 ) + ....... + P( A ∩ Bk )
Pela regra da multiplicação, tem-se:
P( A) = P(B1 ).P( A B1 ) + P(B2 ).P( A B2 ) + ....... + P(Bk ).P( A Bk )

k
P( A) = ∑ P(Bi ).P( A Bi )
i =1
Esta expressão é conhecida como teorema da probabilidade total.

Exemplo: Um Instituto de Ciências Exatas é composto por professores de Física, Química, Estatística,
Matemática e Computação. De acordo informações obtidas na secretaria, 10% dos professores lecionam
disciplinas de Física, 15% lecionam disciplinas de Química, 15% lecionam disciplinas de Computação, 40%
lecionam disciplinas de Matemática e 20% lecionam disciplinas de. Estatística. Considerando que são do
sexo feminino 10% dos professores de Física, 20% dos professores de Química, 5% dos professores de
Computação, 20% dos professores de Matemática e 80% dos professores de Estatística. Se um professor
for escolhido aleatoriamente, qual a probabilidade de que seja do sexo feminino?
P(F ) = 0,1 P(Q ) = 0,15 P(C ) = 0,15 P(M ) = 0,4 P(E ) = 0,2
P(Fe F ) = 0,1 P(Fe Q ) = 0,2 P(Fe C ) = 0,05
P(Fe M ) = 0,2 P(Fe E ) = 0,8
P(Fe ) = P(F ).P(Fe F ) + P(Q ).P(Fe Q ) + P (C ).P(Fe C ) + P(M ).P(Fe M ). + P(E ).P(Fe E )
P(Fe) = 0,1 * 0,1 + 0,15 * 0,2 + 0,15 * 0,05 + 0,4 * 0,2 + 0,2 * 0,8
P(Fe) = 0,2875
12 – Teorema de Bayes
43
O teorema de Bayes, deduzido a partir do teorema da probabilidade total, permite encontrar a
probabilidade de ocorrência de um dos eventos Bi sob a condição do evento A ter ocorrido.
Pela expressão da probabilidade condicional, tem-se:
P(Bi ∩ A)
P(Bi A) =
P ( A)
Pela regra do produto e pelo teorema da probabilidade total, tem-se:
P(Bi ).P( A Bi )
P(Bi A) = k
∑ P(B ).P( A B )
i =1
i i
Exemplo: Considerando o exemplo anterior, qual a probabilidade de que o professor seja de Estatística se
for do sexo feminino?
P(E ).P(Fe E ) 0,2 * 0,8

P(E Fe ) = = = 0,5565
P(Fe ) 0,2875
Apêndice da unidade V
(A) Teoria dos conjuntos
1 - Conceitos
Um conjunto é formado por um grupo ou uma coleção de elementos. Para identificá-lo normalmente são
usadas letras maiúsculas do alfabeto, podendo ser definidos por uma propriedade ou pela listagem de todos
os seus elementos.
Ex: Seja U o conjunto das letras do alfabeto e V o conjunto de vogais. Eles poderiam ser representados,
respectivamente, por:
U = {a, b, c, d , e, f , g , h, i, j, k , l , m, n, o, p, q, r , s, t , u , v, x, y, z}
e
V = {a, e, i, o, u}.
Ex: Seja A o conjunto dos números naturais menores que 10. Ele pode ser representado por:
{
A = x x ∈ N e x < 10 }
Para definir a relação ente um elemento e um conjunto podem ser utilizadas as relações pertence ( ∈ ) e
não pertence ( ∉ ). Por exemplo, considerando os conjuntos descritos anteriormente, é possível dizer que
b ∈ U e que b ∉ V . Já a ∈ U e a ∈ V .
Para definir a relação entre conjuntos podem ser utilizadas as relações está contido ( ⊂ ) e não está
contido ( ⊄ ). Por exemplo, é possível dizer que V ⊂ U .
OBS 1: Se A ⊂ B , é possível afirmar que A é subconjunto de B.

OBS 2: É possível afirmar que ∅ é subconjunto de qualquer conjunto.
2. Operações
44
- União: Os elementos do conjunto A ∪ B pertencem a pelo menos um dos conjuntos A ou B, ou seja:
{
A ∪ B = x x ∈ A ou x ∈ B . }
- Intersecção: Os elementos do conjunto A ∩ B pertencem aos dois conjuntos A e B simultaneamente, ou
seja: {
A∩ B = x x∈ A e x∈B . }
FIGURA 5.1: Diagrama de Venn de A∪ B FIGURA 5.2: Diagrama de Venn de A ∩ B
OBS: Dois conjuntos são denominados disjuntos quando A ∩ B = Ǿ.
- Diferença: Os elementos do conjunto A − B pertencem ao conjunto A e não pertencem ao conjunto B, ou

seja: A − B = {x x ∈ A e x ∉ B}.
- Complemento: Os elementos do conjunto A pertencem ao conjunto Ω e não pertencem ao conjunto A, ou

seja: {
CA = A = x x ∈ Ω e x ∉ A . }
FIGURA 5.3: Diagrama de Venn de A − B FIGURA 5.4: Diagrama de Venn de A
3 – Algumas propriedades
Propriedade 1: Se A ⊂ B e B ⊂ C , então A ⊂ C Propriedade 2: A ∪ B = B ∪ A
Propriedade 3: ( A ∪ B ) ∪ C = A ∪ (B ∪ C ) = A ∪ B ∪ C Propriedade 4: A ∩ B = B ∩ A
Propriedade 5: ( A ∩ B ) ∩ C = A ∩ (B ∩ C ) = A ∩ B ∩ C Propriedade 6: A ∩ ∅ = ∅
Propriedade 7: A ∩ ( B ∪ C ) = ( A ∩ B ) ∪ ( A ∩ C ) Propriedade 8: A ∪ Ω = Ω
Propriedade 9: A ∪ ( B ∩ C ) = ( A ∪ B) U ( A ∪ C ) Propriedade 10: A − B = A ∩ B
Propriedade 11: Se A ⊂ B , então A ⊃ B ou B ⊂ A Propriedade 12: A ∪ ∅ = A
Propriedade 13: A∩Ω = A Propriedade 14: A∪ B = A∩ B

45
Propriedade 15: A ∩ B = A ∪ B
(B) Avaliação da qualidade de um exame diagnóstico

Muitas vezes, um médico faz um diagnóstico baseado em um exame, que pode apresentar um resultado
correto ou não. A teoria da probabilidade auxiliá-lo para encontrar a capacidade que um exame tem de
acertar o verdadeiro diagnóstico.
Sensibilidade – representa a proporção entre o número de indivíduos doentes, cujo exame resultou
positivo, e o número total de indivíduos doentes.
Especificidade – representa a proporção entre o número de indivíduos sadios, cujo exame resultou
negativo, e o número total de indivíduos sadios.
Falso positivo – representa a proporção entre o número de indivíduos sadios, cujo exame resultou positivo,
e o número total de indivíduos com resultado positivo.
Falso negativo – representa a proporção entre o número de indivíduos doentes, cujo exame resultou
negativo, e o número total de indivíduos com resultado negativo.
Diagnóstico Total
Resultado Doença (+) Doença (-)
do Exame (+) A (+ +) B (+ -) A+B
Exame Exame (-) C (- +) D (- -) C+D
A+C B+D A+B+C+D
A D
Sensibilidade = Especificidade =
A+C B+D
P( falso − positivo ) = P( falso − negativo ) =
B C
A+ B C+D
Exemplo: (Calegari, 2000). Os dados da tabela 5.2 apresentam informações de resultados de exame e
diagnósticos de doença.
TABELA 5.2 – Eletrocardiograma de esforço como um indicador de estenose das coronárias quando a
doença está presente em metade dos homens examinados.
Eletrocardiograma de Mais de 75% de estenose Total
esforço Presente Ausente
Positivo 55 7 62
Negativo 49 84 133
Total 104 91 195
A partir destas informações, é possível determinar que:

55 84
Sensibilidade = = 0,5288 Especificidade = = 0,9231
55 + 49 84 + 7
P( falso − positivo ) = P( falso − negativo ) =
7 49
= 0,1129 = 0,3684
55 + 7 49 + 84
46
VI – Variável aleatória discreta
1 – Variável aleatória
Uma variável aleatória (x) é uma função que associa cada ponto amostral a um número real. O conjunto
domínio desta função é, portanto, um espaço amostral.
Quando a variável é medida qualitativamente, por meio das escalas nominal ou ordinal, é usual considerar a
variável aleatória x como o número de vezes que pode ocorrer uma das classes ou categorias.
Por exemplo, ao lançar uma moeda o espaço amostral é o conjunto composto por cara e coroa, ou seja:
Ω = {K , C }. Seja a função “número de vezes que pode ocorrer a face cara”: x = 0 se ocorrer a face coroa
(K) e x = 1 se ocorrer a face cara (C). O conjunto domínio desta função será Ω = {0,1} .
Toda variável aleatória pode ser classificada em discreta ou contínua. Ela é discreta quando puder ser
enumerada, resultando normalmente da enumeração ou contagem de elementos. Exemplos: número de
animais em uma propriedade rural, número de árvores utilizadas no projeto paisagístico de um parque,
número de suínos abatidos no RJ, número de nascimentos em determinado município, quantidade de pessoas
com alergia respiratória, entre outros.
Ela é contínua quando não puder ser enumerada, apresentando como conjunto domínio o conjunto dos
números reais ou um intervalo deste conjunto dos números reais. Exemplos: peso de crianças de uma escola,
escores de um instrumento que avalia a qualidade de vida, taxa de hemoglobina de um grupo de pacientes,
comprimento de carcaças de animais abatidos, etc.
2 - Distribuição de probabilidade
Uma distribuição de probabilidade ou função de probabilidade é uma função que associa cada valor de uma
variável aleatória x à sua probabilidade de ocorrência.
Seja X uma variável aleatória que assume os valores x1 , x 2 , ... , x k , então P( x = xi ) = p i , sendo i = 1, 2,
..., k.
k
Em uma função de probabilidade pi ≥ 0 , para qualquer i, e ∑p
i =1
i = 1.
Uma função de probabilidade também pode ser classificada em discreta ou contínua conforme a variável
aleatória x seja discreta ou contínua.
Normalmente para representar as distribuições discretas de probabilidade são listados os possíveis

valores da variável aleatória x, bem como suas respectivas probabilidades de ocorrência.
Exemplo: No lançamento de uma moeda, o espaço amostral é dado por: Ω = {K , C }. Considerando a variável
aleatória x como o número de vezes que pode ocorrer a face cara e que a probabilidade de ocorrência de
cada um destes resultados é ½, tem-se:
x f(x)
0 1/2
1 1/2
Observe que P( x = 0 ) > 0 ; P( x = 1) > 0 e P( x = 0) + P ( x = 1) = 1 .
47
As distribuições de probabilidade podem ser consideradas análogas às distribuições de freqüência,
considerando que elas tentam representar o futuro.
Outra maneira de representar esta distribuição seria:
1 se x = o
 2

p( x ) =  1 se x = 1
2

0 caso contrário
Exemplo: (adaptado de ARANGO, 2001) Suponha que para um fiscal, o número máximo de visitas diárias a
propriedades rurais esteja limitado em quatro. Definindo a variável aleatória x como número de
propriedades rurais visitadas por dia, tem-se a seguinte função de probabilidade do número de
propriedades visitadas:
x P(x)
0 0,004
1 0,046
2 0,211
3 0,422
4 0,317
4
P( x = xi ) > 0 , para qualquer i e ∑ P(x = x ) = 1.0 i
i =0
Função de distribuição acumulada: P ( x ≤ xi ) = F ( xi )

x P(x) F(x)
0 0,004 0,004
1 0,046 0,050
2 0,211 0,261
3 0,422 0,683
4 0,317 1,000
4 Medidas de uma distribuição de probabilidade

Assim como as distribuições de freqüência, as distribuições de probabilidade podem ser resumidas e
representadas por medidas. Normalmente é usada uma medida para representar a tendência central e
outra para representar a variabilidade.
A tendência central é representada pela média, que recebe o nome de valor esperado, esperança
matemática ou expectância. Para representar a variabilidade é utilizada a variância e/ou o desvio padrão.
Nas distribuições de probabilidade discretas, estas medidas são calculadas de forma análoga às medidas
equivalentes na distribuição de freqüência.
48
Medida Distribuição de Distribuição de probabilidade
freqüência
k
Valor esperado ou média ∑ (x . f ) k

E ( x ) = µ = ∑ [xi .P( xi )]
i i
x= i =1
k
∑f
i =1
i
i =1
Variância
[ ]
k
V ( x ) = σ 2 = ∑ ( xi − µ ) .P( xi )
∑ [(x − x ) . f ]
2
k
2
i =1
i i
ou
s2 = i =1
[ ]
k k
∑f −1 V ( x ) = σ 2 = ∑ xi2 .P( xi ) − [E ( x )]
2
i
i =1 i =1
Desvio-padrão
s = s2 DP( x ) = σ = σ 2
Exemplo:
xi P(xi ) xi2 xi .P( xi ) xi2 .P( xi )

0 0,004 0 0 0
1 0,046 1 0,046 0,046
2 0,211 4 0,422 0,844
3 0,422 9 1,266 3,798
4 0,317 16 1,268 5,072
3,002 9,76
k
E ( x ) = µ = ∑ [xi .P( xi )] = 3,002
i =1
[ ]
k
V ( x ) = σ 2 = ∑ xi2 .P ( xi ) − [E ( x )] = 9,76 − 3,002 2 = 0,7480
2
i =1
DP( x ) = σ = σ 2 = 0,8648
5 – Distribuições teóricas de probabilidade
Existem vários fenômenos que apresentam padrões de comportamento similares. Tais padrões foram
investigados e descritos por modelos matemáticos originando as distribuições teóricas de probabilidade.
Dentre as distribuições discretas, citam-se: distribuição de Bernoulli, distribuição Binomial, distribuição
de Poisson, distribuição Hipergeométrica
5.1 Distribuição de Bernoulli
A mais simples de todas as distribuições teóricas discretas é a distribuição de Bernoulli, também

conhecida por ensaio de Bernoulli, que analisa experimentos que acontecem apenas uma vez e que podem
apresentar apenas dois resultados: o sucesso, relacionado à variável aleatória x, e o fracasso, relacionado
ao resultado contrário.
Sua distribuição de probabilidade é representada por:

49
1 - p se x = o

p( x ) = p se x = 1
0 caso contrário

ou
x P(x)
0 1-p
1 P
Suas medidas representativas são: E ( x ) = µ = p e Var ( x ) = σ 2 = p(1 − p )

Exemplo: a distribuição de probabilidade de selecionar um animal que pode ser macho ou fêmea é:
0,5 se x = o

p( x ) = 0,5 se x = 1

5.2 - Distribuição Binomial
A distribuição Binomial se caracteriza por uma sucessão de ensaios Bernoulli, totalmente independentes,
sendo constituída de uma seqüência de sucessos e fracassos. A probabilidade de ocorrência de sucesso é
constante, ou seja, que o resultado ocorrido em um ensaio não influencia o resultado em qualquer outro
ensaio. A variável aleatória x pode assumir valores entre zero e n.
Exemplo:
Considere o espaço amostral correspondente ao lançamento de três moedas:
S = {CCC, CCK, CKC, KCC, CKK, KCK, KKC, KKK}

Se a variável aleatória X for computada como o número de vezes que pode aparecer a face cara, tem-se:
X resultados cálculo P(x)
0 KKK 1/2 . 1/2 . 1/2 1/8
1 KKC, CKK, KCK 1/2 . 1/2 . 1/2 . 3 3/8
2 CCK, CKC, KCC 1/2 . 1/2 . 1/2 . 3 3/8
3 CCC 1/2 . 1/2 . 1/2 1/8
Substituindo P (C) = ½ por “p” e P (K) = ½ por “ 1-p”, tem-se:
50
X resultados cálculo P(x)
0 KKK (1 − p )(1 − p )(1 − p ) = (1 − p )3 (1 − p )3

1 KKC, CKK, KCK (1 − p )(1 − p ) p = 3 p(1 − p )2 3 p(1 − p )
2
2 CCK, CKC, KCC (1 − p ). p. p = 3 p 2 (1 − p ) 3 p 2 (1 − p )
3 CCC p. p. p = p 3 p3
Os resultados apresentados na última coluna se referem aos termos de um binômio de Newton,

justificando o nome da distribuição. Estes valores seguem algumas regras:
- o número de termos do binômio é igual a n + 1;

- os expoentes de p começam em 0 e vão aumentando uma unidade até n;
- os expoentes de 1-p começam em n e vão diminuindo uma unidade até 0;
- os coeficientes dos termos eqüidistantes dos extremos são iguais, podendo ser encontradas por
combinação ou pelo triângulo de Pascal.
Os valores de probabilidade também ser encontrados pelo termo geral do binômio de Newton,
Cnx . p x .(1 − p )
n− x
, que serve como modelo teórico para esta distribuição, ou seja:
C x . p x .(1 − p ) n− x
se x = 0,1,2,....n
p(x ) =  n
0 caso contrário
onde: n = número de experimentos; x = número de sucessos (x = 0, 1, ..., n) e p = probabilidade de sucesso.
Suas medidas representativas são: E ( x ) = µ = n. p e Var ( x ) = σ 2 = n. p.(1 − p ) .

Exemplo: Cinco frangos são selecionados aleatoriamente em um aviário, podendo ser portadores de
determinado vírus ou não. Considerando que:
0,4 se x = o

p( x ) = 0,6 se x = 1

A probabilidade de, por exemplo, todos selecionados serem portadores do vírus será:
p( x ) = C nx . p x .(1 − p ) = C55 .0,6 5.(1 − 0,6 )

n− x 5−5
= 0,07776 , considerando que n =5 e p = 0,6.
Já o valor esperado será E ( x ) = µ = 3 e a variância Var ( x ) = σ 2 = 1,2.

5.3 – Distribuição de Poisson
51
Algumas vezes interessa analisar o número de observações de uma variável em um intervalo contínuo de
tempo ou de espaço. Se as ocorrências em quaisquer intervalos são independentes e mutuamente
exclusivas, com número médio de ocorrências constante para a unidade de intervalo considerada, a análise
pode ser desenvolvida com a distribuição de Poisson.
Suponha uma unidade de tempo ou de espaço dividida em n partes iguais, gerando n intervalos de amplitude
1/n, e que a probabilidade de ocorrência do evento em cada uma destas n partes é p.
A probabilidade de ocorrência de que este evento se repita um determinado número de vezes pode ser
encontrada por:
C x . p x .(1 − p ) n− x
se x = 0,1,2,....n
p(x ) =  n
0 caso contrário
À medida que n vai aumentando, diminui a amplitude dos intervalos e, conseqüentemente, a diminui a
λx .e − λ
lim Cn . p .(1 − p )
n− x
probabilidade p. Como
x x
= , para n grande e p próximo de zero, pode-se usar o
n→∞ x!
p →0
modelo teórico:
 λx .e − λ
 se x = 0,1,2,....n
p( x ) =  x!

onde λ = n. p .
Esta distribuição, além de servir para analisar eventos em um intervalo contínuo, também pode ser
empregada em substituição à distribuição Binomial, desde que n seja grande e p, próximo de zero.
Suas medidas representativas são: E ( x ) = µ = λ e Var ( x ) = σ 2 = λ .

Exemplo: Uma central telefônica localizada na zona rural recebe, em média, 4 chamadas por hora. Qual a
probabilidade de que na próxima hora, a central receba no máximo uma chamada?
4 0.e −4 41.e −4
p( x ≤ 1) = p ( x = 0 ) + p ( x = 1) = + = 0,0916
0! 1!
52
Unidade VII – Variável aleatória contínua
1. Distribuições contínuas de probabilidade

Como os valores de uma variável aleatória continua não podem ser enumerados, suas distribuições de
probabilidade são representadas por uma função, denominada função densidade de probabilidade, f (x), que
deve satisfazer as seguintes condições:
∞
f (x ) ≥ 0 e ∫ f (x )dx = 1 .
−∞
Nestes casos, a probabilidade é dada pela área situada abaixo da curva que representa a função, ou seja:
b
p(a ≤ x ≤ b ) = ∫ f ( x )dx
a
que corresponde à área situada entre esta curva, o eixo das abscissas e as retas x = a e x = b.
O valor esperado e a variância destas distribuições são dados por:
∞ ∞
E (x ) = µ = ∫ x. f (x )dx V (x ) = σ 2 = ∫ (x − µ ) . f (x )dx .
2
e
−∞ −∞
Exemplo: Verificar se a função abaixo é uma f.d.p.
2 x + 3 se 0< x≤2
f (x ) = 
0 se x ≤ 0 ou x>2
FIGURA 7.1 – Representação gráfica da função f(x)
(2).( 4)
Área = (2).(3) + = 10
2
1º. - f(x) > 0 , para todo o x.
2
( )
2
∞
2º. – ∫ f ( x )dx = ∫ (2 x + 3)dx = x + 3 x
2
= 4 + 6 = 10 Não é uma f.d.p.
−∞
0 0
Exemplo: Seja x uma variável aleatória contínua com f.d.p. dada por:
2 x se 0 ≤ x ≤1
f (x ) =  . Calcular P ( x < ½ ).
0 se x < 0 ou x >1
53
FIGURA 7.2 – Representação gráfica da função f(x)
(1).(2)
Área = =1
2
( ) = f (x )dx = ∫ 2 x.dx = x
1 1
2 2
2 2
2 ∫
Px< 1 =1
0 4
0 0
2 – Distribuição Normal
O modelo teórico mais importante de distribuição contínua de probabilidade é a distribuição normal. Esta
distribuição pode ser aplicada em todas as áreas da ciência, tendo em vista que grande parte dos
fenômenos pode ser por ela explicada. Ela surgiu no estudo da natureza dos erros de mensuração, antes do
século XVIII, a partir da constatação de que o comportamento destes erros apresentava uma regularidade
muito aproximada de uma curva que foi denominada de curva normal dos erros.
2.1 - Função densidade

A equação matemática da chamada “curva normal dos erros“, que é a função densidade de probabilidade da
distribuição normal, é dada por:
1  x−µ 
2
−  
f (x ) =
1 2 σ 
.e
σ 2π
definida para o intervalo - ∞ < x < ∞ , onde:
x = variável da distribuição
µ = média da distribuição
σ = desvio padrão da distribuição
e = constante matemática , base dos logarítmos neperianos = 2,71828......
π = constante matemática, relação entre comprimento e raio de uma circunferência = 3,1416.......
A representação gráfica desta função para é uma curva em forma de sino (figura 7.3).
FIGURA 7.3 - Curva normal ou curva de Gauss.
54
2.2 - Propriedades da curva
a) A abscissa do ponto de ordenada máxima corresponde ao valor da média, moda e mediana.
b) É uma curva simétrica (x = M d )

= Mo .
c) É uma curva assintótica em relação ao eixo das abscissas, razão pela qual os valores de x podem variar
de menos infinito até mais infinito.
d) A área compreendida entre a curva e o eixo das abscissas representará probabilidade, sendo igual à
unidade.
e) A curva depende de dois parâmetros: a média e o desvio padrão. A alteração da média faz com que o
ponto de ordenada máxima se desloque sobre o eixo das abscissas, enquanto que a alteração do desvio
padrão faz com que a curva se torne mais estreita e mais alta ou mais baixa e mais larga.
É bastante usual representá-la da seguinte maneira: ( )

x éN µ ; σ 2 . Isto significa que x éN (20;25) é lida
da seguinte maneira: a variável aleatória x apresenta distribuição normal em torno da média 20 com
variância 25 e desvio padrão 5.
d) Qualquer combinação linear de variáveis aleatórias normais é também uma variável aleatória normal. Se
(
x1 éN µ1 ; σ 12 ) e (
x 2 éN µ 2 ; σ 22 ) y = a.x1 + b.x 2 também apresentará
e são independentes, então
distribuição normal com média dada por E ( y ) = a.µ1 + b.µ 2 e variância dada por V ( y ) = a .σ 1 + b .σ 2 .
2 2 2 2
2.3 - Cálculo da probabilidade
Suponha que X éN (µ ; σ 2 ), e que se deseja encontrar P( x1 < x < x 2 ) .
FIGURA 7.4 - Curva normal com área correspondente à P( x1 < x < x 2 ) .
x2
P( x1 < x < x 2 ) = ∫ f (x )dx

x1
2.4 - Distribuição normal padronizada
Nesta distribuição de probabilidade os cálculos matemáticos envolvidos na determinação do valor numérico

da probabilidade são extensos, razão pela qual foi desenvolvido um processo facilitador.
Este processo transforma a variável em estudo (x) em uma outra variável (z) que mede seu afastamento em
relação à sua média, expressando-o em unidades de desvio padrão. Isto faz com que sua média seja zero e
seu desvio padrão, um, ou seja, z éN (0;1) A distribuição desta nova variável, denominada variável
padronizada, apresenta como função densidade a expressão:
55
1
− z2
f (z ) =
1 2
.e .
σ 2π
Os diversos valores de probabilidade, calculados através da integração desta função, são organizados em
uma tabela, apresentada no apêndice deste capítulo, podendo ser usada para determinar valores de
probabilidade em substituição a este cálculo trabalhoso.
Esta tabela também pode ser usada para determinar valores de probabilidade associadas a qualquer
variável que apresente distribuição normal. Para tal, basta fazer a associação das duas variáveis, x e z,
através da seguinte equação matemática:
x−µ
z=
σ
Logo, se ( )
x éN µ ;σ 2 e se deseja encontrar P( x1 < x < x 2 ) , basta determinar o intervalo correspondente
para z, usando as expressões:
x1 − µ x2 − µ
z1 = e z2 =
σ σ
e encontrar sua respectiva probabilidade de ocorrência, pois:
P( z1 < z < z 2 ) = P( x1 < x < x 2 ) .

2.5 - Uso da tabela
A tabela relaciona valores de z com valores de área. Os valores de z estão na coluna indicadora (parte
inteira e primeira casa decimal) e no cabeçalho (segunda casa decimal) e os valores de área, no corpo da
tabela. Todos os valores de área registrados se referem à parte decimal (0,.....) .
As áreas encontradas nesta tabela a partir de um valor de z se situam entre a curva e o eixo das abscissas,
sobre o intervalo limitado por zero e pelo valor de z considerado.
Embora os valores de z possam ser positivos e negativos, na tabela só existem valores positivos em função
da característica de simetria.
Exemplo: Para z = 0,50, a área correspondente é 0,1915. Isto significa que: P (0 < z < 0,5) = 0,1915. A partir
deste valor, também é possível determinar que:
P (-0,5 < z < 0) = 0,1915.

P (-0,5 < z < 0,5) = 0,1915 + 0,1915 = 0,3830
P (z < 0,5) = 0,1915 + 0,5 = 0,6915

P (z > 0,5) = 0,5 – 0,1915 = 0,3085
Exemplo: (Callegari-Jaques, 2003) Um treinador deseja selecionar, dentre os jovens que estão prestando
serviço militar no Quartel Q, aqueles com estatura de no mínimo 180 cm para formar um time de basquete.
Que percentagem é esperada de jogadores em potencial, sabendo-se que a estatura tem distribuição
normal e, nesses jovens, a média é 175 cm e o desvio-padrão, 6 cm?
µ = 175cm σ = 6cm P( x > 180cm ) = ?
56
175 180 estatura (cm)
0 0,83 z
x−µ 180 − 175

z= = = 0,83
σ 6
P( x > 180cm ) = P( z > 0,83)
z = 0,83 ---------- 0,2967 (área entre 0 e 0,83)
P( x > 180cm ) = P( z > 0,83) = 0,5 - 0,2967 = 0,2033.
57
TABELA 7.1 - Distribuição Normal Padronizada : P ( 0 < z < z1 )
z1 .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 ,0000 ,0040 ,0080 ,0120 ,0160 ,0199 ,0239 ,0279 ,0319 ,0359
0.1 ,0398 ,0438 ,0478 ,0517 ,0557 ,0596 ,0636 ,0675 ,0714 ,0753
0.2 ,0793 ,0832 ,0871 ,0910 ,0948 ,0987 ,1026 ,1064 ,1103 ,1141
0.3 ,1179 ,1217 ,1255 ,1293 ,1331 ,1368 ,1406 ,1443 ,1480 ,1517
0.4 ,1554 ,1591 ,1628 ,1664 ,1700 ,1736 ,1772 ,1808 ,1844 ,1879
0,5 ,1915 ,1950 ,1985 ,2019 ,2054 ,2088 ,2123 ,2157 ,2190 ,2224
0,6 ,2257 ,2291 ,2324 ,2357 ,2389 ,2422 ,2454 ,2486 ,2517 ,2549
0,7 ,2580 ,2611 ,2642 ,2673 ,2703 ,2734 ,2764 ,2794 ,2823 ,2852
0,8 ,2881 ,2910 ,2939 ,2967 ,2995 ,3023 ,3051 ,3078 ,3106 ,3133
0,9 ,3159 ,3186 ,3212 ,3238 ,3264 ,3289 ,3315 ,3340 ,3365 ,3389
1,0 ,3413 ,3438 ,3461 ,3485 ,3508 ,3531 ,3554 ,3577 ,3599 ,3621
1,1 ,3643 ,3665 ,3686 ,3708 ,3729 ,3749 ,3770 ,3790 ,3810 ,3830
1,2 ,3849 ,3869 ,3888 ,3907 ,3925 ,3944 ,3962 ,3980 ,3997 ,4015
1,3 ,4032 ,4046 ,4066 ,4082 ,4099 ,4115 ,4131 ,4147 ,4162 ,4177
1,4 ,4192 ,4207 ,4222 ,4236 ,4251 ,4265 ,4279 ,4292 ,4306 ,4319
1,5 ,4332 ,4345 ,4357 ,4370 ,4382 ,4394 ,4406 ,4418 ,4429 ,4441
1,6 ,4452 ,4463 ,4474 ,4484 ,4495 ,4505 ,4515 ,4525 ,4535 ,4545
1,7 ,4554 ,4564 ,4573 ,4582 ,4591 ,4599 ,4608 ,4616 ,4625 ,4633
1,8 ,4641 ,4649 ,4658 ,4664 ,4671 ,4678 ,4686 ,4693 ,4699 ,4706
1,9 ,4713 ,4719 ,4726 ,4732 ,4738 ,4744 ,4750 ,4756 ,4761 ,4767
2,0 ,4772 ,4778 ,4783 ,4788 ,4793 ,4798 ,4803 ,4808 ,4812 ,4817
2,1 ,4821 ,4826 ,4830 ,4834 ,4838 ,4842 ,4846 ,4850 ,4854 ,4857
2,2 ,4861 ,4864 ,4968 ,4871 ,4875 ,4878 ,4881 ,4884 ,4887 ,4890
2,3 ,4893 ,4896 ,4898 ,4901 ,4904 ,4906 ,4909 ,4911 ,4913 ,4916
2,4 ,4918 ,4920 ,4922 ,4925 ,4927 ,4929 ,4931 ,4932 ,4934 ,4936
2,5 ,4938 ,4940 ,4941 ,4943 ,4945 ,4946 ,4948 ,4949 ,4951 ,4952
2,6 ,4953 ,4955 ,4956 ,4957 ,4959 ,4960 ,4961 ,4962 ,4963 ,4964
2,7 ,4965 ,4966 ,4967 ,4968 ,4969 ,4970 ,4971 ,4972 ,4973 ,4974
2,8 ,4974 ,4975 ,4976 ,4977 ,4977 ,4978 ,4979 ,4979 ,4980 ,4981
2,9 ,4981 ,4982 ,4982 ,4983 ,4984 ,4984 ,4985 ,4985 ,4986 ,4986
3,0 ,4987 ,4987 ,4987 ,4988 ,4988 ,4989 ,4989 ,4989 ,4990 ,4990
3,1 ,4990 ,4991 ,4991 ,4991 ,4992 ,4992 ,4992 ,4992 ,4993 ,4993
3,2 ,4993 ,4993 ,4993 ,4993 ,4993 ,4993 ,4993 ,4993 ,4993 ,4993
3,3 ,4995 ,4995 ,4995 ,4995 ,4995 ,4995 ,4995 ,4995 ,4995 ,4995
3,4 ,4997 ,4997 ,4997 ,4997 ,4997 ,4997 ,4997 ,4997 ,4997 ,4997
3,5 ,4998 ,4998 ,4998 ,4998 ,4998 ,4998 ,4998 ,4998 ,4998 ,4998
3,6 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999
3,7 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999
3,8 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999
3,9 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999 ,4999
58
Unidade VIII – Amostragem e distribuição amostral
1 – Introdução
O processo de obtenção de dados pode utilizar vários métodos diferentes, entre os quais,
levantamento por amostragem e planejamento de experimentos.
No levantamento por amostragem, o procedimento deve ser definido de forma a garantir a

representatividade da amostra, ou seja, que ela tenha as mesmas propriedades da população que
representa em relação à variável investigada para possibilitar a inferência dos resultados encontrados
para toda a população. Chama-se de amostragem, ao processo utilizado para selecionar os elementos que
irão compor uma amostra.
No planejamento de experimentos, algumas variáveis são manipuladas com o objetivo de avaliar o

efeito desta manipulação sobre alguma outra variável, existindo interferência do pesquisador no ambiente
estudado.
Existe ainda a possibilidade de obtenção de dados sem a possibilidade de nenhum controle por parte do
pesquisador, como é o caso de séries temporais.
2 - Tipos de amostragem
As diversas técnicas de seleção se dividem em probabilísticas e não probabilísticas. Nas técnicas

probabilísticas ou aleatórias todos os elementos da população tem probabilidade conhecida e diferente de
zero de serem escolhidos para compor a amostra, o que não acontece nas técnicas de amostragem não
probabilísticas, onde esta seleção depende de alguma forma do julgamento de alguém.
Na comparação entre estes dois grupos de procedimentos, teoricamente, as técnicas
probabilísticas sempre são superiores. As técnicas de amostragem probabilísticas mais utilizadas são:
aleatória simples, sistemática, estratificada (simples, proporcional ou ótima) e por conglomerados.
Entretanto, algumas questões práticas fazem com que frequentemente sejam usadas amostragens
não probabilísticas. Entre as técnicas de amostragem não probabilísticas são bastante utilizadas a
amostragem por conveniência, por inacessibilidade à população e a esmo.
3 – Amostragens probabilísticas
3.1 – Amostragem aleatória simples

Neste tipo de amostragem todos os elementos da população devem ter a mesma probabilidade de serem
escolhidos para pertencer à amostra. Uma maneira de garantir esta igualdade é a realização de um sorteio.
Como este processo é, em algumas situações, muito trabalhoso, pode ser substituído por uma tabela de
números aleatórios ou pela geração de números pseudo aleatórios em algum software estatístico ou planilha
eletrônica.
O processo de extração de uma amostra através desta técnica normalmente apresenta as seguintes
etapas:
- enumerar os elementos da população, de 1 até N;
- realizar o “sorteio” de n números entre 1 e N;

- identificar os elementos selecionados na população a partir dos números sorteados.
OBS: Geração de números aleatórios no EXCEL
Para acessar o procedimento de geração de números aleatórios você pode utilizar a função macro f(x) que
abrirá uma caixa de diálogo com listagem de categoria de funções e respectivas funções.
59
Selecione matemática nas categorias e aleatório nas funções. Automaticamente é gerado um número
aleatório entre zero e um. Pode-se também digitar “=aleatório()” para executar o mesmo procedimento.
Para gerar mais números, basta colocar o cursor no canto direito inferior da célula, clicar e arrastar.
Para gerar números aleatórios inteiros, digitar: = int(100 * aleatório ()).
Para gerar números aleatórios inteiros entre um mínimo e um máximo, digitar: = int(aleatório()*(máximo–
mínimo)+mínimo).
3.2 – Amostragem sistemática
Este tipo de amostragem normalmente é utilizado quando existe uma organização dos elementos da
população, que poderia ser uma listagem, para que os elementos sejam retirados sistematicamente.
Determina-se a razão ou intervalo de amostragem (R) pelo quociente entre o tamanho da população (N) e o
tamanho da amostra (n).
N
R=
n
A partir de um valor selecionado aleatoriamente entre 1 e o valor encontrado para a razão (R), tomam-se os
elementos sitematicamente de R em R.
etapas:
- enumerar os elementos da população, de 1 até N;

- calcular a razão de amostragem (R);
- selecionar aleatoriamente de 1 número entre 1 e R;

- a partir deste número selecionado, definir os demais números que devem ser em quantidade igual ao
tamanho da amostra pretendido;
- identificar os elementos selecionados na população a partir dos números selecionados.
Exemplo: Considere que uma academia de ginástica possui 900 alunos e necessita selecionar 15 para
auxiliarem um levantamento de dados. Como existe uma listagem de todos os alunos matriculados, opta pela
amostragem sistemática.
 900 
Encontra a razão R = = 60  e, usando o Excel, seleciona o número 20 entre 1 e 60. Na listagem, os
 15 
15 alunos que comporão a amostra são: 20º, 80º, 140 º, 200 º, 260 º, 320 º, 380 º, 440 º, 500 º, 560 º, 620
º, 680 º, 740 º, 800 º e 860 º.
3.3 – Amostragem estratificada

Na amostragem estratificada a população está divida em grupos ou subpopulações, denominados de
estratos. Esta divisão ocorre quando é razoável supor que, normalmente por questões teóricas, que o
critério de formação dos estratos interfere no comportamento da variável que está sendo investigada,
fazendo com que ela apresente um comportamento mais heterogêneo de estrato para estrato e menos
heterogêneo dentro de cada estrato. Para contornar este problema e melhorar a representatividade da
amostra, retirando-se elementos de cada um destes estratos para compor a amostra. Para selecionar
elementos dentro de cada estrato podem ser utilizados os procedimentos descritos nas técnicas
anteriores.
60
Conforme a quantidade de elementos retirada de cada estrato, esta técnica pode ser classificada em
simples, proporcional ou ótima. Na amostragem estratificada simples retira-se a mesma quantidade de
elementos de cada estrato, enquanto que na amostragem estratificada proporcional, a mesma proporção. Já
na amostragem estratificada ótima, a quantidade de elementos retirada de cada estrato é definida a partir
de sua heterogeneidade.
Suponha que um economista doméstico deseja avaliar o consumo de alimentos na população de um município
para definir diretrizes de um programa social. É razoável supor que a renda familiar interfira neste hábito
e, em função disso, divide a população em 5 estratos identificados como: renda muito baixa (MB), renda
baixa (B), renda média (M), renda alta (A) e renda muito alta (MA). Com isto ele garante a representação
de todos estes segmentos na amostra. Suponha ainda que a população de 100.000 habitantes seja assim
distribuída: 30.000 indivíduos MB; 30.000 indivíduos B; 20.000 indivíduos M; 15.000 indivíduos A e 5.000
indivíduos MA.
Uma amostra de 100 habitantes extraída por meio da técnica estratificada simples será composta por 20
indivíduos de cada estrato. Já uma amostra com os mesmos 100 habitantes, mas extraída por meio da
técnica estratificada proporcional, será composta por 30 indivíduos MB; 30 indivíduos B; 20 indivíduos M;
15 indivíduos A e 5 indivíduos MA.
Na amostragem estratificada ótima a quantidade de elementos a ser retirada de cada estrato deve ser
determinada a partir de uma análise da variabilidade de cada um deles.
etapas:
- estratificar a população, determinando o tamanho de cada estrato (N1, N2, ......., Nk)
- definir o tipo de amostragem estratificada a ser utilizado (simples, proporcional ou ótima);
- em cada um dos k estratos, repetir o procedimento das técnicas de amostragem aleatória simples ou
sistemática.
3.4 – Amostragem por conglomerados
Esta técnica de amostragem se caracteriza pela modificação da unidade de amostragem, sendo

especialmente indicada para a coleta de dados que utiliza instrumento que admite aplicação coletiva. Neste
caso a população é dividida em grupos, estes em subgrupos e assim sucessivamente, até que uma unidade de
amostragem satisfatória tenha sido encontrada. Selecionam-se algumas unidades e a amostra é composta
pelos elementos que compõe as unidades selecionadas.
A seleção das unidades pode ser feita de acordo com os procedimentos descritos nas amostragens
aleatória simples e sistemática.
Suponha que se deseja investigar hábitos de lazer em estudantes de universidades públicas do Rio de
Janeiro, sendo os dados obtidos pela aplicação de um questionário.
A população é formada por estudantes de três instituições: UFRRJ, UFRJ e UFF. As instituições têm
diversos cursos em várias áreas. Os cursos têm vários semestres. Os semestres têm várias disciplinas. As
disciplinas têm vários alunos.
Instituição – Área do conhecimento – Curso – Semestre – Disciplina - Aluno
Selecionam-se algumas disciplinas e a amostra é composta pelos alunos matriculados nas disciplinas
selecionadas. Comparecendo no local e horário da disciplina selecionada, vários instrumentos podem ser
aplicados simultaneamente.
61
OBS: Existe ainda a possibilidade de ser utilizada a amostragem em estágios múltiplos ou combinada que
resulta de uma combinação das técnicas anteriormente citadas.
4 – Amostragens não probabilísticas

4.1 – Amostragem por inacessibilidade à população
Algumas vezes não é possível identificar todos os elementos que pertencem a uma população. Neste caso,
define-se uma nova população, denominada população amostrada e extrai-se a amostra da população
amostrada.
Suponha que um pesquisador deseja fazer uma pesquisa sobre atividades físicas realizadas por
adolescentes na cidade de Seropédica. Para desenvolver o estudo, ele utiliza como população amostrada os
adolescentes de Seropédica que freqüentam escolas.
4.2 - Amostragem por conveniência

Este tipo de amostragem normalmente é utilizado quando o procedimento executado traz algum ganho para
o pesquisador no desenvolvimento da coleta de dados.
Suponha que, no exemplo anterior, o pesquisador tenha entre seus auxiliares, pessoas que trabalham nas
escolas A, B e C, e, em função disso, decide que a mostra será formada pelos alunos destas três escolas.
4.3 – Amostragem a esmo
Neste tipo de amostragem o pesquisador tenta ser aleatório sem utilizar de fato um procedimento de
geração de números aleatórios ou pseudo aleatórios.
Suponha que um pesquisador deseja investigar a associação entre atividade física realizadas por crianças
de até 10 anos. Em algumas escolas, seleciona algumas crianças.
5 - Distribuição amostral
Chama-se parâmetro a toda medida descritiva (média (µ ) , variância (σ ), proporção ( p ) , etc.)

2
dos
valores x1, x2, ..., xN, associados à população.
Chama-se estatística a toda medida descritiva (média (x) , variância (s ), proporção

2
( p̂ ) , etc.) das
variáveis aleatórias x1, x2, ..., xn, associadas à amostra. Toda estatística é uma variável aleatória.
Chama-se distribuição amostral à distribuição de probabilidade de uma estatística.
Suponha, por exemplo, que estão sendo estudados os pesos de 500 crianças que participaram de um
programa social, que apresentam determinado peso médio µ com determinada variância σ 2 . Para analisar
o comportamento desta variável, é extraída uma amostra de 10 crianças, usando-se a amostragem aleatória
simples, sendo encontrada a média x.
Se as amostras forem extraídas sem reposição, é possível encontrar C 500 = 245810588801891000000
10
amostras diferentes, cujas médias assumiriam vários diferentes resultados. Caso as amostras sejam
extraídas com reposição, poderiam ser formadas 500 = 976562500000000000000000000 amostras
10
diferentes, com médias podendo assumir diversos valores. O comportamento dos resultados assumidos por
esta medida é descrito por uma distribuição de probabilidade denominada distribuição amostral, mais
especificamente, distribuição amostral das médias, e permite fazer inferências sobre parâmetros da
população.
62
6 – Distribuição amostral das médias
Várias estatísticas, entre as quais a média aritmética, apresentam distribuições amostrais que se
aproximam de distribuições conhecidas, como a distribuição normal, quando os elementos da amostra são
selecionados por meio de uma técnica aleatória simples.
Exemplo: (adaptado de Barbetta, 2004) Suponha uma população formada por 4 pessoas de uma academia e
que cada uma delas praticou, respectivamente, 2, 3, 4 e 5 tipos de exercícios para trabalhar determinado
músculo. Considerando a variável aleatória X como a quantidade de diferentes exercícios praticados, a
população pode ser descrita pelo conjunto {2,3,4,5} , representado na tabela 8.1.
TABELA 8.1 – Número de tipos de exercício
x Probabilidade
2 0,25
3 0,25
4 0,25
5 0,25
Esta população pode ser representada pelos parâmetros média e variância, que assumem os valores:
N
µ=
1
∑x
1
(2 + 3 + 4 + 5) = 3,5
i =
Ni =1 4
1 N
[ ]
σ 2 = ∑ (xi − µ )2 = (2 − 3,5) 2 + (3 − 3,5) 2 + (4 − 3,5) 2 + (5 − 3,5) 2 = 1,25
N i =1
1
4
Se forem extraídas todas as 16 amostras possíveis, com reposição, e de tamanho 2, tem-se a distribuição
de probabilidade para a variável aleatória média mostrada na tabela 8.2.
TABELA 8.2 – Amostras de tamanho 2 com respectivas médias e probabilidade
Amostras possíveis x Probabilidade

(2,2) 2,0 1
16
(2,3) , (3,2) 2,5 2
16
(2,4) , (3,3) , (4,2) 3,0 3
16
(2,5) , (3,4) , (4,3) , (5,2) 3,5 4
16
(3,5) , (4,4) , (5,3) 4,0 3
16
(4,5) , (5,4) 4,5 2
16
(5,5) 5,0 1
16
A variável aleatória x terá média e variância:
63
() 1 2 3 4 3 2 1
E x = 2.  + 2,5.  + 3.  + 3,5.  + 4.  + 4,5.  + 5.  = 3,5
 16   16   16   16   16   16   16 
()
V x = (2 − 3,5) .
2 1
16
+ (2,5 − 3,5) . + (3 − 3,5) . + (3,5 − 3,5) . + (4 − 3,5) . +
2 2
26
2 3
16
2 4
16
2 3
16
(4,5 − 3,5)2 . 2 + (5 − 3,5)2 . 1 = 0,625

16 16
Observe que, para ambas variáveis aleatórias, o valor médio é o mesmo E x = ( ( ) µ ) , enquanto a variabilidade
é menor para a variável aleatória média

()
V x =
σ2 
.
n 

Observe também que para esta variável aleatória existe uma maior concentração em torno do valor
esperado, conforme o evidenciado nas figuras 8.1 e 8.2.
FIGURA 8.1 – Distribuição da variável x na população
FIGURA 8.2 - Distribuição amostral da variável x
Teorema do Limite Central

A média de todas as amostras possíveis de um mesmo tamanho “n”, obtidas aleatoriamente de uma
população distribuída normalmente, com média µ e variância σ2, apresentará distribuição
aproximadamente normal, com média e variâncias encontradas pelas expressões:
()
E x =µ
()
V x =
σ2
n
se a amostragem for com reposição ou N muito grande ou infinito
()
V x =
σ2 N −n
n
.
N −1
se a amostragem for sem reposição e N não muito grande, N < 20n
64
Esta aproximação melhora à medida que o tamanho da amostra aumenta. Quando a distribuição da
população não apresentar distribuição normal, a distribuição amostral das médias também se aproxima da
normal à medida que o tamanho da amostra n cresce. Neste caso, entretanto, esta convergência é mais
lenta: necessita-se de uma amostra maior para que a média tenha uma distribuição aproximadamente
normal.
Suponha, por exemplo, que a distribuição dos pesos dos alunos da primeira série do ensino fundamental tem
distribuição normal, com média de 40 Kg e variância de 2 kg2. Se for extraída uma amostra de 10 alunos
desta população, com reposição, o comportamento de sua média pode ser analisado como uma distribuição
normal, com média de 40 Kg e variância de 0,2 kg2.
Nesta análise, é especialmente útil a distribuição normal padronizada, sendo os valores da variável
aleatória média transformados em valores de variável padronizada por meio da expressão:
x−µ
z= .
σ
n
Conclusão: x é N µ;σ ( 2
n
) , ou seja, a média de uma amostra é uma variável aleatória que pode ser
estudada por uma distribuição normal com média µ e variância σ2 . Para encontrar a probabilidade da
n
média de uma amostra assumir determinados valores emprega-se a distribuição normal padronizada.
Para encontrar ( )
P x1 < x < x 2 , encontram-se z1 e z 2 pelas expressões:
x1 − µ x2 − µ
z1 = e z2 =
σ σ
n n
Pela tabela de números aleatórios encontra-se (
P ( z1 < z < z 2 ) = P x 1 < x < x 2 . )
OBS: O erro amostral da média também terá distribuição aproximadamente normal com média zero e
variância σ2
n
, ou seja, e é ≈ N 0; σ ( 2
n
) .
Exemplo: (adaptado de Triola, 1999) As alturas de mulheres de uma região dos EUA têm média de 161,54
cm e desvio padrão de 6,35 cm. Se for selecionada aleatoriamente uma mulher nesta região, qual a
probabilidade de sua altura estar entre 161,54 e 163,58 cm?
P(161,54 < x < 163,58) = ?

µ = 161,54 σ = 6,35
161,54 − 161,54 163,58 − 161,54
z1 = =0 z2 = = 0,32
6,35 6,35
P(161,54 < x < 163,58) = P(0 < x < 0,32 ) = 0,1255
Se forem selecionadas aleatoriamente 36 mulheres nesta região, qual a probabilidade de sua altura média
estar entre 161,54 e 163,58 cm?
(
P 161,54 < x < 163,58 = ? )
65
()
E x = µ = 161,54 ()
V x =
σ2
n
=
6,35 2
36
= 1,12 ()
DP x = 1,12 = 1,0583
161,54 − 161,54 163,58 − 161,54

z1 = =0 z2 = = 1,93
1,0583 1,0583
( )
P 161,54 < x < 163,58 = P (0 < x < 1,93) = 0,4732
QUADRO 8.1 - Símbolos
Amostra População Distribuição amostral
Tamanho n N -
Média x µ () ()
Ex =µ x
Variância σ V (x ) = σ (x )
2 2 2
s
Desvio padrão s σ DP (x ) = σ (x )
66
Unidade IX – Teoria da estimação
1– Introdução
O conhecimento da distribuição de probabilidade de estatísticas amostrais possibilita a utilização de
amostras para obter informações a respeito da população da qual foi extraída. As técnicas utilizadas com
esta finalidade fazem parte da estatística inferencial, que, na Estatística Clássica se subdivide em
Estimação e Testes de hipóteses.
A teoria da estimação consiste na determinação de parâmetros populacionais (medidas representativas de
uma população: µ , σ , p ,....... ) a partir de estatísticas amostrais (medidas representativas de amostras:
x, s, pˆ ,........ ). Neste caso, costuma-se dizer que a estatística utilizada é um estimador do parâmetro, logo,
pode-se dizer que x é um estimador de µ , s é um estimador de σ , ... . Já o resultado encontrado é
chamado de estimativa. Por exemplo: 40Kg é uma estimativa de um peso médio.
Uma das propriedades mais importantes destes estimadores é a não-tendenciosidade. Um estimador é dito
não tendencioso ou não viesado quando o valor esperado da estatística utilizada é igual ao parâmetro que
está sendo estimado.
A média x é um estimador não-tendencioso de µ , pois E x = µ . ()

Uma outra propriedade importante é a eficiência. Se um parâmetro θ tem dois estimadores não
tendenciosos, E1 e E 2 , então E1 é dito mais eficiente que E 2 se Var (E1 ) < Var (E 2 ) .
Outro aspecto a ser levado em consideração, neste momento, é a forma de extração da amostra. Se uma
estatística vai ser usada para estimação de um parâmetro ela deve ter sido obtida em uma amostra
extraída aleatoriamente.
2 - Tipos de estimação
Existem dois tipos de estimação: por ponto e por intervalo.
Na estimação por ponto, atribui-se ao parâmetro populacional um único valor, o da estatística amostral
correspondente. Portanto, logo: µ = x.
Suponha que um professor deseja conhecer o nível de conhecimento sobre atividade física de calouros de
um curso de graduação em Educação Física. Elabora um instrumento que mede esta variável numa escala de
0 até 20. Uma amostra de calouros obtém uma pontuação média de 13 pontos (x = 13). Pela estimação por
ponto ele afirmará que a pontuação média de todos os calouros também é de 13 pontos (µ = x = 13) . Esta,
entretanto, é uma forma muito grosseira de estimação e só deve ser utilizada em sondagens.
Na estimação por intervalo, associa-se o parâmetro populacional a um intervalo, denominado intervalo de
confiança, que vem acompanhado de uma probabilidade, denominada grau de confiança. Este intervalo de
confiança normalmente é representado por IC (µ 0,95 ) = x ± erro amostral .
Considerando o exemplo anterior, ao fazer uma estimação por intervalo o professor poderia encontrar que,
por exemplo, IC (µ 0,95 ) : 13 ± 1 . Isto significa que se fossem extraídas todas as amostras possíveis do
tamanho considerado, em 95% delas esperam-se médias entre 12 e 14 pontos.
3 – Intervalo de confiança para a média
Considere que (
x é N µ;σ
2
n
) ( )
. Uma das maneiras de encontrar P x 1 < x < x 2 , transforma os valores
de x1 e x 2 em z1 e z2 usando as expressões:
67
x1 − µ x2 − µ
z1 = e z2 = .
σ σ
n n
Estas expressões podem ser modificadas algebricamente em:
σ σ
x 1 = µ + z1 . e x 2 = µ + z2 . .
n n
A expressão ( )
P x1 < x < x 2 pode ser reescrita como
 σ σ 
P µ + z1 . < x < µ + z2 .  .
 n n
Esta expressão também pode ser transformada algebricamente e, se o intervalo estiver centrado na média
da distribuição, − z1 = z 2 , e seus valores dependerão de uma determinada probabilidade γ . A expressão
pode ser reescrita como:
 σ σ 
P x − z γ . < µ < x + zγ .  = γ
 n n
ou
σ
IC (µ ; γ ) : x ± z γ .
n
onde γ representa a probabilidade ou grau de confiança.
Exemplo: Um produtor deseja estimar o peso médio dos frangos produzidos em seu aviário. Extrai uma
amostra de 64 frangos, encontrando um peso médio de 3,10kg com desvio padrão de 0,5kg. Estime; (a) por
ponto; (b) por intervalo com 95% de confiança o peso médio dos frangos do aviário.
a) µ = x = 3,10kg
IC (µ ;0,95) : 3,10 ± 1,96.
0,5
b)
64
IC (µ ;0,95) : 3,10 ± 0,1225
O peso esperado dos frangos produzidos é de 3,10 kg, tolerando com 95% de confiança, uma margem de
erro de 0,1225 kg.
4 - Determinação do tamanho da amostra necessário para estimar a média

z γ .σ  z γ .σ
2
e = z γ .σ x() ⇒ e= ⇒ n = 


n  e 
A quantidade mínima de elementos a serem utilizadas em uma amostra depende do grau de confiança (que
determina o valor de z), do erro de amostragem admitido (que é a diferença, para mais ou para menos,
admitida no intervalo) e da variabilidade da variável a ser estimada.
Exemplo: Um pesquisador deseja verificar se existe um aumento na produção de CO2 em pacientes
portadores do Mal de Alzheimer. Estudos anteriores mostram que o desvio padrão da quantidade de CO2
em portadores deste mal é 350un. Qual deve ser a quantidade mínima de pacientes a serem estudados para
estimar a quantidade média de CO2 em portadores do Mal de Alzheimer, admitindo-se um erro máximo de
50un com 95% de confiança?
 z γ .σ
2 2
  1,96.350 
n =   =   = 189 pacientes
 e   50 
68
5 - Distribuição de Student
O intervalo de confiança definido anteriormente precisa do valor do desvio-padrão da população, σ .

Quando esta medida não for conhecida é possível substituí-la pelo desvio padrão da amostra s.
2
 n 
 ∑ xi 
∑ (x )
n n
∑ xi −  i =1 
2
i −x 2
n
s= i =1
= i =1
n −1 n −1
Esta substituição é permitida quando a amostra tem pelo menos 30 elementos. Se a amostra tiver menos de
30 elementos, deve-se usar outra distribuição de probabilidade conhecida como distribuição de student.
x−µ
Supondo uma variável aleatória x normalmente distribuída em uma população, a estatística t=
s
n
apresenta distribuição de student com gl = n − 1 graus de liberdade.
FIGURA 9.1 – Representação gráfica da distribuição de student
Esta distribuição, embora apresente uma maior dispersão, tem forma semelhante à curva normal. Esta
dispersão vai se tornando menor com o aumento do tamanho da amostra.
O intervalo de confiança para a média populacional é dado por:
IC (µ ; γ ) : x ± t γ .
s
n
O valor da estatística t pode ser encontrado em uma tabela a partir da área localizada a direita do valor
procurado e do número de graus de liberdade.
Exemplo: O valor de t 0,95 para uma distribuição com 10 graus de liberdade será 2,228.
FIGURA 9.2 – Intervalo de confiança: estatística t
-2,228 2,228
Exemplo: Em pacientes do Hospital do Coração, o nível de colesterol no sangue é uma variável aleatória com
distribuição normal. Uma amostra de 16 pacientes deste hospital forneceu nível médio de colesterol de
69
120mg/ml, com variância de 64mg2/ml. Estime; (a) por ponto; (b) por intervalo com 95% de confiança o nível
médio de colesterol dos pacientes do hospital.
a) µ = x = 120mg / ml
IC (µ ;0,95) : 120 ± 2,131.
8
b)
16
IC (µ ;0,95) : 120 ± 4,262
O nível de colesterol esperado para os pacientes é de 120mg/ml, tolerando com 95% de confiança, uma
margem de erro de 4,262mg/ml.
70
Distribuição de Student
Área na cauda
superior
Gl Área na cauda superior

0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 3,078 6,314 12,71 31,82 63,66 127,3 318,3 636,6
2 1,886 2,920 4,303 6,965 9,925 14,09 22,33 31,60
3 1,638 2,353 3,182 4,541 5,841 7,453 10,21 12,92
4 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,689
6 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
7 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
20 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
25 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,425
26 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689
28 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660
30 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
35 1,306 1,690 2,030 2,438 2,724 2,996 3,340 3,591
40 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
45 1,301 1,679 2,014 2,412 2,690 2,952 3,281 3,520
50 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
z 1,282 1,645 1,96 2,326 2,576 2,807 3,090 3,291
Fonte: Barbetta (2004).
71

Apo Bas

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Apo Bas

Uploaded by

Copyright:

Available Formats

Universidade Federal Rural do Rio de Janeiro

Instituto de Ciências Exatas

Viviane Leite Dias de Mattos

Produtor Gênero Idade Est.civil Escolaridade ... ... ...

Escala quantitativa Dado quantitativo Variável quantitativa

Em relação à quantidade de categorias consideradas pela escala de mensuração, as escalas qualitativas

FIGURA 1.2 – Classificação das variáveis de acordo com o nível de mensuração

Nominal Ordinal Intervala De razão

FIGURA 1.4 – Classificação das variáveis quantitativas

ki – i-ésima classe (i = 1, 2, 3, ...., k);

ni – quantidade de observações na i-ésima classe, também chamada de freqüência absoluta ou freqüência;

f % i = 100 * f i - freqüência percentual ou percentagem da i-ésima classe (produto entre a proporção e

5.2 – Dados quantitativos

Valores (x) Freqüência(n)

Em seguida associa os valores à sua freqüência de ocorrência, da seguinte maneira:

Valores (x) Freqüência (n)

Complementando a construção da tabela, tem-se:

TABELA 1.6 - Notas de Bioestatística, turma A/UFRRJ, 2009

- Amplitude da i-ésima classe ( Ai ) - É a diferença entre o limite superior e o limite inferior da

- se é necessário somar os cinco últimos dados de um grupo de vinte, faz-se

- O somatório do quadrado dos dados é diferente do quadrado do somatório dos valores.

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

0 500 1000 1500 2000 2500

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

5 – Representação de tabelas de contingência

peso (1000 tn)

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

Fonte: IBGE/DPE/COAGRO - Pesquisa Trimestral do Abate de Animais

FIGURA 2.7 - Pressão sanguínea sistólica de mulheres de 30 anos. HU de Pelotas, 2009

pressão (mm de Hg)

FIGURA 2.8 - Pressão sanguínea sistólica de mulheres de 30 anos. HU de Pelotas, 2009

FIGURA 2.9 - Pressão sanguínea sistólica de mulheres de 30 anos. HU de Pelotas, 2009

90 100 110 120 130 140 150 160

pressão (mm de Hg)

Todos os ramos devem ter o mesmo comprimento.

Fonte: IBGE, Censo agropecuário.

2 – Medidas de tendência central

A medida de tendência central mais utilizada é a média aritmética ( x ou M e ), ou simplesmente, média,

aritmética é mínimo, ou seja: i −x i − k ) , para qualquer k ≠ x .

onde k representa a quantidade de diferentes valores e ni a freqüência do i-ésimo valor.

A mediana ( M d ) tenta encontrar o centro de uma distribuição de valores x1 , x 2 , x3 , x 4 , ... , x n ,

FIGURA 3.1 – Distribuição de freqüência simétricas e assimétricas

3 – Medidas Separatrizes ou Quantis

Por analogia, o j-ésimo percentil ( j = 1,2,3,...,99) é precedido por j.n

4.1 - Amplitude Total ( AT )

Variância de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a média aritmética dos

Exemplo: Sejam os dados 2, 4, 6, 8 e 10. Sua variância é:

Desvio-padrão de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a raiz quadrada positiva

Como s 2 = 10 un2, s = 10 = 3,16 um.

4.5 - Coeficiente de Variabilidade (C v )

Coeficiente de variabilidade de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, o desvio

Desvio interquartílico de um conjunto de n valores, x1 , x 2 , x3 , x 4 , ... , x n , é por definição, a diferença

Se xi > Q3 + 3dq , xi é identificado como um outlier superior extremo.

Se xi < Q1 − 1,5dq , xi é identificado como um outlier inferior.

Figura 3.2 – Box Plot

Chama-se momento de ordem r centrado em a, m(r , a ) , de um conjunto de n valores,

a3 < 0 - assimetria negativa (maior concentração de valores acima da média);

a3 = 0 - simetria (exata repartição de valores);

a 4 > 3 - a curva denomina-se leptocúrtica, indicando dados com pouca variabilidade;

a 4 = 3 - a curva denomina-se mesocúrtica, indicando uma variabilidade ideal;

11 – Cálculo de medidas em dados agrupados em classes de freqüência