You are on page 1of 150

Bioestatstica

Prof. Dr. Leandro Giavarotti


IPGS - 2011
Conceitos bsicos
Estatstica
Termo utilizado tanto para o estudo geral quanto
para as medidas especficas.
Ex: A mdia uma estatstica de uma amostra.
Populao
Totalidade dos elementos ou de atributos dos
elementos referentes a um conujunto
determinado
Populao do Estado de So Paulo
Populao de pacientes de um hospital
Populao de remdios de uma farmcia.
Populao
Pode ser finita e
pequena
Fcil de conhecer todos
os seus elementos
Na maioria da vezes,
finita mas incontvel,
ou mesmo infinita
Nestes casos, a
estatstica utiliza
amostras para
caracterizar a populao
Amostra
Parte tomada de uma
populao, ou um conjunto
de elementos de uma
populao, selecionados
atravs de algum critrio
Uma populao pode dar
origem a vrias amostras
Todas as amostras esto
contidas na populao
Varivel
Caracterstica a ser
estudada em
determinada populao
Cor dos olhos dos
moradores de So Paulo
Altura dos alunos do
curso do IPGS
IMC dos pacientes de
uma clnica de esttica
Classificao de variveis
Contnuas
Podem assumir qualquer
valor dentro de um
intervalo de interesse
Dados contnuos
Peso, altura, distncia
percorrida em um teste
de esforo
Geralmente esto
associadas a unidades
m, Kg, l, m/s
Classificao de variveis
Discretas
Assumem valores
inteiros dentro de um
intervalo de contagem
Nmeros de itens
referentes varivel
Nmero de repeties de
um exerccio, nmero de
refeies por dia, nmero
de pacientes atendidos
numa clnica
Classificao de variveis
Nominais (categricas)
Assumem apenas alguns
estados ou categorias
Geralmente no so
numricas
Suas observaes so
contadas.
Sexo de uma populao,
queixas de dor lombar,
presena de obesidade,
tipo de pele
Classificao de variveis
Ordinais
Relacionam-se a avaliaoes subjetivas segundo preferncia ou
desempenho
Primeiro/segundo/terceiro
Melhor/pior
Maior/menor
Mais/menos
Identificando
10 gramas
Contnua
15 segundos
Contnua/discreta
3 erros/10 acertos
Nominal
O mais lento
Ordinal
3 perodos de atividade
fsica por semana
Discreta
O mais alegre
Ordinal
12,5 Km/h
Contnua
O mais fraco
Ordinal
Notao Sigma para somatrias
A maior parte dos clculos estatsticos utiliza
a Somatria de nmeros
A notao utilizada para essa operao .
Para uma varivel X que pode assumir os
valores 2, 4, 5 e 9, temos que:
x = 2 + 4 + 5 + 9 = 20
x = 2 + 3+ 4 + 9 = 4 + 16 + 25 + 81 = 126
Notao Sigma para somatrias
Para somar os 5 primeiros valores possveis de uma varivel
x, teremos:



Para somar os n valores possveis para uma varivel x,
temos:
5 4 3 2 1
5
1
x x x x x x
i
i
+ + + + =

=
n
n
i
i
x x x x + + + =

=
...
2 1
1
Aplicando
Considere a seguinte tabela:



Calcule:

i 1 2 3 4 5 6 7 8 9 10 11
x
i
8 2 3 6 7 8 9 4 5 4 1

2
1 i
i
x
10 2 8 = + =
i
x
57 1 4 5 4 9 8 7 6 3 2 8 = + + + + + + + + + + =
Aplicando
Considere a seguinte tabela:



Calcule:
i 1 2 3 4 5 6 7 8 9 10 11
x
i
8 2 3 6 7 8 9 4 5 4 1

=
6
4
2
i
i
x
149 64 49 36 = + + =

=
=
n
i
i
i
i
x
x
1
4
1
2
98 , 1
57
113
1 4 5 4 9 8 7 6 3 2 8
36 9 4 64
= =
+ + + + + + + + + +
+ + +
=
Estatstica descritiva
utilizada para
descrever ou explorar
uma varivel, atravs
de parmetros
especficos (populao)
ou estatsticas
especficas (amostras)
que permitam
caracterizar a varivel
em estudo.

Tabelas e grficos
Maneiras de conhecer
os dados
Distribuio
Representaes grficas
Clareza na
apresentao dos
dados
Considere:
Um pesquisador, considerando pesquisas que
demonstram que indivduos que praticam atividade
fsica regularmente podem ter uma expectativa de
vida maior, resolve conhecer os hbitos da
populao da cidade De So Paulo. Para tanto,
consegue passar um questionrio de hbitos de
atividade fsica para 200 habitantes. Os dados que
ele coleta so os seguintes e desconsideraram o
tipo especfico de atividade desenvolvido pelos
indivduos:
Dados
Praticam atividade fsica:
120 sim e 80 no.
Dos que praticam atividade fsica:
30 so do sexo masculino e 50 do sexo feminino.
Freqncia semanal no sexo masculino:
1x/semana 5 indivduos, sendo 3 acima dos 30 anos.
2x/semana 15 indivduos, sendo 9 acima de 30 anos.
3x ou mais /semana 10 indivduos, sendo 5 acima dos 30 anos.
Freqncia semanal no sexo feminino:
1x/semana 12 indivduos. 6 acima dos 30 anos.
2x/semana 20 indivduos. 8 acima de 30 anos.
3x ou mais /semana 18 indivduos. 8 acima dos 30 anos.
Tabela I Nmero de indivduos que praticam atividade
fsica classificados de acordo com sexo - masculino (M) e
feminino (F)- e freqncia de atividade.
Tabela II Nmero de indivduos que praticam atividade
fsica classificados de acordo com sexo - masculino (M) e
feminino (F)-, freqncia de atividade e faixa etria.
Grfico I Nmero de indivduos que praticam atividade
fsica classificados de acordo com sexo - masculino (M) e
feminino (F)-, freqncia de atividade e faixa etria.
Alternativas
Considerando que se busca observar uma
caracterstica populacional baseado em uma
amostra, poderia ser mais elucidativo
apresentar os grficos e tabelas em termos
de percentual de todos os resultados obtidos
e no de valores absolutos.
Medidas de Tendncia Central
O conceito de medida
de tendncia diz
respeito a medida de
um valor que possa
melhor representar a
tendncia de um
conjunto de nmeros,
ou uma varivel. As
trs medidas mais
utilizadas so a mdia,
a mediana e a moda.
Mdia aritmtica
A mdia aritmtica a primeira idia que ocorre
quando se fala em mdiade alguma varivel
numrica, e calculada dividindo-se a soma dos
nmeros do conjunto pelo tamanho deste. Assim a
mdia entre 2, 4 e 6 (2+4+6)/3 = 4.
A mdia populacional convencionalmente
denominada , e calculada da forma genrica
como:


onde N o tamanho total da populao.
N
x
N
i
i
=
=
1

Mdia Aritmtica
J a mdia de uma amostra, ou mdia
amostral, designada por x e assume a
forma



onde n o tamanho total da amostra.
x
n
i x
x
n
i i

=
=
) (
Mdia Aritmtica
Dada uma amostra de tamanho n retirada de uma
populao de tamanho N, x apenas uma
estimativa de , ou seja a mdia amostral uma
estimativa da mdia populacional.
x
Propriedades da mdia aritmtica
A mdia de qualquer conjunto pode ser sempre calculada.
Para um dado conjunto de nmeros a mdia nica.
A mdia afetada por todos os valores do conjunto.
Somando-se, subtraindo-se, multiplicando ou dividindo cada
elemento do conjunto por uma constante a mdia tambm
ser acrescida, diminuda, multiplicada ou dividida por esta
constante, respectivamente.
A soma dos desvios dos nmeros do conjunto a contar da
mdia zero:
0 ] [
1
=

=
x x
n
i
i
Mediana
A mediana divide um conjunto ordenado de
dados em dois grupos dequantidades iguais.
A metade do grupo estar abaixo e, a outra
metade, acima da mediana.
Isto significa que para um conjunto de dados,
se os mesmos forem ordenados,a mediana
ocupar o centro deste conjunto.
Ex.: Dada a varivel x = {1, 3, 0, 2, 4}, a
mediana 2.
)
~
(x
Mediana
Para se calcular a mediana a mediana de um
conjunto de dados deve-se:
Ordenar o conjunto;
Verificar se a h um nmero par ou mpar de
valores no conjunto;
Se for mpar a mediana ser o valor que ocupa a
posio central e se for par ser a mdia entre as
duas posies centrais.
)
~
(x
Quartil e Percentil
Os quartis esto estreitamente relacionados
mediana e dividem um conjunto de dadosem quatro
partes iguais:
Ex.: Dado x = {8.1; 1; 4; 2; 3; 6; 5; 7.6 }
Ordenando x tem-se: 1; 2; 3; 4; 5; 6; 7.6; 8.1
Moda
A moda o valor que
aparece com maior
freqncia.
x = {0; 1; 0; 2; 3; 4; 4; 0;
3; 2; 5; 6}. A moda 0.
x= {3; 1; 2; 3; 3; 4; 5; 1,5;
2; 1,5; 0; 4; 1,5; 1,5; 6}. A
moda 1,5.
)

(x
Moda
Seja a tabela a seguir que contm o nmero de
indivduos (em um grupo de 100 indivduos) que
praticam atividade fsica, junto com a freqncia
semanal





A moda ser duas vezes por semana.
)

(x
Comparao entre Mdia, Mediana e
Moda
Muitas vezes,
precisamos decidir qual
a medida de tendncia
central que mais se
adequa aos nossos
objetivos.
Como decidir?
Medidas de disperso ou variabilidade
As medidas de
tendncia central nos
do uma idia da
concentrao dos
dados em torno de um
valor.
Entretanto, preciso
tambm conhecer suas
caractersticas de
espalhamento ou
disperso.
Medidas de disperso ou variabilidade
Se examinarmos o
conjunto de dados ao
lado, podemos
observar um
espalhamento para os
mesmos.
A variabilidade ou
disperso a medida
da diferena entre os
valores do conjunto.
Amplitude total
Uma medida de disperso a da amplitude
total do conjunto de dados.
Seja x uma varivel que assume os valores
x1, x2, ...xn.
A amplitude definida como a diferena entre o
valor mximo e mnimo que x pode assumir,
respectivamente.
Ex.: x={-1, 2, 0, 3, 2, 1}, amplitude 3 (-2) = 4.
Amplitude total
A amplitude pode levar a erros de avaliao,
pois no representa o conjunto dos dados.
Muitas vezes reflete muito mal a disperso
dos mesmos.
Se x1 = { 1, 7, 6, 8, 8, 9, 9, 12, 15}, a amplitude
14.
Se x2 = {3, 3, 4, 4, 8, 11, 13, 13, 14, 1 4} a
amplitude 11.
Aparentemente x1 teria maior disperso que
x2.
Amplitude total
Analisando em uma escala os dois conjuntos:






Verificamos que o conjunto x1 tem uma maior concentrao
nos dados do que o x2.
Desvio mdio
O desvio mdio uma outra medida de disperso e
definido matematicamente como:
N
x
N
i
i
=

1

Varincia populacional
A varincia, juntamente como o desvio padro, a
medida de disperso mais utilizada, como veremos
nos diversos itens posteriores.
Matematicamente a varincia definida como:
| |
N
x
N
i
i
2
1
2

=

=

o
Desvio Padro Populacional
O desvio padro nada mais do que a raiz
quadrada da varincia e matematicamente
definida como:
| |
N
x
N
i
i
2
1
2

=

=

o
Varincia Amostral
Em se tratando de clculo de valores amostrais, introduz-se o
conceito degraus de liberdade (gl).
As estatsticas passam a ser determinadas atravs do
nmero de gl.
Como a varincia ser estimada atravs da mdia, que j uma
estimativa, perde-se ento um grau de liberdade para o clculo
da varincia amostral que calculada como:
| |
n
x x
s
n
i
i
2
1
2

=

=
Desvio Padro Amostral
O desvio padro nada mais do que a raiz
quadrada da varincia e matematicamente
definida como:
| |
n
x x
s
n
i
i
2
1

=

=
Coeficiente de variao
Muitas vezes se deseja saber se a disperso dos
dados est muito alta, ou mesmo comparar a
disperso de resultados de amostras diferentes
para diferentes tipos de medida.
Por exemplo, suponhamos que mediram-se a
massa e a altura de uma mesma amostra de
indivduos e obteve-se como mdia para a massa
82,4 kg e desvio 65,4 kg; e para a altura a mdia de
176 cm e desvio padro de 80 cm.
Qual das duas medidas possui maior disperso?
Coeficiente de variao
A princpio, pode parecer que a altura.
Entretanto, devem-se levadas em conta as
diferentes unidades de medida.
Uma forma de melhor comparar as
variabilidades das medidas atravs do
coeficiente de variao ou CV.
Coeficiente de variao
Matematicamente definido como:

Pela frmula, podemos concluir que o CV
adimensional.
Para o exemplo anterior, tm-se os CVs de
65,6/82,4 = 0,79, para a massa
80/176 = 0,45, para a altura.
Isto mostra que existe maior disperso nos dados
de massa que nos de altura.
x
s
CV =
Distribuio de Freqncia
Muitas vezes, quando observa-se o conjunto
dos dados obtidos de uma populao ou de
uma amostra grande verifica-se que sua
avaliao confusa.
Isto ocorre muito para dados de variveis
contnuas.
Distribuio de Freqncia
Como exemplo, observemos a tabela abaixo que contm a
concentrao de glicose sangnea encontrada em uma
amostra de 32 indivduos.





O clculo da mdia e desvio padro poderiam caracterizar
bem esta amostra, sendo til na avaliao da mesma.
Entretanto, podemos estar interessados na concentrao
dos valores da amostra estudada em determinadas faixas de
concentrao.
Distribuio de Freqncia
Um mtodo do qual se pode lanar mo para
realizar tal investigao estudar a
distribuio de freqncia dos dados em
questo.
Uma distribuio de freqncia um mtodo
de agrupamento de dados em classes ou
intervalos e pode ser apresentado em forma
de tabela ou de grfico, tambm conhecido
como histograma.
Distribuio de Freqncia
Para tanto preciso
estabelecer classes.
Para dados categricos,
a classe a prpria
categoria
Para dados contnuos,
necessrio determinar
intervalos de valores.
Distribuio de Freqncia
Os passos para estudar a distribuio de freqncia
de dados contnuos (ou mesmo discretos
dependendo do caso) so:
Definir o intervalo dos dados.
Observar o maior e o menor valor e buscar,
preferencialmente, um nmero inteiro mais prximo aos
mesmos.
Estabelecer o nmero de classes ou intervalos para os
dados.
Para dados contnuos ou discretos, isso implica em decidir
quantos intervalos vo ser definidos.
Existem alguns critrios para estabelecer tal nmero.
O nmero de classes no deve ser inferior a 5 nem superior a 15.
Valor prximo da raiz quadrada do nmero de elementos da
amostra.
Distribuio de Freqncia
Estabelecer os intervalos de classe.
preciso saber a amplitude da classe
Divide-se o intervalo dos dados pelo nmero de intervalos.
Definir as classes.
Enquadrar cada valor em sua classe ou intervalo
correspondente.
Contar quantos casos ocorre em cada classe ou
intervalo.
Apresentar o resultado da contagem em uma tabela
ou grfico.
Distribuio de Freqncia
Intervalo dos dados: 72,8 a 113,3.
Podemos escolher o intervalo entre 72 e 114.
Distribuio de Freqncia
Como so 32 observaes, 32 = 5,6.
Podemos ento tomar 6 classes.
Distribuio de Freqncia
Nesse caso as classes seriam obtidas somando-se o intervalo
calculado (7) ao limite superior do intervalo anterior, iniciando pelo
menor valor definido para o intervalo (no caso 72).
Teramos: 72-79 (79=72+7), 79-86, 86-93, 93-100, 100-107, 107-114.
Observe que o limite superior do ltimo intervalo o limite definido no
item 1.
Distribuio de Freqncia
Para enquadrar os valores deve-se construir uma
tabela com as classes e contar os valores dos
dados que se encontram dentro do intervalo
correspondem a cada uma classe.
Distribuio de Freqncia
Distribuio de Freqncia
Distribuio de freqncia percentual
freqente o
pesquisador no estar
interessado em
conhecer os valores
absolutos da
contagem, mas sim o
valor relativo ao valor
total.
Neste caso, a melhor
forma de apresentar os
dados em valor
percentual.
Distribuio de freqncia percentual
acumulada
Uma outra forma de estudar os dados seria atravs da
distribuio de freqncia acumulada.
Esta distribuio apresenta a freqncia de cada classe e a
soma das freqncias das classes adjacentes, contando da
mais baixa para a mais alta.
Somando tudo
pode-se juntar todas as informaes em uma
nica tabela como segue:
Simetria de uma distribuio de dados
Em uma inspeo rpida dos grficos
anteriores, pode-se observar que possvel
definir a classe modal a partir dos mesmos.
O conceito de moda de valor mais freqente,
logo a classe modal do histograma anterior seria
79-86.
possvel conhecer a moda, a mdia e a
mediana atravs de frmulas.
Simetria de uma distribuio de dados
O importante perceber que a curva acima
relativamente simtrica, ou seja, possui
valores similares para ambos os lados.
A simetria da distribuio traz informaes
importantes e ser fundamental na aplicao
de testes de hipteses.
Simetria de uma distribuio de dados
Suponha dois conjuntos de
dados que possuem as
distribuies apresentados
nas figuras ao lado
Possuem a mesma mdia.
Ambos os conjuntos de
dados possuam a mesma
varincia.
Mdia e desvio padro
iguais esto representando
conjuntos com
caractersticas totalmente
diferentes diferentes.
Simetria de uma distribuio de dados
Entende-se por simetria
a identidade do
comportamento de uma
curva em relao a um
eixo, chamado eixo de
simetria.
Nas figuras ao lado, em
A, diz-se que se tem
uma assimetria direita
e, em B, uma
assimetria esquerda.
Simetria de uma distribuio de dados
Na figura ao lado, tem-
se uma distribuio
simtrica, pois a
metade da distribuio
est abaixo e metade
est acima da linha de
simetria.
Simetria de uma distribuio de dados
Se observarmos as
distribuies
assimtricas e a
simtrica, verificaremos
que as medidas de
tendncia central so
idnticas na
distribuio simtrica, e
diferentes na
assimtrica.
Simetria de uma distribuio de dados
o
x x
P
~

=
Uma medida de assimetria o coeficiente de
assimetria de Pearson, que dado por:



Se P = 0, a curva simtrica
Se P < 0, a curva assimtrica esquerda
Se P > 0, a curva assimtrica direita.
Existe outra medida de assimetria mais fidedigna e
mais presente nos programas de estatsticas, a
distoro (skewness)
Descrita segundo a equao:



Se a = 0, a curva simtrica
Se a < 0, a curva assimtrica esquerda
Se a > 0, a curva assimtrica direita.
Simetria de uma distribuio de dados
3
~
) 2 )( 1 (

|
|
.
|

\
|


=
o
x x
n n
n
a
Noes de probabilidade
Estatsticas amostrais ( e s) so
estimativas dos verdadeiros parmetros
populacionais ( e ).
Ainda, um dos grandes objetivos da
estatstica fornecer dados que permitam ao
pesquisador fazer projees, realizar
tratamentos, intervenes etc.
Noes de probabilidade
Um primeiro conceito que devemos estabelecer para se
pensar em realizao de projeo, o da probabilidade.
As probabilidades so utilizadas para exprimir a chance
de ocorrncia de determinado evento.
Evento, por sua vez, pode ser qualquercoisa que
desejamos estimar como
Chuva, lucro, rendimento etc.
A probabilidade de um evento A denotada por P(A),
e um nmero que varia entre 0 e 1 ou 100%.
Quanto mais prximo de zero, menor a chance do
evento A ocorrer e, quanto mais prximo de 1, maior a
chance.
Espao amostral e evento
Espao amostral o conjunto de todos os
resultados possveis para um experimento.
Os resultados de um dado experimento
chamam-se eventos.
A probabilidade de um evento A ocorrer em
um experimento definida matematicamente
como:
P(A)=Nmero de resultados que definem o evento A
Nmero total de resultados possveis
Espao amostral e evento
Portanto, para calcular a probabilidade
preciso saber o nmero de resultados
associados ao evento A e quais so todos os
resultados possveis.
Exemplos:
Calcular a probabilidade de se obter uma cara ao
jogar uma moeda para cima.
R.: O evento associado aparece 1 vez (uma cara) e os
resultados possveis so cara ou coroa.
Logo, a probabilidade 1/2 ou 0,5 ou 50%.
Espao amostral e evento
Calcular a probabilidade de se obter um 6 ao
lanar um dado.
R.: O evento associado (um 6) aparece 1 vez e
os resultados possveis so 1, 2, 3, 4, 5 e 6.
Logo, a probabilidade 1/6 ou 0,167 ou 16,7%.
Calcular a probabilidade de se obter um rei
ao retirar a carta de um baralho de 52 cartas.
R.: O evento associado (um rei) aparece 4 vezes
e os resultados possveis so 52 cartas.
Logo, a probabilidade 4/52.
Espao amostral e evento
Calcular a probabilidade de se obter um rei
de paus ao retirar a carta de um baralho de
52 cartas
O evento associado (um rei de paus) aparece 1
vez e os resultados possveis so 52 cartas
Logo, a probabilidade 1/52.Calcular a
probabilidade de se obter um rei ao retirar a carta
de um baralho de 52 cartas.
Espao amostral e evento
Basicamente, podemos trabalhar com dois tipos de
probabilidade:
A probabilidade a priori, que baseada nas chances
possveis, como so os casos que vimos at agora.
A probabilidade a posteriori, que aquela que calculada
baseada no experimento.
Tomamos 100 indivduos de uma populao e verificamos
que 20 so fumantes. Qual a chance de se encontrar fumante
nessa populao?
O experimento nos d a probabilidade.
20/100, ou 0,2.
Propriedades bsicas da probabilidade
As propriedades a seguir dizem respeito aos
chamados eventos independentes.
Dois eventos so ditos independentes se a
ocorrncia ou no ocorrncia de um no
afeta a ocorrncia ou no de outro.
Por exemplo, quando lanamos duas
moedas, o resultado de uma no interfere no
da outra.
Propriedades bsicas da probabilidade
Dado um evento A e um evento B, qual a
probabilidade de que A ou B ocorram?
E de que A e B ocorram?
Um raciocnio rpido nos remete hiptese de
que a chance de A ou B ocorrer deve ser maior
que a de A e B ocorrerem juntas.
As propriedades matemticas que definem
essas situaes so:
P(A ou B) = P(A) + P(B)
P(A e B) = P(A).P(B)
Exemplos
Ao lanar duas moedas, qual a probabilidade
de se obter duas caras?
O experimento lanar duas moedas.
Obter 2 caras significa obter 1 cara na primeira
com probabilidade P(A), e na segunda moeda,
com probabilidade P(B).
Logo, queremos saber a probabilidade P(A e B).
P(A e B) = P(A).P(B) = 0,5.0,5 = 0,25.
Exemplos
Ao lanar dois dados, qual a probabilidade de se ter
apenas nmeros mpares?
Observe que neste caso podemos pensar que temos as
duas situaes, uma envolvendo P(A ou B) e outra P(A e
B).
A primeira seria um nmero mpar em um lanamento de
dados;
poderamos considerar como P(1 ou 3 ou 5).
Como a probabilidade de qualquer nmero em um
lanamento de dados 1/6:
P(1 ou 3 ou 5) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2 = 0,5
Para resolver o problema, precisamos saber a
probabilidade este evento ocorrer para os dois dados
calculamos, ou seja, P(A e B).
P(A e B) = 0,5.0,5 = 0,25.
Variveis aleatrias
Quando uma varivel tem resultados ou
valores que tendem a variar de uma
observao para outra em razo de fatores
relacionados chance, a chamamos
varivel aleatria (va).
O nmero de caras (C) em duas jogadas de
moeda uma varivel aleatria que pode
assumir os valores 0 (nenhuma C), 1 (uma
C) ou 2 (duas C).
Em trs jogadas seria 0, 1, 2 ou 3.
Distribuio de probabilidade
uma distribuio de freqncias relativas de uma
va, e mostra a proporo das vezes que uma va
tende a assumir um dos seus diversos valores.
Exemplos
Consideremos x como a va nmero de caras em
duas jogadas de moeda. Qual a distribuio de
probabilidade para a va?
Para resolvermos o problema temos que conhecer os
valores possveis e a probabilidade de cada valor da va.
Chamando coroa de K e cara de C temos:
Exemplos
Como P(K) = P(C) = = 0,5





Logo para a va x={0, 1, 2} P(x)={0,25, 0,50, 0,25}
Exemplos
Se fossem 3 jogadas, teramos










E a va x={0, 1, 2, 3} teria P(x) = {0,125, 0,375, 0,375, 0,125}
Histogramas
Distribuio de probabilidade
Observe que para 2 lanamentos temos 4
resultados possveis, e, para 3, temos 8 resultados.
Imagine que aumentssemos o nmero de
lanamentos da moeda.
Comearia a se tornar invivel calcular a
distribuio das probabilidades pois o nmero de
casos seria muito grande.
Para resolver tal problema, podemos lanar mo de
distribuies de probabilidade conhecidas que
expliquem a varivel aleatria
A distribuio binomial
Variveis aleatrias que s podem assumir dois resultados.
Fracasso ou sucesso.
Probabilidade de sucesso (p) e de fracasso (1-p) constantes.
Resultados de cada prova so independentes.
A distribuio de Poisson
A distribuio de Poisson
til para descrever a
probabilidade do nmero de
ocorrncias num campo ou
intervalo contnuo (em geral
espao e tempo).
Exemplos: Nmero de
acidentes por dia,
chamadas telefnicas por
hora, habitantes por m2.
Distribuio de probabilidade contnua
Qual seria a probabilidade
do ponteiro parar no local
onde est desenhado?
A probabilidade to
pequena que dizemos que
nula
Qual a probabilidade de o
ponteiro parar entre os dois
pontos a e b?
a rea do setor do arco a-
b, dividida pela rea do
crculo onde est o
ponteiro.
Distribuio de probabilidade contnua
Variveis aleatrias que possuem
distribuies de probabilidades contnuas
devem ser avaliadas pela faixa de
probabilidade e no pela probabilidade de
um valor especfico.
A distribuio uniforme
As probabilidades de todos os valores dentro de um
intervalo a mesma.
Distribuio normal
A maioria dos fenmenos e medidas seguem uma
distribuio normal.
Propriedades importantes
Observadas por astrnomos e outros cientistas, que, ao
repetirem uma certa medida diversas vezes, observaram que
as mesmas no eram iguais.
Distribuio normal
Como as diferenas
entre as medidas eram
devidas a fatores sobre
os quais no se tinha
controle (fatores
aleatrios), passou-se
ento a denominar
normal.
Distribuio normal
Tem o formato de um sino.
simtrica em relao mdia
A mdia, moda e mediana da distribuio so iguais.
Cada distribuio normal fica completamente caracterizada pela
mdia e o desvio padro.
A rea total sob a curva gual a probabilidade 1, ou 100%.
Assume valores de - a + .
A probabilidade de uma va assumir um exato valor nula e
portanto a probabilidade ter que assumir valores intervalares.
A rea entre dois pontos a e b nos d a probabilidade de uma va
assumir valores no intervalo ab.
A rea entre a mdia e um ponto qualquer poder ser medida
em termos nmeros de desvio padro.

Distribuio normal
A estatstica z
Uma distribuio normal fica completamente
caracterizada pela mdia e desvio padro da
va de origem.
Pode-se imaginar que existem infinitas
curvas de distribuio normal.
Isto dificulta a criao de uma tabela que
permita a avaliao da probabilidade da va
assumir um dado intervalo.
A estatstica z
Sabemos que a probabilidade da va assumir um valor entre a
mdia e um dado valor x pode ser calculada a partir do
nmero de desvios padres que a varivel x est da mdia.
Matematicamente, isto significa que podemos calcular este
nmero de vezes,que chamaremos z, da seguinte maneira:
o

=
x
z
A estatstica z
Agora podemos introduzir o conceito da normal padronizada que se
utiliza da estatstica z
uma distribuio normal, onde a mdia (zero) passa a ser ponto de
referncia e o nmero de desvios padres (z) como unidade de medida.
Os valores das reas sob as curvas entre a mdia e os diversos valores
de z so ento tabelados e correspondem probabilidade de se
encontrar um valor entre a mdia (normalizada para 0) e z - desvio
padro normalizado
Tabela z
Tabela z
A estatstica z
Se quisermos achar o valor de P correspondente a z = 0,11,
devemos buscar 0,11 na tabela e acharemos o valor 0,0438.
Isto significa dizer que a probabilidade P de se encontrar a va
em questo entre a mdia e 0,11 desvios padres de
0,0438.
Problema
Mediu-se a altura de uma populao e
encontrou-se os valores 1,82 para a mdia e
0,45 para o desvio padro. Pergunta-se:
Se a populao constituda de 1000 indivduos,
quantos espera-se que tenham altura entre 1,78 e
1,84?
Que faixa de altura deve possuir os primeiros
30% dos indivduos que esto acima da mdia?
Soluo
Para responder a essa pergunta precisamos saber primeiro qual
o percentual de indivduos que se encontram entre 1,78 e 1,84.
Como a normal padronizada s considera valores a partir da
mdia, temos que calcular a probabilidade P1 que vai de 1,78
at 1,82 e somar probabilidade P2 que vai de 1,82 at 1,84.

Da frmula teremos:

z1 = (1,78-1,82)/0,45 = -0,089.
O valor mais prximo de 0,089 na tabela 0,09, para o qual
encontramos P1 = 0,0359.
z2 = (1,84-1,82)/0,45 = 0,044.
O valor mais prximo de 0,044 na tabela 0,04, para o qual
encontramos P2 = 0,0160.
o

=
x
z
Soluo
A probabilidade P de se encontrar valores entre
1,74 e 1,84 ento de P1 + P2, ou 0,0359+0,0160
= 0,0519.
Por fim, para responder pergunta, basta
multiplicar P (que o percentual de indivduos que
se encontram na faixa de altura) pelo total de
indivduos,1000 (dado no problema).
0,0519.1000 = 51,9, ou 52 indivduos. Logo espera-se
encontrar cerca 52 indivduos com altura entre 1,78 m e
1,84 m.
Soluo
Agora, estamos investigando os primeiros 30% dos indivduos
acima da mdia.
Devemos ento encontrar o valor z correspondente a 30%, ou
0,3.
Na tabela, o valor mais prximo de 0,3 0,2995 que nos d o
valor de z = 0,84.

Da frmula temos z, e . Queremos saber o valor de
x.
0,84 = (x 1,82)/0,45. Ento, x - 1,82 = 0,45.0,84, ou x 1,82 =
0,378.
x = 0,378 + 1,82 = 2,198. Logo, a altura dos 30% dos indivduos
com altura acima da mdia deve estar entre 1,82 e 2,20.
o

=
x
z
Amostragem e distribuio amostral
Considere que, dada uma populao, desejamos
investigar uma caracterstica (varivel) desta
populao atravs de uma amostragem.
Ao selecionarmos os elementos que comporo
nossa amostra, todos os indivduos da populao
tero a mesma chance de serem escolhidos.
A amostra selecionada ento ser considerada
como sendo uma amostra aleatria.
Amostragem e distribuio amostral
Imaginemos agora uma populao infinita ou muito
grande.
Escolhemos tomar uma amostra de n elementos.
Podemos tomar tantos n elementos diferentes quanto
quisssemos.
Como sabemos que as estatsticas amostrais so
estimativas dos parmetros populacionais, parece
bvio que teremos variaes nas estatsticas
calculadas para cada amostra de n indivduos.
Cada amostra de n indivduos selecionados aleatoriamente
tender a dar uma mdia e uma varinciadiferente.
Amostragem e distribuio amostral
Distribuio amostral uma distribuio de
probabilidade que indica at que ponto uma
estatstica amostral tende a variar devido a
variaes simplesmente causais em uma
amostragem aleatria.
Se conhecermos a distribuio amostral
podemos fazer as nossas inferncias sobre
os parmetros populacionais, baseados
apenas nas estatsticas da amostra.
Distribuio amostral para mdias
Uma distribuio amostral de mdias a
distribuio de probabilidade para as mdias
de n elementos tomados de uma populao.
Pelo que foi dito anteriormente, podemos
tomar tantas amostras de n elementos
quanto desejarmos, e poderemos ter mdias
diferentes para as diferentes amostras.
Distribuio amostral para mdias
Vamos nos ater inicialmente a dados que sabemos
que provm de uma populao com distribuio
normal.
Como sabemos que mdia e desvio padro
caracterizam uma distribuio normal, devemos
responder a algumas perguntas.
Se conhecemos a mdia e o desvio padro da
populao
1) qual seria a mdia e
2) o desvio padro esperado para a distribuio da mdias
amostrais?
Ainda, 3) qual seria o desvio padro esperado para cada
amostra?
Distribuio amostral para mdias
A mdia das mdias amostrais igual mdia
populacional
Sabemos que medida que se aumenta o n, tende-
se a diminuir a disperso dos dados estudados.


Erro padro da mdia
Para uma distribuio normal, existe pouca variao
entre os desvios padres calculados para a mostras
grandes.
Desvio padro amostral = desvio padro populacional

n
x
x
/ o o =
Teorema do Limite Central
Se a populao de onde se retira uma amostra
possui distribuio normal, a distribuio das
mdias amostrais ser tambm normal para
qualquer que seja o tamanho da amostra.
Se a populao de onde se retira uma amostra
possui distribuio no-normal, a distribuio das
mdias amostrais ser praticamente normal para
grandes amostras.
Entenda-se por grandes amostras, aquelas com
mais de 30 elementos.
Intervalo de confiana
Uma vez conhecida a mdia, o desvio padro e a distribuio
das mdias amostrais, possvel melhorar a nossa estimativa
para uma dada mdia amostral.
O valor da mdia varia de amostra para amostra.
Se conhecemos a mdia amostral e o desvio padro
populacional, podemos pensar em termos probabilsticos para a
nossa mdia.
Basta estabelecermos a probabilidade de acerto para a mdia e
poderemos definir um intervalo esperado para a mdia que
atenda a dada probabilidade.
Este intervalo chamado de intervalo de confiana.
Intervalo de confiana
A mdia de uma amostra pode assumir
qualquer valor dentro de um dado intervalo, e
o intervalo pode ser maior ou menor de
acordo com o grau de certeza ou
probabilidade que se queira.
Tal fato nos remete ao conceito de que se
olhamos para duas mdias pura e
simplesmente, mesmo que elas sejam
diferentes, podem no ser estatisticamente
diferentes.
A distribuio t de Student
A rigor, a utilizao da distribuio z para a
determinao de um intervalo de confiana
para a mdia amostral, s seria possvel se o
desvio padro populacional fosse conhecido
Entretanto, isso no ocorre na maioria dos
estudos, onde se obtm o desvio padro a
partir da amostra estudada.
Uma outra situao que ocorre com
freqncia, o estudo de amostras
pequenas (n < 30).
A distribuio t de Student
Para resolver os dois problemas citados, existe uma
distribuio muito parecida com a distribuio
normal, que a distribuio t de student.
Tal distribuio de probabilidades tem uma curva
muito parecida com a da normal padronizada
A distribuio t de Student
A utilizao da distribuio t pressupe
normalidade dos dados da amostra.
Na prtica, para amostras pequenas (n < 30),
a populao da qual a varivel foi submetida
amostragem deve ter distribuio normal
para se utilizar a estatstica t.
J para amostras grandes, isto no
necessrio (lembrar do teorema do limite
central).
Testes de hiptese ou testes de
significncia
J vimos que a mdia e o desvio padro de uma
amostra nos do uma estimativa dos verdadeiros
parmetros populacionais.
Vimos, tambm, que se conhecemos a distribuio
de probabilidade das mdias amostrais da varivel
aleatria que est sendo estudada, podemos
construir um intervalo de confiana para a
verdadeira mdia populacional, baseado nas
estatsticas da nossa amostra (mdia e desvio
padro), e no grau de certeza (probabilidade) que
determinarmos.
Testes de hiptese ou testes de
significncia
De uma certa forma, o intervalo de confiana nos
permite fazer alguma inferncia sobre nossa
populao.
Entretanto, suponhamos que um pesquisador
afirma que encontrou um medicamento que trata de
forma eficiente a hipercolesterolemia
Ele formula uma hiptese, a da reduo do
colesterol, e esta precisa ser testada.
Ele faz uma anlise bioqumica do sangue de uma amostra
de pacientes, d o medicamento aos mesmos, e analisa de
novo o sangue, para verificar se houve reduo do
colesterol
Testes de hiptese ou testes de
significncia
O que devemos ter em mente que no
disporemos de toda a populao para testarmos,
mas sim de uma amostra da mesma.
Como a amostra nos d apenas uma estimativa da
populao, o conceito de significncia do teste de
uma hiptese estar ento relacionado alguma
probabilidade de erro ao aceitar ou rejeitar a
hiptese formulada.
Sendo assim, podemos dizer que:
A finalidade dos testes de hiptese ou significncia
avaliar afirmaes sobre os parmetros populacionais.
Testes de hiptese ou testes de
significncia
Os testes de hiptese se dividem basicamente em
dois grupos
Paramtricos
No-paramtricos.
Testes paramtricos exigem que a varivel aleatria
seja contnua e algumas outras suposies que se
relacionam admisso de normalidade
populacional, ou das mdias amostrais.
Para as outras situaes, os testes aplicveis so
os no paramtricos.
Testes de hiptese ou testes de
significncia
Os conceitos que cercam os testes de hiptese tem
relao com verificar se as variaes que
encontramos na nossa amostra so casuais ou so
verdadeiras.
Suponha ainda o exemplo anterior.
Existem duas hipteses possveis, ou o medicamento
altera ou no altera o nvel de colesterol.
Temos ento as nossas duas hipteses, que chamamos
de nula, com smbolo H
0
, e alternativa, com smbolo H
1
.
Testes de hiptese ou testes de
significncia
A hiptese H
0
a que afirma que no h
diferena entre os valores.
No h associao entre variveis, no h
diferena entre as mdias etc.
A hiptese H
1
a que oferece uma
alternativa H
1
,
H associao entre variveis, h diferena entre
as mdias, uma mdia maior ou menor que a
outra etc.
Testes de hiptese ou testes de
significncia
A estatstica se preocupa com a hiptese H
0
.






Em estatstica, na maioria das vezes, estamos preocupados
com o erro do tipo I do quadro acima.
Se pensarmos em tratamentos, nossa hiptese nula de que o
tratamento no faz efeito, e a alternativa, de que ele faz.
melhor trabalhar com a menor chance de errar ao dizer que o
tratamento produz efeito quando na verdade ele no produz.
Testes de hiptese ou testes de
significncia
O valor de , que tambm conhecido
como ndice de significncia, a
probabilidade de errar ao se rejeitar a
hiptese nula quando na verdade ela
verdadeira.
Os ndices de significncia clssicos so
0,05 e 0,01. Ou seja trabalhamos com
chances de errar de 5% ou de 1%.
Testes paramtricos - Testes de
significncia para duas mdias
Um pesquisador acredita que existe alguma
diferena entre os nveis de um marcador
bioqumico sangneo de homens que moram em
uma regio (RA) quando comparado outra (RB),
sem indicar qual grupoteria maior ou menor.
Como ele pode fazer para testar sua hiptese?
A resposta parece simples: toma-se uma amostra de
tamanho n
A
da populao A e de tamanho n
B
da populao
B, faz-se o exame de sangue e calcula-se a mdia para
cada regio.
Testes paramtricos - Testes de
significncia para duas mdias
A questo que certamente alguns indivduos da
amostra da regio RA tero valores diferentes da
RB, uns maiores e outros menores, assim como
haver, tambm, variao entre os indivduos de
uma mesma regio.
Sendo assim, muito provvel que as mdias no
sejam exatamente iguais.
A pergunta : as mdias no so iguais por que as
populaes realmente apresentam valores
diferentes ou por causa das variaes casuais
intrnsecas amostragem?
Testes paramtricos - Testes de
significncia para duas mdias
Lembremos do conceito de distribuio de mdias
amostrais e suas relaescom distribuio normal e
distribuio t.
Se agora pensarmos em uma distribuio para a
diferenas entre as mdias amostrais,
poderamos definir uma curva de distribuio para
essas diferenas, e, ento, estipularmos um
intervalo de confiana para a diferena ser nula.
Isto significa dizer que dentro de uma faixa de
valores consideraremos nossa diferena como
igual e fora da faixa, como diferente.
Testes paramtricos - Testes de
significncia para duas mdias
Quem define se a diferena de mdias est
dentro ou fora da faixa o ndice de
significncia ().
Se a nossa diferena de mdias pode ser
considerada como tendo distribuio normal,
podemos recorrer estatstica z ou mesmo
estatstica t para fazer nosso teste.
Teste z
Se temos n
A
+n
B
grande e conhecemos o
desvio padro populacional podemos usar a
distribuio normal padronizada ou o teste z.
Teste t para amostras independentes
O teste z exige que conheamos o desvio padro
populacional, e isto no ocorre na maioria dos
casos.
Se no conhecemos o desvio padro populacional
devemos recorrer distribuio t.
Realizaremos ento o teste t
na verdade, o teste t ser o mais utilizado, pois raramente
se conhece o desvio padro populacional.
Para tanto, devemos calcular o t de teste (t
t
) e
compar-lo ao t crtico (t
c
).
Teste t para amostras independentes
No caso do teste z, para conhecermos o z
crtico, necessitamos apenas de .
J para encontrarmos o valor do t crtico,
precisamos tanto de quanto do nmero de
graus de liberdade, que neste caso valer
sempre n
A
+ n
B
- 2.

Teste t para amostras dependentes
(pareadas)
No caso anterior, as amostras so
independentes, ou seja no existem, por
pressuposto, caractersticas comuns a
ambas as amostras.
Na verdade, para amostras independentes
queremos saber se as mdias provm de
uma nica populao.
Teste t para amostras dependentes
(pareadas)
Suponhamos agora o caso do teste do efeito do
medicamento que mencionamos anteriormente.
Medimos a nossa amostra antes e depois de tomar o
medicamento.
Devemos agora aplicar um teste que leve em
considerao a dependncia entre os resultados
obtidos, uma vez que as caractersticas que no
queremos avaliar da nossa amostra no variaram,
ou seja, nossas amostras so dependentes.
Neste caso, utilizamos o teste t para amostras
dependentes.
Teste t para amostras dependentes
(pareadas)
Este teste calcula a estatstica t, baseado na
mdia e no desvio padro das diferenas
entre os valores medidos antes e depois.
A estatstica t de teste ser ento comparada
ao t crtico, considerando o valor de e o
nmero de graus de liberdade (GL) que ser
n-1.
Observe a diferena do nmero de GL entre
os dois tipos de teste t!
Observaes importantes:
O teste t o teste de diferena de duas mdias
mais utilizado.
A sua utilizao requer algumas cautelas.
As principais premissas para a utilizao do teste t
so:
a distribuio de probabilidade da varivel aleatria (va)
investigada contnua e pode ser aproximada normal ou
a distribuio de mdias amostrais tem distribuio normal.
Neste ltimo caso, devemos nos reportar ao teorema do
limite central.
Observaes importantes:
Se a va tem distribuio normal, pode-se aplicar o
teste t para amostras to pequenas quanto 7 ou 10
por exemplo.
Caso contrrio, se no conhecemos a distribuio
da va, devemos tomar amostras maiores.
Neste caso, vale ressaltar que, para o teste com
amostras independentes, o tamanho das amostras
tem que ser tal que sua soma seja grande (n1 + n2
> 30).
J para o teste pareado (amostras dependentes),
como trabalhamos com um nico n, este tem que
ser grande (maior que 30).

Observaes importantes:
Uma outra suposio para a realizao dos testes paramtricos
a de que as varincias populacionais sejam iguais.
Utilizamos varincias amostrais, que so muito prximas s
populacionais.
Se os desvios padres amostrais so muito diferentes podemos
tambm questionar a utilizao do teste t.
Neste caso, podemos realizar um teste para as varincias (ou
desvios padres), se utilizando da distribuio F de Fisher.
Quando houver dvida quanto normalidade dos dados
populacionais (mesmo para variveis contnuas), para n
pequenos, devem-se utilizar os testes no paramtricos
equivalentes.
O valor p
Quando fazemos os testes estatsticos em
computador, ele nos permite avaliar a significncia
verdadeira do teste.
O computador nos fornece um valor p, que , para
o valor da estatstica calculada, qual seria o valor da
probabilidade de cometer o erro do tipo I.
Portanto, o valor p a verdadeira probabilidade
de se errar ao rejeitar a hiptese nula quando ela
verdadeira.
Quanto menor o valor p encontrado, menor a
chance de erro e mais significativa a diferena
entre as mdias.

O valor p
Nos artigos cientficos atuais, j usual descrever o valor do
ndice de significncia adotado a priori (a) na metodologia e, nos
resultados, apresentar o valor p (significncia verdadeira
calculada).
Isto permite ao leitor avaliar de forma mais eficiente a
significncia estatstica encontrada para o teste.
Por exemplo, se o autor do artigo diz que encontrou diferena
significativa para p=0,003, sabemos que 0,003 muito menor que
0,01, e avaliamos o teste como tendo um resultado altamente
significativo.
Por outro lado, se diz que no foi encontrada diferena e apresenta
o valor p=0,35, sabemos que 0,35 muito maior que 0,01 e 0,05, e
que portanto dificilmente as mdias seriam diferentes.
O problema quando se utiliza a=0,05 e encontra-se p=0,049 ou
0,051. Um passa por 0,001 e outro no passa, tambm, por
0,001.
Teste de significncia para mais de duas
mdias (ANOVA)
Suponha que algum suspeite que a
populao brasileira, em termos de altura,
no homognea ao se comparar as regies
sul (1), sudeste (2) e nordeste (3).
O que faramos para testar se a regio
influencia na altura?
Teste de significncia para mais de duas
mdias (ANOVA)
No existe um teste que teste a diferena
entre mais de duas mdias baseadas apenas
nas mdias.
O teste a ser empregado ento a anlise
de varincia ou ANOVA (do ingls, analysis
of variance)
Teste de significncia para mais de duas
mdias (ANOVA)
Um dos pressupostos utilizao dos testes
paramtricos que as varincias sejam
iguais.
Se H
0
verdadeira, conceitualmente, como
se todas as amostras tivessem sido tiradas
de uma mesma populao.
Se falsa, as amostras vm de populaes
diferentes,
Mesmo assim, devem ter varincias iguais.
Teste de significncia para mais de duas
mdias (ANOVA)
Um dos pressupostos utilizao dos testes
paramtricos que as varincias sejam
iguais.
Se H
0
verdadeira, conceitualmente, como
se todas as amostras tivessem sido tiradas
de uma mesma populao.
Se falsa, as amostras vm de populaes
diferentes,
Mesmo assim, devem ter varincias iguais.
Teste de significncia para mais de duas
mdias (ANOVA)
Se as varincias DENTRO das amostras so
iguais s varincias ENTRE as amostras,
ento elas vm da mesma populao
Se as varincias DENTRO das amostras so
diferentes das varincias ENTRE as
amostras, ento elas vm de populaes
diferentes.
Teste de significncia para mais de duas
mdias (ANOVA)
E se quisermos saber quem difere de quem?
Teste de Tukey
Estabelece as diferenas mnimas entre as varincias
individuais e totais que pode ser consideradas
significativas.
Observaes
Existem variantes do teste ANOVA para
testar mais de um fator, e para testar
amostras dependentes.
As mesmas consideraes sobre a
normalidade da amostra ou da populao
que so levadas em conta no caso do teste t
se aplicam aqui.
Em caso de dvidas, usar testes no-
paramtricos equivalentes.
Obrigado!
Leandro Giavarotti
lgiavaro@gmail.com

You might also like