You are on page 1of 28

Anlise Exploratria de Dados

Inferncia Estatstica
At aqui, ns aprendemos a descrever uma amostra atravs das medidas
de tendncia central e de disperso.
Na inferncia estatstica, desejamos inferir propriedades de uma populao
com base nos resultados obtidos em uma amostra.
Objetivo: tirar concluses sobre uma populao com base na informao de
uma amostra.
A amostra deve ser representativa da populao da qual ela selecionada.
Se no for, as concluses extradas sobre a populao podem estar
distorcidas ou viesadas.
Anlise Exploratria de Dados
Parmetro: quantidades desconhecidas da populao e sobre as quais
temos interesse.
Ex: - mdia da populao
Estimador: combinao dos elementos da amostra, construda com a
finalidade de representar, ou estimar, um parmetro de interesse na
populao.
Ex:
Estimativa: valor numrico assumido pelo estimador.
Ex :
Probabilidade os parmetros da distribuio eram conhecidos
calculamos probabilidades
Inferncia os valores desses parmetros no so conhecidos.
) (estimador amostra da mdia : X
observada. amostra a para X de valor o x
Anlise Exploratria de Dados
Estimadores so funes de variveis aleatrias e, portanto, eles tambm
so variveis aleatrias. Consequentemente, tm uma distribuio de
probabilidades, denominada distribuio amostral do estimador.
Distribuio amostral da mdia
Exemplo 1: Considere uma populao em que uma varivel X assume um
dos valores do conjunto {1, 3, 5, 5, 7}. A distribuio de probabilidade de X,
considerando os possveis valores de X equiprovveis, dada por:
fcil ver que a mdia da populao,
X
= E(X) = 4,2
pois,
x 1 3 5 7
P(X = x) = f(x) 1 / 5 1 / 5 2 / 5 1 / 5
2 , 4
5
1
. 7
5
2
. 5
5
1
. 3
5
1
. 1 ) ( ) ( = + + + = = =

x xf X E
x

Anlise Exploratria de Dados


e a varincia da populao,
2
= Var(X) = 4,16 pois,
| |
( ) ( ) ( ) ( ) ( ) ( )
| |
( ) ( ) ( ) ( ) ( ) | |
16 , 4
2 , 4 7 2 , 4 5 2 2 , 4 3 2 , 4 1
5
1 1
) (
16 , 4
10
42
5
109
) ( ) ( ) (
5
109
5
1
7
5
2
5
5
1
3
5
1
1 ) (
) ( ) ( ) (
2 2 2 2
1
2
2
2
2
2 2 2 2
1
2
2
2
2 2
= + + + = =
=
|
.
|

\
|
= =
= + + + = =
= =

=
=
n
i
i
i
N
i
i
x
N
X Var
Ou
X E X E X Var
x p x X E
X E X E X Var

o
Anlise Exploratria de Dados
Anlise Exploratria de Dados
2 n para de ade probabilid de o distribui A = X
2
,08 2 ) ( r a V e 4,2 ) E( caso, Neste
2
x
x
o
= = = = X X
X de ade probabilid de o distribui seguinte a temos 3, n
tamanho de amostras para to, procedimen mesmo o Repetindo
=
Anlise Exploratria de Dados
3
1 ) ( r a V e 4,2 ) E( caso, Neste
2
x
x
o
= = = = 39 , X X
Anlise Exploratria de Dados
Histogramas correspondentes s distribuies
de X e de X , para amostras de {1,3,5,5,7}
Dos histogramas, observamos que
normal. o distribui
uma de se - aproxima histograma do
forma a grande, mente suficiente n para
; ocorrncia de ade probabilid
pequena ter a passam extremos casos os
; diminuindo vai varincia a que vez uma
de torno em mais
vez cada concentrar se a tendem
de valores os aumenta, n conforme
x
-
-
= =
-
, 2 , 4 ) ( X E
X
Anlise Exploratria de Dados
Histogramas correspondentes s distribuies X de para amostras de
algumas populaes
Anlise Exploratria de Dados
ente. m aproximada grande, n para ,
n
; N ~ X
seja, ou ,
n
varincia e mdia com normal, o distribui uma
de grande, n para se, - aproxima , X amostral, mdia da ade probabilid
de o distribui a X, acaso ao retiradas , X ..., , X , X amostras Para
. varincia e mdia tem que a. v. uma X Seja
Central Limite do Teorema
normal. o distribui uma de se - aproxima , X amostral,
mdia da ade probabilid de o distribui a , X de o distribui da forma da
temente independen aumenta, n quando que, sugerem grficos Esses
2
n 2 1
2
|
.
|

\
| o

o
Na prtica, geralmente, n > 30 j considerado grande.
Anlise Exploratria de Dados
mdia. da padro erro denominado
n
n
padro desvio O
n. todo para
exata, normal o distribui tem X ento normal, X de o distribui a Se
2
o o
= -
-
? n de funo em X de o distribui a comporta se Como
16). N(10, varivel uma de n tamanho de aleatria amostra uma Considere
Anlise Exploratria de Dados
Exemplos:
1) Uma v.a. X tem mdia = 5,4 e varincia
2
= 4,44. Uma amostra com
40 observaes sorteada com reposio. Qual a probabilidade da
mdia amostral ser maior do que 5?
Consideramos que n = 40 observaes uma amostra grande o
suficiente para usar o Teorema do Limite Central.
Assim,
|
|
.
|

\
|
|
.
|

\
|
40
; ,4 N ~ X isto
n
; N ~ X
44 , 4
5 ,
o

( ) ( ) 8849 , 0 3849 , 0 5 , 0 20 , 1
40
44 , 4
4 , 5 5
= + = > =
|
|
|
|
.
|

\
|

> ~ > Z P Z P P 5 X
Anlise Exploratria de Dados
2) Considere que a distribuio dos nveis sricos de colesterol para todos
os homens de 20 a 74 anos normal com mdia = 211 mg/100ml e o
desvio padro = 46 mg/100ml.
Selecionamos amostras de tamanho 25 da populao.
Que proporo de amostras ter um valor mdio maior do que
230mg/100ml?
Soluo:
( )
|
.
|

\
|
|
.
|

\
|

25
46
2 , ; 11 N : X isto
n
; N : X
211;46 N : X homens os todos para colesterol de sricos nveis : X
o

Anlise Exploratria de Dados


( ) ( ) . 0192 , 0 4808 , 0 5 , 0 07 , 2
25
46
211 230
30 = = > =
|
|
|
|
.
|

\
|

> = > Z P Z P P 2 X
Somente 1,9% das amostras tero uma mdia maior do que 230 mg/100ml.
Equivalentemente, se selecionamos uma amostra de tamanho 25, a
probabilidade de que o nvel srico mdio de colesterol para essa amostra
seja maior do que 230 mg/100ml de 0,019.
b) Que valor mdio de nvel srico de colesterol limita os 10% valores mais
baixos da distrib. amostral?
( )
. 2 , 199 2 , 9 . 28 , 1 211 28 , 1
2 , 9
211
. 1 , 0
25
46
211
1 , 0
= = =

=
|
|
|
|
.
|

\
|

< = <
x
x
x
Z P x P X
~10% das amostras de tamanho 25 tm mdias que so menores ou iguais a
199,2 mg/100ml.
Anlise Exploratria de Dados
c) Calcular os limites superior e inferior que incluem 95% das mdias das
amostras de tamanho 25.
( )
968 , 192 211 2 , 9 . 96 , 1 96 , 1
5 / 46
211
03 , 229 211 2 , 9 . 96 , 1 96 , 1
5 / 46
211
95 , 0
1
1
2
2
2 1
= + = =

= + = =

= < <
x
x
x
x
x X x P
~ 95% das mdias das a.a. de tamanho 25 esto entre 193,0 mg/100ml e
229,0 mg/100ml.
Se selecionamos uma a.a. de tamanho 25 e a amostra tem uma mdia
maior que 229,0 ou menor que 193,0 mg/100ml ento, ou a a.a. foi
extrada de uma populao diferente ou um evento raro se realizou.
Anlise Exploratria de Dados
Suponha que selecionamos amostras de tamanho 10 da populao.
. 100 / 5 , 14
10
46
ml mg = =
n
X de padro erro o caso, Nesse
o
( )
42 , 239 211 5 , 14 . 96 , 1 96 , 1
5 , 14
211
58 , 182 211 5 , 14 . 96 , 1 96 , 1
5 , 14
211
95 , 0 X
2
2
1
1
2 1
= + = =

= + = =

= < <
x
x
x
x
x x P
~ 95% das mdias das a.a. de tamanho 10 esto entre 182,5 mg/100ml e
239,5 mg/100ml.
n Intervalo contendo 95% das mdias Comprimento do intervalo
1 46,0 180,4
10 14,5 57,0
25 9,2 36,0
50 6,5 25,6
100 4,6 18,0
n / o
2 , 301 8 , 120 s s X
5 , 239 5 , 182 s s X
0 , 229 0 , 193 s s X
8 , 223 2 , 198 s s X
0 , 220 0 , 202 s s X
Anlise Exploratria de Dados
Conforme o tamanho das amostras aumenta, a variabilidade entre as mdias
da amostra (erro padro) diminui os limites englobando 95% dessas
mdias se aproximam.
Os intervalos que construmos foram simtricos ao redor da mdia da
populao de 211 mg/100ml.
Existem outros intervalos que contm a proporo apropriada de mdias da
amostra.
Suponha que desejamos construir um intervalo que contenha 95% das
mdias das amostras de tamanho 25, mas com 1% da rea acima de x
2
e 4% abaixo de x
1
.
( )
9 , 232 2 , 9 . 32 , 2 211 32 , 2
2 , 9
211
9 , 194 2 , 9 . 75 , 1 211 75 , 1
2 , 9
211
95 , 0
2
2
1
1
2 1
= + = =

= = =

= < <
x
x
x
x
x X x P


Anlise Exploratria de Dados
Qual deve ser o tamanho das amostras para que 95% de suas mdias se
encontrem a 5 mg/100ml da mdia da populao?
Para responder isso, no necessrio conhecer o valor do parmetro .
Precisamos encontrar o tamanho da amostra n para o qual
( )
. 2 , 325
5
46 . 96 , 1
2 , 9 . 96 , 1
46
5
95 , 0
46
5
46
5
95 , 0
= = =
=
|
|
.
|

\
|
+
< <

= + < <
n n
n
n
Z
n
P P

5 X 5 -
Amostras de tamanho 326 seriam exigidas para que 95% das mdias das
amostra se encontrem a 5 mg/100ml da mdia da populao.
Ou, se selecionamos uma amostra de tamanho 326 da populao e
calculamos sua mdia, a probabilidade de que a mdia da amostra esteja a
5 mg/100ml da verdadeira mdia da populao 0,95.
Anlise Exploratria de Dados
Distribuio amostral de uma proporo
Uma aplicao importante do Teorema Central do Limite relaciona-se com a
distribuio da proporo amostral.
Considere uma amostral de tamanho n, X
1
, X
2
, ..., X
n
, extrada
aleatoriamente de uma populao X onde

=
fracasso; ocorre se 0,
sucesso ocorre se , 1
i
X
Onde sucesso a ocorrncia do evento de interesse e fracasso a
ocorrncia do evento complementar. Seja p a probabilidade de sucesso.
Esta probabilidade estimada pela proporo amostral de sucessos.
n
interesse de tica caracters certa uma com amostra na indivduos de nmero


amostra da tamanho
amostra na sucessos de nmero

=
=
p
p
Anlise Exploratria de Dados
Como a varivel X
i
assume somente o valor 1, se o indivduo apresenta a
caracterstica; e 0 caso contrrio; podemos reescrever a proporo amostral
como:
X
n n
X X X
p
n
n
= =
+ + +
=

=1 i
i
2 1
X
...

Logo, uma proporo amostral no nada mais do que uma mdia amostal
de uma varivel que assume somente valores 0s e 1s.
Como uma mdia, a distribuio amostral de dada pelo Teorema
Central do Limite.
Assumindo que os X
i
so independentes e que cada X
i
tem distribuio
Bernoulli com mdia E(X
i
) = = p e desvio padro de X
i
=
x
i
= .
Ento, pelo Teorema Central do Limite:
p p
( ) p p 1
( )
1) , N(0 mente aproximada o distribui uma tem
1

n
p p
p p

Anlise Exploratria de Dados


Exemplo:
conhecido que a proporo de casos novos de hansenase da forma
diforma atendidos no ambulatrio de dermatologia de um hospital de 0,45.
Calcule a probabilidade de que para uma amostra de 60 casos novos
atendidos neste hospital, a proporo de portadores de hansenase da
forma diforma:
a) seja menor do que 0,30
b) esteja entre 0,40 e 0,55.
Soluo:
Assumindo que cada paciente ser portador de hansenase da forma
diforma independente de outro paciente ser ou no portador de
hansenase da forma diforma temos, pelo Teorema Central do Limite, que
a proporo amostral de pacientes portadores de hansenase da forma
diforma tem distribuio aproximadamente Normal com mdia 0,45 e
desvio padro

=
diforma forma da hansenase de portador no paciente o se 0,
diforma forma da hansenase de portador paciente o se , 1
i
X
( )
60
45 , 0 1 45 , 0
Anlise Exploratria de Dados
Logo,
( )
1) , N(0 mente aproximada o distribui uma tem
60
45 , 0 1 45 , 0
45 , 0

p
( )
0099 , 0 4901 , 0 5 , 0 ) 33 , 2 (
60
45 , 0 1 45 , 0
45 , 0 30 , 0
) 30 , 0 ( ) = = < =
|
|
|
|
.
|

\
|

< = < Z P Z P p P a
( ) ( )
7229 , 0 4406 , 0 2823 , 0 ) 56 , 1 78 , 0 (
60
45 , 0 1 45 , 0
45 , 0 55 , 0
60
45 , 0 1 45 , 0
45 , 0 40 , 0
) 55 , 0 40 , 0 ( )
= + = < < =
=
|
|
|
|
.
|

\
|

<

= < <
Z P
Z P p P b
Anlise Exploratria de Dados
A inferncia um conjunto de tcnicas que objetiva estudar a populao
atravs de evidncias fornecidas por uma amostra.
Estimao
Teste de hipteses
Estimao:
1. Estimao pontual:
Quando procuramos encontrar uma estimativa nica que esteja
satisfatoriamente prxima do verdadeiro valor do parmetro.
Parmetro Estimador

X
p
p
2
o
2
S
o S
O valor numrico que o estimador assume a estimativa pontual do
parmetro.
Anlise Exploratria de Dados
2. Estimao intervalar Intervalos de confiana
Um estimador pontual com base em uma amostra produz um nico
nmero como estimativa do parmetro. Muitas vezes, entretanto,
queremos considerar, conjuntamente, o estimador e a preciso com
que estima o parmetro.
Para cada amostra diferente que retirarmos da populao poderemos
observar valores diferentes para a mdia e o desvio padro e
consequentemente temos intervalos diferentes.
No podemos afirmar com certeza que o valor da mdia populacional,
, est includo dentro do intervalo.
O que podemos dizer que com 100(1-o)% de confiana o valor de
pertence ao intervalo.
Isto quer dizer que se observarmos um grande nmero de amostras de
mesmo tamanho e para cada amostra calcularmos um intervalo de
100(1-o)% de confiana, cerca de 100(1-o)% dos intervalos contero o
verdadeiro valor de .
Anlise Exploratria de Dados
Vamos supor a seguinte populao X = {2, 3, 4, 5} com mdia = 3,5 e
varincia
2
= 1,25.
Vamos relacionar todas as amostras possveis de tamanho 2 dessa
populao:
(2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5)
(4, 2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5)
Agora, vamos calcular a mdia de cada amostra acima relacionada. Ento
teremos:
2,0 2,5 3,0 3,5 2,5 3,0 3,5 4,0
3,0 3,5 4,0 4,5 3,5 4,0 4,5 5,0
Por fim, vamos calcular a mdia das mdias amostrais, ou seja
5 , 3
16
0 , 5 5 , 4 ...... 5 , 3 0 , 3 5 , 2 0 , 2
) ( =
+ + + + + +
= X E
Anlise Exploratria de Dados
Sabemos que a mdia populacional 3,5 e para cada valor calculamos o erro entre
a mdia da amostra e a mdia populacional.
Para algumas amostras, o erro foi igual a zero. Entretanto, outras amostras
apresentaram erros grandes de 1,5 para mais ou para menos em relao mdia
populacional.
Anlise Exploratria de Dados
Porm, quando vamos elaborar uma estimativa para um parmetro
populacional, utilizamos apenas uma dessas possveis amostras.
Interessa-nos construir um intervalo de confiana que garanta que essa
nica amostra escolhida seja uma dentre as amostras que admitimos que o
erro cometido no seja significativo para o estudo.
No exemplo, admitindo que o erro mximo desejvel seja 0,5, as amostras
1, 2, 5, 12, 15 e 16 nos levariam a estimativas com erro muito grande.
Existe portanto uma probabilidade de 6/16 (ou 37,5%) de sortearmos uma
amostra no desejvel.
Nosso objetivo construir um intervalo de confiana de tal maneira que
tenhamos uma probabilidade pequena de sortearmos amostras com erros
no desejveis. Ou seja, admitindo que essa probabilidade seja 10%,
teremos apenas 10% de amostras que geraro estimativas cujo o erro
amostral superar o valor que estamos admitindo como mximo.
Anlise Exploratria de Dados
Existiro, portanto, 90% de amostras cujas estimativas sero consideradas
boas, isto , cujos intervalos gerados a partir dessas estimativas pontuais
esperamos que contenham o verdadeiro parmetro populacional.
Chamamos a essa ltima probabilidade de nvel de confiana da estimativa
e simbolizamos por (1 - o).
(1 - o) pode ser igual a 99%, 95%, 90%.
Se estabelecemos que desejamos um intervalo de (1 - o) = 0,95 de
confiana, o ser igual a 0,05; o que significa que, ao estimarmos o
parmetro, poderemos estar utilizando uma daquelas amostras dentre as
5% que geram estimativas intervalares cujos erros amostrais encontram-se
acima do desejvel.

You might also like