You are on page 1of 34

Ref.: Johnson e Wichern, Cap.

4
Alguns mtodos de Inferncia Estatstica partem do
pressuposto de normalidade dos dados.
A qualidade das inferncias feitas por estes mtodos
depende de quo prxima a populao em estudo da
normal multivariada.
Procedimentos para verificao de dados que
apresentam desvios da suposio de normalidade se
fazem necessrios.

PROBLEMA: As observaes X
i
parecem violar a
suposio de normalidade?

Sugesto: verificar se as distribuies marginais do
vetor aleatrio parecem normais;
se os diagramas de disperso das variveis tomadas
duas a duas tm uma aparncia elptica;
se existem observaes discrepantes (outliers) que
meream ser verificadas.
Avaliao da normalidade das
distribuies marginais
Histogramas para tamanhos amostrais superiores ou
iguais a 25 podem revelar situaes nas quais uma
cauda da distribuio seja mais pesada do que a outra.
Se o histograma para a j-sima componente do vetor de
observaes parece razoavelmente simtrico, podemos
verificar a normalidade calculando a proporo de
valores que caem em determinados intervalos
comparando-a com a proporo esperada sob
normalidade.
Avaliao da normalidade das distribuies marginais
Por exemplo, numa distribuio normal univariada a
probabilidade de um valor cair no intervalo que dista um
desvio-padro da mdia cerca de 68%; a probabilidade de
um valor cair no intervalo que dista dois desvios-padro da
mdia cerca de 95%; etc.
Assim, se observarmos propores amostrais muito
diferentes do que se espera no caso da normal, a hiptese
de normalidade deve ser descartada.
Grficos so sempre ferramentas teis em qualquer anlise
de dados. Grficos especiais chamados Q-Q plots podem
ser usados para avaliar a suposio de normalidade.
Q-Q plots
Construdos a partir das distribuies marginais de cada componente
do vetor p-variado.
So de fato um grfico do quantil amostral versus quantil esperado sob
normalidade (podem ser usados para validar outras distribuies
diferentes da normal).
Quando a configurao de pontos no grfico se aproxima de uma reta, a
suposio de normalidade sustentvel.
A normalidade suspeita se houver pontos que se desviam do
comportamento linear.
A forma como os pontos se desviam do comportamento linear pode
fornecer pistas sobre a natureza da no normalidade das observaes.
Conhecida a razo da no normalidade dos dados, aes corretivas
podem ser tomadas (transformaes visando normalizar os dados ou
uso de tcnicas para dados no normais).
PASSOS NA CONSTRUO DO Q-Q plot
Ordenar os n valores da j-sima componente do vetor
aleatrio. Seja as observaes
ordenadas. Os s so os quantis amostrais
(i=1,2,...,n).
Quando todos os quantis amostrais so distintos entre
si, ento exatamente i observaes so menores ou
iguais a .
A proporo i/n da amostra esquerda de x
(i)

frequentemente aproximada para (i-0,5)/n por
convenincia analtica.

) ( ) 2 ( ) 1 (
...
n
x x x s s s
s x
i
'
) (
) (i
x
PASSOS NA CONSTRUO DO Q-Q plot
Para uma distribuio normal padro, podemos obter
os quantis q
(i)
tais que P(Z q
(i)
)=(i-0,5)/n.
A idia ser olhar os pontos (q
(i)
,x
(i)
) com a mesma
probabilidade acumulada (i-0,5)/n.
Se os dados, de fato, provm de uma normal, os pares
sero aproximadamente linearmente relacionados,
pois o quantil esperado sob normalidade
aproximadamente q
(i)
+, com representando o
desvio-padro e a mdia da distribuio.

Usando o R para a construo do Q-Q plot
No R temos a funo ppoints(n) que gera o vetor de
valores (i-0,5)/n, para i variando de 1 a n.
Para gerar os quantis esperados sob normalidade
usaremos a funo qnorm(p), que retorna o quantil
cuja probabilidade acumulada p. (Quando no
especificamos nada alm de p, o R retorna quantis da
N(0,1)).
A funo usada para ordenar um vetor de nmeros no
R a funo sort(x).



Construo do Q-Q plot das medidas do conjunto de
dados crabs do pacote MASS
Carregue o pacote MASS.
Digite data(crabs).
Os dados esto organizados de tal modo que as colunas de
4 a 8 representam medidas morfolgicas de caranguejos de
duas espcies (linha 1 a 100 uma espcie e de 101 a 200 a
outra).
Tambm h a diviso por gnero (macho e fmea) tal que as
50 primeiras linhas de cada espcie so do gnero macho e,
as restantes, do gnero fmea.
Vamos construir 20 QQ-plots representando cada uma das
5 medidas dos 4 grupos caracterizados por espcie e
gnero.

Construo do Q-Q plot das medidas do
conjunto de dados crabs do pacote MASS
Como n=50 em cada grupo espcie e gnero, faa
prop=ppoints(50)
Calcule o vetor de quantis esperados sob normalidade:
quantilesp=qnorm(prop)
Ordene os valores observados: x1=sort(crabs[1:50,4])
Construa o grfico: plot(quantilesp,x1).
Para que os 20 grficos fiquem numa nica pgina use
a funo par(mfrow=c(4,5))

Avaliao da normalidade das distribuies
marginais
Uma medida quantitativa para auxiliar na avaliao do
Q-Q plot calcular a correlao r
Q
entre os quantis
esperados e o vetor observado ordenado.
A hiptese de normalidade rejeitada ao nvel de
significncia se r
Q
obtido for menor que um valor
apropriado.
Por exemplo, ao nvel de significncia de 5% amostras
de tamanho 50, a hiptese deve ser rejeitada se r
Q
for
inferiro a 0,9768.


Correlaes obtidas na base de dados crabs

grupo 1: 0,9929 0,9899 0,9924 0,9924 0,9910
grupo 2: 0,9901 0,9939 0,9931 0,9940 0,9924
grupo 3: 0,9902 0,9943 0,9907 0,9903 0,9893
grupo 4: 0,9919 0,9903 0,9915 0,9912 0,9939
Limiar: 0,9768.
Logo, verifica-se que nenhuma das correlaes fica
abaixo do limiar especificado pelo nvel de
significncia de 5%, evidenciando a no rejeio da
hiptese nula de normalidade das distribuies
marginais.
Teste de normalidade de Shapiro-Wilk
Esse teste, proposto em 1965, calcula uma estatstica W que testa se uma
amostra aleatria de tamanho n provm de uma distribuio normal.
Valores pequenos de W so evidncia de desvios da normalidade e
pontos percentuais para a estatstica W, podem ser obtidos via simulao
de Monte Carlo.
A estatstica W calculada de acordo com a seguinte equao:



( )

=
=

|
.
|

\
|
=
n
i
i
n
i
i i
x x
x a
W
1
2
2
1
) (
em que os x
(i)s
so os valores amostrais ordenado e os a
i
s so constantes geradas
das mdias, varincias e covarincias das estatsticas de ordem de uma amostra
aleatria de tamanho n de uma distribuio normal.
Em comparao a outros testes de bondade de ajuste, esse teste comporta-se bem.
No R existe a funo shapiro.test(x).
Resultados da aplicao do teste de normalidade de Shapiro-Wilk aos dados CRABS

data: x1 --> W = 0.9817, p-value = 0.6268
data: x2 --> W = 0.9771, p-value = 0.4361
data: x3 --> W = 0.9815, p-value = 0.6179
data: x4 --> W = 0.9817, p-value = 0.6234
data: x5 --> W = 0.9777, p-value = 0.4592
data: y1 --> W = 0.9793, p-value = 0.5233
data: y2 --> w = 0.9846, p-value = 0.7538
data: y3 --> W = 0.9843, p-value = 0.7395
data: y4 --> W = 0.9866, p-value = 0.8386
data: y5 --> W = 0.9824, p-value = 0.6565
data: z1 --> W = 0.9758, p-value = 0.3918
data: z2 --> W = 0.9869, p-value = 0.8496
data: z3 --> W = 0.9771, p-value = 0.4366
data: z4 --> W = 0.9765, p-value = 0.4142
data: z5 --> W = 0.9742, p-value = 0.3411
data: w1 --> W = 0.9802, p-value = 0.5612
data: w2 --> W = 0.9804, p-value = 0.5683
data: w3 --> W = 0.9799, p-value = 0.5474
data: w4 --> W = 0.9801, p-value = 0.5568
data: w5 --> W = 0.9839, p-value = 0.7228
Avaliando compostos lineares
Compostos lineares podem ser investigados. Alguns
textos sugerem trabalhar com o composto linear
1 1 1 1 1

S com e e x e
i
T
=
representando o maior autovalor de S.
O composto linear:
p p p p i
T
p
e e x e

e

S com

=
representando o menor autovalor de S tambm
costuma ser usado.

Avaliando compostos lineares
Para avaliar os compostos sugeridos no slide anterior,
primeiro devemos obter os n valores correspondentes
a tais compostos. Por simplicidade, consideraremos
apenas o primeiro grupo. A verificao para os demais
grupos fica como um exerccio.
Primeiro vamos obter a decomposio espectral de S1
fazendo DES1=eigen(S1).
DES1 receber dois objetos: o vetor de autovalores em
ordem decrescente de magnitude e a matriz ortogonal
na qual as colunas so os autovetores correspondentes.
Avaliando compostos lineares
DES1$vectors[,j] representa o j-simo autovetor.
Faa e1=matrix(0,1,5) e e5=matrix(0,1,5)
Depois faa for (i in 1:5){e1[i]=DES1$vectors[i,1]} e
for (i in 1:5){e5[i]=DES1$vectors[i,5]}
Defina xc=matrix(0,50,2), matriz que receber em cada
coluna um dos compostos a serem analisados.
Finalmente, obtenha os compostos: (x1 representa a
matriz de dados do grupo 1)
for (i in 1:50){xc[i,1]=e1%*%x1[i,]} e
for (i in 1:50){xc[i,2]=e5%*%x1[i,]}


Resultados
Teste de Shapiro-Wilk
Shapiro-Wilk normality test

data: xc[, 1]
W = 0.9812, p-value = 0.6055

> shapiro.test(xc[,2])

Shapiro-Wilk normality test

data: xc[, 2]
W = 0.9661, p-value = 0.1603
Avaliao da Normalidade bivariada
Em trabalhos prticos, geralmente suficiente
investigar as distribuies uni e bivariadas subjacentes.
Se as observaes foram geradas de uma distribuio
normal multivariada, cada distribuio bivariada ser
normal e os contornos de densidade constante sero
elipses.
O diagrama de disperso deve-se ajustar a essa
estrutura exibindo uma forma elptica.
Avaliao da Normalidade bivariada
Alm disso, vimos que se , ento

) , ( ~ E
p
N X
( ) ( ) ( ) . 50 , 0
2
) 5 , 0 ( 2
1
= s E

_ X X P
T
A grosso modo, devemos esperar que cerca de 50% das observaes
caiam na regio (no elipside)
( ) ( )
2
) 5 , 0 ( 2
1
_ s

x x S x x
T
Assim um procedimento til, embora no exato, comparar
as propores de pontos dentro de um contorno com a proba-
bilidade terica correspondente.
Avaliao da Normalidade bivariada
Um mtodo um pouco mais formal para julgar a
normalidade bivariada baseado no quadrado da
distncia generalizada
( ) ( ) n i x x S x x d
i
T
i i
,... 2 , 1 ,
1 2
= =

Esse procedimento no limitado ao caso p=2, pode ser usado.
para p>2.
Avaliao da Normalidade bivariada
Quando a populao de fato normal multivariada e
ambos n e n-p so maiores que 25 ou 30, cada uma das
distncias generalizadas quadradas devem comportar-
se segundo uma distribuio de qui-quadrado com p
graus de liberdade.
Apesar dessas distncias no serem independentes ou
terem distribuio exata de Qui-quadrado, til
construir um grfico como se fossem.
O grfico resultante chamado grfico qui-quadrado.
Construo do grfico qui-quadrado
1. Ordene as distncias quadradas amostrais obtendo
2
) (
2
) 2 (
2
) 1 (
...
n
d d d s s s
2. Construa o grfico de disperso dos pontos:
( )
( )
( )
2
5 0
2
/ ) 5 , 0 (
2
) (
com , ,
)/n , (i- p n i p i
d _ _

representando o 100(i-0,5)/n quantil da distribuio de
qui-quadrado com p graus de liberdade.
A nuvem de pontos deve se ajustar a uma reta. Um padro
diferente sugere falta de normalidade
Verificando a normalidade bivariada dos
dados em crabs
Para comear devemos calcular as distncias
quadradas. Para isso vamos definir a matriz de dados
x=matrix(0,200,5) e fazer x1=x[1:50,1:5].
Em seguida vamos calcular o vetor de mdias
m1=matrix(0,1,5) // for (i in 1:5){m1[i]=mean(x1[,i])}
e a matriz de covarincia amostral S1=cov(x1).
Defina o vetor que receber as distncias quadradas:
dquad1=matrix(0,50) e faa
for (i in 1:50){dquad1[i]=(x1[i,]-m1)%*%solve(S1)%*%t(x1[i,]-m1)}
Verificando a normalidade bivariada dos
dados em crabs
Em seguida obtenha o vetor prop=ppoints(50) para
calcular o vetor de quantis (esperados)
qui=qchisq(prop,5)
Agora s construir o grfico.
A figura a seguir mostra os grficos obtidos para os
quatro grupos.
Tambm podemos calcular as porcentagens em cada
caso das distncias quadradas que ficaram abaixo do
quantil de 50% da qui-quadrado com 5 graus de
liberdade. Nesses caso em particular, observou-se
60%, 62%, 50% e 50%, respectivamente.
Transformaes de normalizao
Se a suposio de normalidade dos dados no plausvel, que
estratgia adotar?
1) Usar tcnicas estatsticas apropriadas para dados no-normais,
aps verificar a distribuio plausvel para os dados (Poisson,
Gamma,etc.)
2) Transformar os dados para uma nova escala, sob a qual a
suposio de normalidade plausvel.

Aqui, somente trataremos da transformao, pois tcnicas a
serem estudadas a seguir so voltadas para dados normais.

Transformaes no so nada mais do que uma forma de
reescrever os dados numa unidade diferente.
Transformaes teis
Escala original Escala transformada
Contagens (y)
Propores (
Correlaes (r) Fisher
y
) p
|
|
.
|

\
|

=
p
p
p
1

log
2
1
) ( logit
|
.
|

\
|

+
=
r
r
r z
1
1
log
2
1
) (
Transformaes de normalizao
Em muitas situaes a escolha para melhorar a
aproximao normal no bvia. Para tais casos
conveniente deixar que os dados mostrem uma
transformao. Uma famlia til de transformaes
para esse propsito a famlia de transformaes de
potncias : x

.
As transformaes de potncia s esto definidas para
variveis positivas. Porm, isso no to restritivo
quanto parece, porque uma nica constante pode ser
adicionada a cada observao no conjunto de dados se
alguns dos valores observados forem negativos.

Transformaes de normalizao
Box e Cox consideraram a seguinte famlia de
transformaes de potncia modificada:

=
=

=
0 , ln
0 ,
1
) (

x
x
que contnua em para x>0.
Dada a amostra, escolhe-se de modo a maximizar:

i
n
i
n
i
j
x x x
n
n
l

= =
+
(

=
1
2 ) (
1
) (
ln ) 1 ( ) (
1
ln
2
) (

Transformaes de normalizao
Observao: A transformao obtida geralmente melhora
a aproximao normalidade.
Porm, no h garantias de que mesmo a melhor escolha de
produzir um conjunto de dados transformados que seja
adequado suposio de normalidade.
Os resultados obtidos por uma transformao selecionada
de acordo com esse procedimento devem ser
cuidadosamente examinados para possveis violaes da
suposio de normalidade.
Essa recomendao de fato vale para qualquer
transformao usada.

You might also like