You are on page 1of 113

Faculdade de Economia da Universidade de Coimbra

Estatstica
Multivariada
Aplicada








Pedro Lopes Ferreira



2000



ii



iii
Sumrio


1 Introduo estatstica multivariada ----------------------------------------------- 1
1.1 A organizao dos dados --------------------------------------------------- 1
1.2 Estatsticas descritivas ------------------------------------------------------ 2
1.3 Distncias ----------------------------------------------------------------------- 6

2 lgebra matricial e vectores aleatrios -------------------------------------------- 13
2.1 Alguns conceitos bsicos --------------------------------------------------- 13
2.2 Matrizes definidas positivas ------------------------------------------------ 17
2.3 Mdias e covarincias de combinaes lineares --------------------- 21

3 Geometria amostral e amostragem aleatria ------------------------------------ 23
3.1 Geometria da amostra ------------------------------------------------------- 23
3.2 Amostragem aleatria ------------------------------------------------------- 28
3.3 Varincia generalizada ------------------------------------------------------ 29

4 Distribuio normal multivariada ---------------------------------------------------- 37
4.1 A densidade normal multivariada ----------------------------------------- 37
4.2 Propriedades da distribuio normal ------------------------------------- 42
4.3 A forma amostral da distribuio normal multivariada --------------- 44
4.4 Distribuio amostral de X

e S ------------------------------------------ 45

5 Inferncia acerca do vector mdia -------------------------------------------------- 47
5.1 T
2
de Hotelling ---------------------------------------------------------------- 47
5.2 Regies de confiana -------------------------------------------------------- 50
5.3 Inferncias para grandes amostras -------------------------------------- 56

6 Comparao entre duas mdias multivariadas --------------------------------- 59
6.1 Comparaes emparelhadas ---------------------------------------------- 59
6.2 Comparaes em desenhos de medidas repetidas ------------------ 65
6.3 Comparaes entre duas populaes ----------------------------------- 70



iv
7 Anlise de componentes principais e anlise factorial --------------------- 75
7.1 Introduo ---------------------------------------------------------------------- 75
7.2 Componentes principais ---------------------------------------------------- 78
7.3 Anlise factorial --------------------------------------------------------------- 86

8 Anlise de agrupamentos (clusters) ----------------------------------------------- 99
8.1 Introduo ---------------------------------------------------------------------- 99
8.2 Medidas de semelhana ---------------------------------------------------- 99
8.2.1 Medidas de distncia ----------------------------------------------- 100
8.2.2 Medidas de associao -------------------------------------------- 102
8.3 Critrios de agregao e desagregao -------------------------------- 105
8.3.1 Critrio do vizinho mais prximo (single linkage) ----------- 106
8.3.2 Critrio do vizinho mais afastado (complete linkage) ------ 106
8.3.3 Critrio da mdia do grupo (average linkage) ---------------- 107
8.3.4 Critrio do centride ------------------------------------------------ 107
8.3.5 Critrio de Ward ----------------------------------------------------- 107

Referncias bibliogrficas ------------------------------------------------------------- 109




1
Introduo anlise multivariada


1.1 A organizao dos dados
Sendo este um curso de estatstica multivariada, iremos analisar medies
feitas em vrias variveis ou caractersticas. Estas medies (dados) so
normalmente apresentadas quer graficamente, quer sob a forma matricial.
Assim, se considerarmos n medies em p variveis, x
ij
representar a
medio da varivel j no item i. A sua representao matricial ser
X =







np nj n n
ip ij i i
p j
p j
x x x x
x x x x
x x x x
x x x x
2 1
2 1
2 2 22 21
1 1 12 11
. . . .
. . . .

Esta matriz X contm os dados de todas as observaes em todas as variveis.
Exemplo 1.1: Pretende-se estudar as vendas dos livros de uma livraria e, para isso,
recolheu-se uma amostra de 4 recibos, indicando cada um deles o
nmero de livros vendidos e o total gasto (em centenas de escudos).
Numa forma tabular temos os seguintes dados:
Varivel Nome
1 Total 42 52 48 58
2 No. livros 4 5 4 3


2
Representando numa forma matricial obtemos a matriz X com duas linhas
(variveis) e quatro colunas (itens):
X =
'
3 4 5 4
58 48 52 42


o

1.2 Estatsticas descritivas
Se considerarmos x
1j
,x
2j
,,x
ij
,,x
nj
como representando as n medies
feitas na varivel j (coluna j da matriz X), podemos denominar por j x a mdia amostral
da varivel j
j x =

=
n
i
ij
x
n
1
1
j = 1,2,,p
Do mesmo modo, a medida de disperso varincia amostral da varivel i
dada por
s
2
i
= s
ii
=

=

n
i
ij
xj x
n
1
2
) (
1
i = 1,2,,p
A raiz quadrada da varincia amostral,
jj
s denominada desvio padro amostral.
Podemos tambm estar interessados em determinar o grau de associao
linear entre duas variveis j e k. Isto consegue-se atravs da covarincia amostral
representada pela mdia dos produtos dos desvios em relao s respectivas mdias
s
ik
= s
ki
=

=

n
i
k ik ij
x x xj x
n
1
) ( ) (
1
i = 1,2,,p ; k = 1,2,,p


3
Se valores altos de uma varivel foram observados conjuntamente com valores
altos de outra varivel, e valores pequenos tambm ocorrerem conjuntamente, s
jk

ser positiva. Se valores altos de uma varivel ocorrerem com valores pequenos de
outra varivel, s
jk
ser negativa. Caso no exista associao entre os valores de
ambas as varveis, s
jk
ser aproximadamente nula.
Finalmente, consideremos o coeficiente de correlao amostral de Pearson,
uma medida de associao linear entre duas variveis, independente das unidades de
medida e com valores entre -1 e +1.
r
jk
= r
kj
=
kk jj
jk
s s
s
=

= =
=


n
i
k
ik
n
i
i
ij
n
i
k
ik
j
ij
x x x x
x x x x
1
2
1
2
1
)
) ( ) (
( ) (

para i = 1,2,,p e k = 1,2,,p.
Esta ltima medida constitui, como facilmente se pode observar, uma verso
estandardizada da covarincia amostral.
De notar que, se substituirmos os valores originais x
ij
e x
ik
pelos
correspondentes valores estandardizados (x
ij
-
j
x ) /
jj
s e (x
ik
-
k
x ) /
kk
s , o
coeficiente de correlao amostral r
jk
pode ser visto como a covarincia amostral.
Aps a estandardizao, ambas as variveis podem ser comparadas, pois passam a
estar nas mesmas unidades.
Voltando, de novo, apresentao matricial, baseando-nos na matriz X com n
medies (linhas) em p variveis (colunas), as mdias amostrais so representadas
por


4
x =

p
x
x
x
2
1


as varincias e covarincias amostrais por
S
n
=

pp p p
p
p
s s s
s s s
s s s
2 1
2 22 21
1 12 11
. . .

e as correlaes amostrais por
R =

1
. . .
1
1
2 1
2 21
1 12
p p
p
p
r r
r r
r r

Reparar que as matrizes S
n
e R so matrizes simtricas de ordem p.

Exemplo 1.1 (cont):
Pegando de novo na matriz
X =
'
3 4 5 4
58 48 52 42


podemos determinar o vector x
_
e as matrizes S
n
e R. Assim,
x
1
_
=

=
4
1
1
4
1
i
i
x = ) 58 48 52 42 (
4
1
+ + + = 50


5
x
2
_
=

=
4
1
2
4
1
i
i
x = ) 3 4 5 4 (
4
1
+ + + = 4
e ento, x
_
=

2
1
x
x
=

4
50


Do mesmo modo,
s
11
=

=

4
1
2
1
1
) (
4
1
i
i
x x = [ ]
2 2 2 2
) 50 58 ( ) 50 48 ( ) 50 52 ( ) 50 42 (
4
1
+ + + = 34
s
22
=

=

4
1
2
2
2
) (
4
1
i
i
x x = [ ]
2 2 2 2
) 4 3 ( ) 4 4 ( ) 4 5 ( ) 4 4 (
4
1
+ + + = .5
s
12
=

=

4
1
) 2
2
1
1
( ) (
4
1
i
i i
x x x x =
= [ ] ) 4 3 )( 50 58 ( ) 4 4 )( 50 48 ( ) 4 5 )( 50 52 ( ) 4 4 )( 50 42 (
4
1
+ + + = -1.5

S
n
=


5 . 5 . 1
5 . 1 34

Finalmente, a correlao amostral dada por
r
12
= r
21
=
22 11
12
s s
s
=
5 . 34
5 . 1
= -.36
R =


1 36 .
36 . 1

o


6
1.3 Distncias
A maioria das tcnicas multivariadas so baseadas no conceito simples de
distncia. Se considerarmos um plano e um ponto P = (x
1
,x
2
) nesse plano, a distncia
d(O,P) entre a origem e esse ponto dada por

d(O,P) =
2
2
2
1
x x +
Figura 1.1 Teorema de Pitgoras

Num caso mais geral, se os pontos tiverem p coordenadas, ento P = (x
1
,x
2
,
,x
p
), O=(0,0,,0) e d(O,P) =
2 2
2
2
1 p
x x x + + +
Desta ltima equao, e elevando ao quadrado ambos os termos, podemos
dizer que todos os pontos (x
1
,x
2
, ,x
p
) que estejam a uma mesma distncia
quadrada da origem, satisfazem a equao
d
2
(O,P) = x
2
1
+ x
2
2
+ + x
2
p

Se se tratar de um espao onde p=2 , esta equao no mais do que a
equao de uma circunferncia de centro (0,0) e raio d(0,P).
A distncia em linha recta entre dois pontos quaisquer P e Q com coordenadas
P=(x
1
,x
2
, ,x
p
) e Q=(y
1
,y
2
, ,y
p
) dada por
d(P,Q) =
2 2
2 2
2
1 1
) ( ) ( ) (
p p
y x y x y x + + +
P
O
x
2
x
1


7
Ora tambm aqui se faz sentir o eventual problema das vrias dimenses
terem unidades de medida distintas. Mais ainda, as medies das diversas
coordenadas podem estar sujeitas a variaes aleatrias com intensidades diferentes.
Por isso, uma distncia baseada numa linha recta, ou euclideana, no a mais
apropriada. Necessitamos ento de um outro tipo de medio de distncias e, porque
este novo tipo de distncia vai ter em conta as diferenas de variao, denomina-la-
emos distncia estatstica.
Para ilustrar o conceito de distncia estatstica, suponhamos que temos n
pares de medies em duas variveis independentes x
1
e x
2
. Alm disso,
suponhamos tambm que a variao das medies da varivel x
1
maior do que a
das medies em x
2
.

x
1
x
2

Figura 1.2 Diagrama de pontos
Neste caso, a soluo passa, de novo, pela estandardizao das coordenadas,
dividindo cada uma delas pelo respectivo desvio padro amostral. Assim, uma
distncia estatstica do ponto P=(x
1
,x
2
) origem O=(0,0) dada por
d(O,P) =
2
22
2
2
11
1

s
x
s
x
=
22
2
2
11
2
1
s
x
s
x
+
Se compararmos esta equao com a anteriormente apresentada, podemos
concluir que a diferena reside na aplicao de pesos k
1
= 1/s
11
e k
2
= 1/s
22
,


8
respectivamente, a x
2
1
e x
2
2
. Tambm aqui todos os pontos de coordenadas (x
1
,x
2
) a
uma distncia quadrada constante c
2
da origem devem satisfazer a
11
2
1
s
x
+
22
2
2
s
x
= c
2

Esta ltima equao no mais do que a equao de uma elipse centrada na
origem com os eixos principais a coincidirem com os eixos do sistema de
coordenadas.

0
P
c s
11
c s
22
x
1
x
2

Figura 1.3 Elipse centrada na origem

Exemplo 1.2: Suponhamos que temos duas variveis independentes com mdias x
1
_

= x
2
_
= 0 e com varincias s
11
= 4 e s
22
= 1.
x
1
x
2
1
2

Figura 1.4 Elipse
A distncia de um qualquer ponto
P=(x
1
,x
2
) origem O=(0,0) dada, neste
caso por
d
2
(O,P) =
4
2
1
x
+
1
2
2
x



9
Todos os pontos (x
1
,x
2
) que esto a uma distncia constante 1 da origem
satisfazem a equao
4
2
1
x
+
1
2
2
x
= 1
correspondendo equao da elipse centrada em (0,0), com os eixos principais
segundo os eixos x
1
e x
2
e com meias distncias iguais a 4 = 2 e 1= 1,
respectivamente.
o

Generalizando para p variveis, podemos determinar a distncia estatstica
entre dois pontos P=(x
1
,x
2
, ,x
p
) e Q=(y
1
,y
2
, ,y
p
) atravs da equao
d(P,Q) =
pp
p p
s
y x
s
y x
s
y x
2
22
2
2 2
11
2
1 1
) (
) ( ) (

+ +


com s
11
, s
22
, , s
pp
as varincias construdas a partir das n medies nas variveis
x
1
,x
2
, ,x
p
, respectivamente. Todos os pontos P a uma distncia quadrada de Q
esto colocados num hiperelipside centrado em Q com os eixos principais paralelos
aos eixos do sistema de coordenadas. Obviamente, se todas as varincias fossem
iguais, encontramos a distncia euclideana j atrs apresentada.
Temos at agora analisado a situao em que os eixos da elipse dos dados
coincidem com os eixos do sistema de coordenadas. Ora, h situaes onde isto no
acontece, isto , em que a varivel x
1
no varia independentemente da varivel x
2
e,
neste caso, o coeficiente de correlao amostral no nulo.


10
x
1
x
2

x
1
x
2
~
~

Da figura ao lado vemos que basta
rodarmos o sistema original de eixos de um
ngulo para termos uma situao
semelhante s anteriores.

Figura 1.5 Elipse com ngulo
Isto corresponde a passarmos a usar as novas variveis
x
1
~
= x
1
cos() + x
2
sin() x
2
~
= - x
1
sin() + x
2
cos()
A distncia entre o ponto P=(x
1
~
,x
2
~
) e a origem O=(0,0) ento definida como
d(O,P) =
22
2
2
11
2
1
~
~
~
~
s
x
s
x
+ =
2
2 22 2 1 12
2
1 11
2 x a x x a x a + +
Nesta fase no vital sabermos como determinar os valores destes as. O que
importante vermos que existe um termo de produto cruzado indicador da
correlao r
12
no nula. Mais ainda, quando olhamos para a equao correspondente
s duas variveis independentes, vemos que
a
11
=
11
1
s
a
22
=
22
1
s
a
12
= 0
De uma maneira geral, a distncia estatstica do ponto P=(x
1
,x
2
) ao ponto fixo
Q=(y
1
,y
2
) para variveis correlacionadas dada por
d(P,Q) =
2
2 2 22 2 2 1 1 12
2
1 1 11
) ( ) )( ( 2 ) ( y x a y x y x a y x a + +



11
As coordenadas de todos os pontos P=(x
1
,x
2
) que estejam a uma distncia
quadrada constante c
2
de Q, definem uma elipse centrada em Q. A generalizao das
frmulas anteriores para p dimenses imediata.



12


13
2
lgebra matricial e vectores aleatrios


2.1 Alguns conceitos bsicos
Vejamos alguns conceitos que nos iro ser teis mais tarde.

Sendo dado um vector x= [ x
1
, x
2
, , x
n
] com n componentes, definimos
comprimento deste vector como sendo o valor dado por
L
x
=
2 2
2
2
1 n
x x x + + +
Assim, pr-multiplicando x pelo inverso do seu comprimento, L
1
x
x , obtm-se o vector
unitrio (com comprimento 1) e com a mesma direco de x.

Um outro conceito tambm importante o de ngulo. Se tivermos dois vectores
num plano com um ngulo entre eles, podemos considerar que =
2
-
1
, sendo
1

e
2
os ngulos que, respectivamente, x e y fazem com a primeira coordenada (ver
Figura 2.1).
Assim, sabendo que
cos (
1
) =
x
L
x
1
cos (
2
) =
y
L
y
1



14
sin (
1
) =
x
L
x
2
sin (
2
) =
y
L
y
2

e que cos () = cos (
2
-
1
) = cos (
2
) cos (
1
) + sin (
2
) sin (
1
)

x
y


2

1
x
x
2
y
y
2
1
Figura 2.1 Diferena entre ngulos
obtemos
cos () = cos (
1
-
2
) =

x y
L
x
L
y
1 1
+

x y
L
x
L
y
2 2
=
y x
L L
y x y x
2 2 1 1
+


Como o produto interno de dois vectores dado por xy = x
1
y
1
+ x
2
y
2

podemos re-escrever as equaes referentes a L
x
e a cos () da seguinte maneira:
L
x
= x x e cos () =
y x
y x
L L

=
y y x x
y x


Deste modo, dizemos que x e y so perpendiculares quando xy = 0.

Exemplo 2.1: Sendo dados os vectores x= [ 1, 3, 2 ] e y= [ -2, 1, -1 ] , determinar o
valor do comprimento de x e de y e o ngulo que eles fazem entre si.


15
Como xx = 1
2
+ 3
2
+ 2
2
= 14
yy = (-2)
2
+ 1
2
+ (-1)
2
= 6
xy = 1(-2) + 3(1) + 2(-1) = -1
ento L
x
= x x = 14 = 3.74
L
y
= y y = 6 = 2.45
cos () =
y x
y x
L L

=
-1
(3.74) (2.45)
= -.109 , donde, = 96.3
o

Diz-se que um conjunto de vectores x
1
, x
2
, , x
k
linearmente dependente
se existirem as constantes c
1
, c
2
, , c
k
, no todas nulas, tal que
c
1
x
1
+ c
2
x
2
+ + c
k
x
k
= 0

Exemplo 2.2: Determinar a dependncia linear dos vectores x
1
= [ 1, 2, 1 ] , x
2
= [ 1,
0, -1 ] e x
3
= [ 1, -2, 1 ] .
A equao c
1
x
1
+ c
2
x
2
+ c
3
x
3
= 0 implica o sistema

c
1
+ c
2
+ c
3
= 0
2c
1
- 2c
3
= 0
c
1
- c
2
+ c
3
= 0

que possui uma nica soluo c
1
= c
2
= c
3
= 0.


16
Neste caso, dizemos que os vectores x
1
, x
2
e x
3
so linearmente independentes.
o
x

y



Figura 2.2 Projeco de x em y
A projeco (ou sombra) de um vector x num vector y dada por
y y
y x

y =
y y
y x
L L
1
y
tendo L
1
y
y , o comprimento unitrio. O comprimento desta projeco
y
y x
L
| |
= L
x

y x
y x
L L

= L
x
| cos() |
O ltimo conceito muito usado na estatstica multivariada o de valor prprio e
vector prprio. Uma matriz quadrada A tem um valor prprio com o correspondente
vector prprio x 0 se
A x = x
Isto , os valores prprios so as razes da equao caracterstica | A - I | = 0.

Exemplo 2.3: Determinar os valores e vectores prprios da matriz A =


1 5
5 1

| A - I | = 0



1 5
5 1
= 0 (1 - )
2
- 25 = 0
1
=6 ou
2
=-4


17
Para
1
=6, A e =
1
e


21
11
1 5
5 1
e
e
= 6

21
11
e
e

= +
=
21 21 11
11 21 11
6 5
6 5
e e e
e e e

=
=
2
1
2
1
21
11
e
e

e
1
=

2
1
2
1

um vector prprio normalizado correspondente ao valor prprio

1
=6.
De modo idntico se encontra e
2
=

2
1
2
1
como sendo o vector prprio
correspondente a
2
= -4.
o

2.2 Matrizes definidas positivas
Dois dos pilares fundamentais da estatstica multivariada so o conceito de
distncia e o pressuposto de que os dados esto distribudos segundo uma
distribuio normal multivariada. Os produtos de matrizes resultantes da combinao
destes conceitos so denominados formas quadrticas. Assim, neste captulo iremos
falar em particular sobre as formas quadrticas no negativas e as matrizes definidas
positivas associadas.
Muitas vezes, tambm, os resultados que envolvem formas quadrticas e
matrizes simtricas so consequncia directa do que se denomina decomposio
espectral definida numa matriz simtrica A
kk
definida como


18
A =
1
e
1
e

1
+
2
e
2
e

2
+ +
k
e
k
e

k

(kk) (k1) (1k) (k1)(1k) (k1)(1k)
onde
1
,
2
, ,
k
so os valores prprios de A e e
1
, e
2
, , e
k
os
correspondentes vectores prprios normalizados, isto , e

i
e
i


= 1 (i = 1, 2, , k) e
e

i
e
j
= 0 (i j).

Exemplo 2.4: Sendo dada a matriz A =

3 1
1 3
, obtm-se os valores prprios
1
= 4
e
2
= 2. O vector prprio correspondente ao primeiro valor prprio e
1

=

1
1

Tornamo-lo nico, normalizando-o (comprimento igual unidade), isto , dividindo
cada elemento do vector por
2
21
2
11
e e + =
2 2
1 1 + = 2
Encontra-se e
1
=

2
1
2
1
. Do mesmo modo se obtinha e
2
=

2
1
2
1
.
Reparar que e
1


e
2
, isto , e

1
e
2
= 0.
Verificando a decomposio espectral,

3 1
1 3
= 4

2
1
2
1
2
1
2
1
+ 2

2
1
2
1
2
1
2
1
=


19
= 4

2
1
2
1
2
1
2
1
+ 2

2
1
2
1
2
1
2
1
=

2 2
2 2
+


1 1
1 1
=

3 1
1 3

o

Sempre que a matriz A (kk) simtrica seja tal que xA x seja sempre maior
ou igual a zero, qualquer que seja o vector x=[ ]
n
x x x
2 1
[ ] 0 0 0 ,
denominamo-la definida no-negativa ou semi-definida positiva. A chamada definida
positiva se xA x > 0 para todo o vector x 0. componente xA x damos o nome
de forma quadrtica.

Para k = 2,
xA x = [ ]

2
1
22 12
12 11
2 1
x
x
a a
a a
x x = [ ]

+
+
2 22 1 12
2 12 1 11
2 1
x a x a
x a x a
x x
= a
11
x
2
1
+ a
12
x
1
x
2
+ a
12
x
1
x
2
+ a
22
x
2
2
= a
11
x
2
1
+ 2a
12
x
1
x
2
+ a
22
x
2
2

= d
2
(0,x) = c
2

Pela decomposio espectral; A =
1
e
1
e

1
+
2
e
2
e

2

e ento xA x =
1
(xe
1
)
2
+
2
(xe
2
)
2
.

Assim; c
2
=
1
y
2
1
+
2
y
2
2
uma elipse em y
1
= xe
1
e y
2
= xe
2

Facilmente se verifica que x = c
2 / 1
1

e
1
satisfaz xA x =
1

(c
2 / 1
1

e
1
e
1
)
2
= c
2


20
e x = c
2 / 1
2

e
2
nos d a distncia na direco e
2

Deste modo os pontos situados a uma distncia c fazem parte de uma elipse
cujos eixos so dados pelos vectores prprios de A com comprimentos proporcionais
aos inversos das razes quadradas dos valores prprios. A constante de
proporcionalidade c.
Esta concluso ilustrada na figura abaixo.


Figura 2.3 Elipse de distncia constante

Com p > 2, os pontos x= [ ]
p
x x x
2 1
a uma distncia constante
c = Ax x da origem encontram-se no elipside
c
2
=
1
(xe
1
)
2
+ +
p
(xe
p
)
2

cujos eixos so dados pelos vectores prprios de A . A meia distncia na direco de
e
i
igual a
i
c

, i = 1, 2, , p, onde
1
,
2
, ,
p
, so os valores prprios de A.
x
1
x
2
e
1
e
2
c
1


c
2




21
2.3 Mdias e covarincias de combinaes lineares
Um vector aleatrio um vector cujos elementos so variveis aleatrias. Do
mesmo modo, uma matriz aleatria uma matriz cujos elementos so variveis
aleatrias.
A combinao linear cX = c
1
X
1
+ + c
p
X
p
tem
mdia E(cX) = c
e varincia Var(cX) = c c
onde = E(X) e = Cov(X) = [ ]
'
) ( ) ( X X E

Exemplo 2.5: Consideremos a matriz X =
'
0 5 2
1 3 2


A mdia desta matriz =

1
2

e a matriz das covarincias =

3 / 26 3 / 2
3 / 2 3 / 2

Assim, a combinao linear Y = 3 X
1
+ 2 X
2
, isto , [ ]

0 5 2
1 3 2
2 3 ,
ter a mdia E(YX) = [ ]

1
2
2 3 = 8
e a varincia Var(YX) = [ ]

2
3
3 / 26 3 / 2
3 / 2 3 / 2
2 3 = 48.67
o


22

Alm dos resultados anteriores podemos tambm afirmar que, sendo dado
duas combinaes lineares aX e bX, a covarincia entre elas dada por
Cov(aX,bX) = a' b




23
3
Geometria amostral e amostragem aleatria


Neste captulo iremos analisar as interpretaes geomtricas das estatsticas
descritivas amostrais x
_
, S
n
e R. Ser tambm introduzido o conceito de varincia
generalizada para descrever a variabilidade.

3.1 Geometria da amostra
Tal como j atrs vimos, as n observaes em p variveis podem ser dispostas
numa matriz np
X =

np n n
p
p
x x x
x x x
x x x
2 1
2 22 21
1 12 11
. . .
. . .
. . .
=

n
x
x
x

.
.
.

2
1

onde cada linha representa uma observao multivariada (vector x
i
, i= 1, n).
Assim, a variabilidade ocorre em vrias direces e quantificada atravs da
matriz S
n
das varincias. Um valor numrico desta variabilidade dado pelo
determinante de S
n
.


24
Exemplo 3.1: Determinar o vector mdia x
_
da matriz X =
'
5 3 1
3 1 4


,
apresente os n = 3 pontos num espao a p = 2 dimenses e localize x
_
.
x
_
=

+ +
+
3
5 3 1
3
3 1 4
=

3
2

O grfico de pontos correspondente ser,

X
3

X
2
x
X
1



Figura 3.1 Representao dos pontos x
1
, x
2
, x
3
e mdio
o

Em alternativa a esta interpretao geomtrica, podemos considerar os dados
como sendo p pontos num espao a n dimenses.
X =

np n n
p
p
x x x
x x x
x x x
2 1
2 22 21
1 12 11
. . .
. . .
. . .
= [y
1
y
2
y
p
]
-2
-1
0
1
2
3
4
5
6
-2 -1 0 1 2 3 4 5 6


25
Nesta nova interpretao, as coordenadas do i-simo ponto y
i
= [x
1i
, x
2i
, ,
x
ni
] so as n medies da i-sima varivel.
Exemplo 3.2: Usando a mesma matriz do exemplo anterior, representar o
vectores y
1
e y
2
.
y
1
= [ 4 -1 3 ] y
2
= [ 1 3 5 ]
O grfico de pontos correspondente ser,
Figura 3.2 Representao dos vectores y
1
e y
2

o

Tambm possvel dar-se uma interpretao geomtrica ao processo de
determinao da mdia amostral. Para isso comeamos por definir o vector n 1
1
n
= 1 = [ 1 1 1 ]
que, por definio, forma ngulos iguais com cada uma das n coordenadas.
1
2
4
5
6
3
1 2 4 5 6 3
1
2
4
5
6
3
y
2
y
1
1
2
3


26
Deste modo,
n
1
1 tem comprimento unitrio e direco do ngulo igualitrio.
A projeco de y
i
no vector unitrio dada por
y
i

n n
1 1

1 1 =
n
x x x
in i i
+ + +
2 1
1 = x
i
_
1
isto , a mdia amostral x
i
_
= y
i
1/ n corresponde ao mltiplo de 1 necessrio para
obter a projeco de y
i
na linha determinada por 1.
Alm disso, para cada y
j
podemos determinar o vector desvio d
j
, desvio entre y
j
e
i x 1.
d
j
= y
j
-
j
x 1 =

i
ni
i
i
i
i
x x
x x
x x
2
1

0 1 1 x Figura 3.3 Diferena entre vectores

Exemplo 3.3: Ainda com a mesma matriz X,
x
1
_
1 =

2
2
2
x
2
_
1 =

3
3
3

Consequentemente,
d
1
= y
1
- x
1
_
1 =

3
1
4
-

2
2
2
=

1
3
2

d
2
= y
2
- x
2
_
1 =

5
3
1
-

3
3
3
=

2
0
2

y
2


27

Figura 3.4 Vectores desvios
o
fcil ver que
L
2
i
d
= d

i
d
i
=

=

n
i
j
ij
x x
1
2
) (
isto , o quadrado do comprimento do vector desvio igual soma dos quadrados
dos desvios.
Do mesmo modo,
d

i
d
k
=

=

n
j
k
kj
i
ij
x x x x
1
) ( ) ( = L
i
d
L
k
d
cos(
ik
)
e ento,
r
ik
=
kk ii
ik
s s
s
= cos(
ik
)
O coseno do ngulo o coeficiente de correlao amostral. Assim, se dois
vectores tiverem aproximadamente a mesma orientao, a correlao amostral ser
prxima da unidade. Se estes dois vectores forem quase perpendiculares, a
y
2
y
1
1
2
3
d
1
d
2
x 1
2
x 1
1


28
correlao amostral quase nula. Se os dois vectores estiverem orientados
aproximadamente em direces opostas, a correlao amostral ser prxima de -1.
Exemplo 3.4: Com os resultados dos exemplos anteriores,
d

1
d
1
= [ ]


1
3
2
1 3 2 = 14 = 3 s
11

d

2
d
2
= [ ]

2
0
2
2 0 2 = 8 = 3 s
22

d

1
d
2
= [ ]

2
0
2
1 3 2 = -2 = 3 s
12

S
n
=

3
8
3
2
3
2
3
14

r
12
=
22 11
12
s s
s
=
3
8
3
14
3
2
= -.189
R =


1 189 .
189 . 1


3.2 Amostragem aleatria
Para estudarmos a variabilidade amostral de x
_
e S
n
e para podermos inferir
os resultados para toda a populao, temos de estabelecer alguns pressupostos
relativamente s variveis que constituem o conjunto das observaes.


29
Dada a matriz
X =

np n n
p
p
x x x
x x x
x x x
2 1
2 22 21
1 12 11
. . .
. . .
. . .
=

n
x
x
x

.
.
.

2
1

dizemos que x
1
, x
2
, , x
n
formam uma amostra aleatria se constiturem
observaes independentes, possuindo uma distribuio conjunta f(x) = f(x
1
) f(x
2
)
f(x
n
).
Se e representarem, respectivamente, o vector mdia e a matriz de
varincias da amostra aleatria x
1
, x
2
, , x
n
, ento x
_
um estimador no
enviesado de [E(x
_
) = ] e S =
1 n
n
S
n
um estimador no enviesado de , isto ,
E(
1 n
n
S
n
) = .
A matriz amostral no enviesada das varincias
S =
1 n
n
S
n
=

n
j
j j
n
1
'
) ( ) (
1
1
x x x x

3.3 Varincia generalizada
A varincia normalmente descrita pela matriz das varincias


30
S =

np n n
p
p
x x x
x x x
x x x
2 1
2 22 21
1 12 11
. . .
. . .
. . .
=

=

=
n
i
ik
j
ij jk k
x x
n
s
1
) ( ) (
1
1
x x

Um nico valor numrico que representa toda a variao expressa em S a
varincia amostral generalizada dada pelo determinante de S.
Varincia amostral generalizada = | S |

Exemplo 3.5: Consideremos a matriz S =

15538 14213
14213 14808

A varincia generalizada dada por
| S | = (14808) (15538) - (14213) (14213) = 28.08 10
6
.



Vejamos de seguida uma interpretao geomtrica para |S|. Consideremos
ento a rea gerada pelos dois vectores desvio d
1
= y
1
- x
1
_
1 e d
2
= y
2
- x
2
_
1


d
1

d
2

L
d1
sin

Figura 3.5 rea gerada pelos desvios
rea = [ ] ) sin(
1

d
L L
2
d

= L
1
d
L
2
cos 1
2

d

= (n - 1) ) 1 (
2
12 22 11
r s s


31
Por outro lado,
| S | =

22 12
12 11
s s
s s
=

22 12 22 11
12 22 11 11
s r s s
r s s s

= s
11
s
22
- s
11
s
22
r
2
12
= s
11
s
22
(1 - r
2
12
)
Destes dois ltimos resultados, podemos concluir que
| S | =
2
2
) 1 ( n
rea
= (n - 1)
-2
rea
2

Generalizando para um p-espao obtemos
Varincia amostral generalizada = | S | = (n - 1)
-p
(volume)
2

isto , para um determinado conjunto de dados, a varincia amostral generalizada
proporcional ao quadrado do volume gerado pelos p vectores desvio.
As duas figuras abaixo representam, respectivamente, uma grande e uma
pequena varincia amostral generalizada para p = 3 no espao das observaes.

Figura 3.6 - Representao geomtrica da varincia generalizada
1
2
3
d
1

d
3

d
2

1
2
3
d
1

d
3

d
2



32
A varincia generalizada tem tambm interpretao no grfico de pontos num
p-espao. Consideremos, para isso, a mdia amostral x
_
= [ x
1
_
, x
2
_
, , x
p
_
].
As coordenadas x =[
1
x ,
2
x ; ,
p
x ] dos pontos a uma distncia constante c
de x
_
satisfazem
(x - x
_
) S
-1
(x - x
_
) = c
2

que define uma elipse (p = 2) centrada em x
_
.
Usando o clculo integral, podemos verificar que o volume do hiper-elipside
est relacionado com o valor de | S |
Volume de { }
2 1
) ( ) ( : c x =

x x S x x = k
p
| S |
1/2
c
p

ou
(volume do elipside)
2
= (constante) (varincia amostral generalizada)
Apesar da sua interpretao geomtrica, a varincia amostral generalizada
limitada como indicador descritivo de uma matriz amostral de varincias. Para ilustrar
isto vejamos o exemplo que se segue.

Exemplo 3.6: Consideremos as matrizes
S =

5 4
4 5
S =


5 4
4 5
S =

3 0
0 3




33
todas elas com a mesma varincia generalizada | S | = 9 mas com distintos
coeficientes de correlao, respectivamente, .8, -.8 e 0.
o
Ora, prova-se que o determinante de uma qualquer matriz A pp pode ser
escrito como o produto dos seus valores prprios
1
,
1
, ,
p
, isto , | A | =

=
p
i
i
1
.
Assim, os valores prprios podem dar-nos informao referente variabilidade em
todas as direces numa representao p-espacial e, por isso, til no s
analisarmos os valores individuais assim como o seu produto.
A varincia generalizada nula quando e apenas quando pelo menos um
vector desvio estiver no hiperplano formado por todas as combinaes lineares dos
outros, isto , quando as linhas de uma matriz de desvios forem linearmente
dependentes.
Exemplo 3.7: Dada a matriz X =

4 6 5
0 1 2
4 4 1
,
a matriz das mdias x
_
= [ 3 , 1 , 5 ] e ento X - x
_
1 =

1 1 0
1 0 1
1 1 2
.
Os desvios residuais so d
1
=

1
1
2
, d
2
=

1
0
1
e d
3
=

1
1
0
.
Como d
3
= d
1
+ 2 d
2
, h degenerescncia nas linhas e |S| = 0, pois o volume a
trs dimenses formado pelos trs vectores nulo.
o


34
|S| = 0 significa, em termos matemticos, que as medies em algumas
variveis podem ser retiradas do estudo. Por outro lado |S| tambm ser nulo se o
tamanho da amostra for menor ou igual ao nmero de variveis, isto , n p.
Se estivermos a trabalhar com variveis estandardizadas, podemos dizer que a
varincia amostral generalizada dada pelo determinante de R:

Varincia amostral generalizada


das variveis estandardizadas
= | R | = (n - 1)
-p
(volume)
2
Como |S| e |R| esto relacionadas por |S| = (s
11
s
22
s
pp
) |R|, podemos
escrever
(n - 1)
p
| S | = (n - 1)
p
(s
11
s
22
s
pp
) | R |
Exemplo 3.8: Sendo dada a matriz S =

1 2 1
2 9 3
1 3 4
, s
11
= 4; s
22
= 9 e s
33
=
1.
Alm disso, R =

1
3
2
2
1
3
2
1
2
1
2
1
2
1
1
. Como | S | = 14 e | R | =
18
7
, confirma-se que
14 = | S | = s
11
s
22
s
33
| R | = (4) (9) (1)

18
7
= 14
o

Conclumos esta discusso apresentando o conceito de varincia amostral
total cujo valor corresponde ao valor do trao da matriz S, isto , soma dos
elementos da sua diagonal.


35
Varincia amostral total = s
11
+ s
22
+ + s
pp


Exemplo 3.9: A varincia amostral total da matriz S =

15538 14213
14213 14808

s
11
+ s
22
= 14808 + 15538 = 30346.
A varincia amostral total da matriz S =

1
2
1
0
2
1
1
2
3
0
2
3
3

s
11
+ s
22
+ s
33
= 3 + 1 + 1 = 5. o
Geometricamente, a varincia amostral total corresponde soma dos
quadrados dos comprimentos dos p vectores residuais d
1
= y
1
- x
1
_
1, , d
p
= y
p
-
x
p
_
1 dividida por n - 1.


36



37
4
Distribuio normal multivariada


A generalizao da to conhecida curva normal para vrias dimenses
desempenha um papel fundamental na anlise multivariada.

4.1 A densidade normal multivariada
A densidade normal multivariada consiste numa generalizao, para p 2, da
densidade da curva normal
f(x) =
2
2
1

e
-
[ ] 2 / / ) (
2
x
- < x <


O termo

x
2
= (x - ) (
2
)
-1
(x - ) no expoente da funo densidade no
mais do que a distncia quadrada de x a em unidades estandardizadas de desvio.
Generalizando para um vector x de dimenso p1, podemos escrever
(x - )
-1
(x - )
onde o vector representa o valor esperado do vector aleatrio x e a matriz pp a
matriz da varincias.


38
A funo densidade normal p-dimensional N
p
(, ) para o vector aleatrio x
= [X
1
, X
2
, , X
p
]
f(x) =
2 / 1 2 /
| | ) 2 (
1

e
- (1/2) (x - )
-1
(x - )

onde - < x
i
< , i = 1, 2, , p.

Exemplo 4.1: Consideremos o espao p = 2.
Neste espao =

2
1

e =

22 12
12 11
s s
s s

Calculando a inversa da matriz de varincias, obtemos

-1
=

11 12
12 22
2
12 22 11
1




Assim, a distncia quadrada (x - )
-1
(x - ) fica igual a
= [ ]


2 2
1 1
11 22 11 12
22 11 12 22
2
12 22 11
1 1 1 1
1





x
x
x x
=
( ) ( ) ( )( )
) 1 (
2 2 2
2
12 22 11
1 1 22 11 12
2
2 2 11
2
1 1 22

+ x x x x

=

11
1 1
11
1 1
12
2
22
2 2
2
11
1 1
2
12
2
1
1

x x x x

Deste modo,


39
f(x
1
,x
2
) =
) 1 ( 2
1
2
12 22 11



( )

11
1 1
11
1 1
12
2
22
2 2
2
11
1 1
2
12
2
1 2
1
exp

x x x x

Olhando para esta ltima equao, podemos dizer que se
12

= 0 , a densidade
conjunta pode ser escrita como um produto de duas densidades normais
univariadas, isto , se X
1
e X
2
no esto correlacionadas, f(x
1
,x
2
) = f(x
1
) f(x
2
),
isto , X
1
e X
2
so independentes.
o

Do que atrs ficou dito, podemos concluir que a densidade normal multivariada
constante nas superfcies onde a distncia quadrada (x - )
-1
(x - ) for
constante. Os eixos de cada elipside de constante densidade tm a direco dos
vectores prprios de
-1
e os comprimentos proporcionais aos inversos das razes
quadradas dos valores prprios de .
Uma vez que e = e
-1
e =

1
e, os valores prprios de
-1
podem ser
determinados atravs dos valores prprios de .
Deste modo, podemos afirmar que os contornos de densidade constante da
distribuio normal p-dimensional constituem elipsides definidos por x tal que
(x - )
-1
(x - ) = c
2
. Estes elipsides so centrados em e possuem eixos
com comprimento c i e
i ,
onde e
i
=
i
e
i
, i=1, , p.



40
Exemplo 4.2: Consideremos o caso em que
11
=
22.

= 0

11 12
12 11
= 0
( -
11
-
12
) ( -
11
+
12
) = 0
f(x , x )
1 2
x
1
x
2
f(x , x )
1 2
0
x
1
(b)
0
x
2
(a)

Figura 4.1 Duas distribuies normais bivariadas
(a)
11
=
22
e
12
= 0 (b)
11
=
22
e
12
= .75


41
Ento, os valores prprios so
1
=
11
+
12
e
2
=
11
-
12
. O vector prprio
e
1
correspondente ao valor prprio
1
dado por

21
11
11 12
12 11
e
e
s s
s s
= (
11
+
12
)

21
11
e
e

e
1
=

21
11
e
e
=

2
1
2
1

De modo idntico e
2
=

22
12
e
e
=

2
1
2
1

c
11
-
12
c

11
+
12

1

2
1
x
2
x

Figura 4.2 - Contorno de densidade constante para uma distribuio normal bivariada
com
11
=
22
e
12
> 0 (ou
12
> 0)

Quando
12
> 0,
1
=
11
+
12
o maior valor prprio e o correspondente
vector prprio

=
2
1
,
2
1
'
1
e ] situa-se na recta a 45 que passa por = [
1
,
2
].
Como os eixos das elipses de densidade constante so dados por c
1 1
e e



42
c
2 2
e
,
com cada vector prprio de comprimento unitrio, o maior eixo est
associado ao maior dos valores prprios.
o

A densidade normal p-variada
f(x) =
2 / 1 2 /
| | ) 2 (
1

e
- (1/2) (x - )
-1
(x - )
tem um valor mximo quando a distncia quadrada (x - )
-1
(x - ) for nula, isto
, quando x=. Deste modo, o ponto de densidade mxima, ou moda, ao mesmo
tempo que constitui o valor esperado de X, ou mdia.

4.2 Propriedades da distribuio normal
Vejamos, de seguida, algumas propriedades da distribuio normal. Assim, sendo
dado o vector aleatrio x com uma distribuio normal multivariada, x ~ N
p
(, ),

Combinaes lineares das componentes de X so normalmente distribudas.
a X = a
1
X
1
+ a
2
X
2
+ + a
p
X
p
~ N(a, aa)

+ +
+ +
+ +
=

Xp a X a
Xp a X a
Xp a X a
p
X
p q
A
qp q
p
p
...
...
...
...
) 1 ( ) (
1 1
2 1 21
1 1 11
~ N
q
(A, AA)


43

) 1 ( ) 1 (
+
p
d
p
X
~ N
p
(, d)
Todos os subconjuntos das componentes de X seguem uma distribuio normal
multivariada. Se dividirmos X, e

) 1 ) ((
) 1 (
) 1 (
2
1
q p
X
q
X
p
X

) 1 ) ((
) 1 (
) 1 (
2
1
q p
q
p

)) ( ) ((
)) ( (
|
|
|
|
) ) ((
) (
) (
22
12
21
11
q p q p
q p q
q q p
q q
p p


ento, por exemplo, X
1
~ N
q
(
1
,
11
).

Se X
1
(q
1
1) e X
2
(q
2
1) forem independentes, ento Cov(X
1
,X
2
) = 0, sendo 0
uma matriz (q
1
q
2
) de zeros.

As distribuies condicionais das componentes so normais multivariadas.
Se X =

X
1

X
2
~ N
p
(, ) com =

2
, =



22 21
12 11
|
_ _ _
|

e |
22
| > 0, ento a distribuio condicional de X
1
dado X
2
= x
2
normal com
a mdia =
1
+
12

1
22

(x
2
-
2
) e covarincia =
11
-
12

1
22


21
.
Notar que a covarincia no depende do valor de x
2
da varivel condicionante.



44
Se || > 0, ento (x - )
-1
(x - ) ~
2
p
, uma distribuio de qui-quadrado
com p graus de liberdade.
A distribuio N
p
(,) atribui uma probabilidade 1- ao elipside
{ } ) ( ) ( ) ( :
2 1

p
x =

x x
sendo
2
p
() o percentil de ordem (100) da distribuio
2
p
.

4.3 A forma amostral da distribuio normal multivariada
Sendo dado x
1
, x
2
, , x
n
uma amostra aleatria de uma populao normal
com mdia e covarincia , os estimadores de mxima verosimilhana para e
so dados, respectivamente, por

= X

=

n
j
j j
n
1
) )( (
1
X X X X =
n
n 1
S
Notar que o estimador X

um vector aleatrio e que o estimador

uma
matriz aleatria.
Estes estimadores de mxima verosimilhana possuem a propriedade da
invarincia. Isto significa, por exemplo, que o estimador de mxima verosimilhana de

e que o estimador de mxima verosimilhana de


jj

jj
,


45
com
jj
=

=

n
i
ij
j
n
1
2
) (
1
X X como sendo o estimador de mxima verosimilhana de
jj

= Var(X
j
).
Tratando-se de populaes normais, toda a informao amostral da matriz de
dados X est contida em X

e S; qualquer que seja o tamanho n da amostra. Como


esta afirmao no necessariamente verdadeira para populaes no normais,
sempre conveniente testar os pressupostos da normal multivariada.

4.4 Distribuio amostral de X

e S
No caso univariado (p = 1) sabemos que X

segue uma distribuio normal


com mdia e varincia
1
n

2
. O resultado para o caso multivariado (p 2)
idntico. X

segue uma distribuio normal com mdia e matriz de covarincia


1
n

.
Ora, como desconhecida, a distribuio de X

no pode ser usada


directamente para inferir acerca de . Contudo, S independente de fornece-nos
informao suficiente acerca de . medida que o tamanho da amostra cresce, X

e
S so regidos por algumas propriedades independentemente das caractersticas da
populao-pai. O nico requisito que existe que esta populao-pai, qualquer que
seja a sua forma, tenha uma mdia e uma covarincia finita .
Pela Lei dos Grandes Nmeros e sempre que o tamanho da amostra seja
grande, existe uma grande probabilidade de que X

se aproxime de e que S se


46
aproxime de . Precisando um pouco mais (Teorema do Limite Central), sejam X
1
,
X
2
, , X
n
uma observao independente de uma qualquer populao com mdia e
covarincia finita . Ento, para amostras grandes (n deve ser grande relativamente a
p), n ( X

- ) aproximadamente segue uma distribuio N


p
(0, ).
Quando X

~ N
p
(,
1
n
) ou seja, quando n ( X

- ) ~ N
p
(0; ), pode tambm
demonstrar-se que n ( X

- )
-1
( X

- ) ~
2
p
.
Reparar, finalmente, que, para n grande e muito maior do que p, substituir
1

por S
-1
no afecta seriamente a aproximao.



47
5
Inferncia acerca do vector mdia


Nos captulos anteriores apresentaram-se os conceitos bsicos para uma
melhor compreenso da estatstica multivariada. Neste captulo iremos analisar a
inferncia (testes e regies de confiana) referentes ao vector mdia de uma
populao normal.

5.1 T
2
de Hotelling
Uma generalizao natural da distncia quadrada
t
2
=
n s
X
o
/
) (
2
2

= n ( X

-
o
) (s
2
)
-1
( X

-
o
)
a correspondente multivariada
T
2
= ( X

-
o
)

S
n
1
-1
( X

-
o
) = n ( X

-
o
) S
-1
( X

-
o
)
onde

=
=

n
j
j
X
n p
X
1
1
) 1 (

( )( )
'
1
1
1
) (
X X X X
n p p
S
j
n
j
j

0
20
10
0
) 1 (
p
p

M

e
1
n
S representa a matriz estimada das covarincias de X

.


48
A estatstica T
2
denominada T
2
de Hotelling em homenagem a Harold
Hotelling, pioneiro da estatstica multivariada. Se a distncia generalizada observada
T
2
for grande, isto ; se x
_
estiver muito longe de
0
, a hiptese H
0
:

=
0
ser
rejeitada. Ora, para podermos ter uma ideia da grandeza da distncia T
2
, utilizamos o
conhecimento que temos da sua distribuio. De facto,
T
2
~
) (
) 1 (
p n
p n

F
p, n-p

onde F
p,n-p
indica uma varivel aleatria com uma distribuio F com p e n-p graus
de liberdade.

Considerando ento a amostra aleatria X
1
, X
2
, , X
n
de uma populao
N
p
(, ),
= P

>

) (
) (
) 1 (
,
2

p n p
F
p n
p n
T =

>

) (
) (
) 1 (
) ( ) (
,
1

p n p
F
p n
p n
n X S X
quaisquer que sejam os valores verdadeiros de e , com F
p,n-p
() a representar o
percentil de ordem (100) da distribuio F
p,n-p
.
O que j foi dito suficiente para testar H
0
:

=
0
contra H
1
:


0
. A um
nvel de significncia , rejeitamos H
0
em favor de H
1
se
T
2
= n (x
_
-
0
) S
-1
(x
_
-
0
) >
) (
) 1 (
p n
p n

F
p,n-p
()
Exemplo 5.1: Analisou-se a transpirao de 20 mulheres saudveis, tendo
sido usadas as trs variveis X
1
= taxa de transpirao, X
2
= contedo de sdio e


49
X
3
= contedo de potssio. Os valores encontrados levaram aos seguintes
resultados:
X

965 . 9
400 . 45
640 . 4
S =

628 . 3 627 . 5 810 . 1


627 . 5 798 . 199 002 . 10
810 . 1 002 . 10 879 . 2
e S
-1
=



402 . 002 . 258 .
002 . 006 . 022 .
258 . 022 . 586 .

Testar a hiptese H
0
:

= [ 4 , 50, 10 ] contra H
1
:

[ 4 , 50, 10 ] a um nvel de
confiana de = .10.
Ora T
2
= n ( X

-
0
) S
-1
( X

-
0
)
= 20 [4.640 - 4 ; 45.400 - 50 ; 9.965 - 10]



10 965 . 9
50 400 . 45
4 640 . 4
402 . 002 . 258 .
002 . 006 . 022 .
258 . 022 . 586 .

= 20 [.640 ; -4.600 ; -.035 ]

160 .
042 .
467 .
= 9,74
Comparando o valor observado T
2
com o valor crtico
) (
) 1 (
p n
p n

F
p,n-p
(.10) =
17
) 3 ( 19
F
3,17
(.10) = (3.353) (2.44) = 8,18
podemos concluir que T
2
= 9.74 > 8.18 e, portanto, rejeitamos H
0
ao nvel de
confiana de 90%.
o





50
5.2 Regies de confiana
Seja X = [X
1
X
2
X
n
] a matriz de dados e um vector de parmetros
desconhecidos de uma populao. A regio R(X) chamada regio 100(1-)%
confiana se, antes da amostra ser seleccionada,
P[R(X) incluir o verdadeiro valor para ] = 1 -
Adaptando este conceito mdia , obtemos
P

) (
) (
) 1 (
) ( ) (
,
1

p n p
F
p n
p n
n X S X = 1 -

Por outras palavras, X

estar a uma distncia ) (


) (
) 1 (
,

p n p
F
p n
p n

de , com
probabilidade 1 - , desde que a distncia seja definida em termos de

S
n
1
-1
.
Para se saber se um qualquer valor
0
pertence regio de confiana,
necessitamos de determinar o valor da distncia quadrada generalizada
n (x
_
-
o
) S
-1
(x
_
-
o
)
e compar-la com o valor de
) (
) 1 (
p n
p n

F
p,n-p
(). Caso a distncia seja maior do que
este ltimo valor,
0
no pertencer regio de confiana.



51
Os eixos do elipside de confiana e os seus respectivos comprimentos podem ser
determinados atravs dos prprios valores prprios
i
e dos vectores prprios e
i
de S.
Centrado em x
_
, os eixos do elipside
n (x
_
- ) S
-1
(x
_
- ) c
2
=
) (
) 1 (
p n
p n

F
p,n-p
()
so ) (
) (
) 1 (
,

p n p i
F
p n n
p n

e
i
; onde Se
i
=
i
e
i
, i = 1, 2, , p.

Exemplo 5.2: Num estudo de 42 aparelhos de microondas, foram medidas as
radiaes emitidas pelos aparelhos, respectivamente, com as portas fechadas (X
1
)
e com as portas abertas (X
2
). Para os 42 pares de observaes , encontrou-se
X

603 .
564 .
S =

0146 . 0117 .
0117 . 0144 .
e S
-1
=


228 . 200 391 . 163
391 . 163 018 . 203

Os pares de valores prprios e vectores prprios para S so

1
= .026 e
1
= [ .704, .710 ]

2
= .002 e
2
= [ -.710, .704 ]
A elipse a 95% de confiana para consiste em todos os valores (
1
,
2
) que
satisfazem a inequao
42 [.564 -
1
; .603 -
2
]


2
1
603 .
564 .
228 . 200 391 . 163
391 . 163 018 . 203


40
) 41 ( 2
F
2,40
(.05)
Como F
2,40
(.05) = 3.23, obtm-se,


52
42(203.018)(.564-
1
)
2
+ 42(200.228)(.603-
2
)
2
- 84(163.391)(.564-
1
)(.603-
2
) 6.62
Para determinar se = [ .562 , .589 ] pertence regio de confiana, calculamos
a expresso anterior para
1
= .562 e
2
= .589, encontrando-se o valor 1.30
6.62. Conclumos ento que se situa na regio de confiana.
Do mesmo modo, um teste de H
0
:

=

589 .
562 .
no ser rejeitado em favor de H
1
:

589 .
562 .
a um nvel de significncia = .05.
O elipside de confiana conjunta est centrado em X

603 .
564 .
e,
respectivamente, com metades dos eixos maior e menor iguais a
) (
) (
) 1 (
, 1

p n p
F
p n n
p n

= ) 23 . 3 (
) 40 ( 42
) 41 ( 2
026 . = .064
e ) (
) (
) 1 (
, 2

p n p
F
p n n
p n

= ) 23 . 3 (
) 40 ( 42
) 41 ( 2
002 . = .018
Estes eixos encontram-se segundo e
1
= [ .704, .710 ] e e
2
= [ -.710, .704 ].
Pode-se facilmente ver que o eixo maior cerca de 3.6 vezes maior do que o eixo
menor.
o
Consideremos agora X ~ N
p
(, ) e a combinao linear Z = cX = c
1
X
1
+ c
2
X
2
+ + c
p
X
p
. Ento, para c fixo e
2
z
desconhecido, um intervalo de confiana a
100(1 - )% para
z
= c dado por
c x

- t
n-1
(/2)
n
c c S
c c x

+ t
n-1
(/2)
n
c c S



53
onde t
n-1
(/2) o percentil superior de ordem 100(/2) de uma distribuio t com n-1
graus de liberdade.
Esta desigualdade pode ser interpretada como uma afirmao em relao s
componentes do vector mdia . Por exemplo, com c= [ 1, 0, , 0 ], c =
1

torna-se no intervalo de confiana j por ns conhecido para a mdia de uma
populao normal, sendo cSc = s
11
.
Podemos deste modo construir vrios intervalos de confiana para os
componentes de , cada um deles associado a um coeficiente de confiana de 1-.
Basta para isso escolher os vectores c apropriados. Contudo, a confiana associada a
todos os intervalos quando tomados em conjunto no igual a 1-.

Sendo dada a amostra aleatria X
1
, X
2
, , X
n
de uma populao N
p
(, ),
com definida positiva, para todos os c simultaneamente, o intervalo


Sc c F
p n n
n p
c Sc c F
p n n
n p
c
p n p p n p
' ) (
) (
) 1 (
; ' ) (
) (
) 1 (

, ,
X X
contm c com probabilidade 1-.
Estes intervalos simultneos so, por vezes, denominados, intervalos T
2
pois a
probabilidade de cobertura determinada pela distribuio de T
2
. As escolhas c= [ 1,
0, , 0 ], c= [ 0, 1, , 0 ], , c= [ 0, 0, , 1 ] permitem-nos concluir que todos os
intervalos
x
1

-
n
s
F
p n
n p
p n p
11
,
) (
) (
) 1 (


1
x
1

+
n
s
F
p n
n p
p n p
11
,
) (
) (
) 1 (




54
x
2

-
n
s
F
p n
n p
p n p
22
,
) (
) (
) 1 (


2
x
2

+
n
s
F
p n
n p
p n p
22
,
) (
) (
) 1 (



x
p

-
n
s
F
p n
n p pp
p n p
) (
) (
) 1 (
,


p
x
p

+
n
s
F
p n
n p pp
p n p
) (
) (
) 1 (
,


se verificam com um coeficiente de confiana de 1-.
Reparar que, por exemplo, para se obter um intervalo de confiana para
i
-
k

basta usar-se c
i
= c
k
= 1 no vector c= [ 0, , c
i
, 0, , -c
k
, , 0 ] a que corresponde
cSc = s
ii
- 2s
ik
+ s
kk
, obtendo-se o intervalo
x
i

-
k
x
n
s s s
F
p n
n p
kk ik ii
p n p
+

2
) (
) (
) 1 (
,


Exemplo 5.3: 87 alunos de um liceu obtiveram classificaes em trs exames
especiais: X
1
= cincias sociais, X
2
= verbal e X
3
= cincias exactas. Os
resultados obtidos foram:
X

13 . 25
69 . 54
74 . 527
e S =

11 . 23 37 . 23 25 . 217
37 . 23 05 . 126 51 . 600
25 . 217 51 . 600 34 . 5691

Para encontrar os intervalos simultneos de confiana a 95% para
1
,
2
e
3

necessitamos calcular o valor
) (
) 1 (
p n
n p

F
p,n-p
() =
) 3 87 (
) 1 87 ( 3

F
3,84
(.05) = ) 7 . 2 (
84
) 86 ( 3
= 8.29
obtendo assim os intervalos


55
527.74 -
87
34 . 5691
29 . 8
1
527.74 +
87
34 . 5691
29 . 8 504.45
1
551.03
54.69 -
87
05 . 126
29 . 8
2
54.69 +
87
05 . 126
29 . 8 51.22
2
58.16
25.13 -
87
11 . 23
29 . 8
3
25.13 +
87
11 . 23
29 . 8 23.65
3
26.61
o

Se o nmero m de mdias
i
ou de combinaes lineares c = c
1

1
+ c
2

2
+
+ c
p

p
for pequeno, os intervalos de confiana simultneos podem ser obtidos de
uma forma mais precisa. Tais intervalos de confiana, denominados de Bonferroni,
so baseados nos intervalos t individuais
x
_

i
t
n-1

n
s
ii i

i = 1, 2, , m
com
i
= /m. Assim, para um nvel de confiana global maior ou igual a 1 - ,
podemos obter m = p intervalos:
x
1
- t
n-1

n
s
p
11
2



1
x
1
+ t
n-1

n
s
p
11
2



x
2
- t
n-1

n
s
p
22
2



2
x
2
+ t
n-1

n
s
p
22
2



x
_

p
- t
n-1

n
s
p
pp


p
x
_

p
+ t
n-1

n
s
p
pp





56
Exemplo 5.4: Voltando aos dados da transpirao, podemos obter os
intervalos de confiana de Bonferroni a 95% para
1
,
2
e
3
correspondentes
escolha de
i
= .05/3, i=1, 2, 3.
Como n = 20 e t
19
(.05/2(3)) = t
19
(.0083) = 2.625, temos
x
_

1
t
19
(.0083)
n
s
11
= 4.64 2.625
20
879 . 2
3.64
1
5.64
x
_

2
t
19
(.0083)
n
s
22
= 45.4 2.625
20
798 . 199
37.10
2
53.70
x
_

3
t
19
(.0083)
n
s
33
= 9.965 2.625
20
628 . 3
8.85
3
11.08

o

5.3 Inferncias para grandes amostras
Quando o tamanho da amostra grande, os testes de hipteses e as regies
de confiana para podem ser construdos sem o pressuposto da existncia de uma
populao normal, mesmo tratando-se de distribuies discretas. Todas as inferncias
de amostras grandes so baseadas na distribuio
2
.
( X

- )

S
n
1
-1
( X

- ) = n ( X

- ) S
-1
( X

- ) aproximadamente
2

com p graus de liberdade e, ento,
P[ ] ) ( ) ( ) (
2 1

p
n

X S X = 1 -


57
onde ) (
2

p
o percentil superior de ordem (100) da distribuio
2
p
.
Seja X
1
, X
2
, , X
n
uma amostra aleatria de uma populao com mdia e
matriz de covarincia definida positiva . Quando n - p for grande,
a hiptese H
0
:

=
0
rejeitada em favor de H
1
:


0
, a um nvel de
significncia aproximadamente se
n (x
_
-
o
) S
-1
(x
_
-
o
) > ) (
2

p

c X


n
c c
p
S
) (
2
contm c, para todo c, com probabilidade aproximadamente
1-. Consequentemente, os intervalos de confiana simultneos a 100(1-)%
x
_

1

n
s
p
11 2
) ( contm
1

x
_

2

n
s
p
22 2
) ( contm
2


x
_

p

n
s
pp
p
) (
2
contm
p

Alm disso, para todos os pares (
i
,
k
), i, k = 1, 2, , p, as elipses amostrais
centradas na mdia
n [x
_

i
-
i
; x
_

k
-
k
]

kk ik
ik ii
s s
s s
-1

k k
i i
x
x
_
_
) (
2

p
contm (
i
,
k
)


58



59
6
Comparao entre duas mdias multivariadas


Neste captulo iremos estender o conhecimento comparao entre dois
vectores mdia. Mais uma vez iremos partir de procedimentos univariados e
generalizaremos para o caso multivariado.

6.1 Comparaes emparelhadas
Por vezes, as medies so feitas em condies experimentais diversas, com
o objectivo de testar se as respostas diferem significativamente. o caso, por
exemplo, de um teste de eficcia de um novo medicamento que requer que haja
medies antes e aps um determinado tratamento. As respostas emparelhadas
podem ser comparadas analisando as respectivas diferenas.

No caso univariado, e considerando X
1j
e X
2j
, respectivamente, as medies
"antes" e "aps", os efeitos so representados pelas diferenas d
j
= x
1j
- x
2j
, j= 1, 2,
, n. Partindo do pressuposto de que as diferenas D
j
representam observaes
independentes de uma distribuio N(,
2
d
), a varivel
t =
n s
D
d
/
) (
;


60
onde D

=
n
j
j
D
n
1
1
e s
2
d
=

n
j
j
D D
n
1
) (
1
1
2
, segue uma distribuio t com n-1
graus de liberdade.
Consequentemente, a um nvel , o teste H
0
:

= 0 contra H
0
:

0 pode ser
conduzido comparando | t | com t
n-1
(/2). Do mesmo modo, um intervalo de
confiana a 100(1-)% para a diferena mdia

= E(X
1j
- X
2j
) pode ser obtido pela
expresso
d

- t
n-1
(/2)
n
s
d


d

+ t
n-1
(/2)
n
s
d

Ao generalizar para o caso multivariado, vamos necessitar de distinguir entre p
respostas, 2 tratamentos e n unidades experimentais. Obtemos assim as p variveis
aleatrias de diferenas
D
1j
= X
11j
- X
21j
D
2j
= X
12j
- X
22j

D
pj
= X
1pj
- X
2pj

ou, em forma matricial,

pn p p
n
X X X
X X X
1 2 1 1 1
11 112 111
. . . -

pn p p
n
X X X
X X X
2 2 2 1 2
21 212 211
. . . =

pn p p
n
D D D
D D D
2 1
1 12 11
. . .
Considerando D

j
= [ ] ) , , 2 , 1 (
2 1
n j D D D
pj j j
= ,


61
E(D
j
) = =

L
2
1
e cov(D
j
)=
d
.
Se, alm disso, D
1
, D
2
, , D
n
forem vectores aleatrios independentes N
p
(,

d
), ento
T
2
= n ( D

- )S ) (
1

D
d

onde D=

=
n
j
j
n
1
1
D e S
d
=

n
j
j j
n
1
) )( (
1
1
D D D D distribudo como uma varivel
aleatria
) (
) 1 (
p n
p n

F
p,n-p
.

Se ambos n e n-p forem grandes, T
2
aproximadamente distribuda como

2
p
, independentemente da forma da populao subjacente das diferenas.

Sendo observadas as diferenas d

j
= [ ] ) , , 2 , 1 (
2 1
n j d d d
pj j j
= , rejeitamos H
0
:


= 0 contra H
1
:

0 a um nvel para uma populao N
p
(,
d
) se o valor
observado
T
2
= n d

S
-1
d
d

>
) (
) 1 (
p n
p n

F
p,n-p
()
onde F
p;n-p
() o valor do percentil de ordem 100 de uma distribuio F com p e n-
p graus de liberdade.


62

Uma regio de confiana a 100(1-)% para formado por todos os tal que
( d

- ) S
-1
d
( d

- d)
) (
) 1 (
p n n
p n

F
p,n-p
()
Os intervalos simultneos de confiana a (1-)% para
i
so dados por

i
: d
i


n
s
F
p n
p n
i
d
p n p
2
,
) (
) (
) 1 (


onde d
i

o elemento de ordem i de d

e s
2
d
i
o i-simo elemento da diagonal de
S
d.

Para n-p grande;
) (
) 1 (
p n
p n

F
p,n-p
() aproxima-se da distribuio ) (
2

p
, e a
normalidade no mais necessria.

Os intervalos de confiana simultneos de Bonferroni a 100(1-)% para as
mdias individuais de diferena,
i
, so

i
: d
i

t
n-p
n
s
p
i
d
2
2



onde t
n-p

p 2

o percentil de ordem 100(/2p) de uma distribuio t com n-p graus


de liberdade.



63
Exemplo 6.1: Um conjunto de 11 amostras de gua foi enviado a dois
laboratrios para a anlise da necessidade oxignio bioqumico (NOB) e de slidos
suspensos (SS). Os dados so apresentados a seguir:

Laboratrio 1 Laboratrio 2
Amostra j
x
11j
(NOB) x
12j
(SS) x
21j
(NOB) x
22j
(SS)
1 6 27 25 15
2 6 23 28 33
3 18 64 36 22
4 8 44 35 29
5 11 30 15 31
6 34 75 44 64
7 28 26 42 30
8 71 124 54 64
9 43 54 34 56
10 33 30 29 20
11 20 14 39 21

Ser que os resultados provenientes dos dois laboratrios coincidem? Se existir
diferena, de que tipo ?

A estatstica T
2
para o teste H
0
:

= [
1
,
2
] = [ 0 , 0 ] contra H
0
:

0
construda a partir das observaes de diferenas:

d
1j
= x
11j
- x
21j
-19 -22 -18 -27 -4 -10 -14 17 9 4 -19
d
2j
= x
12j
- x
22j
12 10 42 15 -1 11 - 4 60 -2 10 -7



64
Ento,
d

1
1
d
d
=

27 . 13
36 . 9
; S
d
=

61 . 418 38 . 88
38 . 88 26 . 199
e
T
2
= 11 [-9.36; 13.27]


27 . 13
36 . 9
0026 . 0012 .
0012 . 0055 .
= 13.6
Com = .05; encontramos
) (
) 1 (
p n
p n

F
p;n-p
(.05) =
2 (10)
9
F
2;9
(.05) = 9.47
Como T
2
= 13.6 > 9.47, rejeitamos H
0
e conclumos que existe uma diferena
mdia no nula entre as medies dos dois laboratrios. Dos dados parece
evidente que o primeiro laboratrio tende a produzir medies mais baixas para
NOB e mais altas para SS do que o segundo laboratrio.
Os intervalos de confiana simultneos a 95% para as mdias das diferenas

1
e
2
so, respectivamente,
d
1


n
s
F
p n
p n d
p n p
2
,
1
) (
) (
) 1 (

= -9.36
11
26 . 199
47 . 9 ou (-22.46 ; 3.74)
d
2


n
s
F
p n
p n d
p n p
2
,
1
) (
) (
) 1 (

= 13.27
11
61 . 418
47 . 9 ou (-5.71 ; 32.25)
O intervalo de confiana simultneo a 95% inclui o valor zero e, no entanto, como
vimos, a hiptese H
0
:

= 0 foi rejeitada.
De facto, o ponto

= 0 encontra-se fora da regio de confiana a 95%, o que
consistente com o teste T
2
. Os intervalos de confiana simultneos dizem respeito
ao conjunto de todos o conjunto de intervalos que podem ser construdos a partir
das possveis combinaes c
1

1
+ c
2

2
, de que os intervalos calculados


65
correspondem s escolhas (c
1
= 1, c
2
= 0) e (c
1
= 0, c
2
= 1). Estes intervalos
contm o valor zero; no entanto, outras escolhas para c
1
e c
2
produzem intervalos
simultneos que no contm zero. Sabemos, sim , que se a hiptese H
0
:

= 0 no
tivesse sido rejeitada, todos os intervalos simultneos incluiriam zero. Os intervalos
de Bonferroni tambm cobrem o valor zero.
o
6.2 Comparaes em desenhos de medidas repetidas
Outra generalizao da estatstica t univariada consiste no caso de q
tratamentos serem comparados relativamente a uma nica varivel de resposta. Cada
indivduo ou unidade experimental recebe o tratamento uma vez em vrios perodos
de tempo. A observao de ordem j
X
j
=

qj
j
j
X
X
X
.
.
.
2
1
j = 1, 2, , n
onde X
ij
corresponde ao tratamento de ordem i no indivduo ou unidade experimental
j.
Representando por C a matriz de contraste onde as q-1 linhas so linearmente
independentes, podemos formular a hiptese de que no h diferenas nos
tratamentos (igualdade das mdias dos tratamentos) fazendo C = 0, qualquer que
seja a escolha da matriz de contraste C.
Considerando uma populao N
p
(, ), uma matriz de contraste C e um nvel
, a hiptese H
0
: C

= 0 rejeitada em relao hiptese H
1
: C

0 se


66
T
2
= n (Cx
_
) (CSC)
-1
Cx
_
>
) 1 (
) 1 )( 1 (
+

q n
q n
F
q-1,n-q+1
()
onde F
q-1,n-q+1
() o percentil de ordem 100 de uma distribuio F, com q-1 e n-
q+1 graus de liberdade.

A regio de confiana para os contrastes C

determinada pelo conjunto de
todos os C

tal que
n (Cx
_
- C) (CSC)
-1
(Cx
_
- C)
) 1 (
) 1 )( 1 (
+

q n
q n
F
q-1,n-q+1
()
Consequentemente, os intervalos simultneos de confiana a 100(1-)% para
um nico contraste c dado por
c : cx
_

n
Sc c
F
q n
q n
q n q
'
1 , 1
) (
) 1 (
) 1 )( 1 (

+
+



Exemplo 6.2: Num teste de eficcia de um novo anestsico, foi escolhida uma
amostra de 19 ces aos quais foi administrado dixido de carbono (CO
2
) a dois
nveis de presso (alto e baixo), seguido da adio de halotano (H) e da repetio
de dixido de carbono.


Ausente
Presente
Baixo Alto
CO
2
Halotano



67
tratamento 1 = CO
2
alto sem H tratamento 3 = CO
2
alto com H
tratamento 2 = CO
2
baixo sem H tratamento 4 = CO
2
baixo com H
Os dados referentes aos milisegundos entre batidas do corao esto
apresentados a seguir:

Tratamento
Co 1 2 3 4
1 426 609 556 600
2 253 236 392 395
3 359 433 349 357
4 432 431 522 600
5 405 426 513 513
6 324 438 507 539
7 310 312 410 456
8 326 326 350 504
9 375 447 547 548
10 256 286 403 422
11 349 382 473 497
12 429 410 488 547
13 348 377 447 514
14 412 473 472 446
15 347 326 455 468
16 434 458 637 524
17 364 367 432 469
18 420 395 508 531
19 397 556 645 625
Com base neste desenho de medidas repetidas, vamos analisar os efeitos
anestsicos da presso de CO
2
e do halotano. Representando por
1
,
2
,
3
, e

4
, respectivamente, as respostas mdias nos tratamentos 1, 2, 3 e 4, estamos
interessados nos seguintes trs contrastes de tratamento:


68
(
3
+
4
) - (
1
+
2
) contraste halotano, representando a diferena entre a
presena e a ausncia do halotano
(
1
+
3
) - (
2
+
4
) contraste CO
2
, representando a diferena entre as presses
baixa e alta de CO
2

(
1
+
4
) - (
2
+
3
) contraste interaco, representando a influncia do halotano
nas diferenas de presso de CO
2

Com =
[ ]

1

2

3

4
, a matriz de contraste C =




1 1 1 1
1 1 1 1
1 1 1 1

Dos dados acima, x
_
=

89 . 502
26 . 479
63 . 404
21 . 368
e S =

99 . 4878 63 . 4499 44 . 4065 35 . 2295


. 32 . 6851 98 . 5303 49 . 2943
. . 14 . 7963 42 . 3568
. . . 19 . 2819

Ento; Cx
_
=

79 . 12
05 . 60
31 . 209
, CSC =

44 . 7557 54 . 914 62 . 927


54 . 914 84 . 5195 92 . 1098
62 . 927 92 . 1098 32 . 9432

e T
2
= n (Cx
_
) (CSC)
-1
(Cx
_
) = 19 (6.11) = 116.
Com = .05,
) 1 (
) 1 )( 1 (
+

q n
q n
F
q-1;n-q+1
() =
16
) 3 ( 18
F
3;16
(5) = ) 24 . 3 (
16
) 3 ( 18
= 10.94.
Como T
2
= 116 > 10.94, rejeitamos H
0
: C

= 0 (no h efeitos do tratamento).
Para detectarmos quais os contrastes responsveis pela rejeio de H
0
,
construmos os intervalos simultneos de confiana a 95% para estes contrastes.
Assim, a influncia de halotano estimada pelo intervalo


69
(x
3

+ x
4

) - (x
1

+ x
2

)
18 (3)
16
F
3,16
(.05)
c

1
Sc
1
19

= 209.31
19
32 . 9432
94 . 10 = 209.31 73.70
Do mesmo modo, os contrastes restantes so estimados por
influncia da presso CO
2
= (
1
+
3
) - (
2
+
4
):
= -60.05
19
84 . 5195
94 . 10 = -60.05 54.70
interaco H - CO
2
= (
1
+
4
) - (
2
+ 3
4
):
= -12.79
19
44 . 7557
94 . 10 = -12.79 65.97
Podemos ver, do primeiro intervalo, que existe um efeito do halotano. A presena
do halotano produz tempos mais longos entre batidas do corao, o que acontece
a ambos os nveis de presso de CO
2
(pois o contraste de interaco no
significativamente diferente de zero). O segundo intervalo de confiana tambm
indica que h um efeito devido presso de CO
2
, provocando as baixas presses
maiores tempos entre batidas.
H, no entanto, que referir que estes resultados devem ser encarados com
algum cuidado, uma vez que as experincias com halotano tem necessariamente de
ser realizadas aps as experincias sem halotano. Assim, o efeito encontrado
derivado presena do halotano pode tambm ser derivado ao factor tempo.
o



70
6.3 Comparaes entre duas populaes
tambm possvel compararmos as respostas obtidas em duas populaes.
Consideremos uma amostra aleatria de tamanho n
1
de uma populao 1 e uma
amostra de tamanho n
2
de uma populao 2. As observaes em p variveis so tais
que:
Amostra Estatsticas
Populao 1
x
11
, x
12
, , x
1n
1


x
1

=
1
1
1
1
1
n
j
j
n
x S
1
=

1
1
1
1
1
1
1
) )( (
1
1
n
j
j j
n
x x x x
Populao 2
x
21
, x
22
, , x
2n
2

x
2

=
2
1
2
2
1
n
j
j
n
x S
2
=

2
1
2
2
2
2
2
) )( (
1
1
n
j
j j
n
x x x x

Pretendemos inferir acerca da diferena entre os vectores mdia de ambas as
populaes (
1
-
2
). Ser que
1
=
2 (isto ,

1
-
2
= 0)? E se
1
-
2
0
, que
mdias so diferentes?

Para se responder a estas questes, h que se partir de alguns pressupostos. Assim,
A amostra X
11
, X
12
, , X
1n
1
aleatria de comprimento n
1
de uma populao
p-variada com vector mdia
1
e matriz de covarincia
1
.
A amostra X
21
, X
22
, , X
2n
2
aleatria de comprimento n
2
de uma populao
p-variada com vector mdia
2
e matriz de covarincia
2
.
X
11
, X
12
, , X
1n
1
so independentes de X
21
, X
22
, , X
2n
2
.


71

Alm disto, quando n
1
e n
2
so pequenos,
Ambas as populaes so normais multivariadas.
Igual matriz de covarincia (
1
=
2
= ).
Neste ltimo caso h, portanto necessidade de estimar a covarincia comum ,
fazendo
S
comum
=
2
) )( ( ) )( (
2 1
1
2
2
2
2
1
1
1
1
1
2 1
+
+

= =
n n
n
j
j j
n
j
j j
x x x x x x x x

=
2
) 1 ( ) 1 (
2 1
2 2 1 1
+
+
n n
n n S S


Como S
comum
estima , podemos afirmar que

+
2 1
1 1
n n
S
comum
um estimador
de Cov(X
1

- X
2

).
Sendo dado o teste H
0
:
1
-
2
=
0
contra H
1
:
1
-
2

0
; rejeitamos H
0
se
T
2
= (x
1

- x
2

-
0
)

+
comum
n n
S
2 1
1 1
-1
(x
1

- x
2

-
0
) > c
2

onde c
2
=
) 1 (
) 2 (
2 1
2 1
+
+
p n n
p n n
F
p,n
1
+n
2
-p-1
().



72
Exemplo 6.3: 50 barras de sabo so fabricadas de cada um de dois
processos e duas caractersticas X
1
= espuma e X
2
= suavidade so medidas.
Foram obtidas as seguintes estatsticas:
x
_

1
=

1 . 4
3 . 8
S
1
=

6 1
1 2


x
_

2
=

9 . 3
2 . 10
S
1
=

4 1
1 2

Obter uma regio de confiana a 95% para
1
-
2
.
Como S
1
e S
2
so aproximadamente iguais, faz sentido encontrar-se uma matriz
comum de covarincias:
S
comum
=
2 50 50
) 1 50 ( ) 1 50 (
2 1
+
+ S S
=

5 1
1 2

Como x
_

1
- x
_

2
=

2 .
9 . 1
, a elipse de confiana est centrada em [-1.9; .2], sendo
os valores e vectores prprios de S
comum
obtidos atravs da equao
0 = I S
comum
=

l
l
5 1
1 2
=
2
- 7 + 9.
Deste modo;
1
= 5.303 e
1
= [ .290; .957 ]

2
= 1.697 e
2
= [ .957; -.290 ]
Alm disso;

+
2 1
1 1
n n
c
2
=
) 97 (
) 2 )( 98 (
50
1
50
1

+ F
2,97
(.05) = .25


73
A elipse de confiana estende-se
2
2 1
1 1
c
n n
i

+ = 25 .
i
unidades segundo o
vector prprio e
i
; isto ; 1.15 unidades na direco de e
1
e .65 unidades na
direco de e
2
. bvio que
1
-
2
= 0 no pertence elipse sendo, portanto,
possvel concluirmos que os dois mtodos de fabricao de sabo produzem
resultados diferentes. Parece que os dois tipos de sabo tm a mesma suavidade,
produzindo o segundo maior espuma.
o



74


75
7
Anlise de componentes principais e anlise factorial


7.1 Introduo
Os nomes que compem o ttulo deste captulo so frequentemente usados de
uma maneira menos precisa, chegando mesmo a acontecer que investigadores
afirmem que esto a levar a cabo uma anlise factorial quando, de facto, esto a
proceder a uma anlise de componentes principais.
Consideremos as variveis 'temperatura' e 'horas de sol' numa determinada
regio. O valor 0.9 de coeficiente de correlao entre ambas as variveis pode ser
representado pelo ngulo entre estas variveis, quando representadas vectorialmente.
A questo que a anlise factorial pretende responder a seguinte
Podem estes dois vectores ser substitudos por um nico vector de
referncia, denominado factor, de tal modo que retenha a maior parte da
informao respeitante correlao existente entre as variveis originais?
Intuitivamente parece que o melhor vector de referncia o que divide ao meio
o ngulo de 25 entre os dois vectores. Na Figura 7.1. a varivel 'temperatura'
representada por T, as 'horas de sol' por S e o vector de referncia por F
1
. Este
vector faz um ngulo de 12.5 com T e com S. O coseno de 12.5, igual a 0.976,
representa a correlao entre T e F
1
e entre S e F
1
. Na linguagem da anlise
factorial, a correlao entre uma varivel e um factor denominada peso (loading) da
varivel no factor.


76
Tambm j vimos que o quadrado do
coeficiente de correlao, R
2
, representa a
quantidade da varincia partilhada por ambas as
variveis. No nosso caso, a quantidade de varincia
partilhada por T e F
1
(0.976)
2
= 0.95, tambm
chamada varincia do factor comum.
A varincia explicada pelo factor F
1
atravs de T e de
S obtida pela soma dos quadrados dos pesos de T
e de S em F
1
, isto , (0.9762)
2
+(0.9762)
2
=1.9.


a

b

S
1
T
F

Figura 7.1 Diagrama
vectorial representando o
primeiro vector de
referncia F
1
( =
^
b =
12.5)
Como a varincia total de cada uma das variveis T e S 1, a varincia
mxima que pode ser extrada por F
1
igual a 1 + 1 = 2 e, portanto, a percentagem
da varincia extrada por F
1

1.9
2
x100 = 95. Isto j nos d 95% da representao da
relao entre ambas. No entanto, para obter a imagem completa, temos de desenhar
o outro vector F
2
, fazendo um ngulo recto (ou ortogonal) com F
1
.
a

S
1
T
F
2
F

Figura 7.2 Diagrama vectorial representando dois vectores de referncia F
1
e F
2



77
( = 102.5 ;
^
b = 77.5)
Os ngulos formados por T e S com F
2
so, respectivamente, 102.5 e 77.5,
correspondendo aos pesos cos(102.5) = -0.216 e cos(77.5) = 0.216. A varincia
extrada por F
2
(-0.216)
2
+ (0.216)
2
= 0.1 e a percentagem de varincia extrada
5%.
Estes resultados podem ser resumidos na seguinte tabela:

Variveis Factores Comunalidade
1 2
T 0.976 -0.216 1.0
S 0.976 0.216 1.0
Varincia extrada 1.9 0.1 2.0
Percentagem da varincia 95 5 100

A ltima coluna, a comunalidade, encontrada pela soma das varincias do
factor comum. Assim, por exemplo para T, temos (0.976)
2
+ (-0.216)
2
= 1.0 que
corresponde quantidade de varincia que partilhada com as outras variveis.

7.2 Componentes principais
Com a anlise das componentes principais pretende-se explicar a estrutura
das varincias-covarincias atravs de algumas combinaes lineares das variveis
originais. Embora as p componentes sejam necessrias para reproduzir toda a
variabilidade do sistema, normalmente grande parte desta variabilidade pode ser


78
atribuda a um nmero menor k de componentes principais. Existir, assim, quase
tanta informao quanta a existente com as p variveis originais. As k componentes
principais podem substituir as p variveis e o conjunto inicial de dados, com n
medies em p variveis, pode ento ser reduzido num conjunto de n medies em k
variveis.
A anlise das componentes principais utilizada mais como um meio do que
como um fim, constituindo um passo intermdio para investigaes mais extensas,
como por exemplo, as baseadas em regresses ou anlises de agrupamentos
(clusters).
Algebricamente, as componentes principais so combinaes lineares das p
variveis aleatrias X
1
, X
2
, , X
p
e correspondem geometricamente seleco de
um novo sistema de coordenadas. Sendo apenas dependentes da matriz de
covarincias (ou da matriz de correlaes) as componentes principais no
necessitam, para a sua construo, do pressuposto da normalidade multivariada.

Sendo dada a matriz de covarincias associada ao vector aleatrio X' = [ X
1
,
X
2
, , X
p
] e os pares de valores-vectores prprios (
1
, e
1
), (
2
, e
2
), , (
p
, e
p
),
onde
1

2

p
so todos no nulos, a componente principal de ordem i
dada por
Y
i
= e
i
,
'
X = e
1i
X
1
+ e
2i
X
2
+ + e
pi
X
p
i = 1, 2, , p
As componentes principais so no correlacionadas [ Cor(Y
i
, Y
k
) = e
i
'
e
k
= 0 (i k)]
e tm varincias iguais aos valores prprios de [ Var(Y
i
) = e
i
'
e
i
=
i
(i = 1, 2, ,
p) ].


79
Alm disso, se Y
1
= e
1
'
X , Y
2
= e
2
'
X , , Y
p
= e
p
'
X forem as
componentes principais,

11
+
22
+ +
pp
=

=
p
j
i
X Var
1
) ( =
1
+
2
+ +
p
=

=
p
j
i
Y Var
1
) (
Varincia total da populao =
11
+
22
+ +
pp
=
1
+
2
+ +
p

Proporo da varincia
total da populao
devida componente
principal de ordem k
= p k
p
k
, , 2 , 1 ,
2 1
=
+ + +


Os coeficientes de correlao entre as componentes Y
i
e as variveis X
k
(i, k = 1,
2, , p) so dados por
Y
i
, X
k
=
kk
i ki
e



Exemplo 7.1: Suponhamos que as variveis X
1
, X
2
e X
3
possuem a seguinte
matriz de covarincias:
=


2 0 0
0 5 2
0 2 1

Pode ser verificado que os pares valores-vectores prprios so:

1
= 5.83 e
1
'
= [ .383; -.924; 0 ]

2
= 2.00 e
2
'
= [ 0; 0; 1 ]

3
= 0.17 e
3
'
= [ .924; .383; 0 ]


80
As componentes principais so ento,
Y
1
= e
1
'
X = .383 X
1
- .924 X
2
Y
2
= e
2
'
X = X
3
Y
3
= e
3
'
X = .924 X
1
- .383 X
2
Facilmente se v, por exemplo, que
Var(Y
1
) = Var(.383 X
1
- .924 X
2
)
= (.383)
2
Var(X
1
) + (-.924)
2
Var(X
2
) - 2(.383)(-.924) Cov(X
1
, X
2
)
= 5.83 =
1
Cov(Y
1
, Y
2
) = Cov(.383 X
1
- .924 X
2
, X
3
)
= .383 Cov(X
1
, X
3
) - .924 Cov(X
1
, X
3
)
= 0
Verifica-se tambm que

11
+
22
+
33
= 1 + 5 + 2 =
1
+
2
+
3
= 5.83 + 2.00 + .17 = 8
A proporo da varincia total devida primeira componente principal
73 .
8
83 . 5
3 2 1
1
= =
+ +




81
e as primeiras duas componentes principais so responsveis por % 98
2 83 , 5
8
=
+
da
varincia da populao. Neste caso as componentes Y
1
e Y
2
podem substituir as
trs variveis originais com pouca perda de informao.
Finalmente, como
Y
1
, X
1
=
11
1 11

l e
=
1
83 . 5 383 .
= .925

Y
1
, X
2
=
22
1 21

l e
=
5
83 . 5 924 .
= -.998
podemos concluir que X
1
e X
2
so, cada um, igualmente importantes para a
primeira componente principal. Alm disto,

Y
2
, X
1
=
Y
2
, X
2
= 0 e
Y
2
, X
3
=
33
2 32

l e
=
2
2
= 1
As restantes correlaes podem ser desprezadas uma vez que a terceira
componente no importante.
o

As componentes principais y
1
= e
1
'
x , y
2
= e
2
'
x , , y
p
= e
p
'
x posicionam-se
nas direces dos eixos do elipside de densidade constante. Assim, qualquer ponto
no eixo de ordem i do elipside tem x coordenadas proporcionais a e
i
'
x = [ e
1i
, e
2i
,
, e
pi
] e, necessariamente, coordenadas das componentes principais da forma [ 0,
, 0, y
i
, 0, , 0 ].
A Figura 7.3 uma elipse de densidade constante e as componentes principais para
um vector aleatrio normal bivariado com = 0 e = .75. Podemos ver que as


82
componentes principais so obtidas rodando o sistema inicial de coordenadas de um
ngulo at coincidir com os eixos da elipse de densidade constante. O mesmo
vlido para p > 2.
y
1
y
2
x
2
x
1


Figura 7.3 - Elipse de densidade constante e as componentes principais y
1
e y
2
Embora no necessariamente iguais s obtidas anteriormente, podemos
tambm encontrar as componentes principais para as variveis estandardizadas. A
componente principal de ordem i das variveis estandardizadas Z' = [ Z
1
, Z
2
, , Z
p
]
com Cov (Z) = dada por
Y
i
= e
i
'
Z = e
i
'
(V
1/2
)
-1
(X - ), i = 1, 2, , p
Alm disto, sendo (
1
, e
1
), (
2
, e
2
), , (
p
, e
p
) os pares valores-vectores
prprios de com
1

2

p
0,

=
p
j
i
Y Var
1
) ( =

=
p
j
i
Z Var
1
) ( = p

Y
i
; Z
k
= e
ki
) , , 2 , 1 , ( p k i
i
=


83

Proporo da varincia total


da populao estandardizada
devida componente
principal de ordem k
= p k
p
k
, , 2 , 1 , =




Exemplo 7.2: Consideremos a matriz de covarincias =

100 4
4 1
e a
correspondente matriz de correlaes =

1 4 .
4 . 1

Os pares valores-vectores prprios de so
1
= 100.16 e
1
'
= [ .040; .999 ]

2
= .84 e
2
'
= [ .999. -.040 ]
e, para ,
1
= 1 + = 1.4 e
1
'
= [ .707. .707 ]

2
= 1 - = .6 e
2
'
= [ .707; -.707 ]
As correspondentes componentes principais so ento, para :
Y
1
= .040 X
1
+ .999 X
2
Y
2
= .999 X
1
- .040 X
2
e para :
Y
1
= .707 Z
1
+.707 Z
2
= .707


1
1 1
X
+.707


10
2 2
X
= .707 (X
1
-
1
) +.0707 (X
2
-
2
)

Y
2
= .707 Z
1
-.707 Z
2
= .707


1
1 1
X
-.707


10
2 2
X
= .707 (X
1
-
1
) -.0707 (X
2
-
2
)



84
Devido sua maior varincia, X
2
domina completamente a primeira componente
principal obtida a partir de . Esta primeira componente principal explica
2 1
1

+
=
101
16 . 100
= .992 da varincia total da populao.
Contudo, quando as variveis X
1
e X
2
so estandardizadas, as variveis
resultantes contribuem de modo idntico para as componentes principais obtidas
de . Assim, como

Y
1
, Z
1
= e
11

1
= .707 1.4 = .837 e
Y
1
, Z
2
= e
21

1
= .707 1.4 = .837
a primeira componente principal explica
p
1

=
2
4 . 1
= .7 da varincia total da
populao estandardizada.
o

Do exemplo anterior pode concluir-se que as componentes principais obtidas
de so diferentes das obtidas de . Alm disso, um conjunto de componentes
principais no uma funo simples do outro, dando, portanto valor
estandardizao.

Exemplo 7.3: Sejam x
1
, x
2
, x
3
, x
4
e x
5
observaes semanais das taxas de
retorno das aces de cinco empresas (Allied Chemical, DuPont, Union Carbide,
Exxon e Texaco). Aps 100 semanas consecutivas, obteve-se
x
_
' = [ .0054; .0048; .0057; .0063; .0037 ]


85
e R =

000 . 1 523 . 426 . 322 . 462 .


523 . 000 . 1 436 . 389 . 387 .
426 . 436 . 000 . 1 599 . 509 .
322 . 389 . 599 . 000 . 1 577 .
462 . 387 . 509 . 577 . 000 . 1

Os valores prprios e os correspondentes vectores prprios normalizados de R so

1
= 2.857 e
1
'
= [ .464, .457, .470, .421, .421 ]

2
= .809 e
2
'
= [ .240, .509, .260, -.526, -.582 ]

3
= .540 e
3
'
= [ -.612, .178, .335, .541, -.435 ]

4
= .452 e
4
'
= [ .387, .206, -.662, .472, -.382 ]

5
= .343 e
5
'
= [ -.451, .676, -.400, -.176, .385 ]
Usando as variveis estandardizadas, obtermos as primeiras duas componentes
principais
y
1
= e
1
'
z = .464 z
1
+ .457 z
2
+ .470 z
3
+ .421 z
4
+ .421 z
5
Y
2
= e
2
'
z = .240 z
1
+ .509 z
2
+ .260 z
3
- .526 z
4
+ .582 z
5
Estas componentes, que explicam

+
p
2 1

100% =

+
5
809 . 857 . 2
100% = 73% tm
uma interpretao interessante. A primeira componente consiste num ndice das
cinco aces e pode ser chamada 'componente de mercado'. A segunda
componente representa um contraste entre as aces de empresas qumicas
(Allied Chemical, DuPont e Union Carbide) e as aces das empresas petrolferas
(Exxon e Texaco) podendo ser denominado componente industrial.


86
As restantes componentes, de difcil interpretao, representam no seu conjunto a
variao provavelmente especfica de cada aco.

o

7.3 Anlise factorial
O objectivo essencial da anlise factorial descrever, se possvel, as relaes
de covarincia entre as vrias variveis em termos de um nmero reduzido de
quantidades aleatrias subjacentes, mas no observveis, chamadas factores.
A anlise factorial pode ser vista como uma extenso da anlise das
componentes principais, uma vez que ambas podem ser encaradas como
aproximaes matriz das covarincias. Contudo, a aproximao feita pelo modelo da
anlise factorial mais elaborada e centra-se na anlise da consistncia dos dados
com uma estrutura pr-definida.
Considerando o vector aleatrio X de dados observados, com p componentes,
mdia e matriz de covarincias , o modelo factorial parte do conceito de que X
linearmente dependente de algumas variveis no observveis F
1
, F
2
, , F
m
,
chamados factores comuns, e p fontes de variao
1
,
2
, ,
m
, chamados erros ou
factores especficos.
Numa forma matricial, o modelo de anlise factorial
) 1 ( ) 1 ( ) ( ) 1 (
+

=

p m
F
m p
L
p
X

ou seja,
X
1
-
1
= l
11
F
1
+ l
12
F
2
+ + l
1m
F
m
+
1



87
X
2
-
2
= l
21
F
1
+ l
22
F
2
+ + l
2m
F
m
+
2


X
p
-
p
= l
p1
F
1
+ l
p2
F
2
+ + l
pm
F
m
+
p

onde
i
representa a mdia da varivel i,
i
o factor especfico de ordem i, F
i
o
factor comum de ordem i e l
ij
o peso (loadings) da varivel i no factor j.
Alm disso, as variveis aleatrias F
1
, F
2
, , F
m
, assim como os erros
1
,
2
,
,
m
no so observveis, o que permite distinguir este modelo da representao
linear onde os X independentes podem ser observados.
Para este modelo partimos do pressuposto que
E(F) =
) 1 (
0
m
; Cov(F) = E[FF'] =
) ( m m


E() =
) 1 (
0
p
; Cov() = E['] =
) ( p p

p
0 0
. . .
0 0
0 0
2
1

F e so independentes; isto ; Cov(; F) = E( F') =
) (
0
m p


Como j atrs vimos, comunalidade representa a parte da varincia da varivel i
devida aos m factores comuns. Deste modo, a varincia de X
i
pode ser dada por
Var(X
i
) = comunalidade h
i
2
+ varincia especfica
i


88

ii
= [ ]
2
1
2
1
2
1 i i i
l l l + + + +
i


Exemplo 7.4: Consideremos a matriz de covarincias
=

68 47 23 12
47 38 5 2
23 5 57 30
12 2 30 19

A igualdade = L L' + , ou seja,

68 47 23 12
47 38 5 2
23 5 57 30
12 2 30 19
=

8 6 2 1
1 1 7 4
8 1
6 1
2 7
1 4
+

3 0 0 0
0 1 0 0
0 0 4 0
0 0 0 2

pode ser verificada pela lgebra matricial. Deste modo, tem a estrutura produzida
por um modelo factorial ortogonal com m=2.
Sendo L =

42 41
32 31
22 21
12 11
l l
l l
l l
l l
=

8 1
6 1
2 7
1 4
e =

4
3
2
1
0 0 0
0 0 0
0 0 0
0 0 0
=

3 0 0 0
0 1 0 0
0 0 4 0
0 0 0 2

a comunalidade de X
1

h
1
2
=
2
11
l +
2
12
l = 4
2
+ 1
2
= 17
e a varincia de X
1
pode ser decomposta da seguinte maneira

11
= h
1
2
+
1
= 17 + 2 = 19
As restantes variveis podem ser decompostas de maneira anloga.

o


89

Infelizmente, quando o nmero m de factores muito menor do que o nmero
p de variveis, a maioria das matrizes de covarincia no podem ser factorizadas da
forma L L' + . H, neste caso, necessidade de se utilizarem mtodos de estimao
apropriados para L e e se proceder previamente a algumas transformaes
ortogonais, sabendo ns de antemo que, quer os pesos, quer as comunalidades, no
so alterados por qualquer transformao ortogonal.

Comecemos pela estimao. A matriz de covarincia amostral S um
estimador da matriz de covarincia desconhecida da populao. Se os elementos
fora da diagonal de S so pequenos (ou os correspondentes valores em R
essencialmente nulos), as variveis no esto relacionadas e a anlise factorial no
se apresenta de muita utilidade, uma vez que, neste caso, os factores especficos
desempenham um papel fundamental, no fazendo sentido a construo dos factores
comuns.
Se se desvia significativamente de uma matriz diagonal, ento faz sentido
usar-se um modelo factorial, sendo primeiramente necessrio estimar-se os pesos l
11
e as varincias especficas
1
. De entre os mtodos existentes para a estimao
destes parmetros, usaremos, neste captulo, apenas o mtodo das componentes
principais, que passaremos a expor. As solues encontradas podero ento ser
rodadas (atravs de transformaes) com vista a uma melhor interpretao.

A anlise factorial de componentes principais da matriz amostral S de
covarincias, usando uma decomposio espectral, especificada em termos dos


90
seus pares de valores-vectores prprios estimados ( l

1
, e
1
); ( l

2
, e
2
), , ( l

p
, e
p
)
onde l

1
l

2
l

p
. Sendo m < p o nmero dos factores comuns; a matriz dos
pesos factoriais estimados { l
~
ij
} dada por
L
~
=


m m

| |

2 2 1 1
e e e l l l
As varincias especficas estimadas so fornecidas pelos elementos da
diagonal da matriz S - L
~
L
~
';

~
=

~
1
0 0
0
~
2
0
. . .
0 0
~
p
com
~

i
= s
ii
-

j=1
m
l
~
2
ij

e as comunalidades so estimadas da forma que se segue
h
~
2
i
= l
~
2
i1
+ l
~
2
i2
+ + l
~
2
im


H que notar que a anlise factorial das componentes principais da matriz
amostral de correlaes obtida de maneira idntica, comeando pela matriz R em
vez de S. Alm disso, os pesos factoriais estimados para um determinado factor no
so alterados quando o nmero de factores aumenta. A proporo da varincia
amostral total devida ao factor j dada por:
para uma anlise factorial de S:

Proporo da varincia amostral


total devida ao factor j
=
pp
j
s s s + + +
22 11





91
para uma anlise factorial de R:

Proporo da varincia amostral


total devida ao factor j
=
p
j



Exemplo 7.5: Voltando ao Exemplo 8.3 referente s n=100 observaes
semanais das taxas de retorno das aces de p=5 empresas qumicas e onde se
encontraram as primeiras duas componentes principais obtidas a partir de R, fcil
determinar as solues das componentes principais para o modelo ortogonal com
m=1 e m=2. Assim, para encontrar os pesos factoriais estimados basta multiplicar
os coeficientes das componentes principais amostrais (vectores prprios de R) pela
razes quadradas dos correspondentes valores prprios.
A seguir, so apresentados os pesos factoriais estimados F, as comunalidades, as
varincias especficas e a proporo da varincia total (estandardizada) amostral
explicada por cada factor, para as solues com m=1 e com m=2.


Soluo 1 factor Soluo 2 factores

Pesos factoriais
estimados
Varincias
especficas
Pesos factoriais
estimados
Varincias
especficas
Varivel
F
1

2
~
1
~
i i
h = F
1
F
2

2
~
1
~
i i
h =
1. Allied Chemical .783 .39 .783 -.217 .34
2. DuPont .773 .40 .773 -.458 .19
3. Union Carbide .794 .37 .794 -.234 .31
4. Exxon .713 .49 .713 .472 .27
5. Texaco .712 .49 .712 .524 .22
Proporo da varincia total
(estandardizada) amostral
explicada
.571 .571 .733

A matriz residual correspondente soluo para m=2 factores


92
R - L
~
L
~
' -
~
=






0 232 . 017 . 012 017 .
232 . 0 019 . 055 . 069 .
017 . 019 . 0 122 . 164 .
012 . 055 . 122 . 0 127 .
017 . 069 . 164 . 127 . 0

A proporo da varincia total explicada pela soluo com dois factores
apreciavelmente maior do que a correspondente soluo com apenas um factor.
Mais uma vez se v que o primeiro factor F
1
representa condies econmicas
gerais e pode ser chamado factor de mercado, todas as aces tm um peso alto e
todos os pesos so mais ou menos iguais. O segundo factor, que permite a
separao das empresas qumicas com aces de petrleo das empresas qumicas
sem aces de petrleo, pode ser denominado factor de indstria.
o

Como j vimos anteriormente, todos os pesos factoriais obtidos pelos pesos
iniciais atravs de uma transformao ortogonal tm idntica capacidade de produzir a
matriz de covarincia (ou de correlao). Ora, pela lgebra matricial sabemos que
uma transformao ortogonal corresponde a uma rotao rgida dos eixos
coordenados. Por esta razo, a uma transformao ortogonal dos pesos factoriais
damos o nome de rotao factorial.
Se L

uma matriz pm de pesos factoriais estimados obtidos por um qualquer


mtodo, ento L


*
= L

T (onde TT' = T'T = I) a matriz pm de pesos aps rotao.


Como consequncia directa da rotao, a matriz residual mantm-se inalterada, assim
como as varincias especficas
i

i
e as comunalidades h

2
i
. Isto significa que, sob o
ponto de vista matemtico, imaterial usarmos L

ou L


*
.



93
Exemplo 7.6: Consideremos a seguinte matriz de correlaes referentes s
notas em p=6 reas de n=220 alunos de uma escola:
Port Franc Hist Aritm lgeb Geomet
R =

0 . 1
464 . 0 . 1
470 . 595 . 0 . 1
181 . 190 . 164 . 0 . 1
329 . 320 . 354 . 351 . 0 . 1
248 . 329 . 288 . 410 . 439 . 0 . 1

A soluo para m=2 factores comuns apresentada a seguir:

Factores rodados Comunalidades
F1 F2
2

i
h
1. Portugus
2. Francs
3. Histria
4. Aritmtica
5. lgebra
6. Geometria
.553
.568
.392
.740
.724
.595
.429
.288
.450
-.273
-.211
-.132
.490
.406
.356
.623
.569
.372
Todas as variveis tm pesos positivos no primeiro factor, factor geral de
inteligncia. No entanto, em relao ao segundo factor, h bipolarizao entre as
disciplinas matemticas e as no-matemticas. Os pares (
2
1
~
i
l ;
2
2
~
i
l ) de pesos
factorias esto apresentados na Figura 7.4.



94
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0 0.2 0.4 0.6 0.8
Histria
Portugus
Ingls
Geometria
lgebra
Aritmtica
F
1
F
2

Figura 7.4 Pesos factoriais

Rodando o sistema de eixos de = 20, fazemos com que o transformado do eixo
F
1
passe pelo ponto ( l
~
2
41
; l
~
2
42
), como o representado na Figura 7.5.

-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
0 0.2 0.4 0.6 0.8
Histria
Portugus
Ingls
Geometria
lgebra
Aritmtica
F
1
F
2
F
1
*
F
2
*



Figura 7.5 Rotao factorial


95
Quando isto feito todos os pontos se encontram no primeiro quadrante (todos os
pesos factoriais so positivos) e os dois grupos de variveis so evidenciados. Isto
corresponde seguinte tabela de pesos estimados aps rotao.


Pesos factoriais estimados
aps rotao
Comunalidades
Varivel
F
1
*
F
2
*

h*

2
i
= h

2
i

1. Portugus .369 .594 .490
2. Francs .433 .467 .406
3. Histria .211 .558 .356
4. Aritmtica .789 .001 .623
5. lgebra .752 .054 .569
6. Geometria .604 .083 .372
Como se pode verificar; as comunalidades no se alteraram.
o
Ora, esta rotao pode ser conseguida analiticamente, por exemplo atravs do
critrio varimax. Considerando l
~
*
ij
=
l

*
ij

h

*
i

, o procedimento varimax selecciona a
transformao ortogonal T tal que maximiza
V =
1
p

j=1
m

i=1
p
l
~
*
4
ij
-

i=1
p
l
~
*
2
ij
2
p


importante salientar-se que as rotaes ortogonais so apropriadas para
modelos factoriais onde se pressupe que os factores so independentes. Caso isso
se no verifique existem rotaes oblquas (no ortogonais), mas que no se regem
pelo modelo atrs indicado.


96

For fim, falta ainda debruarmo-nos um pouco sobre um problema prtico
referente ao nmero de factores a escolher e a utilizar numa anlise especfica. Um
dos critrios mais vulgares reter apenas factores com valores prprios maiores do
que 1, quando usada a matriz de correlaes. Outra alternativa analisar o grfico
dos valores prprios e parar a anlise no ponto onde a linha deste grfico comea a
ser quase paralela com o eixo horizontal. Este ltima alternativa; denominada teste de
base de montanha (scree test) est ilustrada na Figura 7.6.
0
1
2
3
4
0 2 4 6 8 10 12
Factor

Figura 7.6 Exemplo de um teste de base de montanha

Segundo este grfico o investigador concluiria que no deveriam ser extrados mais
de cinco factores.



97



98
8
Anlise de agrupamentos (clusters)


8.1 Introduo
Uma outra tcnica exploratria de dados aquela que pesquisa a existncia
de grupos naturais de indivduos ou de variveis. A aplicao desta tcnica no
pressupe qualquer caracterstica da estrutura do agrupamento; apenas se baseia em
medidas de semelhana ou de distncia entre objectos e na escolha de critrios de
agregao.
De uma maneira geral, esta anlise passa pelas seguintes fases:
1. Seleco da amostra de indivduos a agrupar;
2. Definio de variveis para permitir o agrupamento dos indivduos;
3. Definio de uma medida de semelhana ou de distncia;
4. Escolha de um critrio de agregao ou desagregao
5. Validao dos resultados encontrados.

8.2 Medidas de semelhana
A escolha das medidas de semelhana envolve sempre uma grande
componente de subjectividade para alm das caractersticas das variveis e das
escalas usadas para a medio. Normalmente os indivduos so agrupados custa


99
de distncias. As variveis podem, por exemplo, ser agrupadas com base no
coeficiente de correlao.

8.2.1 Medidas de distncia
De entre as vrias medidas normalmente utilizadas para determinar a distncia
entre elementos de uma matriz de dados, destacam-se as seguintes:
1. Distncia Euclideana a distncia entre dois indivduos i e j a raiz quadrada do
somatrio dos quadrados das diferenas entre os valores de i e j para todas as
variveis:
2
1
) ( .
jk ik
p
k
ij
x x d =

=

2. Quadrado da distncia Euclideana a distncia entre dois indivduos i e j o
somatrio dos quadrados das diferenas entre os valores de i e j para todas as
variveis:
2
1
2
) ( .
jk ik
p
k
ij
x x d =

=

3. Distncia absoluta (city block) a distncia entre dois indivduos i e j o somatrio
dos valores absolutos das diferenas entre os valores de i e j para todas as
variveis:


=
=
p
k
ij
jk ik
d
x x
1
.
4. Distncia de Minkowski generalizao da distncia absoluta (para m=1) e da
distncia Euclideana (para m=2):


100
m
p
k
m
ij
jk ik
d
x x
1
1

=


=

5. Distncia generalizada (de Mahalanobis) medida que utiliza a matriz das
varincias:
( ) ( )

=
1
'
j i j i ij
x x x x d
Para exemplificar a utilizao destas medidas consideremos a seguinte matriz
de 5 observaes em 3 variveis:


X
1
X
2
X
3

1 1,06 9,2 151
2 1,10 9,2 245
3 1,34 13,0 168
4 1,43 15,4 113
5 1,16 11,7 104

As matrizes a seguir apresentam as medies das distncias para a matriz de
dados.

Distncia Euclideana

1 2 3 4
2 94,0
3 17,4 77,1
4 38,5 132,1 55,0
5 47,1 141,0 64,0 9,7

Quadrado da distncia Euclideana

1 2 3 4
2 8836,0
3 303,5 5943,5
4 1482,6 17462,5 3030,8
5 2215,3 19887,3 4097,7 94,8


Distncia absoluta (city block)

1 2 3 4
2 94,0
3 21,1 81,0
4 44,6 138,5 57,5


101
5 49,6 143,6 65,5 13,0

Distncia generalizada (de Mahalanobis)

1 2 3 4
2 36,6
3 21,4 34,0
4 40,0 35,5 19,0
5 21,2 33,8 40,0 18,8

Como se pode ver, principalmente quando a distncia generalizada
comparada com as outras, as variveis que apresentam variaes e unidades de
medidas elevadas tendem a anular o efeito das outras variveis.

8.2.2 Medidas de associao
Por outro lado, todas estas variveis so quantitativas. No entanto, tambm as
variveis qualitativas podem ser introduzidas neste tipo de anlise custa da sua
transformao em variveis binrias, com o valor 1 no casos da presena de uma
determinada caracterstica de interesse e 0 nos casos contrrios.
Considerando os indivduos i e j, medidos atravs de p variveis binrias,
constri-se a tabela seguinte

Indivduo j Totais
Indivduo i 1 0
1 a b a + b
0 c d c + d
Totais a + c b + d

onde a corresponde ao nmero de caractersticas existentes (valor 1) em ambos os
indivduos, d ao nmero de caractersticas ausentes (valor 0) em ambos os indivduos,


102
b ao nmero de caractersticas presentes em i e ausentes em j, e c ao nmero de
caractersticas ausentes em i e presentes em j.
Alguns dos coeficientes de emparelhamento e de semelhana so os
apresentados a seguir:
1
d c b a
d a
+ + +
+

Igual peso s as presenas e as ausncias simultneas;
2
c b d a
d a
+ + +
+
) ( 2
) ( 2

Peso duplo s presenas e ausncias simultneas;
3
) ( 2 c b d a
d a
+ + +
+

Peso duplo s situaes discordantes; incluso das
ausncias simultneas
4
c b a
a
+ + 2
2

Peso duplo s presenas ausncias simultneas;
excluso das ausncias simultneas.
5
) ( 2 c b a
a
+ +

Peso duplo as situaes discordantes; excluso das
ausncias simultneas.
6
c b
a
+

Quociente entre presenas simultneas e situaes
discordantes; excluso das ausncias simultneas.

Suponhamos agora outros cinco indivduos com as seguintes caractersticas:
Indivduo Altura (cm) Peso (Kg) Olhos Cabelo Canhoto Sexo
1 173 64 Verdes Louros No Fem
2 185 84 Castanhos Castanhos No Masc
3 170 75 Azuis Louros No Masc
4 163 54 Castanhos Castanhos No Fem
5 193 95 Castanhos Castanhos Sim Masc

Definamos as seis variveis binrias X
1
, X
2
, X
3
, X
4
, X
5
, e X
6
do seguinte modo:

<

=
cm altura
cm altura
X
183 0
183 1
1

=
louro no cabelo
louro cabelo
X
0
1
4



103

<

=
Kg peso
Kg peso
X
68 0
68 1
2

=
canhoto
canhoto no
X
0
1
5

=
os cas no cabelos
os cas cabelos
X
tanh 0
tanh 1
3

=
masculino sexo
ino fe sexo
X
0
min 1
6


As pontuaes para os indivduos 1 e 2 para as 6 variveis so

Indivduo X
1
X
2
X
3
X
4
X
5
X
6

1 0 0 0 1 1 1
2 1 1 1 0 1 0

E o nmero de coincidncias so indicadas pela tabela de duas entradas:

Indivduo 2 Totais
Indivduo 1 1 0
1 1 2 3
0 3 0 3
Totais 4 2 6

Utilizando o primeiro coeficiente de semelhana, obtemos
6
1
6
0 1
=
+
=
+ + +
+
d c b a
d a
e,
continuando, a seguinte matriz:


104


1 2 3 4 5
1 1

2
6
1

1
3
6
4

6
3

1
4
6
4

6
3

6
2

1
5 0
6
5

6
2

6
2

1

o que demonstra que os indivduos 2 e 5 so mais semelhantes entre si e que os
indivduos 1 e 5 so menos semelhantes entre si. Os dois subgrupos que se podiam
criar eram (1 3 5) e (2 5).
Todos estes coeficientes de semelhana s
ij
podem variar entre 0 e 1 e a sua
relao com as distncias d
ij
permite a sua construo atravs da frmula:
dij
s
ij
+
=
1
1


8.3 Critrios de agregao e desagregao
No processo de agrupamento h necessidade de estimar as distncias entre
os grupos j formados e outros grupos ou indivduos. Tambm aqui no existe o
melhor mtodo de desagregao, tendo o investigador que utilizar vrios critrios e
comparar os resultados.
De entre os critrio de agregao mais utilizados podemos citar o critrio do
vizinho mais prximo (single linkage), o critrio do vizinho mais afastado (complete
linkage), o critrio da mdia dos grupos (average linkage), o critrio do centride e o
critrio de Ward


105
8.3.1 Critrio do vizinho mais prximo (single linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles igual menor distncia
entre os elementos dos dois grupos, isto ,

} ; min{
) , ( jk ik k j i
d d d =


Com este critrio, cada indivduo ter mais tendncia para se agrupar a um grupo j
definido do que para formar o ncleo de um novo grupo. Isto constitui uma
desvantagem, principal responsvel pela fraca utilizao deste critrio.

8.3.2 Critrio do vizinho mais afastado (complete linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles igual maior distncia
entre os elementos dos dois grupos, isto ,

} ; max{
) , ( jk ik k j i
d d d =


Com este critrio, cada grupo passa a ser definido como o conjunto dos indivduos em
que cada um mais semelhante a todos os outros do grupo do que a qualquer outro
elemento. Os grupos assim criados so mais compactos



106
8.3.3 Critrio da mdia dos grupos (average linkage)
Dados dois grupos (i,j) e (k), a distancia entre eles a mdia entre todos os
pares de indivduos constitudos por todos os elementos dos dois grupos.
Constitui-se como uma estratgia intermdia das restantes.

8.3.4 Critrio do centride
Dados dois grupos, a distancia entre eles a distncia entre os respectivos
centrides, mdia das variveis caracterizadoras dos indivduos de cada grupo.

8.3.5 Critrio de Ward
Este critrio baseia-se na comparao entre a aplicao da medida da soma
dos quadrados dos desvios das observaes em relao mdia dos grupos.
Primeiro so calculadas as mdias das variveis de cada grupo; em seguida,
calculado o quadrado da distncia Euclideana entre essas mdias e os valores das
variveis para cada indivduo. Por fim, somam-se as distncias para todos os
indivduos e optimiza-se a varincia mnima dentro dos grupos.


107



108

Referncias bibliogrficas


Aldenferfer MS, Blashfield RK. Cluster analysis. Sage university paper series on
quantitative applications in the social sciences, 07-044. Beverly Hills: Sage, 1984.
Alt M. Exploring hyperspace . A non-mathematical explanation of multivariate analysis.
London: McGraw-Hill, 1990.
Bryman A, Cramer D. Anlise de dados em cincias sociais: introduo s tcnicas
utilizando o SPSS. Oeiras: Celta Editora, 1992.
Dunteman GH. Principal componentes analysis. Sage university paper series on
quantitative applications in the social sciences, 07-069. Beverly Hills: Sage, 1989.
Hair JF, Anderson RE, Tatham RL, Black WC. Multivariate data analysis. Englewood
Clifs: Prentice-Hall, 1995.
Jobson JD. Applied multivariate analysis. Volume II: Categorical and multivariate
methods. New York: Springer-Verlag, 1992.
Johnson RA, Wichern D. applied multivariate analysis. Englewood Cliffs, NJ:
Prentice-Hall, 1988.
Kim J-O, Mueller C. Introduction to factor analysis. Sage university paper series on
quantitative applications in the social sciences, 07-013. Beverly Hills: Sage, 1978.


109
Kim J-O, Mueller C. Factor analysis. Statistical methods and practical issues. Sage
university paper series on quantitative applications in the social sciences, 07-014.
Beverly Hills: Sage, 1978.

You might also like