You are on page 1of 117

ANLISE DE VARINCIA MULTIVARIADA COM A UTILIZAO DE

TESTES NO-PARAMTRICOS E COMPONENTES PRINCIPAIS


BASEADOS EM MATRIZES DE POSTOS

ANTONIO CARLOS FONSECA PONTES

Tese apresentada Escola Superior de


Agricultura Luiz de Queiroz,
Universidade de So Paulo, para obteno
do ttulo de Doutor em Agronomia, rea de
Concentrao: Estatstica e Experimentao
Agronmica.

PIRACICABA
Estado de So Paulo Brasil
Junho 2005
ANLISE DE VARINCIA MULTIVARIADA COM A UTILIZAO DE
TESTES NO-PARAMTRICOS E COMPONENTES PRINCIPAIS
BASEADOS EM MATRIZES DE POSTOS

ANTONIO CARLOS FONSECA PONTES


Bacharel em Estatstica

Orientador: Prof. Dr. CARLOS TADEU DOS SANTOS DIAS

Tese apresentada Escola Superior de


Agricultura Luiz de Queiroz,
Universidade de So Paulo, para obteno
do ttulo de Doutor em Agronomia, rea de
Concentrao: Estatstica e Experimentao
Agronmica.

PIRACICABA
Estado de So Paulo Brasil
Junho 2005
Dados Internacionais de Catalogao na Publicao (CIP)
DIVISO DE BIBLIOTECA E DOCUMENTAO - ESALQ/USP

Pontes, Antonio Carlos Fonseca


Anlise de varincia multivariada com a utilizao de testes no-paramtricos e
componentes principais baseados em matrizes de postos / Antonio Carlos Fonseca
Pontes. - - Piracicaba, 2005.
106 p.

Tese (doutorado) - - Escola Superior de Agricultura Luiz de Queiroz, 2005.


Bibliografia.

1. Anlise multivariada 2. Anlise de varincia 3. Estatstica no-paramtrica


I. Ttulo

CDD 519.53

Permitida a cpia total ou parcial deste documento, desde que citada a fonte O autor
Aos meus filhos, Antonio Carlos Jr, Carlos Eduardo e Ana Carolina e
minha esposa, Loide, por sua pacincia e dedicao, eu dedico.

Especialmente Professora Clarice Garcia Borges Demtrio, pelo


incentivo e dedicao, exemplo de humanidade, educadora autntica e amiga.

Ao meu pai (in memoriam), minha me e aos meus irmos Fbio e


Rose, eu ofereo.
AGRADECIMENTOS

Ao Prof. Dr. Carlos Tadeu dos Santos Dias, meu orientador, cuja
pacincia, cooperao e apoio foram fundamentais para a realizao deste trabalho.

Aos professores do Departamento de Matemtica e Estatstica da


Universidade Federal do Acre, pela confiana depositada.

Aos professores e funcionrios do Departamento de Cincias Exatas da


ESALQ/USP, em especial Solange de Assis Paes Sabadin e Luciane Brajo pelo apoio
nos momentos importantes desta caminhada.

Aos professores Humberto de Campos, Dcio Barbin, Csar Gonalves


de Lima e Daniel Furtado Ferreira que contriburam com sugestes valiosas, sem as
quais no teria sido possvel o trmino deste trabalho.

Aos funcionrios das bibliotecas da ESALQ/USP pelo atendimento sempre


pronto e na colaborao na aquisio de material bibliogrfico.

bibliotecria Eliana Maria Garcia pela colaborao e compreenso nos


momentos finais.
SUMRIO

Pgina
LISTA DE TABELAS .................................................................................................. vii
RESUMO ...................................................................................................................... ix
SUMMARY................................................................................................................... x
1 INTRODUO ....................................................................................................... 1
2 REVISO DE LITERATURA ................................................................................ 6
2.1 Testes de normalidade multivariada ...................................................................... 14
2.2 Testes de aleatorizao uni e multivariados ........................................................... 20
2.3 Testes no-paramtricos multivariados utilizando transformaes de dados
separadamente, para cada uma das variveis ....................................................... 22
2.4 Mediana multivariada ............................................................................................ 28
2.5 Combinao de testes independentes e testes de independncia ........................... 31
2.6 Testes multivariados baseados na distncia entre os dados ................................... 36
2.7 Anlise de componentes principais (PCA) e assuntos correlacionados ................. 40
3 METODOLOGIA .................................................................................................... 45
3.1 Notao .................................................................................................................. 46
3.2 Materiais e mtodos ............................................................................................... 49
3.2.1 Mtodo 1 ............................................................................................................. 50
3.2.2 Mtodo 2 ............................................................................................................. 54
4 RESULTADOS E DISCUSSO.............................................................................. 66
4.1 Exemplo 1. Dados fictcios (dois grupos e duas variveis) ................................ 67
vi

4.3 Exemplo 3. Dados de Anselmo (2005)................................................................ 73


5 CONCLUSES........................................................................................................ 89
REFERNCIAS BIBLIOGRFICAS .......................................................................... 94
LISTA DE TABELAS

Pgina

1 Dados fictcios para uma amostra com dois grupos ............................................... 68

2 Teste de Wilks para as configuraes com dois grupos de trs elementos ............ 70

3 Resultados do teste de Wilks (i) e do teste de Pillai (Vi) para as configuraes


considerando trs tratamentos, cada um com duas repeties ............................... 72

4 Tamanho da amostra e mdias, para cada grupo, antes e depois do tratamento .... 75

5 Teste de normalidade, homogeneidade de varincias e indicao da presena de


valores discrepantes para as variveis em estudo - sexo masculino ...................... 77

6 Teste de Normalidade, homogeneidade de varincias e indicao da presena de


valores discrepantes para as variveis em estudo - sexo feminino ........................ 77

7 Teste de W-M-W comparando os grupos para o sexo feminino antes ............... 78

8 Teste de W-M-W comparando os grupos para o sexo masculino antes ............. 78

9 Valores de interesse para o teste de W-M-W para comparao entre os grupos


para ambos os sexos- antes ..................................................................................... 79

10 Teste W-M-W entre tratados e no tratados, ambos os sexos Variveis


ALT_zz ................................................................................................................... 80

11 Teste W-M-W entre tratados e no tratados, sexo feminino Variveis


ALT_zz ................................................................................................................. . 80
viii

12 Valores de interesse para o teste W-M-W entre tratados e no tratados sexo


masculino - Variveis ALT_zz .............................................................................. 81

13 Valores de interesse para o teste W-M-W entre os sexos masculino e feminino e


p-valores Variveis ALT_zz ............................................................................... 81

14 Coeficiente de correlao de Spearman para as variveis estudadas e respectivos


valores-p ................................................................................................................. 82

15 Resultados dos testes de Pillai e de Wilks para os dados transformados em


postos e dados originais variveis ALT_zz e rALT_zz ...................................... 83

16 Valores da decomposio do trao de Pillai e respectivos valores-p ..................... 87

17 Valores da decomposio de trao de Pillai, resultados obtidos atravs do


programa e respectivos valores-p ........................................................................... 87
ANLISE DE VARINCIA MULTIVARIADA COM A UTILIZAO DE
TESTES NO-PARAMTRICOS E COMPONENTES PRINCIPAIS BASEADOS
EM MATRIZES DE POSTOS

Autor: ANTONIO CARLOS FONSECA PONTES


Orientador: Prof. CARLOS TADEU DOS SANTOS DIAS

RESUMO
Mtodos no-paramtricos tm aplicao ampla na anlise de dados,
tendo em vista que no so limitados pela necessidade de imposio de distribuies
populacionais especficas. O carter multivariado de dados provenientes de estudos nas
cincias do comportamento, ecolgicos, experimentos agrcolas e muitos outros tipos, e
o crescimento contnuo da tecnologia computacional, tm levado a um crescente
interesse no uso de mtodos multivariados no-paramtricos. A aplicao da anlise de
varincia multivariada no-paramtrica pouco inacessvel ao pesquisador, exceto
atravs de mtodos aproximados baseados nos valores assintticos da estatstica de teste.
Portanto, este trabalho tem por objetivo apresentar uma rotina na linguagem C que
realiza testes baseados numa extenso multivariada do teste univariado de Kruskal-
Wallis, usando a tcnica das permutaes. Para pequenas amostras, todas as
configuraes de tratamentos so obtidas para o clculo do valor-p. Para grandes
amostras, um nmero fixo de configuraes aleatrias usado, obtendo assim valores de
significncia aproximados. Alm disso, um teste alternativo apresentado com o uso de
componentes principais baseados nas matrizes de postos.
MULTIVARIATE ANALYSIS OF VARIANCE USING NONPARAMETRIC
TESTS AND PRINCIPAL COMPONENTS BASED ON RANK MATRICES

Author: ANTONIO CARLOS FONSECA PONTES


Adviser: Prof. CARLOS TADEU DOS SANTOS DIAS

SUMMARY
Nonparametric methods have especially broad applications in the
analysis of data since they are not bound by restrictions on the population distribution.
The multivariate character of behavioural, ecological, agricultural and many other
types of data and the continued improvement in computer technology have led to a
sharp interest in the use of nonparametric multivariate methods in data analysis. The
application of nonparametric multivariate analysis is inaccessible to applied research,
except by approximation methods based on asymptotic values of the test statistic.
Thus, this work aims to presenting a routine in the C language that runs multivariate
tests based on a multivariate extension of the univariate Kruskal-Wallis test, using
permutation technique. For small samples, all possible treatment configurations are
used in order to obtain the p-value. For large samples, a fixed number of random
configurations are used, obtaining an approximated significance values. In addition,
another alternative test is presented using principal components based on rank
matrices.
1 INTRODUO

A incorporao de vrias variveis na anlise de dados , muitas vezes,


imprescindvel em muitas reas da pesquisa. O inter-relacionamento de variveis
tomadas em uma mesma amostra ocorre naturalmente, em decorrncia de sua natureza
nica. O uso de apenas uma varivel pode ser uma simplificao grosseira em muitos
casos, no espelhando de forma adequada o objeto em estudo. Esta simplificao ocorre,
dentre outros motivos, com a finalidade de facilitar a anlise dos dados, ou at mesmo
como uma forma de torn-la possvel.
Em geral, as diferenas existentes entre grupos ou populaes, no
dependente de apenas uma varivel e sim de um conjunto delas. A utilizao de apenas
uma varivel nas pesquisas em geral pode tornar o trabalho falho. Existem alguns casos,
por exemplo, em que o estudo univariado indica um determinado grupo (ou populao
ou tratamento) como sendo o melhor ou o mais adequado. Entretanto, quando se
consideram outras variveis, de forma conjunta, outros tratamentos podem ser mais
adequados.
Existem situaes ainda em que, quando analisadas separadamente, no
so detectadas diferenas significativas entre as populaes (ou tratamentos ou grupos)
para as variveis em estudo. Porm, quando a anlise feita de forma global,
multivariada, as diferenas ficam evidenciadas e so detectadas pelos testes estatsticos.
Isso pode ocorrer tanto pelo acmulo de diferenas das variveis individuais como por
diferenas existentes entre combinaes lineares dessas variveis.
Esses fatores evidenciam a necessidade de se realizar anlises
multivariadas sempre que possvel. Entretanto, como natural na pesquisa cientfica, a
adio de novas variveis faz com que os problemas para a realizao da anlise se
2

multipliquem. Um dos motivos para a no ampliao da utilizao da anlise de dados


multivariados a complexidade das anlises. Outros fatores importantes so as fortes
pressuposies necessrias para a correta avaliao dos tipos de dados envolvidos. A
necessidade da multinormalidade dos dados, de ausncia de pontos discrepantes e da
homogeneidade das matrizes de covarincia, pode fazer com que uma parte considervel
das anlises que deveria levar em conta mltiplas variveis no possua as pressuposies
adequadas para a execuo de testes multivariados. Se, por um lado, tem-se uma viso
global do problema ao analisar vrias variveis ao mesmo tempo, a no observao das
pressuposies pode anular a vantagem adquirida, pois os testes podem se tornar
imprecisos.
A anlise de dados multivariados compreende, dentre outras, as tcnicas
de componentes principais, anlise de agrupamentos, anlise discriminante, anlise
fatorial, anlise de varincia multivariada (MANOVA - multivariate analysis of variance)
e anlise de correlao cannica.
A anlise de dados atravs de tcnicas no-paramtricas univariadas
bem difundida e tem grande utilidade. Testes como os de Wilcoxon-Mann-Whitney,
Kruskal-Wallis, Friedman, Page e muitos outros so bem conhecidos e discutidos na
literatura (Hollander & Wolfe, 1999). Os softwares estatsticos mais conhecidos j
incorporam estes testes, tanto na sua forma assinttica como na forma aproximada
atravs de testes de permutao.
Por outro lado, tcnicas multivariadas no-paramtricas no foram alvos
prioritrios de pesquisas at meados da dcada de 90 do sculo passado. Apenas
algumas tentativas isoladas de pesquisadores ocorreram nos anos 70 com o intuito de
criar tcnicas adequadas utilizao de mtodos no-paramtricos multivariados em
pesquisas (Tamura, 1965; Sen, 1967; Sen 1969; Mantel & Valand, 1970; Puri & Sen,
1971). Na dcada de 80 aparecem alguns trabalhos isolados, com nfase nas aplicaes
dos mtodos multivariados no-paramtricos, especialmente nas reas de biologia,
sociologia e psicologia (Katz, 1980; Dietz & Killeen, 1981; Zwick, 1985). Outros
trabalhos dessa poca enfocam medidas multivariadas (Gower, 1974; Oja, 1983) ou do
destaque s discusses tericas referentes aos mtodos (Negrillo, 1985).
3

Com a ampliao da capacidade dos computadores e novas discusses


referentes s transformaes adequadas para a obteno de postos na presena de
mltiplas variveis correlacionadas, a anlise multivariada no-paramtrica tem tido
destaque a partir dos anos finais do sculo passado e nos anos iniciais deste sculo, com
a publicao de vrios artigos relacionados e discusses bastante significativas a respeito
da utilizao dessa tcnica em vrios campos de pesquisa, tais como ecologia,
sociologia, pesquisa agrcola em geral e economia, dentre outros. Destacam-se os
trabalhos de Mttnen & Oja (1995), Anderson (2001) e Mttnen et al. (2003), dentre
outros.
A aplicao de testes de permutao na anlise de dados tambm deu um
impulso significativo na ampliao da discusso e anlise de dados multivariados em sua
forma no-paramtrica. Essa tcnica permite a obteno da probabilidade de ocorrncia
de valores menores ou iguais estatstica calculada (valores-p) sem a necessidade de
utilizao de resultados assintticos que, em muitos casos, podem falhar grosseiramente
(Anderson, 2001). Para grandes amostras, esses valores-p so aproximados e, no caso de
amostras pequenas, pode-se obter valores-p exatos sem que seja necessrio recorrer a
extensas tabelas.
O uso de tcnicas multivariadas na anlise de dados pode falhar devido s
fortes suposies necessrias para a utilizao dos testes multivariados paramtricos
(Zwick, 1985; Anderson, 2001). As tcnicas no-paramtricas tendem a ser ferramentas
bastante teis nestes casos, j que tm suposies menos restritivas e, portanto, so
menos sensveis aos desvios da multinormalidade, assimetria, existncia de pontos
discrepantes e heterogeneidade de varincias.
De acordo com Rencher (1995), h pelo menos quatro argumentos para a
abordagem multivariada para o teste de hipteses:
a) o uso de um conjunto de testes univariados aumenta a taxa de erro
tipo I (), enquanto que o teste multivariado preserva o nvel exato;
b) os testes univariados ignoram as correlaes entre as variveis
enquanto que os testes multivariados utilizam, em geral, a matriz de
covarincias de forma direta;
4

c) em alguns casos, todos os p testes univariados falham para a obteno


da significncia, mas o teste multivariado significativo porque
pequenos efeitos em algumas das variveis combinadas tendem a
indicar uma significncia conjunta, o que torna o teste multivariado,
em geral, mais poderoso que o conjunto de testes univariados;
d) muitos testes multivariados envolvendo mdias tm como um produto
derivado a construo de combinaes lineares de variveis que
revela mais sobre como as variveis so combinadas para a rejeio
da hiptese.
Neste trabalho ser feita uma discusso das tcnicas multivariadas no-
paramtricas que tm sido apresentadas na literatura especializada, buscando confrontar
algumas dessas tcnicas e apresentar alternativas para a anlise de dados multivariados.
Sero tratados, em especial, o caso da anlise de varincia multivariada (MANOVA) com
um e dois fatores (one e two-way) e os testes para deteco de diferenas entre
tratamentos, bem como as tcnicas de comparaes mltiplas e discusso de contrastes
no-paramtricos multivariados. Outra tcnica multivariada, a anlise de componentes
principais, servir de ponto de partida para a obteno de um mtodo para a anlise de
varincia multivariada, no sendo, porm, o objeto de estudo principal nesse trabalho.
Assim, os principais objetivos deste trabalho so:
i) fazer uma reviso de literatura dos mtodos utilizados na anlise no-
paramtrica de dados multivariados;
ii) apresentar uma discusso sobre formas de obteno de medidas de
posio multivariadas, em especial a mediana multivariada, incluindo
as transformaes de dados em postos, baseadas nesses medianas
multivariadas, para a utilizao de mtodos de anlise de varincia
multivariada no-paramtrica;
iii) buscar um mtodo alternativo, utilizando a tcnica dos componentes
principais, com o intuito de obter variveis independentes que,
combinadas, possam servir para a obteno de respostas
5

multivariadas, utilizando para isto um processo stepwise e mtodos de


combinao de estatsticas e/ou valores-p;
iv) utilizar a tcnica de permutaes, sistemticas e aleatrias, na
obteno de valores crticos (valores-p) utilizando a transformao
dos dados originais em postos e as estatsticas usuais da anlise de
varincia multivariada;
v) implementar os mtodos mencionados nos itens iii e iv em programas
computacionais e analisar conjuntos reais de dados;
vi) comparar os resultados com aqueles obtidos atravs de tcnicas que
vm sendo mais comumente utilizadas.
6

2 REVISO DE LITERATURA

A estatstica no-paramtrica pode ser considerada como a unio de


procedimentos estatsticos para os quais, no so relacionados parmetros especficos.
Esses procedimentos mantm suas propriedades, independente da distribuio estatstica
subjacente aos dados. O termo no-paramtrico o mais utilizado na literatura
especializada, mas a denominao de mtodos de distribuio livre mais adequada
tendo em vista que os mtodos denominados no-paramtricos referem-se aos
procedimentos de inferncia estatstica nos quais no so feitas suposies explcitas
sobre a forma da distribuio dos dados. As exigncias para a realizao de
procedimentos no-paramtricos so menores que as dos mtodos paramtricos, mas
algumas pressuposies ainda so necessrias para a construo desses testes.
Em relao denominao dos testes, alguns autores utilizam os termos
distribuio livre (distribution-free) e no-paramtrico, de formas distintas. Assim, no-
paramtrico seria a descrio do problema, enquanto que distribuio livre o mtodo
usado para a resoluo do mesmo. Assim, mesmo num problema paramtrico, como, por
exemplo, testar uma hiptese sobre um determinado parmetro ou obter uma estimativa
do mesmo, o mtodo utilizado pode ser ou no de distribuio livre. Portanto, a
denominao distribuio livre seria mais adequada no caso geral, mas, pelo uso
corrente na literatura especializada, o termo no-paramtrico foi sedimentado.
Nos dias de hoje, ambos os termos (no-paramtrico e de distribuio
livre), so usados para designar teses que so vlidas sem a suposio de uma
distribuio especfica. Esses testes so baseados, em sua forma geral, na aleatorizao
e, em grande parte dos casos, em transformaes dos dados em postos, ou seja, na
ordenao desses dados em substituio aos dados obtidos no experimento realizado. Os
7

testes de aleatorizao formam uma classe ampla de testes, paramtricos ou no. Os


testes no-paramtricos utilizam, em sua forma exata, a aleatorizao para a obteno
dos nveis de significncia para a realizao de testes de hipteses e estimativas de
parmetros.
No presente trabalho ser considerada a denominao mais usual de
testes no-paramtricos para cobrir a ampla classe de testes de permutao onde ocorrem
transformaes dos dados em postos. As atribuies de postos s observaes podem ser
feitas de diversas maneiras. Conover & Iman (1981), discutindo os procedimentos no-
paramtricos, indicam formas atravs das quais os postos podem ser atribudos s
observaes, sugerindo os seguintes tipos:
a) RT-1 (rank tranformation 1), na qual atribuem-se postos ao conjunto
completo de observaes, do menor ao maior, com a menor
observao tendo o posto 1, a segunda menor o posto 2 e assim por
diante; postos mdios so atribudos nos casos de empates de
observaes e esse a maneira utilizada na execuo do teste de
Kruskal-Wallis, por exemplo;
b) RT-2 (rank transformation 2), em que, antes da atribuio de postos,
as observaes so particionadas em subconjuntos e, em dentro de
cada uma dessas parties, os postos so designados s observaes;
ou seja, dentro de cada grupo atribuem-se os postos como na RT-1;
c) RT-3 (rank transformation 3), na qual antes de ser aplicada a
transformao RT-1 aos dados, executa-se um realinhamento dos
dados, ou seja, mdias apropriadas, dentro de cada grupo, podem ser
subtradas dos dados, com a finalidade de retirar algum efeito
indesejvel ou que no se deseja mensurar;
d) RT-4 (rank transformation 4), em que se procede ao realinhamento e
aplica-se a transformao RT-2.
Naturalmente, outras formas de transformaes em postos podem ser
planejadas e utilizadas, com o intuito de resolver casos especficos. Para a verificao de
variabilidade de um conjunto de dados, por exemplo, pode-se atribuir postos dos
8

extremos para o centro, fazendo com que os valores mais afastados do valor central
tenham os menores postos ou vice-versa. Algumas outras formas de transformaes de
postos so apresentadas em Negrillo (1985).
No caso multivariado, ainda tem-se outras observaes a serem feitas em
relao atribuio de postos. A atribuio de postos de forma conjunta a todas as
observaes esbarra na verificao de que, sob a hiptese nula, em geral, as permutaes
ocorrem entre os elementos amostrais e no entre as observaes em si. Por outro lado, a
atribuio de postos a cada varivel, de forma individual, denominada atribuio
componentwise, tem sido criticada por no levar em conta as correlaes existentes entre
as variveis. Deve-se levar em conta, porm, que na anlise multivariada paramtrica
usual, a atribuio de valores s variveis feita de forma isolada, no havendo
nenhuma meno correlao entre as variveis, j que ela intrnseca ao prprio dado
obtido. As relaes existentes entre as variveis so, assim, consideradas nas estatsticas
de testes utilizadas para a verificao das hipteses de interesse.
Outra crtica aos mtodos que utilizam a atribuio de postos de forma
isolada para cada varivel refere-se ao tipo de mediana multivariada que est sendo
considerada nessa atribuio, que baseada na composio das medianas individuais
relacionadas a cada uma das variveis em estudo. Assim, vrias outras formas vm
sendo discutidas para a mediana multivariada e, conseqentemente, para a atribuio de
postos s variveis levando em conta essas novas medianas. Observa-se que nenhuma
mediana multivariada apresentada na literatura considerada ideal. Essas medianas so
valores obtidos a partir de conceitos criados pelos pesquisadores, que vo desde a
minimizao de distncias minimizao de simplexes (reas, volumes, hiper-volumes)
que, entretanto, no agregam todas as concepes desejveis para uma medida de
posio multivariada. Tais consideraes sero abordadas com maiores detalhes nas
Sees 2.3 e 2.4, onde so discutidos os mtodos multivariados no-paramtricos
apresentados na literatura.
A considerao de testes de postos (no-paramtricos) na presena de
duas variveis j antiga. O coeficiente de correlao de Spearman, uma das mais
antigas medidas de relacionamento de duas variveis mostra essa preocupao.
9

Basicamente, o coeficiente de correlao de Spearman obtido a partir da idia do


coeficiente de correlao de Pearson. As simplificaes decorrem das propriedades
inerentes aos postos das variveis, permitindo assim a fixao de alguns valores
(Conover, 1999). Como em praticamente todos os testes no-paramtricos, o coeficiente
de correlao de Spearman e os testes a ele inerentes so utilizados apenas nos casos em
que os mtodos paramtricos no so viveis, seja motivado pela natureza das variveis
ou pelo fato das suposies para a execuo de testes paramtricos no serem satisfeitas.
Os testes no-paramtricos podem basear-se tanto na distribuio obtida atravs das
permutaes dos postos como na permutao dos valores originais (Pontes, 2000).
Na anlise de dados univariados, os mtodos no-paramtricos so, em
geral, obtidos a partir de adaptaes dos testes paramtricos para a situao em que os
postos (ranks) substituem os dados reais. Para o caso multivariado, entretanto, algumas
consideraes devem ser feitas. Em primeiro lugar, deve-se atentar para a transformao
de postos para dados com vrias variveis correlacionadas entre si. Outros dois fatores
importantes so: a obteno de uma medida de posio na forma multivariada e de uma
matriz de varincias e covarincias para os dados na forma multivariada aps a
transformao de postos.
A obteno de uma medida de posio quando se tem mais de uma
varivel, ou seja, uma mediana multivariada, e de uma matriz de varincias e
covarincias baseada nessa medida tem sido objeto de alguns trabalhos na literatura
(Gower, 1974; Oja, 1983; Plachky & Rukhin, 1999; Visuri et al., 2000; Nadar et al.,
2003; Ollila et al., 2003; Visuri et al., 2003; dentre outros). Por outro lado, alguns
autores advogam o uso de uma matriz de distncias entre pontos obtidos a partir dos
dados amostrais, excluindo a necessidade de uma medida de posio. Essa matriz de
distncias pode ser obtida diretamente dos dados originais, sem a necessidade de clculo
de uma medida de posio e dessa forma, alguns tipos de medidas e de distncias podem
ser incorporadas (Anderson, 2001).
Nessa reviso bibliogrfica sero apresentadas algumas das tcnicas
apresentadas na literatura especializada. Obviamente, tal discusso no exaustiva,
abrangendo parte dos mtodos surgidos, especialmente nos ltimos cinco anos, mesmo
10

levando-se em conta que os primeiros trabalhos nesta rea datam da dcada de 70


(Tamura, 1966; Sen, 1967; Sen, 1969). A abordagem da anlise multivariada no-
paramtrica na literatura bastante restrita, sendo encontrada em Puri & Sen (1971) e
Negrillo (1988). Algumas discusses relativas permutao de dados multivariados
podem ser encontradas em Edgington (1995), Good (1999) e Pesarin (2003).
A utilizao de mtodos no-paramtricos em anlise de varincia
multivariada resultante do fato que as pressuposies necessrias para a utilizao dos
mtodos paramtricos tradicionais no so satisfeitas. As condies para a realizao do
teste multivariado podem no ser atendidas devido, dentre outros motivos, natureza
das variveis. comum, em estudos ecolgicos e nas cincias sociais, por exemplo,
variveis oriundas de contagens, propores, ndices ou ainda algumas resultantes de
ordenaes dos dados, no passveis de serem utilizados por uma escala de razo ou
escala proporcional. Define-se escala proporcional ou escala de razo como sendo
aquela em que os atributos so medidos de forma que os acrscimos em atributos so
representados por acrscimos proporcionais em valores da escala. Pereira (1999) indica
quatro tipos de escalas utilizadas na codificao de dados:
a) escala nominal, em que os atributos medidos s conhecem relaes de
igualdade ou desigualdade (relaes de equivalncia);
b) escala ordinal, que mede atributos que diferem em grau ou
intensidade, na qual, alm das relaes de equivalncia, possvel
estabelecer relaes de ordem (menor ou maior); apesar de ter sentido
de direo definido, as unidades de mensurao so desconsideradas e
no tem um valor nulo definido;
c) escala intervalar, que mede atributos de tal forma que, alm da
relao biunvoca entre atributos e cdigo numricos da escala e do
sentido de orientao da medida, tem-se a definio de unidade de
mesurao; o zero da escala um valor arbitrrio e assim, pode-se
estabelecer relaes numricas entre intervalos de valores mas no
entre os valores propriamente ditos;
11

d) escala proporcional ou escala de razo, que engloba todas as


propriedades das escalas anteriores e mais a existncia de um zero
real, que permite que a razo entre atributos e valores da escala bem
como a razo entre intervalos de atributos e intervalos da escala sejam
regulares.
Torabi & Ding (1998) sugerem que a escolha entre as tcnicas
paramtrica e no-paramtrica pode ser feita pensando em trs aspectos. No caso da
hiptese poder ser testada por qualquer uma delas, o mtodo a ser utilizado aquele que
estatisticamente mais poderoso. Por outro lado, quando as amostras so pequenas, o
teste no-paramtrico deve ser preferido, a no ser que a condio relativa normalidade
seja verificada. Nesse caso, o mtodo paramtrico pode ser utilizado. Mundry & Fischer
(1998) apresentam alguns exemplos de utilizao de testes no-paramtricos no
peridico Animal Behaviour, enfatizando que o uso da distribuio assinttica na
obteno dos valores-p para pequenas amostras pode levar a valores incorretos e,
conseqentemente, concluses errneas a respeito da significncia ou no de
diferenas entre tratamentos. Os autores argumentam ainda que a escolha do mtodo
depende ainda da natureza dos dados.
Outra condio para a validade dos testes paramtricos multivariados a
igualdade, no sentido estatstico, das matrizes de varincias e covarincias dos grupos
que esto sendo testados (tratamentos). Esta condio pressupe, no s a igualdade das
varincias dos grupos, mas tambm uma estrutura de covarincia semelhante entre os
grupos. Obviamente, a dificuldade em satisfazer tais condies bem superior ao caso
univariado e, apesar do relaxamento de algumas condies, em especial da falta de
multinormalidade ser bem tolerada, a necessidade dos mtodos no-paramtricos na
anlise de dados multivariados evidente. Em funo disso, os pesquisadores vm
buscando alternativas aos tradicionais mtodos paramtricos para as diversas tcnicas
multivariadas.
Os mtodos multivariados da anlise de varincia, denominados na
literatura MANOVA (Multivariate ANalysis Of VAriance) so aqueles em que, dados c
grupos ou tratamentos, procura-se verificar se existem diferenas entre esses grupos. No
12

caso de delineamentos inteiramente casualizados, tomam-se por base amostras de


tamanho ni (i=1,...,c) de cada grupo, totalizando N ( N = ic=1 ni ) elementos, sendo

medidas p variveis. Restries aleatorizao podem ocorrer, gerando assim outros


delineamentos, como o aleatorizado em blocos e em quadrado latino, dentre outros.
A metodologia utilizada para verificar as diferenas entre tratamentos na
anlise multivariada considerando um delineamento inteiramente casualizado (one-way)
pode ser a mesma dos mtodos univariados, ou seja, a variabilidade total dos dados
subdividida, de tal forma que se obtm uma parte referente variao devida s
diferenas existentes entre tratamentos e outra referente variao dentro dos
tratamentos. No caso univariado, esta variabilidade expressa pelas somas de quadrados
enquanto que no caso multivariado tem-se uma matriz de somas de quadrados na
diagonal principal e de somas de produtos fora dela. Outros delineamentos seguem a
mesma metodologia, com a incluso de novos fatores cujas somas de quadrados e de
produtos sero expressas separadamente e retiradas da variabilidade total para a
formao da matriz de varincias e covarincias residual.
No caso no-paramtrico, essa metodologia esbarra em obstculos,
alguns dos quais vm sendo tratados na literatura. O primeiro deles refere-se ao tipo de
medida central multivariada a ser utilizada. No caso paramtrico, o vetor de mdias
individuais das variveis envolvidas consistente, pois, obtm-se assim um ponto,
denominado centride, com as propriedades necessrias para sua aplicao. Entretanto,
no caso no-paramtrico, a obteno de uma mediana multivariada no to simples, j
que existem diferentes definies do ponto mediano multivariado. Esse aspecto ser
abordado nas Sees 2.3 e 2.4, mas pode-se adiantar que o vetor das medianas
individuais pode no ser equivalente ao ponto mediano multivariado. Assim, algumas
formas para a mediana multivariada, como, por exemplo, o centro-mediano ou
mediancenter (Gower, 1974) e a mediana de Oja (Oja, 1985) foram apresentadas.
Outro ponto a ser levantado relativo atribuio de postos no caso
multivariado que depende da forma de mediana a ser considerada. Dentre as
metodologias utilizadas para resolver esse problema tem-se a atribuio de postos s
variveis individualmente e a atribuio de postos centrados. Sero apresentadas nesta
13

reviso de literatura algumas discusses a respeito da forma de tratamento utilizada na


anlise no-paramtrica de dados multivariados em diversos trabalhos publicados.
Diversos trabalhos apresentam mtodos no-paramtricos e testes de
permutaes aleatrias na anlise de dados multivariados, mas que no esto
relacionados diretamente anlise de varincia multivariada. Dentre eles, pode ser
citado o trabalho de Huh & Jhun (2001), em que os autores desenvolvem um mtodo
alternativo de permutao aleatria em regresso linear mltipla, e o de Thompson
(1992), no qual apresentada uma forma, uma forma alternativa de atribuio de postos,
para a anlise de dados em medidas repetidas. Denominando a atribuio de postos s
variveis individualmente como sendo intra-componentes, este ltimo autor desenvolve
um teste em que a atribuio feita na forma inter-componentes. Nesse tipo de
transformao, para a atribuio dos postos so combinadas as amostras e as variveis,
ou seja, no caso discutido pelo autor, em que se tem um teste bivariado com duas
amostras, cada uma delas com n dados, os postos variam de 1 a 4n. A partir dessa
atribuio de postos, obtm-se a matriz de varincias e covarincias dos postos e um
teste, semelhante ao T2 de Hotteling desenvolvido por Thompson (1992).
A presente reviso tem como intuito fazer um levantamento dos trabalhos
que tm sido relevantes na discusso dos mtodos no-paramtricos multivariadados,
com nfase na Anlise de Varincia Multivariada, discutindo os aspectos tericos e
prticos das metodologias propostas.
Com o intuito de melhor sistematizar e organizar a discusso dessas
metodologias, o presente captulo est subdividido em sees, referentes s tcnicas
multivariadas no-paramtricas presentes na literatura e a outros mtodos, no
diretamente ligados quelas tcnicas, mas que so importantes no desenvolvimento de
metodologias alternativas.
Essas novas metodologias, propostas no presente trabalho, se baseiam,
pois, na combinao de mtodos j conhecidos, buscando solues alternativas para a
resoluo de problemas na Anlise de Varincia Multivariada e proporcionar a utilizao
dessas tcnicas por um nmero maior de pesquisadores.
14

2.1 Testes de normalidade multivariada

Uma das fases mais delicadas no planejamento de experimentos a fase


inicial, quando so feitas as suposies a serem vlidas para a anlise dos dados, ou seja,
determina-se um modelo ao qual supe-se que se ajustem aos dados. Os mtodos usuais
nesta fase so os grficos box-plot, esquemas de ramos e folhas e testes para detectar a
possvel distribuio dos dados, ou seja, a adequao, ou no, dos dados uma
determinada distribuio terica. Na maior parte da metodologia utilizada nos trabalhos
estatsticos, essa pressuposio refere-se normalidade dos dados, homogeneidade de
varincias e no existncia de dados discrepantes. A validade dos procedimentos a serem
utilizados, em geral est associada possibilidade de assumir uma determinada
distribuio terica, geralmente a distribuio normal. Quando isso no ocorre,
transformaes de dados podem ser utilizadas em alguns casos particulares. Andrews et
al. (1971) apresentam uma extenso do mtodo de Box e Cox para a obteno de
transformaes de dados multivariados, mas tais transformaes podem no ser
adequadas devido impossibilidade de se obterem concluses confiveis quando se
realiza a transformao inversa. Os mtodos apresentados pelos autores buscam no
apenas a normalidade, mas tambm a aditividade e a homocedasticidade.
De acordo com Mardia (1970), os testes relacionados anlise de
varincia multivariada so, em geral, robustos mesmo quando a normalidade no ocorre,
o mesmo no acontecendo com os testes de igualdade das matrizes de covarincia. A
rejeio do ajuste de um modelo terico aos dados pode ainda levar ao uso de
procedimentos que no so baseados em qualquer modelo especfico, ou seja, aos
mtodos no-paramtricos (ou de distribuio livre), em que no se assume uma forma
especfica de distribuio dos dados e sim formas gerais para tal distribuio, como a
simetria, por exemplo.
Vrios mtodos podem ser utilizados para verificar o ajuste de uma
determinada distribuio (normal, Poisson, binomial, gama, dentre outras) a um
conjunto de dados. Como grande parte dos mtodos de inferncia so baseados na
suposio de normalidade dos dados, torna-se desejvel ento testar a hiptese de que
15

uma amostra seja proveniente de uma populao cujos membros podem ser estudados
atravs de uma distribuio normal. De acordo com Johnson & Wichern (1999), em
Anlise Multivariada, muitas das tcnicas assumem que o vetor de observaes Xj tem
uma distribuio normal multivariada. Por outro lado, em situaes em que o tamanho
da amostra grande e as tcnicas dependem somente da natureza do vetor de mdias X
ou distncias que envolvem esse vetor, a suposio de normalidade dos dados no to
importante. Entretanto, a qualidade das inferncias feitas por esses mtodos depende de
quo prximos da multinormalidade esto os dados sobre os quais sero feitas
inferncias.
Alguns mtodos para deteco de multinormalidade foram discutidos na
literatura. Dentre eles podem ser citados mtodos grficos tais como a representao
atravs de stalactite plot (Atkinson & Mulira, 1992) ou ainda generalizaes dos
mtodos univariados (medidas generalizadas de simetria e curtose, por exemplo).
Para Johnson & Wichern (1999), as pesquisas referentes normalidade
podem se concentrar apenas em variveis isoladas ou grupos bivariados (distribuies
marginais e scatterplots), pois difcil construir um bom teste para normalidade
conjunta em mais do que duas dimenses. No caso multivariado, os testes de
normalidade univariada tm como principal objetivo verificar a normalidade de
distribuies marginais. Dentre eles, tem-se o exame do histograma e das caudas da
distribuio e a verificao de normalidade atravs de grficos, como, por exemplo, o Q-
Q Plot (quantile vs quantile plot). Entretanto, as verificaes grficas tm utilidade
apenas nos casos em que o ajuste de uma determinada distribuio terica a um conjunto
de dados graficamente bvio, ou ainda quando existem dados muito discrepantes em
relao distribuio proposta. Nos casos em que h dvidas a respeito do ajuste, a
subjetividade do mtodo pode levar a concluses diferentes, dependendo do
pesquisador. Assim, torna-se importante que o mtodo grfico seja complementado por
testes objetivos. Um teste bastante citado na literatura o de Shapiro & Wilk (1965),
baseado na regresso das observaes ordenadas contra os valores das estatsticas de
ordem da distribuio padronizada assumida. Comparaes entre os diversos testes para
normalidade so feitas em Shapiro et al. (1968). Outros testes so o teste de qualidade de
16

ajuste utilizando o Qui-quadrado e o teste de distncias de Kolmogorov-Smirnov


(Campos, 1983).
De acordo com Johnson & Wichern (1999), a preocupao relacionada
normalidade multivariada deve ser concentrada na verificao da normalidade uni e bi-
variada, tendo em vista que nestes casos possvel fazer verificaes grficas
acompanhadas de testes especficos. A verificao da normalidade bivariada pode ser
feita atravs de uma tcnica simples: se observaes so geradas de uma distribuio
normal multivariada, cada distribuio bivariada deve ser normal e os contornos da
densidade constante devem ser elipses e, portanto, o grfico de pontos deve estar de
conformidade com esta estrutura. Assim, para os casos com p variveis, o nmero de
verificaes a serem realizadas p(p-1)/2 + p = p(p+1)/2.
Observa-se que as marginais da distribuio normal multivariada resultam
em distribuies normais univariadas. O oposto no ocorre, ou seja, a normalidade
univariada e a bivariada das distribuies marginais no garante a normalidade
multivariada. Portanto, os testes de normalidade univariados e bivariados servem para
refutar a hiptese de multinormalidade, mas no podem ser considerados vlidos para a
no rejeio da hiptese.
Testes para normalidade multivariada, baseados na generalizao dos
testes univariados, ou seja, os testes da curtose multivariada, o de simetria, o teste de
Shapiro & Wilk multivariado, alm das extenses dos testes de Kolmogorov-Smirnov e
Cramer-von-Mises, so apresentados por Malkovich & Afifi (1973). Nenhum dos testes
apresentados tem distribuio nula exata conhecida e, portanto, os valores crticos so
obtidos atravs de simulaes.
Os testes de Kolmogorov-Smirnov e de Cramer-von-Mises utilizam o
fato de que, se o vetor Y com p elementos segue uma distribuio normal multivariada,
ou seja, pY1 ~ N p ( o , 0 ) ento

V = ( Y 0 )' 1 ( Y 0 ) ~ 2p (1)

Assim, utilizando as variveis amostrais transformadas


V j = ( Y j Y )' S 1 ( Y j Y ) , j=1,...,n, (2)
17

em que Y e S so, respectivamente, o vetor de mdias e a matriz de varincias


amostrais, os testes de Cramer-von-Mises e de Kolmogorov-Smirnov podem ser
utilizados para verificar se os vetores Vj's tm uma distribuio de Qui-quadrado com p
graus de liberdade.
Assim, a estatstica de teste de Crmer-von-Mises (CM) dada por
CM = [S ( V ) F ] 2
p ( V ) dF p ( V ) (3)

em que S(V) a funo de distribuio acumulada amostral baseada em V1, V2, ..., Vn e
Fp(V) a funo distribuio acumulada da distribuio de Qui-quadrado com p graus de
liberdade (p2).
A estatstica de Kolmogorov-Smirnov (KS) calculada obtendo-se o
mximo das diferenas entre a funo distribuio acumulada observada e a funo
distribuio acumulada emprica, ou seja,
KS = max S ( V ) F p ( V ) . (4)
V

O procedimento para a realizao do teste generalizado de Shapiro-Wilk


segue os seguintes passos:
a) Considera-se inicialmente o vetor de observaes Ym tal que
( Ym Y )' A 1 ( Ym Y ) = max( Y j Y )' A 1 ( Y j Y ) (5)
1 j n

em que A = j =1 ( Y j Y )( Y j Y )' ;
n

b) Obtm-se as estatsticas U j = ( Ym Y )' A 1 ( Y j Y ) , j=1,2,...,n ;

c) Ordenam-se as estatsticas Uj, denotando-as por U(1), U(2),...,U(n);


d) A estatstica de teste dada por

W =*
[ a U ]
j ( j)
2

(6)
(Y m Y )' A 1 ( Ym Y )
em que aj so os valores tabelados por Shapiro-Wilks.
Valores pequenos de W* indicam no normalidade multivariada.Valores
crticos para o teste foram obtidos por simulao.
18

Assim como no caso das medidas de assimetria e curtose univariadas, as


medidas Generalizadas de Assimetria e Curtose (Kattree & Naik, 2000) podem ser
utilizadas para se determinar a normalidade multivariada.
A assimetria multivariada (1,p), que obtida a partir da generalizao da
definio da assimetria univariada, dada por

1, p = E{( y )' 1 ( y )} .
3
(7)

O mesmo ocorre para a Curtose multivariada (2,p), cuja frmula dada


por

2 , p = E{( y )' 1 ( y )} .
2
(8)

Sabe-se que, para a distribuio normal multivariada, a assimetria nula,


ou seja, 1, p = 0 e a curtose dada por 2, p = p( p + 2) . Assim, o procedimento para se

estimar a assimetria e a curtose generalizada de um conjunto de dados multivariados as


seguintes frmulas so utilizadas:
n n
1
1, p =
n2
g
i = 1 j =1
3
ij em que gij = ( yi y ) ' S n1 ( y j y ) (9)

1 n 2 1 n 4
2 , p = g ii = n
n i =1 i =1
d i em que d i = g ii (10)

Observa-se na frmula (10) que di a distncia quadrada amostral de


Mahalanobis entre yi e y .
Estas medidas so no-negativas e espera-se que, para uma distribuio
normal multivariada, 1, p seja prximo de zero. Se h um afastamento da simetria

esfrica (correlao nula e varincias iguais), ento 1, p ser grande.

Alm disso, para grandes amostras tem-se que


n 1, p
1 = ~ [2 p( p +1 )( p + 2 ) / 6 ] (11)
6

2 , p p( p + 2 )
2 = ~ N ( 0 ,1 ) (12)
8 p( p + 2 ) / n
19

Assim, para testar a assimetria e a curtose multivariadas de um conjunto


de dados, as estatsticas 1 e 2 so utilizadas. Se ambas as hipteses no forem
rejeitadas, a teoria normal para vrios testes sobre vetor de mdias ou matriz de
covarincias pode ser usada. Porm, verifica-se que testes sobre mdias so sensveis
falta de simetria ( 1, p ) enquanto que testes sobre a matriz de covarincias so

influenciados pela curtose ( 2 , p ). Programas para a obteno da curtose e assimetria

multivariada e os testes referentes aos valores obtidos so apresentados em Khattree &


Naik (1996).
Kankainen el al. (2003) verificam a possibilidade de substituir o vetor de
mdias e a matriz de disperso usual (matriz de varincias e covarincias),
respectivamente, pela mediana de Oja (Oja, 1983) e a matriz de disperso estimada
baseada nessa mediana (Visuri et al., 2000; Ollila et al., 2003) na discusso da
multinormalidade atravs dos testes de simetria e curtose (Mardia, 1970). O argumento
dos autores que, para a realizao do teste, torna-se necessria uma transformao
inicial dos dados utilizando o vetor de mdias e a matriz de covarincias amostrais
estimados pelos dados. As estatsticas utilizadas para testar a simetria e a curtose
multivariadas comparam a variao medida pelo terceiro e quarto momentos em relao
ao segundo momento, gerando assim a necessidade de uma medida mais robusta para o
vetor de mdias e para a matriz de covarincias. Os autores mostram que a utilizao
desse tipo de matriz proporciona melhores resultados do que aqueles obtidos com a
matriz de varincias e covarincias usual.
Muitos outros testes tm sido discutidos com o intuito de se verificar a
normalidade multivariada. Dentre eles, destaca-se o proposto por Szkely & Rizzo
(2005), que baseado nas distncias euclidianas entre os elementos amostrais. De
acordo com os autores, o teste apresentado invariante sob rotao e de simples
utilizao, sendo to poderoso quanto o teste da simetria e curtose generalizada
apresentado por Mardia (1970).
Observa-se, entretanto, que em alguns conjuntos de dados, as
pressuposies so claramente violadas, como, por exemplo, quando uma ou mais
20

variveis so medidas obtidas de contagens ou ainda quando se utilizam escalas ordinais.


Nesses casos, basta verificar se as variveis com essas caractersticas atendem s
pressuposies da normalidade univariada. Caso isso no ocorra para alguma dessas
variveis, a anlise multivariada desses dados deve ser realizada utilizando tcnicas
alternativas.

2.2 Testes de aleatorizao uni e multivariados

O desenvolvimento de testes de permutao ocorreu na dcada de 30 para


problemas de duas amostras, regresso linear simples e delineamentos em blocos, em
que necessrio apenas assumir a intercambialidade dos erros dentro de certos
subconjuntos (Welch, 1990). Os testes de aleatorizao podem ser considerados como
casos especiais dos testes de permutao, para populaes finitas, e a utilizao desses
testes na anlise de varincia tem sido aceita com resultados consistentes. Welch (1990)
descreve cinco passos para a construo de testes de permutao, ou seja, construo do
modelo, descrio da hiptese nula, invarincia, suficincia e o teste de permutao,
aplicando-o para delineamentos em blocos aleatorizados completos e experimentos
fatoriais.
Considerando que um dos problemas da inferncia estatstica delinear
testes de significncia exatos quando a forma da distribuio de probabilidade
desconhecida, Wald & Wolfowitz (1944) obtm um teorema geral para a distribuio
limite de formas lineares no universo das permutaes das observaes, aplicando-o
numa srie de estatsticas, dentre elas o coeficiente de correlao de Spearman, o teste
para dependncia entre duas variveis de Pittman, a anlise de varincia em blocos
aleatrios e o T2 de Hotteling. Sabe-se que, considerando um conjunto de permutaes
das observaes, com cada uma delas sendo igualmente provvel sob a hiptese a ser
testada, um teste exato no nvel de significncia pode ser obtido, escolhendo-se uma
21

proporo das permutaes como regio crtica e que para alguns testes, esse pode ser a
nica maneira de obter testes exatos de significncia.
Uma generalizao para o teste t aplicada a dados multivariados
apresentada por Arnold (1964), para dados com distribuies normais bivariadas,
retangular e dupla exponencial. O autor verifica haver pouca discrepncia entre o nvel
de significncia do teste quando se considera que a suposio de normalidade vlida
para o conjunto de dados e o valor de significncia obtido considerando todas as
permutaes de cada amostra igualmente provveis, para as amostras provenientes de
populaes com distribuio retangular e dupla exponencial.
Bell & Sen (1984) discutem testes de aleatorizao, sua estrutura, e, mais
detalhadamente, testes para hipteses de invarincia, incluindo testes de independncia
multivariada, e testes envolvendo postos.
Em Mielke et al. (1981), os autores apresentam um teste no-paramtrico
de postos univariado baseado em procedimentos de permutao, com dados
multivariados, em que a transformao dos dados multivariados em univariados feita
atravs do clculo das distncias entre pontos. O teste apresentado pelos autores
relacionado ao teste de Wilcoxon-Mann-Withney, no caso de dois grupos, e o teste de
Kruskal-Wallis, para mais de dois grupos. Mielke & Iyer (1982) desenvolvem o mtodo
para a anlise de dados multivariados num delineamento em blocos casualizados e em
Berry & Mielke (1984) apresentado um programa computacional para o clculo dos
valores-p, que denominado procedimento de permutao multi-resposta (multi-
response permutation procedure MRPP).
Vrios livros tm sido publicados recentemente discutindo e
apresentando a teoria, as utilizaes e exemplos relacionados aos testes de permutao,
podendo ser destacados os livros de Edgington (1995), Good (2000) e Pesarin (2001).
Nesse ltimo, um mtodo de combinao de testes no-paramtricos apresentado, que
depende, naturalmente, das hipteses que esto verificadas, em que as combinaes dos
valores-p individuais, referentes a cada uma das hipteses independentes, so feitas
pelos mtodos considerados em Hedges & Olkin (1985).
22

2.3 Testes no-paramtricos multivariados utilizando transformaes de dados


separadamente, para cada uma das variveis

A mediana multivariada, tambm denominada mediana componentwise,


formada pelo vetor das medianas das variveis individuais, foi tomada como base nos
trabalhos em que foram utilizados testes no-paramtricos multivariados at meados da
dcada de 80. No foram encontradas, at essa poca, discusses relativas utilizao de
outros tipos de mediana para dados com vrias variveis. Testes no-paramtricos
bivariados e multivariados foram discutidos por vrios autores, especialmente na dcada
de 70 e meados da dcada de 80, alguns deles baseados na teoria apresentada por Puri &
Sen (1971). Alguns trabalhos esparsos foram encontrados antes dessa poca. Um dos
primeiros trabalhos nessa rea o de Wald & Wolfowitz (1944), que apresentaram uma
modificao ao teste T2 de Hotelling, baseada em permutaes dos dados originais.
Chung & Fraser (1958) apresentam um teste de aleatorizao para anlise de dados
multivariados com duas amostras, no qual a escolha das estatsticas foi feita
intuitivamente, com inteno de obter valores simples de serem manipulados e sensveis
em relao aos tipos de resultados a serem esperados sob a hiptese alternativa. Sejam p
variveis medidas em m observaes (x1j, ..., xpj), j = 1,2,...,m da primeira amostra e n
observaes (y1k, ..., ypk), k = 1,...,n, da segunda amostra e N = n + m. Considera-se, sob
a hiptese nula, que as amostras so provenientes de uma mesma populao e, assim, os
postos so atribudos aos elementos amostrais de forma conjunta. Se rij so os postos
atribudos aos elementos da primeira amostra e sij, aos elementos amostrais da segunda
amostra, consideram-se os valores rij = rij (N + 1)/2 e sij = sij (N + 1)/2, Chung &

Fraser (1958) propuseram as estatsticas T1 = i = 1 j =1 rij ' e T2 = i =1


p m p
( m
r'
j = 1 ij
) para
2

testar as diferenas entre os dois grupos. Para facilitar a obteno dos valores crticos do
teste, pode-se tomar m = min(m,n) e, ainda, se p = 1, os testes baseados nas estatsticas
T1 e T2 equivalem ao teste de Wilcoxon-Mann-Whitney. O teste proposto simples de
ser implementado, mesmo para grandes amostras, utilizando um conjunto restrito de
permutaes dos dados nos dois grupos, mas pode no ser adequado nos casos em que
23

existem correlaes significativas entre as variveis. Uma extenso ao teste de


Wilcoxon, que utiliza em sua construo as correlaes entre as variveis, apresentada
por Bradley et al. (1971), que consideram no apenas um teste de aleatorizao baseado
nos valores originais como tambm estatsticas obtidas a partir de transformaes dos
dados atravs dos postos, como no teste de Wilcoxon, e nos escores normais. Seja
( )
x k = x k( 1 ) ,..., x k( p ) o vetor p dimensional de mdias referente ao grupo ou tratamento k
(k = 1, 2), S a matriz quadrada de dimenso p de varincias e covarincias amostrais e T2
a estatstica de Hotteling (Johnson & Wichern, 1998), a estatstica de teste, quando se
utilizam os dados originais, dada por

B2 = (
nm ( 1 )
) ( )
x x ( 2 ) ' S 1 x ( 1 ) x ( 2 ) =
(N 1)T 2 (13)
N N 2+T 2
No caso em que os dados originais so substitudos por seus postos,
atribudos de forma individual para cada varivel, a estatstica B2 pode ser escrita como
12 n( N + 1 ) 1 n( N + 1 )
B r2 = P1 1 ' R P1 1 (14)
( N + 1 )nm 2 2
em que o elemento i (i=1,...,p) do vetor P1 so obtidos pela soma dos postos do grupo 1
para a varivel i e R a matriz de correlao de postos. Quando se tomam os escores
normais no lugar dos dados originais, outras simplificaes ocorrem.
Discusses tericas a respeito de testes multivariados para uma, duas e
trs ou mais amostras, incluindo distribuio assinttica das permutaes, eficincia
assinttica dos testes e regies de confiana, so apresentadas em Tamura (1966), Sen
(1967), Sen & Puri (1967), Puri & Sen (1967), Puri & Sen (1968), Sen (1969), dentre
outros. Essa teoria apresentada de forma mais completa e detalhada em Puri & Sen
(1971).
Testes no-paramtricos para dados bivariados, focalizados no problema
de locao para duas amostras so apresentados por Fryer (1970). Considerando a
hiptese nula de igualdades das funes de distribuies bivariadas para as variveis X e
Y quando se consideram duas amostras, ou seja, F1(x,y) = F2(x,y), trs estatsticas so
apresentadas, uma para cada hiptese alternativa (diferenas irrestritas, diferenas em
uma nica direo para ambas as variveis e diferena em direes opostas para as
24

variveis consideradas). Feita a transformao dos dados originais em seus postos,


considerando cada varivel separadamente e os grupos conjuntamente, seja rs a
correlao de postos amostral (correlao de Spearman), Si = si + n (N + 1)/2 (i = 1, 2)
e, ainda, s1 a soma dos postos para a varivel X e s2 a soma dos postos para a varivel Y.
Assim, considerando a hiptese nula H0: F1(x,y) = F2(x,y), que equivale hiptese dada
por H0: (,) = (0,0) e a hiptese alternativa geral Ha: F2(x,y)=F1(x-, y-), as
estatsticas de teste so dadas por

t1 =
( )
1 rs2 nm( N + 1 )
1

[S 2
]
+ S 22 2 rs S 1 S 2 ( e irrestritos)
1 (15)
12

nm( N + 1 )(1 + rs )
1 / 2

t2 = [S 1 + S 2 ] (,>0 ou ,<0) (16)


6

nm( N + 1 )(1 rs )
1 / 2

t3 = [S 1 S 2 ] (>0 e >0) ou (<0 e >0) (17)


6
Os autores discutem a distribuio assinttica de t1, t2 e t3, mostrando
ainda que existe uma relao entre as estatsticas (t1 = t22 + t32), o que indica maior
poder das estatsticas t2 e t3 em relao t1 em suas hipteses alternativas especficas.
Generalizaes para mais do que duas amostras so observadas em Puri & Sen (1971).
Boyett & Shuster (1977) discutem um mtodo no-paramtrico bivariado
com hiptese alternativa unilateral na anlise de dados multivariados dando nfase a
aplicaes na rea da sade, que pode ser utilizado, por exemplo, nas comparaes de
drogas com placebos. Para a efetivao do mtodo proposto calculam-se os valores da
estatstica t usual de diferena entre mdias para cada uma das variveis envolvidas e o
seu valor mximo (tmax). Em seguida, considerando que o grupo com a nova droga
contm n elementos, de um total de N, so obtidas todas as amostras possveis de
n
tamanho n, calculando-se para cada uma delas o t maxi , i = 1,..., C N . Considerando

# (t max i t max ) como o nmero de valores t maxi maiores do que tmax, o valor-p ser

n
dado pela proporo # (t maxi t max ) / C N para o caso em que a hiptese alternativa

seja a de que o tratamento melhor do que o placebo para ao menos uma das variveis.
25

Para a hiptese de que o tratamento melhor do que o placebo para todas as variveis, o
n
valor-p ser dado por # (t maxi t max ) / C N . Caso o nmero de combinaes seja

proibitivo, pode-se utilizar uma amostra aleatria das combinaes possveis. possvel
perceber que o procedimento no leva em conta a interdependncia dos componentes
(variveis) de forma explcita e tem sua base nos testes de comparaes mltiplas.
Uma outra alternativa proposta por Dietz & Killeen (1981), que definem
um teste no-paramtrico multivariado para tendncia monotnica, apresentando
aplicaes a testes de drogas farmacuticas. Os autores estendem o teste univariado de
Mann (1945) para o caso multivariado. Considerando a matriz de dados X em que cada
coluna contm uma das p variveis e cada linha representa os dados observados nos
tempos 1, 2, ..., n, os postos so atribudos aos dados de forma independente para cada
varivel, (coluna), obtendo-se a matriz P. A estatstica de teste multivariado proposta
obtida atravs da combinao das p estatsticas univariadas de Mann Ki (i = 1,...,p)
calculadas independentemente, dada pela forma quadrtica ' S 1 sendo K =
(K1,...,Kp) e S-1 a inversa da matriz de varincias e covarincias amostral obtida a partir
dos dados originais. Entretanto, devido ao uso da matriz de varincias e covarincias
amostrais relativa aos dados originais, pode fazer com que o teste fique muito sensvel a
dados discrepantes, podendo tornar o teste falho em algumas situaes. Os autores
mostram que tal estatstica tem distribuio assinttica 2p. Dietz (1982) discute um teste
semelhante na forma, que generaliza o teste dos sinais e o teste de Wilcoxon,
originariamente desenvolvido para uma amostra e uma varivel, para duas ou mais
variveis. Como no trabalho anterior (Dietz & Killeen, 1981), vetores das estatsticas
obtidas para cada uma das variveis separadamente so combinados com a matriz de
varincias e covarincias dessas mesmas variveis.
Katz & McSweeney (1980) apresentam uma extenso multivariada do
teste de Kruskal-Wallis, derivando a distribuio de referncia para grandes amostras da
estatstica de teste, alm de fornecer frmulas simples para a obteno da estatstica de
teste. Procedimentos para a realizao de testes de comparaes mltiplas so
apresentados e comparados. A tcnica apresentada pelos autores para a obteno da
26

estatstica de teste da anlise de varincia multivariada (MANOVA) no-paramtrica


uma dada em Puri & Sen (1971). Os autores apresentam a tcnica sob a forma mais
clara, com a explicitao de frmulas e testes de maneira simples e objetiva. A
estatstica de teste HM, proposta por Katz & McSweeney (1980), comparada com o
valor de Qui-quadrado com p(c-1) graus de liberdade. Os autores apresentam tambm
testes de comparaes mltiplas multivariadas, baseados em contrastes, generalizando o
teste univariado de Scheff.
Ampliando o conceito de testes multivariados para mais do que dois
grupos, Zwick (1985) apresenta um procedimento no-paramtrico multivariado em que
os dados so transformados em postos, de forma independente para cada uma das
variveis, e calcula-se uma estatstica baseada no trao de Pillai. Assim, considerando p
variveis, c grupos ou tratamentos, ni (i=1,...,c) amostras em cada grupo, com
N = ic=1 ni e a matriz de dados transformados R, com N linhas e p colunas, obtm-se a

matriz de varincias e covarincias amostrais total SR = {sij}, i,j = 1,...,p. Essa matriz
pode ser subdividida na matriz de hipteses (HR) e na de erros residuais (ER), de tal
forma que SR = HR + ER e o trao de Pillai V dado por V = trao(HRSR-1). A estatstica
de teste, dada por (N 1)V comparada com o valor de Qui-quadrado com p(c-1) graus
de liberdade. Para efetuar os testes de comparaes mltiplas utilizou-se a tcnica
proposta por Katz & McSweeney (1980). Zwick (1985) mostra ainda a relao desse
teste com o trao de Pillai para a anlise multivariada de um delineamento inteiramente
casualizado (one-way) e que, para p = 1, o teste equivale ao de Kruskal-Wallis e para p
= 1 e c = 2, tem-se a aproximao normal do teste de Wilcoxon-Mann-Withney. Da
forma explicitada no referido artigo, apenas possvel obter os valores-p aproximados
atravs do Qui-quadrado e no h nenhuma meno maneira como tratar casos em que
se tm poucas amostras e variveis. Nessas situaes, considerando o caso univariado,
Pontes (2000) indica que a aproximao no adequada. Essa mesma constatao feita
por Schwertman (1982), considerando o caso multivariado.
Outra formulao para esse teste dada em Schwertman (1984), em que
so apresentados dois testes, denominados teste multivariado da mediana para vrias
amostras (MMMT multivariate multisample median test) e teste multivariado da soma
27

de postos (MMRST multivariate multisample rank sum test), sendo o ltimo


equivalente ao teste discutido em Katz & McSweeney (1980) e Zwick (1985), todas elas
sendo verses no-paramtricas baseadas no trao de Pillai. As formas apresentadas por
Schwetman (1984) e Zwick (1985) so mais simples de serem manipuladas devido ao
fato das matrizes serem de dimenses menores. Porm, para a realizao de testes de
comparaes mltiplas, a verso apresentada por Katz & McSweeney (1980) mais
adequada. No caso do teste multivariado da mediana, utiliza-se a mesma formulao que
utilizada para a estatstica do teste multivariado da soma de postos, ou seja, o autor

prope uma nica estatstica L N = i =1 n i (Ti T )' V 1 (Ti T ) para ambos os testes. O
c

que modifica entre um teste e outro a definio dos vetores T, e, conseqentemente, do


seu vetor de mdias, e a matriz de varincias e covarincias V, que so adaptadas ao
teste da mediana.
Comparaes entre mtodos paramtricos e no-paramtricos so feitas
por Ittenbach et all (1993), que apresentam um exemplo utilizando quatro tcnicas para a
anlise de dados multivariados com quatro variveis e trs grupos ou tratamentos, cada
um deles com 35 elementos amostrais. As anlises efetuadas foram: anlise de varincia
multivariada paramtrica, anlise de varincia no-paramtrica multivariada, anlise de
varincia no-paramtrica para as variveis separadamente e regresso logstica
multinomial. As anlises multivariadas, paramtrica e no-paramtrica, apresentaram
resultados semelhantes. O procedimento no-paramtrico utilizado pelos autores baseou-
se em Zwick (1985).
Bhapkar (1984) discute os mtodos utilizados para a realizao de testes
no-paramtricos de escala e locao univariados e multivariados, quando se consideram
vrios grupos ou tratamentos, resumindo e apresentando algumas discusses a respeito
desses mtodos. Outras verses para os testes multivariados para uma, duas ou mais
amostras podem ser encontradas nos trabalhos de Spurrier (1988), Randles & Peters
(1990), Peters & Randles (1990), Peters & Randles (1991), Um & Handles (1998),
Munzel & Brunner (2000), dentre outros.
28

Partindo de uma premissa um pouco diferente, Park et al. (2001) propem


um teste no-paramtrico com alternativa unilateral para dados multivariados, tomando
por base as estatsticas univariadas padronizadas. Assim, considerando a hiptese nula
de igualdade dos parmetros de locao e a hiptese alternativa de que ao menos um dos
parmetros de locao estritamente maior do que 0, seja a estatstica univariada Ti (i =
1,...,p), com mdia i e desvio padro i, a estatstica proposta pelos autores considera o
mximo entre os p testes univariados baseados no valor normalizado de Ti.
Chama a ateno nos trabalhos apresentados nessa seo o fato de no
haver nenhuma meno mediana multivariada. Os autores supem que o vetor de
mdias das variveis transformadas em postos de forma individual uma medida central
adequada. Observa-se ainda que, no caso de no haver empates, o vetor de mdias das
variveis transformadas equivale ao vetor de medianas individuais das variveis
originais.

2.4 Mediana multivariada

Considerando-se a varivel aleatria X, contnua, define-se a mediana Md


como o lugar geomtrico tal que Pr(X < Md) = 0,5. No caso discreto com N valores xi
(i=1,...,N) equiprovveis, so utilizadas as estatsticas de ordem x(i). Assim, para N
mpar, a mediana bem estabelecida, sendo dada pelo valor de ordem (N+1)/2, ou seja,
x([N+1/2]). Quando o nmero de valores par, convencionou-se que a mediana o ponto
mdio entre os valores de ordem N/2 e (N+2)/2, ou seja, Md = [x(N/2) + x([N+2]/2)]/2.
Entretanto, qualquer valor entre x(N/2) e x([N+2]/2 pode ser considerado como o ponto
mediano de um conjunto com N dados (N par).
No caso multivariado, a definio de uma medida de posio multivariada
no to simples como no caso univariado. Os trabalhos iniciais focalizando a anlise
de dados multivariados atravs de mtodos no-paramtricos indicam a utilizao de
uma medida mediana equivalente, em sua forma, mdia multivariada, ou seja, um
vetor de valores constitudo pelas medianas das variveis individuais. Assim,
29

considerando p variveis com medianas individuais dadas por Mdk (k=1,...,p), o vetor de
medianas, denominado mediana componentwise ou simplesmente mediana multivariada,
dado Medc = (Md1, Md2,..., Mdp).
Essa mediana multivariada, formada pelo vetor composto das medianas
individuais, pode no ser adequada devido ao fato de no ser invariante ou afim
invariante sob rotao. Assim, considerando que o vetor de medianas das variveis
tomadas isoladamente no reflete o valor mediano para o caso multivariado, tm-se
buscado formas alternativas de definir uma mediana multivariada. Dentre elas merecem
destaque a mediancenter ou centro-mediano (Gower, 1974) e a mediana de Oja (Oja,
1983).
Dados n pontos com p coordenadas Pi(xi1, xi2, ..., xip), i=1,2,...n,
referentes aos eixos retangulares, Gower (1974) definiu o centro-mediano como sendo o
ponto M(m1, m2, ...,mp) tal que in=1 ( Pi M ) seja mnimo, sendo (Pi M) a distncia

entre Pi e M. Como se est trabalhando com distncias, o centro-mediano afetado por


mudanas de escala e recomenda-se a padronizao das variveis antes da sua utilizao.
O centro-mediano difere do centride (ponto mdio multivariado) pois este minimiza a

distncia quadrtica, ou seja, minimiza in=1 2 ( Pi M ) .

O centro-mediano nico para mais de uma dimenso e se i o ngulo

entre MPi, tem-se que in=1 cos i = 0 , ou seja, M invariante para qualquer localizao

dos pontos Pi sobre os raios MPi. Em uma dimenso tem-se que

in=1 cos i = in=1 sinal ( xi m) = 0 , ou seja, o nmero de sinais positivos igual ao

nmero de sinais negativos em relao ao ponto mediano e recai-se na mediana


tradicional em uma dimenso. Gower (1974) apresenta um algoritmo interativo para a
obteno do centro-mediano, baseado na interpretao mecnica de que M est em
equilbrio sob foras unitrias nas direes MPi tomando como estimativa inicial do
centro mediano o ponto M0 (centride).
Brown (1983) investiga as propriedades assintticas do centro-mediano,
cujas equaes de estimativas tm um aspecto angular. O autor utiliza o centro-mediano
30

no desenvolvimento de testes angulares, anlogos aos testes de sinais em uma direo,


possibilitando testar tanto a mudana de locao numa direo fixa, como globalmente
em qualquer das duas direes sendo anlogos aos testes uni e bilaterais da locao
univariada. Apresenta ainda um teste angular para k amostras.
Oja (1983) apresenta uma generalizao dos conceitos de medidas de
locao, escala, simetria e curtose para o caso multivariado baseados no volume obtido a
partir de um simplex de dimenso p. Dados x1 = (x11,...,x1p)', ..., xp+1 = (xp+1,1,...,xp+1,p)',
pontos no espao Rp que determinam um simplex p-dimensional, o volume deste
simplex dado por (x1,...,xk+1) = abs[1/k! (det A)] sendo A uma matriz cujas colunas
so formadas pelos vetores xi (i=1,..,k) com o acrscimo do primeiro elemento igual a 1.
Se k = 1 (caso univariado), (x1,x2) a distncia entre os pontos x1 e x2 em R e no caso
bivariado (k = 2) (x1,x2, x3) a rea do tringulo determinado por x1, x2 e x3 em R2. Seja
X1,...,Xk uma amostra aleatria de tamanho k da populao P e sejam as funes :

{ } { }
k, 0 < < ento E [ ( X 1 ,..., X k , ( P) ) ] = inf E [ ( X 1 ,..., X k , )] define
k

uma classe de medidas de locao, onde uma classe de distribuies de probabilidade.


As funes so medidas de locao nos modelos simtricos e se o valor (P) (>1)
existe, ele nico. Como casos especiais so consideradas uma generalizao da mdia
2(P) e uma nova generalizao da mediana 1(P). Seja x1 ,..,xn uma amostra observada
da populao P, estimativas naturais de (P) so dadas por

[ ]
= (xi1 ,...xik , ) = inf

{[( X 1 ,..., X k }
, )] 0<<, sendo a soma

sobre 1 i1 < ... < ik n. A estimativa 2 um vetor de mdias amostrais e 1 a

mediana amostral. No caso da mediana ( = 1), tem-se algumas vezes um ponto e outras
vezes um conjunto convexo no qual a mediana pode ser selecionada. Assim, a mediana
de Oja (1983), tambm denominada mediana espacial, definida como o ponto M ou os
pontos que minimizam a soma dos volumes dos simplexes formados por k pontos e o
ponto M.
31

A partir da mediana de Oja, muitos trabalhos foram publicados discutindo


testes e propriedades. Testes de sinais bivariados e testes multivariados para uma
amostra so apresentados por Oja & Nyblom (1989) e Hettmansperger et al. (1997),
respectivamente. Mtodos multivariados para os postos e sinais espaciais, para uma e
duas amostras, so discutidos por Mttnen & Oja (1995). A eficincia de testes
multivariados utilizando a mediana de Oja discutida em Mttnen et al. (1998). Testes
multivariados no-paramtricos para blocos aleatorizados completos so apresentados
em Mttnen et al. (2003). Choi & Marden (2002) discutem testes para efeitos principais
e interaes num esquema fatorial 2x2 para um delineamento em blocos casualizados.
Plachky & Rukhin (1999), Visuri et al. (2000), Nadar et al. (2003), Ollila
et al. (2003) apresentam estimativas para a matriz de covarincias baseadas em postos
ou sinais.
Com o intuito de obter valores medianos invariantes sob rotao e
transformaes afins, e ainda simples de serem obtidas computacionalmente,
Chakraborty & Chaudhuri (1996) e Chakraborty et al. (1998) discutem tcnicas de
transformao e retransformao sobre a mediana de Oja, que so aplicadas por Randles
(2000), num teste multivariado de sinais. Ainda buscando um estimador para a mediana
multivariada, Hettmansperger & Randles (2002) propem a utilizao de um caso
especial de estimador simples de ser calculado, mas que, no possui as propriedades
desejveis de existncia e unicidade, apesar de serem invariantes.

2.5 Combinao de testes independentes e testes de independncia

Considerando p variveis independentes com hipteses nulas H0i


(i=1,...,p) e ainda um nvel de significncia ui para a estatstica ti obtida dos valores
observados, vrias tcnicas so descritas por Birnbaum (1954) para a combinao desses
testes de significncia independentes. Caso as variveis no sejam independentes, os ti's
devem ser funes das variveis originais, de tal forma que essas novas variveis sejam
32

estatisticamente independentes. O autor verifica ainda que no existe um nico mtodo


timo sob todas as condies.
Vrios testes foram propostos para a combinao dos nveis de
significncia, dentre eles os mtodos baseados na distribuio uniforme, mtodo do Qui-
quadrado inverso e o mtodo da normal inversa (Hedges & Olkin, 1985).
Um dos mtodos de combinao de resultados baseado na distribuio
Uniforme foi proposto em 1931 por Tippett. Dadas as probabilidades de significncia
(valores p) u1,...,up independentes, ento cada um deles tem uma distribuio uniforme
sob a hiptese nula H0. Supondo que u(1) seja o mnimo entre todos os valores de ui, um
teste de H0 ao nvel de significncia obtido a partir da comparao entre u(1) com

1 ( 1 )1 / k , ou seja, rejeita-se H0 se u(1) < 1 ( 1 )1 / k . O teste proposto um


procedimento montono com regio de aceitao convexa. Uma generalizao desse
teste foi proposta por Wilkinson (1951) na qual, ao invs de usar o menor valor-p,
utiliza-se o r-simo menor u( r ) . Assim, u( r ) menor que um valor crtico pr, implica

que pelo menos r dos valores-p so menores que pr,. Assim, pode-se utilizar tanto um
valor crtico pr, para u( r ) como tambm um nmero crtico mr, de valores-p que so

menores que um nvel fixo, como discutido originalmente por Wilkinson (1951).
Como ui tem distribuio uniforme no intervalo [0,1] ento (Mood et al., 1974, p. 251-
265)

f ur (t ) =
k!
[F (t )]r 1 [1 F (t )]k r f (t ) (18)
(r 1)! (k r )!
Sendo (r , k r + 1) = (r ) (k r + 1) (k + 1) , (k r + 1) = (k r )! ,
(r + k r + 1) = (k + 1) = k ! , (r ) = (r 1)! , f (t ) = I [ 0 ,1 ] (t ) e ainda F (t ) = t para

t [0 ,1] , a expresso de f ur (t ) pode ser reescrita na forma

f ur (t ) = t r 1 (1 t )k r I [0 ,1] (t )
1
(19)
B(r , k r + 1)
Assim, percebe-se que u( r ) tem distribuio Beta, com parmetros r e k-

r+1 e assim, tabelas podem ser obtidas. Esse tipo de procedimento tem a vantagem de
33

no depender de observaes extremas, mas, por outro lado, devido ao fato desse teste
no ter uma regio de aceitao convexa, ele no pode ser utilizado na combinao de
estatsticas de teste que so membros da famlia exponencial a um parmetro.
Procedimentos baseados no mtodo do Qui-quadrado inverso, como o de
Fisher (1932) e o de Fisher ponderado (Good, 1955) so os mais utilizados na
combinao de estudos independentes. Assim, dados k estudos independentes e os
valores-p u1, ...,uk, esse procedimento utiliza a conexo entre as distribuies uniforme e
de Qui-quadrado na qual, dada a varivel aleatria U com distribuio uniforme, ento, a
varivel transformada -2logU tem distribuio de Qui-quadrado com dois graus de
liberdade. Baseando-se no produto dos valores-p, tem-se que, se cada hiptese nula H0i
verdadeira, cada termo do segundo membro da igualdade
T = -2log(u1u2...uk) = -2logu1 - 2logu2 - ... - 2loguk (20)
tem distribuio de Qui-quadrado com dois graus de liberdade e, portanto, a varivel T
tem distribuio de Qui-quadrado com 2k graus de liberdade. Assim, a hiptese nula H0

rejeitada se T = 2 i = 1 log u i for maior ou igual a um valor tabelado C obtido a partir


k

da cauda superior da distribuio de Qui-quadrado com 2k graus de liberdade. Uma


modificao ao procedimento de Fisher (1932), proposta por Good (1955) e denominada
mtodo ponderado de Fisher, utiliza pesos para cada um dos valores-p. Assim, dados os
pesos v1, v2,...,vk, escolhidos a priori, a estatstica para o teste dada por
Tw = u 1v1 u 2v2 ...u kvk . A vantagem desse mtodo que torna possvel ao pesquisador atribuir
maiores pesos a estudos considerados mais sensveis, mas ao mesmo tempo duas novas
dificuldades so criadas: a forma de atribuio dos pesos e a obteno da distribuio de
Tw. A distribuio exata de Tw nos casos em que os pesos v1, v2,...,vk so distintos foi
obtida por Good (1955) e a sua distribuio acumulada dada por
q 1 vi 1 k
( )
k
Pr ob{Tw q} = , em que a i = vi v j . (21)
i =1 ai vik 1 j =1
j i

Outro procedimento para combinao de valores-p o mtodo da normal


inversa, onde cada valor-p tranformado no seu escore normal correspondente, ou seja,
34

dado que (x ) a funo de distribuio acumulada normal padronizada, define-se Zi

de tal forma que u i = (Z i ) ou ainda, Z i = 1 (u i ) . Se a hiptese nula H0

verdadeira, a estatstica Z = ik=1 Z i k tem distribuio normal padro e H0

rejeitada se Z maior que o valor tabulado da distribuio normal padro.


Littell & Folks (1974) utilizam a eficincia relativa de Bahadur para
discutir os mtodos de combinao de testes independentes, mostrando que o teste de
Fisher no mnimo to eficiente quanto os outros testes. Berk & Cohen (1979) mostram
que outros mtodos, alm do mtodo de Fisher, so assintoticamente timos. Por outro
lado, quando so dados pesos diferentes para cada estatstica a ser combinada, os autores
sugerem alguns mtodos de combinao que so timos do ponto de vista da eficincia
de Bahadur.
As vantagens e limitaes de vrios mtodos de combinaes de estudos
independentes so discutidas por Rosenthal (1978), que conclui que o mtodo de Fisher
aplicvel nos casos em que o nmero de estudos seja menor ou igual a cinco. Para
casos em que o nmero de estudos supera esse valor, outros mtodos so mais
aconselhveis, como, por exemplo, os mtodos do u mdio ou o do Z mdio. No
primeiro, a estatstica obtida retirando-se 0,5 da mdia dos valores-p e multiplicando-
se o resultado por 12 N , lembrando que, como a distribuio dos uis uniforme, a
varincia populacional de u 1/12. No segundo mtodo, os valores-p so convertidos,
inicialmente, em valores da distribuio normal e ento efetuado um teste t sobre a
mdia dos valores de Z.
Rosenthal & Rubin (1979) realizam comparaes de nveis de
significncia atravs de um mtodo simples no qual so obtidos, inicialmente, os
valores-p (ui) e os seus respectivos desvios normais padres (Zi) para os k experimentos

a serem testados. Toma-se ento a estatstica ik=1 ( Z i Z ) 2 , em que Z a mdia

aritmtica simples dos Zi's, i=1,...,k que tem distribuio assinttica 2 com k-1 graus de
liberdade. Outra possibilidade apontada pelos autores a utilizao de contrastes destes
valores-p. Na mesma direo, Rosenthal & Rubin (1982) discutem testes para
35

comparaes dos efeitos de estudos independentes, apresentando tambm a


possibilidade de utilizao de contrastes desses efeitos para serem testados.
A comparao de oito mtodos de combinao de valores-p feita por
Folks (1984). Os mtodos comparados so: o da transformao integral de
probabilidade, o mtodo de Tippett-Wilkinson, o mtodo de Fisher (denominado Fisher-
Pearson), o mtodo de Lancaster, o mtodo de Liptak-Stouffer, o mtodo de Good-
Zelen, o mtodo de George-Mudholkar e o mtodo de Edgington. Apresentando cada
mtodo e utilizando um exemplo, o autor destaca o mtodo de Tippett-Wilkinson,
baseado no menor nvel de significncia dentre os estudos realizados, e o mtodo de
Fisher.
Outras discusses a respeito do tema aparecem em Berk & Cohen (1979),
Hedges & Olkin (1985) e Gianotti (2004), dentre outros.
Para a utilizao dos testes discutidos nesta seo, necessria a
verificao da independncia dos vetores de dados cujos valores-p ou estimativas dos
parmetros deseja-se combinar. Na maior parte dos casos, a utilizao desses mtodos
feita para combinao de resultados de experimentos feitos em locais e/ou pocas
diferentes e a independncia no verificada formalmente. Um teste paramtrico
clssico utilizado para a verificao de independncia entre dois pares de vetores
baseado na partio da matriz de covarincias amostrais S. Assim, a hiptese de
independncia entre os pares de vetores xi(1) e xi(2) (i=1,...,N), com dimenses p e q e
matrizes de covarincias S11 e S22, respectivamente, obtidos da partio do vetor xi, de
dimenso p+q e matriz de covarincias S, testada utilizando-se a estatstica WN
(Tashiken et al., 2003), definida por
S
WN = (22)
S 11 S 22

Uma estatstica anloga a essa, s que na verso no-paramtrica, foi


apresentada por Puri & Sen (1971), na qual os vetores de dados so substitudos por seus
postos, atribudos separadamente para cada varivel (componentwise ranks). Assim,
considerando R, R11 e R22 as matrizes de covarincias dos postos, equivalentes s
matrizes S, S11 e S22, a estatstica de teste dada por
36

R
WR = (23)
R11 R 22

Sob H0, tem-se que nWR tem distribuio assinttica qui-quadrado, com
pxq graus de liberdade. Mier (1997) obtm a normalidade assinttica do teste de
independncia atravs de postos. Gieser & Randles (1997), Tashiken et al. (2003)
apresentam outras verses para testar a independncia entre dois vetores, baseados em
outras de atribuies de postos. Puri & Sen (1971) apresentam tambm testes para
independncia entre pares de vetores.

2.6 Testes multivariados baseados na distncia entre os dados

As distncias, denominadas medidas de dissimilaridade (ou similaridade,


dependendo do ponto de vista que se olha a situao) so bastante difundidas na anlise
de dados, em especial de dados ecolgicos. Clarke (1993) apresenta uma discusso
extensa sobre anlise multivariada no-paramtrica de mudanas em estruturas de
comunidades, obtendo, dentre outros, testes para diferenas temporais e espaciais. Num
dos exemplos apresentados, o autor discute o uso de testes de permutao numa anlise
de varincia inteiramente casualizada baseada nos postos das similaridades entre as n
amostras i e j (i=1,...,n-1; j=2,...,n; i < j), correspondente aos elementos abaixo da
diagonal da matriz de similaridades, em que a maior similaridade tem posto 1. A
estatstica de teste utilizada por Clarke (1993) R = (rB rW ) /( M / 2) em que

M = n(n 1) / 2 , e rB e rW so, respectivamente, as mdias de postos entre e dentro


das amostras.
Um teste estatstico para a diferena entre as distribuies espaciais de
duas populaes, baseado numa generalizao do teste de Cramr-von Mises e que usa
mtodos de permutao para obteno de valores-p apresentado em Syrjala (1996).
37

Outros trabalhos, como os de Schilling (1986) e Henze (1988), para o


problema multivariado com duas amostras, envolvem comparaes das propores dos k
vizinhos mais prximos, no qual as observaes e seus vizinhos pertencem mesma
amostra. Se considerarmos a varivel Z, cujos valores Zi (i=1,...n, n+1,..., N; N = n+m),
os valores das amostras combinadas, sendo os primeiros n elementos correspondentes
aos elementos da primeira amostra, e Nr(Zi) o r-simo vizinho mais prximo de Zi, ou
seja, o ponto que satisfaz as desigualdade |Zv Zi| < |Zj Zi| para exatamente r 1

valores de v (1 v n e v i). A estatstica de teste dada por Tn ,k = i = 1 r =1 I i (r ) ,


n k

em que Ii(r) a varivel indicadora que assume valores iguais a 1 se Zi e Nr(Zi)


pertencem mesma amostra e 0 em outros casos. Observa-se que o smbolo | . |
identifica uma norma em p, em que p o nmero de variveis. Valores grandes de Tn,k
leva rejeio da hiptese nula de igualdade entre os grupos e os autores obtm a
distribuio assinttica para essa estatstica, mas a implementao computacional da
mesma exige a determinao de todos os vizinhos mais prximos, o que requer
algoritmos eficientes. Em Schilling (1986), valores crticos baseados na mtrica
euclidiana foram obtidos para alguns valores de k e p.
Legendre & Anderson (1999) propem uma anlise de dados
multivariados denominada anlise de redundncia baseada em distncias (db-RDA).
Inicialmente, so calculadas as N distncias (dissimilaridades) entre os elementos
amostrais (dij). Para realizar a anlise de coordenadas principais toma-se a matriz cujos

elementos ij (i,j=1,...,N) so dados por ij = a ij a i a j + a , a ij = 21 d ij2 e as mdias

a i , a j e a so, respectivamente, referentes linha i, coluna j e total da matriz A={aij}

obtida a partir da matriz de distncias. Calculam-se os autovalores e autovetores da


matriz e obtm-se, a partir deles, os eixos das coordenadas principais. Finalmente,
feita a anlise de redundncia sobre a matriz com os elementos das coordenadas
principais utilizando-se uma outra matriz com variveis binrias (dummy)
correspondente matriz de delineamento. O mtodo descrito pelos autores apresenta
38

problemas relacionados aos autovalores da matriz que podem no ser todos positivos.
Mtodos de correo destes autovalores so apresentados.
McArdle & Anderson (2001) mostram que o mtodo proposto por
Legendre & Anderson (1999) no tm erros do tipo I consistentes e propem a utilizao
da subdiviso da variao total na prpria matriz de distncias. Metodologias
semelhantes so propostas por Gower & Krzanowski (1999) e Krzanowski (2002), nos
quais um tratamento matemtico mais adequado apresentado, sob a denominao de
anlise de distncias (analysis of distance).
Anderson (2001) prope um mtodo no-paramtrico baseado em testes
de permutao para a anlise de varincia multivariada, cuja estatstica de teste
multivariada, anloga razo F de Fisher e calculada diretamente de qualquer
distncia simtrica ou matriz de dissimilaridade, com os valores-p obtidos usando
permutaes. De acordo com a autora, em estudos ecolgicos, a necessidade da
utilizao de mtodos no-paramtricos bastante acentuada pelo fato de que as
variveis medidas em geral no seguem distribuies normais. Por outro lado, os testes
da MANOVA no so possveis de serem realizados nos casos em que o nmero de
variveis maior do que o nmero de unidades amostrais, o que no incomum em
aplicaes ecolgicas. Nessa situao tem-se uma matriz de covarincias singular e,
portanto, com varincia generalizada nula, o que impede a aplicao de alguns testes da
MANOVA.
Em Anderson (2001), o mtodo no-paramtrico proposto para testar
diferenas entre grupos em geral baseado em medidas de distncias (dissimilaridade)
entre pares de observaes multivariadas individuais ou seus postos. Uma estatstica
construda para comparar essas distncias entre observaes dentro de um mesmo grupo
versus aquelas em diferentes grupos, seguindo a estrutura conceitual da anlise de
varincia utilizando ento permutaes das observaes para obter a probabilidade
associada com a hiptese nula de no diferena entre grupos. O mtodo no-paramtrico
descrito utiliza a idia de que a soma de quadrados entre os pontos e seus centrides
igual soma de quadrados das distncias entre pontos, dividida pelo nmero de pontos,
ou seja, uma subdiviso aditiva das somas de quadrados pode ser obtida para qualquer
39

distncia diretamente da matriz de distncias, sem calcular as posies centrais dos


grupos. Essa propriedade se reveste de importncia especialmente quando se utilizam
distncias em que o clculo de uma posio central pode ser problemtico, como o
caso da medida semi-mtrica de Bray-Curtis. Assim, possvel obter a subdiviso
diretamente das distncias entre-pontos. Portanto, para realizao do teste, calcula-se
uma matriz de distncias entre todos os pares de observaes a partir da matriz dos
1 N 1 N
dados originais e obtm-se as somas de quadrados SS T = d ij2 e
N i =1 j =i +1

1 N 1 N
SSW = d ij2 ij , observando que N o nmero total de observaes e dij a
n i =1 j =i +1

distncia entre as observaes i e j (i, j=1,...,N) e ainda ij toma o valor 1 se a observao


i e a observao j esto no mesmo grupo; em outros casos, ele toma o valor 0. Obtida a
variao entre grupos SSB (SSB = SST - SSW), uma pseudo razo F para testar a hiptese
multivariada F = [SS B (c 1)] /[SSW ( N c)] . Uma distribuio da estatstica F sob a
hiptese nula pode ser criada, entretanto, usando permutaes das observaes
(Edgington, 1995; Manly, 1997). Supondo que a hiptese nula verdadeira e os grupos
no diferem em termos de suas composies e/ou suas abundncias relativas de espcies
ento, as observaes multivariadas podem ser trocadas entre os diferentes grupos. Para
cada uma dessas M permutaes, um valor da estatstica F (F#) calculado e comparado
com o valor de F obtido a partir do ordenamento original e o valor-p dado por

P = (n de F # F ) / M . O nmero de resultados possveis para a estatstica de teste,

dado por NRP = (cn)! [c! (n! ) c ] , pode crescer rapidamente e assim utiliza-se um
subconjunto aleatrio de todas as possveis permutaes. A nica suposio do teste
que as observaes sejam intercambiveis entre os grupos sob a hiptese nula
verdadeira, ou seja, as observaes so independentes e tm distribuies similares. O
teste proposto sensvel s diferenas de disperso dos pontos, mesmo se as medidas de
locao no diferirem e assim, cuidados devem ser tomados na interpretao dos
resultados dos testes de significncia.
40

2.7 Anlise de Componentes Principais (PCA) e assuntos correlacionados

A anlise de componentes principais (principal component analysis


PCA) uma das mais antigas tcnicas multivariadas e seu tratamento matemtico j
bem difundido, no sendo necessria nenhuma nova discusso a respeito desse tema
especfico. A anlise de componentes principais uma tcnica que tem o propsito de
analisar estruturas de covarincias e correlaes, baseada nas razes (ou valores)
caractersticas e nos vetores gerados a partir delas, em matrizes simtricas positivas
definidas. No sentido mais geral, a tcnica de componentes principais um mtodo de
transformar variveis correlacionadas em outro grupo de variveis no correlacionadas,
servindo ainda para a obteno de combinaes lineares das variveis originais com
variabilidade relativamente grande (ou pequena, dependendo do propsito), alm de ser
uma ferramenta para a reduo da dimensionalidade dos dados. Pode-se ver ainda que a
anlise de componentes principais pode ser vista como um fim por si s ou como um
passo intermedirio para a anlise subsequente dos dados. nesse segundo sentido que
ela ser utilizada no presente trabalho.
De uma forma geral, considerando um vetor aleatrio X = (X1,...,Xp) e,
sem perda de generalidade, que E[X] = 0. A matriz de covarincias de X, quadrada de
dimenso p, dada por E[XX] = uma matriz simtrica positiva definida. Considere a
combinao linear U = aX, com a p e tal que a varincia de U seja a maior
possvel, sob a restrio (arbitrria) que aa = 1. Pela decomposio espectral, a matriz
de covarincias pode ser escrita como
p
= j j j ' = ' (24)
j =1

em que = ( 1 ,..., p ) uma matriz ortogonal de dimenso p, = diag ( 1 ,..., p ) e os

autovalores ou razes caractersticas j so ordenados, ou seja, 1 2 .... p. Devido


ortogonalidade de , tem-se que ' = . Como 1,..., p formam uma base de p,

o vetor a pode ser escrito como a = i = 1 i i = '


p
para algum = (1,..., p).

Sendo ortogonal, = 1 e a varincia de aX menor ou igual que 1. Tomando a =


41

1, tem-se que var ( 1 ' X ) = 1 ' 1 = 1 e define-se a varivel aleatria U 1 = 1 ' X


como o primeiro componente principal de X. A obteno dos outros componentes feita
com a restrio adicional de no correlao do prximo componente Ui com os
componentes anteriormente obtidos (U1, ...,Ui-1). Assim, os componentes principais de X
so definidos como vetores aleatrios p-variados U = (U1,..., Up) = X, no qual as
colunas de so os vetores caractersticos de . Adicionalmente, a matriz de
covarincias de U diagonal, cujos elementos so os autovalores i, dada por
Cov (U ) = E (UU ' ) = ' = (25)
Pode-se verificar que a varincia total de X dada pela soma dos
elementos diagonais da matriz , que invariante quando se utiliza a transformao
utilizada na obteno dos componentes principais. Outras discusses a respeito dos
componentes principais podem ser vistas em Mardia et al. (1979), Flury (1988), Johnson
& Wichern (1995), dentre outros.
A tcnica de obteno de componentes principais foi desenvolvida para
variveis em que no h separao dos dados ou elementos amostrais em grupos.
Entretanto, em muitas situaes experimentais, grupos pr-estabelecidos so formados,
como ocorre na anlise de varincia e, para esses casos, Flury (1984) desenvolve uma
metodologia, denominada anlise de componentes principais comuns (common principal
components CPC). Boyk (2002) estende o modelo para dar maior abrangncia de
utilizao do mtodo, incluindo os casos em que os autovalores das matrizes de
covarincias, referentes aos c grupos, so modelados levando em conta a possibilidade
de multiplicidade e as relaes entre autovalores das c populaes. Krzanowski (2002b)
apresenta uma reviso geral do mtodo e aplicaes. Como mtodo geral, tem-se que
dadas c amostras de tamanho ni (i = 1,...,c) com vetores de mdias X i e matrizes de
covarincias Si, obtm-se a estimativa de L, que minimiza M, em que
c
M = ni (L' S j L ) .
c
(26)
i =1
j =1
ji
42

tomando, em seguida, Di = LSiL e ento utilizamos a transformao Y = LX, em que


LSiL diag(Di) e LL = I. O modelo considerado adequado se, dado Ei = diag(Di), a
matriz de correlaes Ri = E i1 / 2 L' S i LE i1 / 2 , aproxima-se de uma matriz diagonal ou,

mais formalmente, utilizando-se a estatstica T = i =1 n i ln S i1 ( L' Di L ) , que tem


c

distribuio de Qui-quadrado com p(p-1)(g-1)/2 graus de liberdade. Flury (1988)


apresenta discusses tericas e aplicaes do mtodo em modelos multivariados.
Segundo Rao (1952), considerando (s+p) variveis correlacionadas
Y(1),...,Y(s), Y(s+1),...,Y(s+p) para as quais amostras de tamanho n1, n2,...,nk so avaliadas
para k populaes, um possvel objetivo buscar saber se as diferenas entre k grupos
caracterizados por (s+p) medidas pode ser explicada pelas variaes em s funes
lineares destas medidas. Seja a transformao linear definida por X = MY, onde X e Y
so matrizes de dimenses N ( s + p ) e M uma matriz ( s + p ) ( s + p ) . As s
primeiras linhas so definidas pelos coeficientes de interesse e os coeficientes de X(s+1)
,...,X(s+p) so escolhidos arbitrariamente sujeitos condio de que o |M| 0, condio
esta necessria para garantir que a transformao seja biunvoca. O problema reduzido
considerao da disperso das variveis X(s+1),...,X(s+p) quando aquela devido a
X(1),...,X(s) removida. Considerando as matrizes ( s + p ) ( s + p ) de disperso total (S),
entre tratamentos (B) e dentro de tratamentos ou erro (W), a partio da soma de
quadrados da anlise de varincia dada por S = B + W. A matriz quadrada Ws, de
dimenso s, das somas de produtos devida ao erro para as variveis X(1),...,X(s) a serem
eliminadas obtida a partir da partio da matriz W, de tal forma que
W s W pxs
sp
W = ps .
sxs
(27)
W sxp W pxp
p

A matriz de somas de produtos do erro para X(s+1),...,X(s+p) quando
corrigida para X(1) ,...,X(s) dada por W(s+1,...,.s+p/1,...,s) = W(p/s) = W(ps) - W(sp) (Ws)-1 Wsp.
Uma outra maneira de obter a matriz W(p/s) iniciar pela matriz completa Ws+p,s+p e
reduzi-la s vezes pelo mtodo de condensao pivotal comeando pelo elemento W11. A
matriz referente soma dos desvios da hiptese mais o erro (S(p/s)) pode ser obtida,
43

substituindo-se a matriz W pela matriz S. Assim, a estatstica de teste de Wilks ser dada
por W(p/s) / S(p/s) e o nmero de graus de liberdade para W(p/s) e S(p/s) so [N - (c - 1)
- (s -1)] e [N - s - 1], respectivamente.
Dempster (1963a, 1963b) descreve o mtodo stepwise de anlise de
varincia multivariada baseado nas variveis principais resultantes da anlise de
componentes principais, generalizando o mtodo delineado por Rao (1952). No primeiro
trabalho apresentada a distribuio terica de mtodos de significncia para dados
multivariados atravs de mtodos geomtricos. No segundo, o mtodo stepwise
descrito e ilustrado, estendendo para a aplicao de combinaes lineares de variveis
resultantes da anlise de componentes principais. Assim, o critrio nico de Wilks para
averiguao de diferenas entre grupos ou tratamentos substitudo por uma sequncia
de critrios, cada um dos quais testado separadamente, pois, segundo Dempster (1963b),
no h razo para acreditar que um simples critrio possa ter tima sensibilidade contra
todas as falhas da hiptese nula devida a diferenas entre os vetores de mdias. A opo
alternativa, na qual substitui-se o critrio nico por testes realizados em cada uma das p
variveis separadamente, no satisfatria, pois em geral os critrios so dependentes e,
portanto, difceis de interpretar na sua forma conjunta. Alm disso, esses critrios so
insensveis a efeitos associados s combinaes lineares das p variveis, mas no
fortemente associados s variveis individuais.
Dempster (1963b) advoga a escolha dos critrios ordenados atravs da
anlise de componentes principais, de tal forma que as primeiras variveis usadas na
ordenao sejam suspeitas, a priori, de terem os maiores desvios da hiptese nula, ou
seja, so mais sensveis ao critrio de teste, e pode-se esperar que o procedimento de
teste seja mais sensitivo do que a estatstica de Wilks (), na qual os pesos dos valores
Pi so iguais, sejam eles sensveis ou no hiptese em estudo. A idia central da anlise
de componentes principais encontrar certas combinaes lineares das p variveis dadas
que so importantes, no sentido de ter maior variabilidade relativa a um critrio padro.
Essas combinaes lineares so denominadas variveis principais e sero consideradas
as anlises de varincias sobre estas novas variveis. Quando as variveis principais so
utilizadas como entrada para o procedimento de teste stepwise, estamos realmente
44

testando na ordem se as principais variveis mostram desvios da hiptese nula. O


mtodo proposto por Dempster (1963b) til mesmo nos casos em que n-k < p
(posto(W) < p) e nestes casos os Pi so definidos e no nulos somente para i=1,.., n-k e
somente um subconjunto das variveis pode ser incorporado. Finalmente, um aspecto
tcnico importante do mtodo stepwise baseado nas variveis principais que merece
meno o fato de que ele permanece aplicvel quando o nmero de variveis maior
do que o nmero de observaes. Ainda, utilizando-se do fato de que P1,...,Pr so
independentes de S e, consequentemente, dos autovalores (1, 2,...), calculados a partir
da matriz S, pode-se ainda desejar combinar os nveis de significncia de P1, P2,...,Pr
para obter um nvel de significncia geral.
45

3 METODOLOGIA

As alternativas apresentadas na literatura para a resoluo de problemas


que envolvam a anlise de varincia multivariada, no caso no-paramtrico, podem ser
resumidas em quatro grupos:
a) transformao dos dados atravs da atribuio de postos de forma
independente para cada varivel e aplicao dos testes usuais da
anlise de varincia multivariada aos dados transformados;
b) obteno de medidas de posio multivariadas (medianas de Liu, Oja,
centro-mediano, etc.) e de testes a serem aplicados aos postos
referenciados por estas medidas;
c) transformao dos dados multivariados em univariados utilizando-se
as distncias entre as observaes ou entre as observaes e uma
medida central, incluindo a possibilidade de escolha da distncia a ser
utilizada, que seja mais adequada ao tipo de dado envolvido; quando
se utiliza uma medida central, recai-se no problema de escolha da
mediana adequada;
d) utilizao da composio de testes univariados no-paramtricos em
cada uma das variveis em estudo e composio desses resultados
numa estatstica nica.
No presente trabalho sero apresentadas algumas alternativas e/ou
complementaes aos itens (a) e (d).
Para testes envolvendo medianas multivariadas diferentes da mediana
formada pelo vetor das medianas das variveis consideradas isoladamente (mediana
componentwise), no sero feitas discusses de testes alternativos j que esse tema vem
46

sendo bastante explorado na literatura. Alm disso, as medianas obtidas partem de


conceitos interessantes, mas no suficientemente amplos para serem consideradas
medidas de locao ideais no plano, no espao e no hiper-plano.
No caso da transformao de dados multivariados em distncias, existem
implementados softwares para a realizao de comparaes entre grupos, com a
utilizao de testes de permutao.
Como complementao ao item (a), sero discutidas a construo de
tabelas, utilizando as permutaes sistemticas, para a obteno de valor-p exato, e de
permutaes aleatrias, para calcular valores-p aproximados, para os testes
multivariados baseados na soma dos postos de amostras multivariadas, de acordo com
Schwertman (1985), complementando os testes com as comparaes mltiplas.
Outras sugestes sero analisadas, buscando a composio dos resultados
obtidos para as variveis individuais. Para esse fim, discute-se a forma de composio de
resultados atravs de tcnicas conhecidas como meta-anlise e tambm os resultados
obtidos utilizando uma metodologia stepwise baseada nas variveis principais,
calculadas a partir dos componentes principais (Dempster, 1963b).
No caso da transformao inicial dos dados utilizando distncias (item c),
ser discutida e implementada uma alternativa, onde os postos so atribudos aos pontos
baseados na distncia desses uma origem arbitrria, em contraposio quela que se
baseia nos postos obtidos a partir da distncia entre as observaes componentes da
amostra. Em ambos os casos a estatstica de teste calculada comparando-se os postos
das distncias entre grupos e das distncias intra-grupos.
Comparaes com os mtodos existentes sero feitas com a utilizao de
dados simulados.

3.1 Notao

Inicialmente, necessria a introduo de uma notao para os dados e


matrizes utilizados neste trabalho. A anlise de varincia multivariada (MANOVA)
47

refere-se ao teste de mdias de vrias populaes numa situao em que vrias variveis
so medidas ao mesmo tempo, ou seja, so feitas inferncias sobre vrias mdias
populacionais. Essa tcnica uma generalizao direta do caso univariado para o caso
em que se tem mais do que uma varivel resposta. Em sua forma mais simples,
consideram-se c grupos ou populaes de onde so extradas amostras aleatrias. Seja ni
o nmero de elementos amostrais extrados da populao i (i = 1,2,...,c). Os valores
observados da varivel X de uma amostra i podem ser escritos na forma de um vetor, ou
seja, X i = ( X i1 , X i 2 ,..., X ini ) .

possvel incluir mais de uma varivel para o estabelecimento de


diferenas entre grupos ou tratamentos e a anlise se torna multivariada, levando em
conta, alm das diferenas individuais de cada varivel, a inter-relao existente entre as
variveis estudadas. Obviamente, o nmero de variveis a serem estudadas limitado, j
que impossvel abranger todas as avaliaes que so responsveis pelas diferenas
individuais e/ou entre grupos. Alm disso, a incluso de variveis no estudo deve ser
feita de forma criteriosa. Uma anlise inicial dos dados, com a verificao das inter-
relaes (correlaes) entre variveis necessria, j que a incluso de variveis de
forma indiscriminada pode levar a complicaes desnecessrias (por exemplo, variveis
fortemente correlacionadas pode levar no-singularidade da matriz de varincias e
covarincias). Assim, para a anlise multivariada, considera-se:
p: nmero de variveis a serem envolvidas no estudo;
ni: nmero de amostras no grupo i, i=1,...,c;
N = ic=1 ni : nmero total de amostras;

Xij = (Xij(1), ..., Xij(p)): observaes multivariadas, representadas por um


vetor aleatrio p 1 ;
X: matriz de observaes p N em que cada linha representa uma
observao multivariada, ou seja,
48

X (1) ( 2)
X 11 ... X 11
( p)
11
... ... ... ...
X (1) ( 2)
X 1n ... X 1n
( p)
1n1 1 1


X = ... ... ... ...

(1) ( 2) ( p)
X c1 X c1 ... X c1
... ... ... ...
(1) (2) ( p)
X cn X cn ... X cn
c c c

[
X = X (1) X ( 2) ]
X ( p) : vetor de mdias amostrais, em que

1 c ni ( k )
X (k ) = X , k = 1,2,...,p;
N i =1 j =1 ij

1 c nc (k ) ( k ')
S = {s ( kk ' ) } em que s ( kk ') = (k )
( X ij X )( X ij X
( k ')
),
N 1 i =1 j =1

k, k' = 1,...,p: matriz simtrica p X p de varincias e covarincias


amostrais.

R P = rP { }, em que r
( kk ') ( kk ')
P =
s ( kk ')
( kk ) ( k 'k ')
: matriz simtrica p p de
s s
coeficientes de correlao de Pearson amostrais;

{ }
= ( k ) = ( X ) : vetor de mdias populacionais;

= { ( kk ') }= [( X )( X )' ] : matriz simtrica p p de varincias e


covarincias populacionais;

= { ( kk' )
}, em que ( kk' )
=
( kk' )
: matriz simtrica p p
( kk ) ( kk' )
de coeficientes de correlao de Pearson populacionais;
X i i
{
Z = Z 1 , Z 2 ,..., Z p } onde Z i = : vetor p 1 de variveis
ii
padronizadas.
49

A anlise de varincia multivariada tem como finalidade verificar se os


vetores de mdias populacionais so significativamente diferentes e, caso sejam, quais
os componentes destes vetores diferem significativamente. As suposies do modelo
so:
a) X 1 , X 2 ,..., X n uma amostra aleatria de tamanho n de uma

populao com vetor de mdias , = 1,2,..., c . As amostras


aleatrias de diferentes populaes so independentes;
b) todas as populaes tm uma matriz de covarincias comum ;
c) cada populao normal multivariada (esta pressuposio pode ser
relaxada na presena de amostras de tamanho grande utilizando-se o
teorema do limite central).
Na anlise de varincia multivariada no-paramtrica, no necessria a
pressuposio da multinormalidade dos dados ou mesmo relacionar a distribuio
amostral dos dados a qualquer outra distribuio terica. Apenas pressupe-se que as
amostras so provenientes de uma mesma distribuio e que as amostras obtidas so
independentes. Alm disso, as inferncias no so feitas sobre os parmetros e sim sobre
a distribuio.

3.2 Materiais e Mtodos

Os dados utilizados no presente trabalho sero obtidos principalmente a


partir de simulaes. Sero simulados dados provenientes de distribuies normais com
algumas varincias diferentes, distribuies normais contaminadas com dados
discrepantes (outliers), distribuies exponenciais e distribuies de contagem para as
variveis em estudo.
Utilizar-se-o tambm dados com distribuies diferentes para cada
varivel, visando verificar a adequabilidade dos mtodos nestas situaes.
50

3.2.1 Mtodo 1

Dada uma amostra de N elementos, nos quais foram feitas medidas em p


variveis, a transformao dos dados em postos feita de forma independente em cada
uma das variveis X(1),...,X(p), obtendo-se assim um vetor de postos R = (R(1), ...,R(p))
para cada elemento amostral. A estatstica de teste uma adaptao do teste de Wilks
aos dados transformados em postos (Zwick, 1985). Assim, em cada uma das p variveis
feita a transformao dos dados em postos de forma individual. Esse tipo de
transformao em postos considera que, para sua realizao no necessria a admisso
de uma mediana multivariada que agregue todos os dados de forma multivariada, ou
seja, considera-se o vetor de medianas composto pelas medianas individuais relativas a
cada uma das variveis.
Katz & McSweeney (1980) apresentam uma extenso multivariada do
teste de Kruskal-Wallis, derivando a distribuio de referncia para grandes amostras da
estatstica de teste, alm de fornecer frmulas simples para a obteno da estatstica de
teste. Procedimentos para a realizao de testes de comparaes mltiplas so
apresentados e comparados. A tcnica apresentada pelos autores para a obteno da
estatstica de teste da MANOVA no-paramtrica aquela dada em Puri & Sen (1971).
Os autores apresentam a tcnica sob a forma mais clara, com a explicitao de frmulas
e testes de maneira simples e objetiva.
Considerando c grupos (c amostras aleatrias independentes) em que so
medidas p variveis e seja Xij(k), j=1,..,ni; i=1,...,c e k=1,...,p, onde ni o tamanho da i-
sima amostra e seja N = n1+...+nk . Para cada elemento das amostras existe um vetor de
observaes da forma Xij = (Xij(1),...,Xij(k))'. Se Fi(X) representa a funo distribuio
acumulada multivariada de Xi, uma hiptese de interesse frequente dada por H0: F1(X)
= ... = Fc(X) que, em muitos estudos, reduz-se hiptese de igualdade dos parmetros
de locao, ou seja, H0: 1 = ... = c, onde i um vetor p dimensional, que constitui o
parmetro de locao da distribuio da i-sima amostra.
Nos casos em que Fi(X) so normais multivariadas, com mdia i e
matriz de covarincias , o teste da hiptese pode ser efetuado atravs de algum dos
51

critrios paramtricos conhecidos, ou seja, a maior raiz caracterstica (Teste de Roy), o


trao de Hotelling-Lawley, a razo de verossimilhana de Wilks ou ainda o trao de
Pillai. Para a verificao da multinormalidade multivariada, Mardia (1975), dentre
outros, apresenta algumas tcnicas com a utilizao da curtose e assimetria multivariada.
Em relao homogeneidade das matrizes de varincias e covarincias dos grupos,
Harris (1975) apresenta um teste, anlogo ao teste de Bartlett univariado, mas a
utilizao deste teste est restrita s situaes em que a multinormalidade foi detectada.
Nos casos em que as suposies para a utilizao da anlise de varincia multivariada
(MANOVA) paramtrica no ocorrem ou ainda nos casos em que as amostras so
pequenas para que o teste seja adequado, as tcnicas no-paramtricas podem ser uma
opo interessante.
O teste no-paramtrico anlogo MANOVA requer somente que as
distribuies F1(X), ..., Fc(X) sejam contnuas. O uso desta tcnica pode ser questionvel
no caso em que se tem variveis em escalas com dois ou trs pontos, indicando assim
violao da suposio de continuidade. Entretanto, este tipo de violao s se torna
importante quando desejamos trabalhar com distribuies assintticas. Observa-se ainda
que a hiptese nula agora tratada em termos de medianas e no de mdias como no
caso paramtrico, sendo pois uma extenso do teste de Kruskal-Wallis. O procedimento
para a realizao do teste o seguinte:
a) para cada uma das p variveis, ordenam-se os dados,
independentemente dos grupos, de 1 a N, sendo 1 para o menor valor,
2 para o segundo menor e assim por diante, at o valor N para o maior
valor; no caso de empates (igualdade de observaes), calcula-se a
mdia dos postos correspondentes; desta maneira, cada Xij(k)
substitudo por seu respectivo posto Rij(k), em que 1 Rij(k) N;

b) calcula-se Ri( k ) que so as mdias dos postos dentro de cada grupo i,


para cada varivel k; sob H0, que pode ser escrita como sendo
H0: E( R1k ) = .. = E( Rck ) , E( Rik ) = ( N + 1) / 2 ;
52

c) obtm-se o vetor linha V, referentes aos (c-1) grupos e a cada uma das
p variveis, totalizando (c-1)p elementos; os desvios do ltimo grupo
so obtidos a partir dos (c - 1) grupos anteriores; o vetor V tal que
[ ]
V = ( V1' ,...,V p' )' , Vi = R1( k ) ( N + 1 ) / 2 ,..., Rc(k1) ( N + 1 ) / 2 ' ;

d) a matriz de varincias e covarincias quadrada e simtrica, com (c-


1)p linhas ou colunas.
e) a estatstica de teste dada por H M = V ' V1V onde V um vetor
linha
A tcnica apresentada por Katz & McSweeney (1980) simplificada, do
ponto de vista computacional, em Schwertman (1984). Considerando o problema de
testar a igualdade de c (c>=2) funes de distribuio contnuas, F1, F2, ...,Fc que tm a
mesma forma geral, mas podem ter parmetros diferentes. Os autores apresentam a
adaptao para o caso multivariado de dois procedimentos para testar a igualdade das
funes de distribuio, um baseado no teste da mediana (Teste da Mediana de Brown-
Mood), aqui denominado de teste da mediana multivariado, e outro no teste de Kruskal-
Wallis, que usa a soma dos postos que ser denominado Kruskal-Wallis multivariado.
Ambos os procedimentos, como no caso do trabalho de Katz & McSweeney (1980) so
baseados nos trabalhos de Puri & Sen (1971).
Em ambos os procedimentos, a estatstica LN para testar a igualdade de
funes de distribuies contnuas dada pela soma das formas quadrticas balanceadas,

ou seja, L N = i =1 ni (Ti T. )' V 1 (Ti T. ) , em que


c
T. = i =1 ni Ti
c
( n ).
c
i =1 i O

procedimento denominado teste da mediana multivarido no ser discutido no presente


trabalho.
Assim, no caso de teste de Kruskal-Wallis multivariado, obtm-se os
postos individualmente para cada varivel, e seja Ti (i = 1,...,c) um vetor p-dimensional
de postos mdios para cada uma das p respostas multivariadas na i-sima amostra, c o
nmero de populaes amostradas, ni o tamanho da i-sima amostra, V a matriz de
disperso do vetor de postos e T. o vetor de postos mdios para os dados combinados
53

i =1 j =1 ( rij( k ) r..( k ) )( rij( l ) rij( l ) ) ,


c ni
com todas as amostras. Seja V ( k , l ) = 1
N
o

elemento da matriz de disperso, no qual rij(a) o posto da j-sima unidade experimental


na i-sima amostra, a-sima resposta multivariada; r..(a) o posto mdio da a-sima

resposta multivariada para todas as amostras combinadas e N = i =1 ni .


c

Quando a hiptese nula de que as funes distribuies F1, F2,...,Fc so


idnticas verdadeira, espera-se que as mdias dos postos das vrias amostras sejam
aproximadamente iguais e desvios substanciais da igualdade refletido em (Ti - T.). O
fator ni d importncia maior queles desvios baseados em amostras grandes. Portanto,
grandes valores de |Ti - T.| levam a grandes valores de LN e rejeio da hiptese de
funes de distribuio idnticas.
Quando h somente duas populaes a serem comparadas (c=2), as
n1 ( n1 + n2 )
simplificaes conduzem a L N = n2
( T1 T. )' V 1 ( T1 T. ) . Pode ser verificado

ainda que, se ni = n para todo i = 1,...,c, o valor mximo da estatstica LN

(
ncp 1 n 2 1
n 2 c 2 1
).
Para a obteno do valor-p, calcula-se inicialmente a estatstica de teste
para os dados transformados em postos (W0). Permutam-se os elementos amostrais (e
no as variveis) e calcula-se, para cada matriz obtida a partir dessa permutao, o valor
da estatstica Wi. O valor-p obtido simplesmente calculando-se a proporo de valores
da estatstica, obtida a partir das permutaes, que sejam menores ou iguais estatstica
gerada pelos dados originais, ou seja,
Valor-p = # (Wi W0)/ (# permutaes) (28)
No caso de pequenas amostras possvel obter o valor-p exato. No caso
de grandes amostras, alm da aproximao usual atravs da distribuio de Qui-
quadrado, possvel obter os valores-p aproximados, utilizando uma amostra aleatria
das possveis permutaes dos dados e em cada uma delas calcular a estatstica desejada.
Assim, por exemplo, no delineamento inteiramente aleatorizado, so
dadas N amostras, divididas em c grupos com tamanhos n1,..., nc, respectivamente,
54

N = ic=1 ni . O elemento amostral k, e seu respectivo posto, pode ser escrito como um

vetor de p componentes Xk = (Xk(1), ..., Xk(p)), Rk = (Rk(1),...,Rk(p)), k=1,...,


n1,n1+1,...,n1+n2,...,N, sendo os primeiros n1 componentes provenientes da populao 1,
os n2 seguintes da populao 2 e assim por diante. As permutaes so feitas sobre os
elementos amostrais Xk. Como as trocas de posies dentro dos grupos no afetam o
resultado, existem NP = N ! / n1!...nc ! permutaes possveis dos elementos amostrais.
Para cada uma das NP permutaes obtidas, a estatstica de teste calculada e o valor-p
ento obtido atravs do procedimento descrito anteriormente.

3.2.2 Mtodo 2

A medodologia para a obteno de variveis no relacionadas a partir da


utilizao do mtodo de componentes principais na combinao das variveis originais
discutida em Dempster (1963a, 1963b), baseada na sugesto de Rao (1952).
De acordo com Rao (1952), sejam x1,...,xs,xs+1,...,xs+p (s+p) variveis
correlacionadas para as quais amostras de tamanho n1, n2,...,nc so avaliadas para c
populaes. Se as diferenas entre mdias destas (s+p) variveis so testadas, ento,
teste de Wilks, por exemplo, pode ser utilizado. Um problema importante que ocorre em
biometria testar se as variveis xs+1,...,xs+p apresentam diferenas relacionadas s
populaes quando as diferenas devidas as variveis x1,...,xs so retiradas.
Assim, se y1,...,ys+p so as (s+p) variveis, consideram-se L1, ...Ls as s
funes lineares destas medidas
L1= m1,1y1 + ... + m1,p+syp+s
........................................... (29)
Ls = ms,1y1 + ... + ms,p+syp+s
possvel ento trocar as (s+p) variveis y1,...,ys+p por x1,...,xs+p definidas
por
x1 = L1; ...; xs=Ls
55

xs+1= ms+1,1y1 + ... + ms+1,p+syp+s


........................................... (30)
Ls = ms+p,1y1 + ... + ms+p,p+syp+s
Os coeficientes de xs+1,...,xs+p so escolhidos arbitrariamente sujeitos
condio de que o determinante |mij| [i,j=1,...,(s+p)] seja diferente de zero. Esta ltima
condio assegura que a transformao de y para x leva a uma correspondncia
biunvoca. Novamente o problema reduzido a considerar as diferenas em xs+1, ...,xs+p
quando aquelas devido a x1,...,xs so removidas. O teste proposto independente dos
coeficientes utilizado para definir o conjunto xs+1,...,xs+p de tal forma que, em problemas
prticos, eles podem ser convenientemente escolhidos. Em todos estes casos, o problema
analisar a disperso das variveis xs+1,...xs+p quando a disperso devida a x1,...,xs
removida.
Seja (Sij) = (Qij) + (Wij) (i,j=1,...,s+p) a anlise de disperso para todas as
(s+p) variveis devido aos desvios da hiptese e erro com os graus de liberdade
n'=q+(n'-q). A matriz de somas de produtos ( s s ) devida ao erro para as variveis
x1,...,xs a serem eliminadas W={Wij} e sua inversa representada por W-1={Wij}. A
matriz de somas de produtos do erro para xs+1,...,xs+p quando corrigida para x1,...,xs
dada por W(s+1,...,s+p/1,...s) ou simplesmente W(p/s), em que
W1,s + 1 ... Ws ,s + 1 W 11 ... W 1s W1,s + 1 ... W1,s + p

W ( p s ) = ZW ... ... ... ... ... ... ... ... ...
W1,s + 1 ... Ws ,s + p W s 1 ... W ss Ws , p + 1 ... Ws ,s + p

W s + 1 , p + 1 ... W s + 1,s + p

para Z W = ... ... ... . (31)
W s + p , p + 1 ... W s + p ,s + p

Esta forma, que envolve o clculo de um produto de matrizes triplo
parece ser conveniente. Outra maneira de obter a matriz W(p/s) comear com a matriz
completa (Wij) (i,j=1,2,...,s,s+1,...,s+p) e reduzi-la s vezes pelo mtodo de condensao
pivotal comeando pelo elemento W11. Substituindo W por S tem-se a frmula para
calcular a matriz de somas de produtos devido a "desvios da hiptese + erro" para
xs+1,...xs+p quando corrigida para x1,...,xs, representada por S(p/s). Assim, o critrio de
56

teste ser dado por W(p/s) / S(p/s). Os graus de liberdade para W(p/s) sero (n'-q-s) e
para S(p/s) so (n'-s), tal que em notao padro os parmetros associados com so
n=n'-s, p=p e q=q. O teste pode ser realizado normalmente.
Assim, supondo que V1, V2,...,Vp denotam as p variveis dadas e U1,U2,
..., Ur quaisquer combinaes lineares de V1, V2,...,Vp, isto , U = AV em que U' = [U1 U2
... Ur], V'=[V1 V2 ... Vp] e A uma matriz de coeficientes qualquer de dimenso r p .
Utilizando a partio da matriz de disperso total S = B + W, ento ASA', ABA' e AWA'
so, respectivamente, as matrizes de disperso total, entre e dentro de clulas de U1,
U2,...,Ur. Em particular, quando r=1, ocorre a decomposio da anlise de varincia
usual para uma combinao linear qualquer de V1, V2,...,Vp. Segue-se o procedimento de
Gram-Schimidt para a diagonalizao de cada uma das trs matrizes, B, W e S. Assim,
dadas TB, TW e T, matrizes triangulares de dimenso p, com todos os valores da diagonal
unitrios e todos os valores abaixo da diagonal nulos, as matrizes B, W e S podem ser
diagonalizadas de forma a se obterem as matrizes DB = TBSBTB', DW = TWSWTW' e D =
TST'. Denotando os i-simos elementos da diagonal de DB, DW e D por dii(B), dii(W) e dii
respectivamente, (i=1,...,p), possvel calcular Pi=dii(W)/dii, Qi= dii(B)/(dii(B)+dii(W)) e
Ri=(dii(B)+dii(W))/dii. Se qualquer denominador for nulo, os correspondentes Pi, Qi e Ri
devem ser considerados como indefinidos.
O procedimento de diagonalizao feito em p-1 estgios. No primeiro
estgio, substitui-se a matriz de disperso original S por uma matriz S.1 de dimenso p-1
com elementos sij.1= sij - s1is1j/s11 para i=2,3,...,p e j=2,3,...,p. No segundo estgio a
mesma operao repetida em S.1 para a obteno da matriz S.12 de dimenso p-2, cujos
elementos so sij.12 = sij.1 - s2i .1 s2j .1/s22.1, para i=3,...,p; j=3,...,p. Da mesma forma,
calculamos S.123, S.123...(p-1), este ltimo consistindo de um nico elemento. Obtm-se
assim d11, ..., dpp, que so os primeiros elementos diagonais de S, S.1,...,S.12...(p-1),
respectivamente.
No procedimento stepwise geral primeiro escolhe-se um conjunto de
variveis U=AV e depois calculamos as matrizes de disperso total e dentro ASA' e
AWA' para obter d11(W), d22(W), ..., drr(W) e d11, d22, ..., drr. A estatstica obtida atravs do
procedimento stepwise definida por Pi = dii(W)/dii para i=1,2,...,r. Em geral, r=p, mas
57

em alguns casos o posto da matriz S menor que p e existem somente r valores no


nulos na diagonal e nesse caso apenas r quantidades P1,...,Pr (r < p) podem ser
definidas. Observa-se que P1 simplesmente a razo entre as somas de quadrados dentro
e total para a varivel U1. Para i > 1, as quantidades dii e dii(W) podem ser consideradas
como a soma de quadrados total e residual, respectivamente, de Ui depois de retirados os
efeitos lineares associados a U1 ,...,Ui-1. Assim, Pi , i > 1, a razo entre as somas de
quadrados dentro e total depois que os efeitos associados a U1 ,U2 ,...,Ui-1 forem
removidos.
Diferentes escolhas de U levam a sequncias P1,...,Pr diferentes. Uma
anlise de componentes principais uma maneira de analisar uma matriz de disperso
para obter um conjunto de variveis U1,U2,... as quais sero denominadas variveis
principais. Dada uma matrix de disperso S e uma matriz positiva definida pr-escolhida
K, resolve-se a equao det(S - K) = 0, obtendo-se os autovalores 1, 2,...,r em que r
= posto (S) e 1 2 ... r. Em seguida, para cada i resolvem-se as equaes ai(S -
iK) = 0 obtendo-se o autovetor p-dimensional ai. As variveis Ui = aiV so as variveis
principais e os correspondentes i so as varincias dos componentes principais. H uma
diferente anlise de componentes principais para cada escolha de K, mas em geral K = I
ou K = diag (S) e, neste ltimo caso, tem-se det(R- I)=0 sendo R a matriz de
correlaes calculada a partir de S. Espera-se que as variveis principais U1, U2,...
resultantes dos maiores autovalores sejam as nicas combinaes lineares de V1, V2,...,Vp
de alguma importncia prtica. Assim, uma possvel escolha para U pode ser baseada
nas variveis principais.
A proposta no-paramtrica baseada nesta sequncia de critrios pode ser
efetuada com duas modificaes proposta original. A primeira utilizar, na obteno
dos componentes principais, a matriz de correlaes amostrais dos postos. Essa matriz,
tem elementos diagonais iguais a 1 e elementos fora da diagonal equivalentes ao
coeficiente de correlao de Spearman entre as variveis. A segunda modificao requer
a transformao das variveis principais atravs de seus respectivos postos seguida da
aplicao do teste de Kruskal-Wallis aos valores transformados, para cada uma das
novas variveis. A combinao dos nveis de significncia individuais pode levar
58

composio de um nvel de significncia geral para o que ser denominado teste de


Kruskal-Wallis Multivariado.
Para realizar a discusso do mtodo dos componentes principais para a
obteno da estatstica de teste entre variveis independentes, necessrio fazer,
inicialmente, uma reviso sobre a matriz de varincias e covarincias para dados
transformados em postos e o seu relacionamento com a matriz de correlao para esses
mesmos tipos de dados. A diagonal principal da matriz de correlao de postos tem
todos os seus valores iguais a 1, enquanto que fora dessa diagonal, ela formada por
valores obtidos pelo coeficiente de correlao de Spearman. O coeficiente de correlao
de Spearman considerado o competidor ou substituto no-paramtrico do coeficiente
de correlao de Pearson. Considerando N pares de dados tomados sobre N indivduos e
sejam Ri1 e Ri2 os postos do indivduo i para as variveis 1 e 2, respectivamente, a
frmula mais conhecida para o clculo da estimativa desse coeficiente dada por

6i =1 d i2
N

rS = 1 (32)
N3 N
Em (1), d i = Ri( k ) Ri( ) a diferena entre os postos das variveis k e

referente ao indivduo i. A ordem em que tomamos a diferena no importante, pois


para a obteno do coeficiente calculada a soma dos quadrados das diferenas.
Pode-se verificar que a frmula acima obtida a partir da frmula do
coeficiente de correlao de Pearson aplicada aos postos das variveis, depois de feitas
as substituies e simplificaes possveis. Assim, considere a frmula do coeficiente de
correlao amostral de Pearson aplicada aos postos dos dados, lembrando que
N + 1 (t )
; R. = i =1 R i ; t = k ,
N (t )
R (t ) = (33)
2

1 N 2 N + 1
2

(Ri R ) = N 1
(k ) 2 ( ) 2 1 N 2
s =s = Ri N (34)
N 1 i =1 i =1 2
59

N
N ( N + 1)(2 N + 1)
sabendo-se que R
i =1
i
2
= 12 + 2 2 + ... + N 2 =
6
e ainda que a diferena

N ( N + 1)(2 N + 1) N ( N + 1) 2 N ( N 1) 2
que aparece entre chaves equivalente a = ,
6 4 12

tem-se que
N ( N + 1)
s2 = (35)
12
Portanto, a varincia igual para todas as variveis envolvidas, pois todas
elas tm o mesmo conjunto de postos e dada pela frmula (34).
Assim, o coeficiente de correlao de Spearman pode ser escrito como
s ( k) s ( k) 12
rS = = = s ( k) (36)
s ( k ) s ( ) [N ( N + 1] 12 [N ( N + 1)] 12 N ( N + 1)

mas
1 N ( k ) N + 1 ( ) N + 1
s ( k) = Ri 2 Ri 2
N 1 i =1
(37)

1 N ( k ) ( ) N ( N + 1) 2
s ( k) = R i R i (38)
N 1 i =1 4
Substituindo (38) em (36), tem-se

1 12 N
12 N ( N + 1) 2
rS = i i 4 N ( N + 1)
N 1 N ( N + 1) i =1
R ( k ) ( )
R (39)

1 12 N

rS =
N 1 N ( N + 1) i =1
Ri( k ) Ri( ) 3( N + 1) (40)

Por outro lado, partindo da frmula (32), tem-se que

6i =1 d i2
N
(
6i =1 Ri( k ) Ri( )
N
)
2

rS = 1 = 1 (41)
N3 N N ( N 2 1)

1 [
6i =1 Ri( k ) 2 + Ri( ) 2 2 Ri( k ) Ri( )
N
]
rS = ( N 1) (42)
N 1 N ( N + 1)

60

rS =
1
N
(
12 i =1 Ri2 i =1 Ri( k ) Ri( )
N
)
( N 1) (43)
N 1 N ( N + 1)

1 12 N ( N + 1)(2 N + 1)
i =1 Ri( k ) Ri( ) (44)
N
rS = ( N 1)
N 1 N ( N + 1) 6

1 12
R ( k ) Ri( ) 3( N + 1)
N
rS = (45)
N 1 N ( N + 1) i =1 i

Portanto, o coeficiente de correlao de Spearman obtido pela utilizao
dos postos no lugar dos valores originais na frmula do coeficiente de correlao de
Pearson. Verifica-se que:
N N
a) se Ri( k ) = Ri( l ) , i = 1,..., N , tem-se que R
i =1
i
(k )
Ri( ) = Ri2 e,
i =1

1 N ( N + 1)(2 N + 1) N ( N + 1) 2 N ( N + 1)
s ( k) = = = s2, e
N 1 6 4 12

assim, rS = 1 , ou seja, as variveis so perfeita e positivamente

correlacionadas;
b) se Ri( k ) = N Ri( ) + 1, i = 1,..., N , tem-se que rS = 1 tendo em vista
que

[ ]
N N N N N

Ri( k ) Ri() = Ri( k ) N Ri( k ) + 1 = N Ri( k ) Ri( k ) Ri( K ) + Ri( k )


i =1 i =1 i =1 i =1 i =1

N ( N + 1) 2 N ( N + 1)(2 N + 1)
= (46)
2 6
1 N ( N + 1) 2 N ( N + 1)(2 N + 1) N ( N + 1)
e s ( k) = = = s 2 (47)
N 1 4 6 12

Das relaes existentes entre o coeficiente de correlao de Spearman e


as varincias e covarincias dos dados transformados em postos, decorre que as matrizes
de correlao (R) e de covarincias (S) so diretamente correlacionadas de forma que
12 N ( N + 1)
R= S ou S = R (48)
N ( N + 1) 12
61

De acordo com Johnson & Wichern (1996), a anlise de componentes


principais uma tcnica de anlise multivariada que permite explicar uma estrutura de
varincias e covarincias de um conjunto de variveis, em geral complicada, atravs de
algumas (s vezes, poucas) combinaes lineares dessas variveis. Em geral o objetivo
diminuir a dimensionalidade do conjunto de variveis com o objetivo de facilitar a
interpretao da interdependncia entre elas, mas em alguns casos a anlise de
componentes principais somente um meio para a obteno de outros objetivos na
pesquisa. A anlise de componentes principais baseada na obteno dos autovalores e
autovetores de uma matriz. Assim, antes de discutir os componentes principais
propriamente ditos, deve-se fazer uma rpida discusso sobre a obteno e propriedades
dos autovalores e autovetores.
Dada uma matriz quadrada A, e considerando a equao Au = u, sendo
u um vetor e um escalar, a condio para que existam e u (para u 0) que o
determinante da matriz (A - I) seja nulo. De outra forma, pode-se dizer que para a
existncia de valores no nulos de e u necessrio que a matriz (A - I) seja singular.
Assim, basta resolver a equao |A - I| = 0, denominada equao caracterstica,
obtendo os valores de . Se A de ordem n, obtm-se uma equao polinomial em de
ordem n, com n razes 1, 2, ..., n, que so denominadas razes caractersticas,
autovalores ou -razes. A cada autovalor i (i=1,...,n), corresponde um autovetor ui
satisfazendo a equao Aui = iui. Os vetores u1, u2, ...,un so denominados vetores
caractersticos ou autovetores.
Algumas propriedades importantes dos autovalores e autovetores devem
ser enunciadas, considerando que a matriz A tem um autovalor :
a) para a obteno dos autovalores da potncia de uma matriz,
considera-se a equao Au = u e pr-multiplica-se os dois membros
da igualdade por Ak-1; assim, tem-se, por recorrncia, que Ak u = Ak-
1
u = Ak-1u = Ak-2 (Au) = 2(Ak-2u) = ... = ku , ou seja, o
autovalor de Ak k; se A singular, k positivo e se A no
62

singular, k pode ser positivo ou negativo; em particular, se A no-


singular, o autovalor de A-1 1/;
b) para a obteno dos autovalores da multiplicao de um escalar c por
uma matriz, basta lembrar que cAu = cu = (c)u , ou seja, c o
autovalor de cA;
c) dado um polinmio em A, f(A), como consequncia dos itens (a) e
(b), f() um autovalor de f(A);
d) a soma dos autovalores de uma matriz igual ao seu trao e o produto

i = tr ( A) e
n
deles igual a seu determinante, ou seja, i =1

i = det( A) = A .
n
i =1

Do item (b) pode-se estabelecer que o relacionamento direto existente


12
entre as matrizes de covarincias e de correlao de postos, ou seja, R = S
N ( N + 1)
indica que os autovalores so relacionados da mesma forma e seus autovetores das duas
matrizes so iguais. Considerando i e i como os auto-valores das matrizes R e S,

i = tr ( R) = p
n
respectivamente, pode-se verificar que i =1
e

i = tr ( S ) = p [N ( N + 1)] 12 .
n
i =1

Propriedades importantes ocorrem quando se consideram matrizes


simtricas e reais, como o caso das matrizes R e S. Os autovalores dessas matrizes so
reais e seus autovetores so ortogonais, ou seja, dados dois autovalores de matrizes reais
e simtricas i e j, cujos autovetores so, respectivamente, ui e uj, tem-se que uiuj = 0,
para i j. Alm disso, possvel mostrar que toda matriz simtrica A diagonalizvel
pois, considerando a igualdade AU = UD, D uma matriz diagonal, existe U-1 e portanto
A = UDU-1. Observa-se que podem ser obtidos, de uma matriz simtrica, autovetores
ortogonais entre si. Normalizando tais vetores substituindo os vetores u por ( 1 / u' u u ( )
e organizando-os na matriz U, tem-se uma matriz ortogonal e portanto, UAU = D com
UU = I e essa a forma cannica sob similaridade ortogonal.
63

Outra forma de decomposio de uma matriz simtrica denominada


decomposio espectral de A. Sabendo-se que U ortogonal, tem-se que

I = U ' U = UU ' = i =1 u i u i ' , A = Ai =1 u i u i ' = i =1 Au i u i ' = i =1 i u i u i ' .


n n n n
ento

Essas propriedades dos autovalores e autovetores sero utilizadas na discusso dos


componentes principais da matriz de varincias e covarincias e da matriz de correlao
para os dados transformados em postos.
O processo de obteno dos componentes principais puramente
matemtico, sem a necessidade de estabelecer qualquer discusso a respeito da
distribuio dos dados que esto sendo estudados. A anlise de componentes principais
uma tcnica multivariada cujo objetivo , em geral, reduzir a dimensionalidade do
conjunto de dados. Entretanto, no presente trabalho os componentes principais sero
utilizados para analisar uma matriz de disperso de forma a produzir um conjunto de
novas variveis, denominadas variveis principais, no correlacionadas entre si, que so
combinaes lineares das variveis originais.
Assim, considerando a matriz X, obtida a partir de um conjunto de N
observaes em p variveis, sua matriz de disperso quadrada S0, de dimenso p e uma
matriz positiva definida Ko, de mesma dimenso de So, resolve-se a equao
S o K o = 0 e obtm-se os autovalores 1, 2,..., r (1 2 .... r), em que r =

posto(So). Em seguida, para cada i, resolve-se a equao a i ( S o i K o ) = 0 . As

variveis Ui = ai X so denominadas variveis principais e os is correspondentes


denominam-se varincias dos componentes principais. A escolha da matriz Ko
arbitrria, mas em geral Ko = I ou Ko = diag (So) (matriz diagonal com os mesmos
elementos diagonais de So). No segundo caso, tem-se a equao R o = 0 , ou seja, os

autovalores e autovetores so obtidos da matriz de correlaes calculada a partir da


matriz So.
Quando feita a transfomao dos dados originais em postos, de forma
individual, so obtidas a matriz de varincias e covarincias de postos S e a matriz de
correlaes de postos R. Como conseqncia das propriedades dos autovetores e
autovalores de uma matriz simtrica positiva definida, os componentes principais
64

obtidos a partir da matriz de correlaes R so os mesmos calculados a partir da matriz


S, quando no ocorrem empates. Essa invarincia dos componentes principais no
ocorre quando se utilizam os dados originais.
Observa-se que a transformao em postos discutida nesse trabalho a
transformao de postos de Wilcoxon, ou seja, o menor elemento tem posto 1, o segundo
menor tem posto 2, e assim por diante, que adequada na maior parte dos casos em que
se procura discutir diferenas de parmetros de locao entre populaes.
Substituindo as variveis por seus postos, dois fatos interessantes
ocorrem:
a) as matrizes de varincias e covarincias e a de correlaes so
substitudas, respectivamente, pelas matrizes de varincias e
covarincias de postos e pela matriz de correlaes de Spearman;
nesse caso, os elementos da diagonal principal de ambas as matrizes
so iguais, ou seja, rii = rij e sii = sij;
b) pelo fato dos elementos da diagonal principal da matriz de
covarincias, que so as varincias dos postos, serem todos iguais, os
autovalores e, conseqentemente, os autovetores obtidos a partir de
cada uma dessas matrizes so iguais.
Assim, no necessria a discusso sobre qual das matrizes deve ser
utilizada, pois ambas levam aos mesmos resultados e ainda, a homogeneidade de
varincias, que uma das pressuposies da anlise da varincia, observada.
A autenticidade dessas duas afirmaes pode ser verificada da seguinte
forma:
a) considere a matriz Y, dos dados transformados em postos; as somas
dos elementos de cada coluna, que referente a cada uma das
variveis, so todas iguais a N(N+1)/2;
b) as somas dos quadrados dos elementos de cada coluna so iguais a
[N (N + 12 )(2 N + 1)] 3 ou, equivalentemente, a [N ( N + 1)(2 N + 1)] 6 ;
assim, a varincia dada por
65

1 N ( N 1)(2 N + 1) 1 N ( N + 1)
2

Vii =
N 1 6 N 6

1 2 N (2 N + 1) 2 N ( N + 1) 1 N ( N + 1)( N 1)
2

Vii = =
N 1 12 N 1 12

N ( N + 1)
Vii = ; (49)
12
c) para a obteno das correlaes a partir das covarincias, basta dividir
pelas razes das varincias das variveis envolvidas; como todas as
varincias so iguais, a relao corr(Xi, Yj)= cov(Xi,Yj)/[N(N+1)/2]
ocorre para todos os elementos das matriz.
Tem-se, portanto, que dada a matriz de varincias e covarincias C,
quadrada e simtrica de dimenso p, formada pelos elementos Cij, os elementos da
matriz de correlao de postos R = {Rij} podem ser obtidos simplesmente multiplicando-
se os elementos Cij por uma constante., ou seja,
12
Rij = C ij (50)
N( N + 1 )

Portanto, dada uma matriz de correlao de postos R = {Rij}, os


elementos da matriz de covarincias C ={Cij} podem ser obtidos simplesmente
multiplicando-se os elementos Rij por uma constante, ou seja, Cij =
[N(N+1)/12]Rij, o que no se obtm quando as variveis esto na escala original.
Alm disso, os autovalores dessas duas matrizes so proporcionais e seus autovetores
so iguais.
66

4 RESULTADOS E DISCUSSO

A utilizao de testes no-paramtricos na anlise de dados multivariados


tem esbarrado em alguns obstculos, especialmente devido falta de programas
computacionais que complementem a teoria. Os trabalhos discutidos na reviso
bibliogrfica mostram a utilizao de alguns testes, mas para a obteno dos valores-p
so utilizadas as distribuies assintticas, mesmo em situaes com poucas amostras,
em que esta no adequada. Em Dempster (1963 a, 1963b) dado um esboo de um
algoritmo para a utilizao da metodologia empregada, mas no foram encontradas
referncias a programas elaborados para tal fim. Assim, alm da discusso dos testes
multivariados no-paramtricos, objetiva-se apresentar alternativas computacionais para
a resoluo de problemas com a utilizao desses mtodos alternativos. No presente
trabalho so apresentadas algumas alternativas e/ou complementaes aos itens
transformao dos dados atravs da atribuio de postos de forma independente para
cada varivel e aplicao dos testes usuais da anlise de varincia multivariada aos
dados transformados e utilizao da composio de testes univariados no-paramtricos
em cada uma das variveis em estudo e composio desses resultados numa estatstica
nica.
Para medianas multivariadas diferentes da mediana formada pelo vetor
das medianas das variveis consideradas isoladamente (mediana componentwise), no
sero feitas discusses de testes alternativos j que esse tema vem sendo bastante
explorado na literatura. Alm disso, as medianas obtidas partem de conceitos
interessantes, mas no suficientemente amplos para serem consideradas medidas de
locao ideais quando a dimenso maior do que um.
67

Apenas como meno, deve-se retornar ao caso da mediana univariada.


Considerando um conjunto de dados ordenados x(1), x(2), ..., x(N), se N mpar, ou seja,
para K inteiro, N = 2K+1, a mediana definida inequivocamente como o valor de
ordem K+1, ou, equivalentemente, o valor de ordem (N+1)/2 (x([N+1]/2)). No caso em que
o nmero de elementos amostrais par (N = 2K) a mediana considerada como um
valor mdio entre os dados de ordem K e K+1 ou, equivalentemente, os dados de ordem
N/2 e N/2+1. A atribuio da mediana como a mdia desses valores arbitrria, ou seja,
qualquer valor entre x(K) e x(K+1) satisfaz as condies para ser o valor mediano de um
conjunto de dados, mas a escolha do ponto mdio, que no caso unidimensional, equivale
ao centro do segmento de reta cujos pontos extremos so os mencionados anteriormente,
tem sido consensual entre os pesquisadores.
Ampliando esse conceito para o caso bidimensional, considerando o
conjunto de vetores de dados bidimensionais (xi1 ,xi2), i=1,...,N, se N mpar, a mediana
um ponto pertencente ao conjunto de dados, ou seja, Md2 = (x([N+1]/2)1, x([N+1]/2)2). Se N
par, a mediana pode ser qualquer ponto dentro do plano cujos pontos extremos (x(N/2)1,
x(N/2)2), (x(N/2+1)1, x(N/2)2), (x(N/2)1, x(N/2+1)2) e (x(N/2+1)1, x(N/2+1)2). Assim, existem infinitas
pontos que possuem as propriedades necessrias para serem consideradas como o ponto
mediano de um conjunto de dados bidimensionais. Esse conceito, considerando um
conjunto de pontos num hiperplano p-dimensional, indica que a mediana, quando se tm
N vetores p-dimensionais, correspondentes a cada um dos N pontos amostrais, com N
par, a mediana um ponto qualquer da figura formada pelos 2N pontos da forma
(x(j1)1,..., x(jp)p), com ji = N/2 ou ji = N/2 +1, para i = 1,...,p.

4.1 Exemplo 1. Dados fictcios (dois grupos e duas variveis)

Com o intuito de mostrar a falta de adequao dos mtodos assintticos


para a obteno do valor-p na anlise multivariada, tomou-se como exemplo inicial
dados fictcios numa situao peculiar. Considerando uma amostra de n = 6 elementos
68

em cujos elementos foram medidas duas variveis e ainda, dois grupos ou tratamentos.
Os postos encontram-se na Tabela 1.

Tabela 1. Dados fictcios para uma amostra com dois grupos.

Grupos Varivel X1 Varivel X2


1 1 5
1 2 4
1 3 6
2 4 1
2 5 2
2 6 3

Na situao proposta, tem-se um total de 6 elementos divididos em dois


grupos com trs elementos cada. Considerando que os valores que so obtidos para o
elemento amostral i, dado pelo vetor X = (X1, X2), no so separveis devido suas
caractersticas intrnsecas, no caso geral o nmero de configuraes possveis dado por
6!/(3!3!). Como as amostras tm o mesmo tamanho e as comparaes a serem realizadas
bilateral e, alm disso, no ocorrem empates, podemos ainda dividir esse nmero pelo
fatorial do nmero de grupos. Portanto, nesse caso especfico, basta tomar 6!/[(3!3!)2!] =
10 configuraes. Assim, quando se considera que a aleatorizao ocorre entre os
elementos amostrais e no nos elementos combinados com as variveis, na configurao
em que ocorre a maior diferena entre os grupos, o valor-p obtido no dever ser menor
que 0,1. Ou seja, o menor valor-p possvel o mesmo para os casos uni e multivariado
devido indissolubilidade dos termos do vetor X.
Iniciando com a situao univariada, considerando separadamente as
variveis X1 e X2 e a comparao entre os testes t para amostras independentes e o teste
de Wilcoxon-Mann-Whitney, tem-se que:
69

i) tanto para a varivel X1 como para a varivel X2, o teste t indica


diferenas significativas entre os grupos ou tratamentos, com um
valor-p igual a 0,021;
ii) para ambas as variveis, consideradas isoladamente, pelo teste de
Wilcoxon-Mann-Whitney obtm-se um valor-p igual a 0,100.
iii) A correlao de Spearman (postos) entre as variveis X1 e X2
0,600, mas o teste indica que no significativa (valor-p = 0,208), o
que pode ser explicada pelo pequeno tamanho amostral.
Essa forte discrepncia entre os resultados dos testes t e Wilcoxon-Mann-
Whitney, no caso univariado, tende a se acentuar no caso multivariado. Considerando
agora as variveis conjuntamente e utilizando qualquer software estatstico que resolva
problemas multivariados, os resultados dos testes multivariados mais comuns (Wilks,
Roy, Pillai e Lawley-Hotteling) coincidem, indicando diferenas significativas entre os
grupos (valor-p igual a 0,007).
O procedimento de teste, no caso permutacional, feito considerando
cada uma das configuraes possveis. Calcula-se, inicialmente, a estatstica do teste de
Wilks para o conjunto de dados na sua forma original (Wc). Considerando c grupos, em
cada uma das n!/(n1!...nc!) configuraes, a estatstica referente ao teste de Wilk (Wi)
calculada. Observa-se que esse nmero de configuraes pode ser reduzido nos casos em
que no h empates entre as observaes e ainda o tamanho de todas as amostras dos
grupos so iguais. Nesse caso, o nmero de configuraes dado por n!/(n1!...nc!c!). O
valor-p dado pelo nmero de valores do teste de Wilks que so menores ou iguais ao
valor do mesmo teste para os dados originais, dividido pelo nmero total de
configuraes possveis, ou seja
# ( Wi W c )
valor p = (51)
n

n1 ...n c
O nmero de configuraes possveis, dado por n!/(n1!n2!c!) = 6!/(3!3!2!)
= 10. Essas configuraes so mostradas na Tabela 2 e para cada uma delas foram feitos
os clculos necessrios para a obteno da estatstica de Wilks. Para todas as
70

configuraes, a matriz de variao total (H+E) no se modifica e o valor do seu


determinante 196. Para a configurao original dos dados, obtm-se o valor 0,0357
para a estatstica de Wilks, que o menor dos dez valores possveis. Assim, o valor-p
para o teste de permutaes considerado igual a 0,10.

Tabela 2. Teste de Wilks para as configuraes com dois grupos de trs elementos.
Grupos Lambda
Configuraes Variveis 1 1 1 2 2 2 Det(E) de Wilks
1 X1 1 2 3 4 5 6 7.00 0.0357
X2 5 4 6 1 2 3
2 X1 1 2 4 3 5 6 25.67 0.1310
X2 5 4 1 6 2 3
3 X1 1 2 5 3 4 6 137.67 0.7024
X2 5 4 2 6 1 3
4 X1 1 2 6 3 4 5 175.00 0.8929
X2 5 4 3 6 1 2
5 X1 1 3 4 2 5 6 149.33 0.7619
X2 5 6 1 4 2 3
6 X1 1 3 5 2 4 6 149.33 0.7619
X2 5 6 2 4 1 3
7 X1 1 3 6 2 4 5 74.67 0.3810
X2 5 6 3 4 1 2
8 X1 1 4 5 2 3 6 102.67 0.5238
X2 5 1 2 4 6 3
9 X1 1 4 6 2 3 5 177.33 0.9048
X2 5 1 3 4 6 2
10 X1 1 5 6 2 3 4 177.33 0.9048
X2 5 2 3 4 6 1
71

Portanto, considerando o nvel de significncia igual a 5%, a hiptese de


diferena entre os grupos ou tratamentos no rejeitada. Esse resultado difere
consideravelmente daquele obtido com a utilizao dos testes usuais da anlise de
varincia multivariada paramtrica sobre os postos das variveis, nos quais o valor-p foi
igual a 0,007 e, portanto, indicando diferenas significativas ao nvel de 5%. Verifica-se
ainda que o resultado do teste de Wilks equivalente ao teste utilizando o trao de Pillai,
indicando um valor-p igual a 0,10.
No presente caso, o resultado obtido com o teste multivariado
semelhante quele obtido quando se atribuem postos considerando conjuntamente as
variveis. Nesse caso, atribuem-se postos da forma usual para a primeira varivel e, para
a segunda varivel, os postos so atribudos na mesma direo, se a correlao entre elas
for significativamente positiva, e na direo contrria (menores postos para os maiores
valores), se a correlao for negativa. Nesse caso, considerando a configurao 1 como
sendo correspondente configurao original dos dados, o valor-p para o teste de
Wilcoxon-Mann-Whitney foi igual a 0,004. Considerando a configurao 2 como a
original, obtm-se, para o teste de Wilcoxon-Mann-Whitney, o valor-p igual a 0,200 e,
para os testes multivariados, o valor-p igual a 0,235.
Entretanto, no foi possvel comprovar teoricamente a compatibilidade
dos resultados obtidos dessa maneira com o resultado multivariado. Alm disso, o
clculo da estatstica numa situao desse tipo, atravs dos testes de permutaes,
desrespeita uma condio bsica que a indissolubilidade dos dados de cada indivduo e
ainda, quando as medidas so feitas em mais do que duas variveis, a atribuio pode
tornar-se confusa.

4.2 Exemplo 2. Dados fictcios (trs grupos e trs variveis)


Nesse segundo exemplo foram considerados trs grupos, cada um deles
com dois elementos (n1 = n2 = n3 = 2), totalizando n = 6 elementos amostrais. Como o
nmero de elementos em todas as amostras so iguais, o nmero de configuraes
possveis dado por 6!/[(2!2!2!)3!] = 15. Assim, o menor valor-p que pode ser obtido,
considerando a situao de maior diferena entre os grupos, 1/15 = 0,06667. Como no
72

exemplo anterior, a pequena amostra utilizada tem apenas finalidade de observao dos
resultados j que testes nessas condies no resultam em resultados bem definidos em
relao significncia da diferena entre grupos.
Os testes usuais da anlise de varincia multivariada aplicados indicam
contradies em relao aos resultados, havendo significncia ao nvel de 5% para o
teste de Pillai (valor-p = 0,020) e no havendo para o teste de Wilks (valor-p = 0,102).
Essa contradio ocorre tambm quando se consideram os dados permutados e os
resultados dos testes referidos em cada uma das 15 configuraes obtidas. A Tabela 3
indica essa contradio.

Tabela 3. Resultados do teste de Wilks (i) e do teste de Pillai (Vi) para as configuraes
considerando trs tratamentos, cada um com duas repeties.

Configuraes 1 2 3 V
1 0,1669813 0,0677962 0,1097315 0,0012422 1,8782609
2 0,9922407 0,0413551 0,6130312 0,0251553 1,0074534
3 0,9061219 0,0635926 0,9108311 0,0524845 1,0919255
4 0,3269545 0,0002580 0 0 1,8385093
5 0,3549270 0,5272139 0,0414914 0,0077640 1,4869565
6 0,5255346 0,788418 0,1686432 0,0698758 0,9850930
7 0,4455292 0,1905297 0,0146341 0,0012422 1,1329193
8 0,4825949 0,5206334 0,5450897 0,1369565 1,0447205
9 0,7393214 0,9080867 0,8553039 0,5742236 0,4583850
10 0,8382610 0,5329357 0,4004170 0,1788820 1,1006211
11 0,8473542 0,5852524 0,1227417 0,0608696 1,3639752
12 0,3067938 0,6038559 0,0067054 0,0012422 1,2968944
13 0,8914161 0,8244249 0,4327255 0,3180124 0,812422
14 0,9866281 0,9017842 0,0684139 0,0608696 0,991304
15 0,1893414 0,1500961 0,3933978 0,0111801 1,510559
73

O teste realizado com as permutaes, utilizando o trao de Pillai, mais


consistente. Isso pode ser explicado porque o teste mais robusto para pequeno tamanho
amostral. No caso do teste de Wilks, algumas configuraes, que no diferenciam tanto
os tratamentos quanto a primeira configurao, resultam em valores menores ou iguais
ao da estatstica, enquanto que isso no acontece com o teste utilizando o trao de Pillai.
Utilizando a estatstica de Wilks para obteno do valor-p atravs do teste de
permutaes, obtm-se o valor-p = 3/14 = 0,214286. Foi retirada a configurao 4 pois o
resultado incoerente. No caso do trao de Pillai, a estatstica referente primeira
configurao a maior dentre as quinze estatsticas obtidas e, portanto, o valor-p igual
a 0,06667. A utilizao de combinaes de valores-p, atravs do mtodo de Fisher pode
ser uma boa alternativa. Para isso, devemos considerar os resultados individuais que
estruturam a construo da estatstica de Wilks, como em Dempster (1963b) e calcular,
para cada um desses resultados individuais, um valor-p. Os valores-p so ento
combinados pelo mtodo de Fisher. Assim, considerando a primeira configurao como
a que foi obtida no experimento, os valores-p para 1, 2 e 3 so, respectivamente,
0,06667, 0,26667 e 0,357143. O denominador do ltimo valor-p 14 devido
inconsistncia do resultado da configurao 4. Assim, a estatstica combinada dos
valores-p dada por T = 2 log ( p1 p 2 p 3 ) = 7 ,783641 .
Esse valor comparado com a distribuio de Qui-quadrado com seis
graus de liberdade e obtm-se um valor-p conjunto igual a 0,119735. Observa-se que as
estatsticas exatas de Kruskal-Wallis para as trs variveis, analisadas isoladamente, so
iguais a 0,0667, 0,0667 e 0,2000.

4.3 Exemplo 3. Dados de Anselmo (2005)

Os dados apresentados neste exemplo referem-se aos fatores psicolgicos


que podem contribuir com as desordens temporomandibulares (DTM). O objetivo do
estudo era verificar a evoluo da prevalncia dos distrbios psiquitricos menores em
pacientes portadores de DTM, tratados com aparelhos de superfcie oclusal plana e
reabilitao oral. As variveis medidas foram stress psquico (SP), desejo de morte
74

(DM), desconforto (DD), distrbio do sono (DS), distrbio psquico (DP) e sade geral
(SG), sendo que esta ltima uma combinao das variveis anteriores. No total, 58
pacientes foram selecionados, 29 de cada sexo, na faixa etria de 21 a 75 anos. Em cada
grupo de sexo, metade dos pacientes foi submetida ao tratamento (reabilitao oclusal
prottica) para DTM e a outra metade, denominada grupo controle, no foi submetido a
nenhum tratamento para DTM.
Os pacientes, submetidos ou no ao tratamento, foram entrevistados antes
do incio do experimento. Aps o tratamento feito apenas em um dos grupos, os
pacientes foram novamente entrevistados. Assim, tem-se dois valores para cada uma das
variveis, uma ao incio e outra ao trmino do experimento. possvel desta forma saber
se houve alterao nas respostas aps a aplicao do tratamento, para o grupo que a ele
se submeteu, comparando-se com o outro grupo, que em nenhum momento foi tratado.
Assim, 28 pacientes foram submetidos reabilitao oclusal prottica,
seja ela com prteses parciais fixa, removveis ou totais, ou ainda uma combinao de
ambos, aps a reabilitao foram novamente submetidos aplicao do QSG. Os outros
30 no foram submetidos reabilitao prottica e responderam novamente ao QSG.
Estes grupos sero denominados tratados e no tratados.
Os resultados apresentados so oriundos das respostas dos pacientes ao
QSG (Questionrio de Sade Geral de Goldberg), utilizado para a determinao dos
distrbios psiquitricos menores e do questionrio do CETASE - Centro de Estudos e
Tratamento das Alteraes Funcionais do Sistema Estomatogntico, da Faculdade de
Odontologia de Piracicaba - Unicamp. Os valores das seis variveis podem variar de
1,000 a 4,000 e a utilizao de testes individuais, baseados na distribuio normal ou t
de Student, pode no ser apropriada. Tambm no caso multivariado, a aplicao dos
testes usuais, baseados nas pressuposies de multinormalidade, homogeneidade das
matrizes de varincias e covarincias e ausncia de pontos discrepantes, pode no ser
correta. A tabela 4 mostra o tamanho das amostras e as mdias de cada uma das
variveis para cada um dos quatro grupos (feminino tratado, feminino no-tratado,
masculino tratado e masculino no-tratado), ao incio e ao final do experimento (antes e
depois).
75

Tabela 4. Tamanho da amostra e mdias, para cada grupo, antes e depois do tratamento.

Sexo Situao Tempo N SP DM DD DS DP


Feminino Tratados Antes 14 2,094 1,164 1,706 1,635 2,079
Depois 14 1,452 1,136 1,692 1,367 1,251
No tratados Antes 15 2,189 1,491 2,160 2,004 2,207
Depois 15 2,178 1,571 2,000 2,068 2,320
Masculino Tratados Antes 14 1,757 1,260 1,675 2,161 2,437
Depois 14 1,678 1,086 1,815 1,696 1,686
No tratados Antes 15 2,034 1,248 1,824 2,253 2,286
Depois 15 2,150 1,332 1,705 2,224 2,158
Geral Tratados Antes 28 1,925 1,212 1,691 1,898 2,258
Depois 28 1,565 1,111 1,754 1,531 1,469
No tratados Antes 30 2,111 1,370 1,992 2,128 2,246
Depois 30 2,164 1,452 1,852 2,146 2,239

Os resultados da Tabela 4 j nos do uma indicao do que ocorre com os


valores obtidos para cada uma das variveis em cada um dos grupos, nos casos dos
sexos feminino e masculino, respectivamente. Percebe-se a ao do tratamento, agindo
de forma a acelerar as diferenas entre os grupos, tanto pela diminuio ou aumento
mais acentuado do valor da varivel como pela inverso do efeito que ocorre entre os
tratados e no tratados. Estas diferenas sero melhores exploradas quando forem
discutidos os testes especficos em cada caso.
Os dados no so adequados para a utilizao de testes paramtricos
devido ao seu truncamento (s pode assumir valores entre 1 e 4) e a maneira como esses
dados so obtidos, ou seja, atravs de perguntas de questionrios s quais so atribudos
valores de 1 a 4, caracteriza a utilizao de testes no paramtricos, mais adequados a
esse tipo de informao (Pereira, 1999).
76

Entretanto, foram feitos os testes para verificar a adequao dos dados


testes paramtricos, ou seja, verificou-se se os resduos aderem a uma distribuio
normal, se a variabilidade dos grupos so homogneas e se no ocorrem pontos
discrepantes (outliers).
Para realizar estas verificaes, considera-se a forma como os dados
foram obtidos. Inicialmente, o pesquisador buscou elementos dentro das caractersticas
de faixa etria e sexo, tomando dois grupos separadamente. Assim, nesta etapa do
processo no h aleatorizao. Em seguida, metade dos pacientes foi escolhida
aleatoriamente para fazer parte do grupo que receberia o tratamento, enquanto que a
outra metade no receberia. Em seguida duas medidas foram tomadas, antes e depois.
Portanto, o esquema de anlise no caso paramtrico inteiramente
casualizado, com parcelas subdivididas. As parcelas referem-se aos grupos de elementos
tratados e no tratados, enquanto que as subparcelas so os tempos em que os
questionrios foram respondidos (antes e depois).
Cada sexo analisado separadamente e em seguida, comparaes entre os
sexos para cada caso podem ser realizadas. A tabela 4 mostra os resultados dos testes de
Shapiro-Wilk para verificar a normalidade dos resduos e o de Bartlett referente
homogeneidade de varincias para cada uma das variveis, alm de informar sobre a
presena ou no de valores discrepantes para o sexo masculino.
Verifica-se que, para as variveis SP, DM, DD e SG no h normalidade
dos resduos e para as variveis SP e SG foram verificados valores discrepantes. A
heterogeneidade das varincias s ocorre no caso da varivel DD.
Assim, no caso dos valores referentes ao sexo masculino, para a maior
parte das variveis (SP, DM, DD e SG) no aconselhvel o uso de testes paramtricos.
No caso do sexo feminino, em todas as variveis ocorre algum problema
em pelo menos uma das pressuposies. Em duas delas, DM e SG, tem-se as trs
pressuposies no atendidas. Assim como para os dados relativos ao sexo masculino,
comprova-se que a utilizao de testes baseados na distribuio normal, no so
adequados. Portanto, recomenda-se a utilizao de testes no-paramtricos em ambos os
sexos e em todas as variveis.
77

Tabela 5. Teste de normalidade, homogeneidade de varincias e indicao da presena


de valores discrepantes para as variveis em estudo - sexo masculino.

Variveis Teste de S-W1 Teste de Bartlett Outliers (S ou N)


SP Estatstica 0,9741 2,999 S
Valor-p 0,0272 0,392
DM Estatstica 0,9005 6,749 N
Valor-p < 0,010 0,080
DD Estatstica 0,9754 10,826 N
Valor-p 0,0331 0,013
DS Estatstica 0,9805 0,559 N
Valor-p 0,0662 0,906
DP Estatstica 0,9909 6,606 N
Valor-p > 0,100 0,086
1
S-W Shapiro-Wilk

Tabela 6. Teste de Normalidade, de homogeneidade de varincias e indicao da


presena de valores discrepantes para as variveis em estudo - sexo feminino.

Variveis Teste de S-W1 Teste de Bartlett Outliers (S ou N)


SP Estatstica 0,9686 5,798
Valor-p < 0,01 0,122 S
DM Estatstica 0,8966 30,151
Valor-p < 0,01 < 0,001 S
DD Estatstica 0,9826 9,435
Valor-p 0,0943 0,024 S
DS Estatstica 0,9287 1,736
Valor-p < 0,01 0,629 N
DP Estatstica 0,9936 22,146
Valor-p > 0,10 < 0,001 N
1
S-W Shapiro-Wilk
78

Inicialmente, foram feitas as comparaes entre elementos dos dois


grupos, para cada sexo e conjuntamente, antes da aplicao do tratamento, para saber se
o comportamento dos dados permitiria a utilizao de uma varivel combinando os
resultados referentes aos tempos antes e depois. As Tabelas 7, 8 e 9 mostram os
resultados dos testes de Wilcoxon-Mann-Whitney (W-M-W) considerando o sexo
feminino, o sexo masculino e ambos os sexos conjuntamente, respectivamente.

Tabela 7. Teste de W-M-W comparando os grupos para o sexo feminino - antes.

Mdia dos Postos


Variveis NTrat Trat Estatstica U Valor-p
SP 14,77 15,25 101,5 0,889
DM 16,20 13,71 87,0 0,421
DD 17,33 12,50 70,0 0,131
DS 16,93 12,93 76,0 0,210
DP 15,80 14,14 93,0 0,612

Tabela 8. Teste de W-M-W comparando os grupos para o sexo masculino - antes.

Mdia dos Postos


Variveis NTrat Trat Estatstica U Valor-p
SP 17,07 12,79 74,0 0,180
DM 15,27 14,71 101,0 0,866
DD 16,13 13,79 88,0 0,467
DS 15,57 14,39 96,5 0,722
DP 13,90 16,18 88,5 0,481

Os testes para todas as variveis no foram significativos, indicando no


haver diferenas entre os grupos (no tratados e tratados) no perodo antes, tanto para os
79

elementos do sexo feminino como para os elementos de sexo masculino e tambm


considerando ambos os sexos conjuntamente. Com a juno dos dois grupos de sexo
numa mesma anlise, os resultados no se alteram e, ao mesmo tempo, a anlise fica
mais confivel.

Tabela 9. Valores de interesse para o teste de W-M-W para comparao entre os grupos
para ambos os sexos- antes.

Mdia dos Postos


Variveis NTrat Trat Estatstica U Valor-p
SP 31,22 27,66 368,5 0,427
DM 31,22 27,66 368,5 0,405
DD 32,77 26,00 322,0 0,128
DS 31,77 27,07 352,0 0,293
DP 29,03 30,00 406,0 0,832

Assim, devido ao fato de no haver diferenas entre os grupos antes do


tratamento, realizou-se a anlise alterao, para cada varivel, combinando os valores de
antes e depois da aplicao dos tratamentos. Essas novas variveis sero aqui
denominadas na sua forma geral como ALT_zz, em que zz pode representar qualquer
uma das variveis originais SP, DM, DD, DS ou DP. Assim, as novas variveis a serem
analisadas so ALT_SP, ALT_DM, ALT_DD, ALT_DS e ALT_DP, que so calculadas
subtraindo-se os valores aps a aplicao do tratamento dos valores antes da aplicao e
dividindo-se o resultado obtido pelo valor antes da aplicao do tratamento, ou seja, para
uma varivel qualquer tem-se que
ALT_zz = (zzantes - zzdepois)/zzantes
Observa-se que a varivel poderia ser dada na forma percentual, no
alterando os resultados a serem obtidos. Os resultados obtidos com as variveis ALT_zz
so semelhantes aos das variveis no transformadas e as anlises dos dados
80

transformados encontram-se nas Tabela 10, 11 e 12, para os sexos tomados


conjuntamente, sexo feminino e masculino, respectivamente.
Pode ser percebido que as diferenas entre os tratados e no-tratados
ocorre em quatro das cinco variveis, no ocorrendo na varivel DD, como ocorreu com
os dados originais. Esta repetio dos resultados deve-se ao fato de que antes do
tratamento no houve uma variao significativa dos valores das medidas. Observando-
se o comportamento de cada sexo, separadamente, percebe-se claramente diferenas. Os
elementos do sexo feminino responderam melhor ao tratamento do que os do sexo
masculino.

Tabela 10. Teste W-M-W entre tratados e no tratados, ambos os sexos - Variveis
ALT_zz.

Mdia dos Postos


Variveis Ntrat (30) Trat (29) Estatstica U Valor-p
ALT_SP 34,73 23,89 263,0 0,014
ALT_DM 33,68 25,02 294,5 0,045
ALT_DD 27,08 32,09 347,5 0,262
ALT_DS 33,68 25,02 294,5 0,050
ALT_DP 37,87 20,54 169,0 < 0,001

Tabela 11. Teste W-M-W entre tratados e no tratados sexo feminino - Variveis
ALT_zz.

Mdia dos Postos


Variveis Ntrat (15) Trat (14) Estatstica U Valor-p
ALT_SP 10,57 19,75 38,5 0,003
ALT_DM 12,73 17,43 71,0 0,138
ALT_DD 15,60 14,36 96,0 0,707
ALT_DS 11,87 18,36 58,0 0,039
ALT_DP 10,70 19,61 40,5 0,004
81

Apenas para as variveis ALT_DP e ALT_DD os resultados do teste


coincidem para ambos os sexos. Para as outras variveis consideradas, constatam-se
diferenas significativas entre tratados e no tratados, enquanto que para o sexo
masculino essa diferena no detectada pelo teste. Para o teste entre os sexos, nenhuma
das variveis foi significativa, conforme ocorreu quando foram observados os resultados
separadamente (Tabela 13).

Tabela 12. Valores de interesse para o teste W-M-W entre tratados e no tratados sexo
masculino - Varivel ALT_zz.

Mdia dos Postos


Variveis Ntrat (15) Trat (14) Estatstica U Valor-p
ALT_SP 14,70 15,32 100,5 0,855
ALT_DM 13,20 16,93 78,0 0,226
ALT_DD 17,03 12,82 74,5 0,188
ALT_DS 13,47 16,64 82,0 0,330
ALT_DP 10,90 19,39 43,5 0,006

Tabela 13. Valores de interesse para o teste W-M-W entre os sexos masculino e
feminino e valores-p Varivel ALT_zz.

Mdia dos Postos


Variveis Fem Masc Estatstica U Valor-p
ALT_SP 25,90 33,10 316,0 0,105
ALT_DM 30,71 28,29 385,5 0,583
ALT_DD 27,21 31,79 354,0 0,305
ALT_DS 30,28 28,72 398,0 0,730
ALT_DP 30,59 28,41 389,0 0,629
82

A anlise multivariada dos dados de Anselmo (2005) ser feita


inicialmente para os pacientes do sexo feminino, excluindo os resultados da varivel SG
(sade geral), tendo em vista que ela obtida por combinao linear das outras
variveis. Tem-se ento cinco variveis, stress psquico (SP), desejo de morte (DM),
desconforto (DD), distrbio do sono (DS) e distrbio psquico (DP). Como no h
interesse em discutir os resultados referentes s diferenas entre os tempos (antes e
depois), far-se- apenas a anlise das variveis ALT_SP, ALT_DM, ALT_DD, ALT_DS
e ALT_DP. Os resultados dos testes univariados foram apresentados na Tabela 11,
indicando que so significativas as diferenas entre tratados e no-tratados para as
variveis ALT_SP, ALT_DS e ALT_DP.

Tabela 14. Coeficiente de correlao de Spearman para as variveis estudadas e


respectivos valores-p.

ALT_SP ALT_DM ALT_DD ALT_DS ALT_DP


ALT_SP 1,000

ALT_DM 0,454 1,000


(0,013)
ALT_DD 0,291 0,169 1,000
(0,125) (0,382)
ALT_DS 0,645 0,542 0,399 1,000
(<0,001) (0,002) (0,032
ALT_DP 0,532 0,375 0,226 0,603 1,000
(0,003) (0,045) (0,238) (0,001)
Obs.: valores-p entre parntesis.

Entretanto, deve-se observar se existem correlaes significativas entre as


variveis. O teste para o coeficiente de correlao de Spearman indica que h correlao
significativa, ao nvel de 5% de significncia (Tabela 14), entre os pares de variveis
83

ALT_SP e ALT_DM, ALT_SP e ALT_DS, ALT_SP e ALT_DP, ALT_DM e ALT_DS,


ALT_DM e ALT_DP, ALT_DD e ALT_DS, ALT_DS e ALT_DP. Essas correlaes
significativas indicam que a anlise dos dados feita de forma individual, no a mais
adequada nesse caso.
A anlise de varincia multivariada (MANOVA) tende a dar melhores
respostas nesses casos. Entretanto, as pressuposies para a realizao da anlise de
varincia multivariada nessa situao se constituem obstculos que podem influenciar
nos resultados, podendo mascarar as concluses que adviro dos testes da MANOVA
usual.
Nessas situaes, a anlise no-paramtrica tende a ser mais adequada,
gerando resultados mais consistentes. Foram aplicados os mtodos sugeridos na seo 3.
Inicialmente, os dados originais foram substitudos por seus postos, com essa atribuio
feita de forma isolada para cada varivel considerada.
Assim, para cada varivel, atribuem-se postos de 1 a 29, sendo 1 para o
menor valor, 2 para o segundo menor valor, e assim por diante, at o posto 29 para o
maior valor da varivel. Empates entre valores das variveis foram tratados da forma
usual, ou seja, atribuiu-se o posto mdio das posies relativas dos elementos
empatados. As variveis assim obtidas sero denominadas rAlt_zz.
Foram aplicados os testes multivariados usuais aos dados, com e sem a
transformao em postos, ou seja, o trao de Pillai, o teste de Wilks, o trao de Hotelling
e a maior raiz caracterstica de Roy, aos valores das variveis ALT_zz.

Tabela 15. Resultados dos testes de Pillai e de Wilks para os dados transformados em
postos e dados originais variveis ALT_zz e rALT_zz.
Variveis Testes Valor da Estatstica F Valor-p
ALT_zz Trao de Pillai 0,51199 4,826 0,004
Lambda de Wilks 0,48801 4,826 0,004
rALT_zz Trao de Pillai 0,54471 3,845 0,011
Lambda de Wilks 0,45529 3,845 0,011
84

Como h apenas dois tratamentos ou grupos, todos esses testes indicam


os mesmos resultados, equivalentes ao T2 de Hotelling, ou seja, o valor-p para a
diferena entre os grupos 0,004. Assim, ao nvel de 1% de significncia, rejeita-se a
hiptese de igualdade entre os grupos tratados e no-tratados. Os resultados dos testes de
Pillai e de Wilks encontram-se na Tabela 15.
Os resultados mostrados na Tabela 15 indicam discrepncias entre os
valores-p obtidos com os dados transformados em postos em relao aos dados originais,
para ambos os testes, quando se consideram concluses a serem tomadas com um nvel
de significncia de 1%. A verificao da multinormalidade pode ser feita com o teste
para a curtose e simetria multivariadas (Mardia, 1970), para o qual utilizou-se um
programa em SAS (Khattree & Naik, 1996). Ambos os testes indicam que a distribuio
normal multivariada no adequada para se estudar os dados tendo em vista que, tanto
para o teste da curtose como para o teste de simetria, os valores-p foram menores que
0,0001. Assim, os resultados em que foram utilizados os dados transformados em postos
tendem ser mais adequados do que queles calculados com os dados originais. Foram
ento aplicados os dois mtodos propostos nesse trabalho aos dados.
Para a aplicao do mtodo 1, verifica-se inicialmente que o nmero de
configuraes que podem ser geradas a partir da permutao dos dados igual a
29!/(15!14!) = 77558760. A gerao de todas a permutaes necessrias para o teste
exato proibitiva em termos de tempo computacional e os resultados obtidos com a
gerao de um grande nmero de combinaes aleatrias tm sido bem aceitos como
aproximaes dos respectivos valores exatos.
Construiu-se ento um programa na linguagem C, com a finalidade de
efetuar a gerao das combinaes requeridas e calcular o valor-p para o teste. O
referido programa computacional foi elaborado a partir de uma adaptao para o caso
multivariado dos programas apresentados por Pontes (2000), Pontes & Corrente (2000),
Pontes & Corrente (2001) e Pontes & Corrente (2005).
Considerando que a aleatorizao deve ocorrer para os n elementos
amostrais e que, no importando o nmero de variveis que esto sendo consideradas,
so permutados os indivduos para a obteno de cada configurao, o nmero total de
85

configuraes possveis para uma determinada distribuio dos n indivduos em c grupos


de tamanhos ni (i = 1,...,c) dado por NP = n!/(n1!n2!...nc!). Se os grupos tm todos o
mesmo tamanho, ou seja, ni = m para todo i, e ainda as comparaes a serem feitas so
bilaterais, esse nmero pode ser reduzido para NP = n!/[(m!)cc!]. Assim, para pequenas
amostras, em que o nmero de configuraes est abaixo de 500000, todas as
permutaes, de uma forma sistemtica, so efetuadas e o valor-p obtido exato. No
caso em que o nmero de configuraes supera esse valor, 39999 configuraes
aleatrias so construdas pelo programa e o valor-p calculado aproximado. O clculo
do valor-p feito da seguinte forma:
a) calcula-se o valor da estatstica para os dados transformados em
postos na configurao original;
b) para cada configurao obtida, seja na forma sistemtica ou na
aleatria, calcula-se a estatstica de teste de interesse;
c) obtm-se nc, que o nmero de estatsticas que so maiores ou iguais
estatstica da configurao original, no caso do trao de Pillai e o
contrrio para a estatstica referente ao teste de Wilks;
d) no caso sistemtico, simplesmente divide-se nc pelo nmero total de
configuraes possveis para a obteno do valor-p exato;
e) no caso aleatrio, o valor-p obtido por (nc + 1)/40000; o acrscimo
de uma unidade no numerador e no denominador da razo deve-se ao
fato de se considerar o valor original da estatstica no cmputo do
valor-p.
No presente caso, devido ao grande nmero de permutaes requeridas,
utilizou-se o mtodo aleatrio. Assim, foram calculadas pelo programa, 39999
permutaes aleatrias e, para cada uma delas, o valor da estatstica do teste de Pillai foi
calculada. Deve-se recordar que a estatstica do teste de Pillai (trao de Pillai) dada por
p
[
V = tr E (E + H )
1
] = 1 +
1
+
2
1 + 2
+ ... +
1+ p
(52)
1
86

em que E a matriz de disperso dos erros, H a matriz de disperso das hipteses,


H+E a matriz de disperso total e i , i=1,...,p , 1 2 . ... p so os autovalores da
matriz E-1H.
A estatstica para o teste de Wilks (lambda de Wilks) obtida por
E 1 1 1
= = ... (53)
H+E 1 + 1 1 + 2 1 + c

Observa-se que, no caso em que se tomam as permutaes, a matriz de


disperso total H+E fixa para o conjunto de dados observados. Assim, para a obteno
do valor-p permutacional, no caso do teste de Pillai, basta calcular o trao da matriz E e,
no caso do teste de Wilks, seu determinante.
Aplicado o programa aos dados do exemplo, tem-se que o valor de nc,
que o nmero de estatsticas que so menores ou iguais estatstica da configurao
original, foi igual a 256 para o teste de Pillai, que representa um valor-p igual a 0,0064.
Portanto, o tratamento teve efeito significativo sobre o conjunto de variveis medidas.
Como existem apenas dois grupos, o teste de comparaes mltiplas no necessrio. O
detalhamento dessas diferenas pode ser feito observando as variveis individualmente,
como feito anteriormente. Contrastes multivariados podem ser adaptados, com a
utilizao do programa, para a obteno de intervalos de confiana como mostrado em
Katz & McSweeney (1980).
O segundo mtodo explicitado sugere a decomposio da estatstica de
Pillai. O mtodo sugerido por Dempster (1963a) foi aplicado aos dados de Anselmo
(2005). Novamente, as variveis ALT_SP, ALT_DM, ALT_DD, ALT_DS e ALT_DP
foram transformadas, de forma individual, em postos, obtendo-se ento as variveis
rALT_SP, rALT_DM, rALT_DD, rALT_DS e rALT_DP, respectivamente.
Para as variveis transformadas em postos, utilizando-se os programas
estatsticos computacionais disponveis, obteve-se o valor da estatstica de Pillai igual a
0,5447122. Decompondo essa estatstica de acordo com o mtodo proposto, cinco
valores so obtidos, cada um deles referente a uma combinao das variveis originais
que, multiplicados, retornam varivel original. As estatsticas obtidas podem ser
testadas separadamente, ou ainda, de acordo com Dempster (1963b) pode-se utilizar
87

apenas a maior ou a menor delas na composio do teste. Para os dados do exemplo,


tem-se a decomposio apresentada na Tabela 16.

Tabela 16. Valores da decomposio de trao de Pillai e respectivos valores-p.

I i Parmetros da Distribuio Beta Valores-p


1 0,7577849 (27/2, 1/2) 0,0067
2 0,8509555 (26/2, 1/2) 0,0424
3 0,8825422 (25/2, 1/2) 0,0801
4 0,9743207 (24/2, 1/2) 0,4342
5 0,9822911 (23/2,1/2) 0,5260
Trao de Pillai 0,5447122 0,011

Tabela 17. Valores da decomposio de trao de Pillai, resultados obtidos atravs do


programa e respectivos valores-p.

#(calci i)
I i ou V Valores-p ou Valores-p
(Distr.Beta) #(calci V) (Programa)
1 0,7577849 0,0067 127 0,0032
2 0,8509555 0,0424 1069 0,0267
3 0,8825422 0,0801 3024 0,0756
4 0,9743207 0,4342 17359 0,4331
5 0,9822911 0,5260 21743 0,5436
Trao de Pillai 0,5447122 0,0110 256 0,0064
88

A multiplicao dos i (i = 1,...,5) recompe a estatstica de teste


denominada trao de Pillai e, se os dados apresentassem as pressuposies para os testes
usuais da anlise de varincia multivariada, esses valores poderiam ser testados atravs
de uma distribuio Beta com parmetros (n c i + 1)/2 e (c i)/2 (Dempster, 1963b),
como apresentado na Tabela 16. Tem-se ainda que
1 2 3 4 5 = V = 0 ,5447122
Entretanto, como a matriz utilizada foi a matriz obtida a partir da
transformao dos dados em postos, obviamente que as pressuposies no foram
satisfeitas e assim, as aproximaes dos testes individuais, realizadas atravs da
distribuio Beta, no adequada. Como no mtodo anterior, podemos testar cada um
dos valores is obtidos, atravs dos testes de permutao.
Assim, para cada uma das configuraes possveis, obtm-se a
decomposio de acordo com o mtodo explicitado e calculam-se valores calci
(i=1,...,5) que sero comparados com aqueles obtidos na configurao original dos
dados.
89

4 CONCLUSES

A utilizao de mtodos multivariados voltados anlise de varincia


sempre teve, como ponto fraco, a dificuldade de obteno de resultados confiveis nos
casos em que as variveis envolvidas no preenchem os pressupostos necessrios para a
realizao dos testes usuais. Essas situaes so comuns nas diversas reas de pesquisa,
como, por exemplo, nas cincias humanas, em que escalas de valores so utilizadas
cotidianamente na aplicao de questionrios e, as variveis obtidas a partir dessas
escalas, tendem a ser combinadas com outras, em que escalas apropriadas aos testes
paramtricos ocorrem. Na ecologia e nas cincias agrrias em geral, inmeras medidas
baseadas em contagens, em escalas proporcionais ou ainda referentes a variveis
ordinais, so utilizadas concomitantemente.
Mtodos no-paramtricos univariados vlidos para uma grande gama de
situaes so encontrados na literatura e, mesmo no sendo suficientes para abranger
casos de experimentos mais complicados, cumprem um papel importante na resoluo
de problemas encontrados nas diversas reas do conhecimento. Ressente-se, obviamente,
de programas computacionais mais completos, que focalizem no s a utilizao de
testes gerais da anlise de varincia, mas tambm as comparaes mltiplas e obteno
de valores-p para contrastes entre mdias (ou medianas) de tratamentos.
O crescimento da capacidade computacional tem sido um aliado
importante no crescimento da utilizao de mtodos no-paramtricos nos diversos
campos de pesquisa, mas pouco tem sido feito para solucionar problemas envolvendo
mltiplas variveis.
A metodologia para a utilizao da anlise de varincia multivariada,
quando as pressuposies referentes a multi-normalidade dos resduos, homogeneidade
90

das matrizes de varincia dos tratamentos e ausncia de valores discrepantes (outliers),


tem se revelado de grande utilidade nos diversos campos da cincia, mas as exigncias
para a validade dos testes a ela relacionados tm sido fortes obstculos na busca de
solues robustas. Em geral, nesse tipo de anlise, as pressuposies so relevadas ou
enfraquecidas, para que solues sejam encontradas. Assim, quando ocorrem
correlaes importantes entre as variveis, que bastante comum quando elas so
medidas num mesmo indivduo, o mtodo multivariado se torna uma ferramenta
indispensvel.
O uso de combinao de testes para cada uma das variveis exige a
independncia das mesmas, mas quando isso ocorre, concluses isoladas so, na maioria
das vezes, mais interessantes para futuras utilizaes por parte do pesquisador.
Assim, devido s fortes pressuposies requeridas pela anlise
multivariada paramtrica e a forte demanda advinda do aumento do interesse numa
pesquisa mais abrangente, torna-se evidente a necessidade de mtodos que combinem as
potencialidades da anlise de varincia multivariada com a amplitude de utilizao dos
mtodos no-paramtricos.
A teoria para a realizao de testes no-paramtricos multivariados tem o
seu marco no livro de Puri & Sen (1971), mas o desenvolvimento de mtodos e
programas computacionais facilmente aplicveis, como no caso dos testes univariados
mais comuns, no ocorreu. Somente alguns mtodos, baseados em distncias entre os
dados, tiveram programas computacionais desenvolvidos e tm sido utilizados por
muitos pesquisadores.
Nos ltimos anos tem crescido o interesse por medidas centrais, em
substituio tradicional mediana obtida pela combinao das medianas obtidas para
cada varivel separadamente, denominada mediana componentwise ou simplesmente
mediana multivariada. Concomitantemente, testes no-paramtricos vm sendo
desenvolvidos para a utilizao dessas novas medidas nas comparaes entre duas ou
mais populaes. crescente o nmero de trabalhos publicados em revistas
especializadas focalizando a teoria e utilizao das medianas de Oja (Oja, 1983), o
centro mediano (Gower, 1983), dentre outras. Essas medidas, apesar de terem
91

propriedades interessantes de invarincia afim e de rotao, no so to simples de


serem calculadas e esto longe de serem medidas ideais de localizao por serem
influenciadas por valores discrepantes. Assim, a discusso dessas medidas no presente
trabalho foi feita com o objetivo de informar e ser informado, sem o intuito de utiliza-las
na obteno de mtodos multivariados para a verificao de diferenas entre grupos ou
tratamentos.
A mesma explicao pode ser aplicada aos mtodos multivariado
baseados nas distncias entre os pontos amostrais. Com a transformao dos dados
multivariados em distncias, passa-se do espao multidimensional para o espao
unidimensional, e testes so construdos para a verificao de diferenas entre a
variabilidade entre e dentro de tratamentos ou grupos. Vrios mtodos j esto
implementados em programas computacionais e tm sido aplicados pelos pesquisadores
numa gama de problemas relacionados s mais diversas reas do conhecimento humano,
com nfase na ecologia e cincias sociais.
Mtodos no-paramtricos com a utilizao da mediana multivariada
(componentwise) tm sido aplicados em algumas situaes com o uso dos programas
computacionais em que os mtodos da anlise de varincia multivariada so
disponibilizados, simplesmente substituindo-se os valores originais das variveis por
seus postos, com a atribuio feita isoladamente para cada uma das variveis em estudo.
Esse tipo de procedimento, que tem sua origem no trabalho de Puri & Sen (1971) e
outros correlatos, bem suportado pela teoria assinttica se o nmero de elementos
amostrados em cada grupo ou tratamento grande. Entretanto, isso nem sempre ocorre
e, nessas situaes, o procedimento utilizando a teoria assinttica pode ser falho,
levando a falsas concluses.
Os testes apresentados por Katz & McSweeney (1980), Schwertman
(1984) e Zwick (1985), apesar de serem interessantes do ponto de vista terico e serem
de utilizao simples nos casos com grandes amostras, necessitavam de uma
complementao computacional para sua utilizao em casos com poucas amostras. A
utilizao de resultados assintticos tem como pressuposio um grande nmero de
amostras, o que em muitos casos no ocorre. Buscar solues alternativas para a
92

resoluo de problemas com poucas amostras em testes multivariados motivou a


elaborao de um programa computacional, que pode ser solicitado, atravs de e-mail,
para sua utilizao. A linguagem de programao C foi escolhida para tal fim devido sua
rapidez de processamento e facilidade em seus comandos. Tentativas utilizando a parte
programvel de programas comerciais resultaram em programas lentos devido
necessidade de utilizao de um nmero grande de configuraes para a realizao de
testes de permutao. Obviamente que a rapidez de processamento no foi capaz de
impedir que o citado programa tivesse limitaes devido impossibilidade de analisar
todas as configuraes possveis quando o tamanho das amostras cresce.
Assim, o programa elaborado realiza todas as permutaes quando o
nmero de configuraes pequeno, do ponto de vista computacional. fixado um
nmero mximo para o qual as configuraes sistemticas so obtidas e esse valor pode
ser modificado de acordo com a capacidade do computador que vai ser utilizado. Caso o
nmero de configuraes seja maior do que o nmero estipulado, um nmero fixo
permutaes aleatrias utilizado na obteno o valor-p da estatstica de teste. Tambm
esse nmero de configuraes aleatrias pode ser escolhido pelo usurio. Essas
configuraes aleatrias levam a um valor-p aproximado. Em alguns programas
computacionais desenvolvidos com o mtodo de permutaes, tambm um intervalo de
confiana obtido, e o presente programa pode tambm ser adaptado para a obteno
dos limites desse intervalo.
Atravs do programa podem ser obtidos os valores-p para os mtodos
propostos, baseados nos critrios do teste de Wilks e do trao de Pillai, alm da tcnica
de desdobramento da estatstica de Wilks em componentes principais, de acordo com
Dempster (1963b). Testes de comparaes mltiplas baseadas em tcnicas semelhantes
ao mtodo univariado de Scheff tambm podem ser implementados utilizando-se o
programa desenvolvido.
A forma que os elementos amostrais so permutados deve estar de acordo
com as tcnicas de aleatorizao requeridas no experimento a ser analisado, sendo
sempre enfatizado que so esses elementos e no as variveis que devem ser trocados de
93

posio. Assim a matriz de variao total permanece constante em todas as


configuraes, o que diminui o esforo computacional.
Os resultados obtidos so promissores, mas a procura por uma estatstica
mais adequada para a realizao de testes considerando os postos deve continuar. Outras
situaes podem ser tambm objeto de trabalhos num futuro prximo. Uma delas a
utilizao dos componentes principais comuns, que agregam vrios grupos ou
tratamentos. Essa tcnica, desenvolvida por Flury (1984) pode ser utilizada em conjunto
com o mtodo da anlise de varincia multivariada stepwise, apresentada por Dempster
(1963a, 1963b).
A metodologia utilizada para a obteno de nveis de significncia exatos
(ou aproximados) adotada nesse trabalho pode ser estendida a outros tipos de ensaios,
como no caos univariado, bastando verificar como se processa a distribuio dos
tratamentos s unidades experimentais e construir as configuraes possveis a partir
dessa atribuio inicial. Uma tcnica bastante interessante que pode ser utilizada na
implementao da tcnica nesses tipos de delineamento a de excluso dos efeitos de
tratamentos que no sero testados, denominada realinhamento dos postos.
94

REFERNCIAS BIBLIOGRFICAS

ANDERSON, M.J. A new method for nonparametric multivariate analysis of variance.


Austral Ecology, v.26, p.32-46, 2001.

ANDREWS, D.F.; GNANADESIKAN, R.; WARNER, J.L. Transformations of


multivariate data. Biometrics, v.27, p.825-840, 1971.

ANSELMO, S.M. Fatores psicolgicos relacionados s desordens temporomandibulares:


avaliao de pacientes submetidos tratamento com aparelhos oclusais plano e
reabilitao oral. Piracicaba, 2005. 87p. Tese (Doutorado) Faculdade de
Odontologia de Piracicaba UNICAMP.

ARNOLD, H.J. Permutation support for multivariate techniques. Biometrika, v.51, n.1,
p.65-70, 1964.

ATKINSON, A.C.; MULIRA H.-M. The stalactite plot for the detection of multivariate
outliers. Statistics and Computing, v.3, p.27-35, 1993.

BELL, C.B.; SEN, P.K. Randomization procedures. In: KRISHNAIAH, P.R.; SEN, P.K.
(Ed.) Handbook of statistics. New York: Elsevier Science, 1984. v.4, cap.1, p. 1-29.

BERK, R.L.H.; COHEN, A. Asymptotically optimal methods of combining tests.


Journal of the American Statistical Association, v.74, n.368, p. 812-814, 1978.
95

BERRY, K.J.; MIELKE, P.W. Computation of exact probability for multi-response


permutation procedures (mrpp). Communications in Statistics: Simulation and
Computation, v.13, n.3, p.417-432, 1984.

BHAPKAR, V.P. Univariate and multivariate multisample location and scale tests. In:
KRISHNAIAH, P.R.; SEN, P.K. (Ed.). Handbook of statistics. New York: Elsevier
Science, 1984. v.4, cap.2, p. 31-62.

BIRNBAUM, A. Combining independent tests of significance. Journal of the


American Statistical Association, v.49, p.559-574, 1954.

BOYETT, J.M.; SHUSTER, J.J. Nonparametric one-sided tests in multivariate analysis


with medical applications. Journal of the American Statistical Association, v.72,
n.359, p.665-668, 1977.

BOYK, R.J. Spectral models for covariance matrices. Biometrika, v.89, p.159-182,
2002.

BRADLEY, R.A.; PATEL, K.M.; WACKERLY, D.D. Aproximate small-sample


distributions for multivariate two-sample nonparmetric tests. Biometrics, v.27,
p.515-530, 1971.

BROWN, B.M. Statistical uses of the spatial median. Journal of the Royal Statistical
Society, Series B, v.45, n.1, p.25-30, 1983.

CAMPOS, H. de. Estatstica experimental no-paramtrica. 4.ed. Piracicaba:


FEALQ, 1983. 349p.

CHAKRABORTY, B.; CHAUDHURI, P. On a transformation and re-transformation


technique for constructing an affine equivariant multivariate median. Proceedings of
the American Mathematical Society, v.124, n.4, p.2539-2547, 1986.
96

CHAKRABORTY, B.; CHAUDHURI, P.; OJA, H. Operating transformation


retransformation on spatial median and angle test. Statistica Sinica, v.8, p.767-784,
1998.

CHOI, K.; MARDEN, J. Multivariate analysis of variance using spatial ranks.


Sociological Methods & Research, v.30, n.3, p.341-366, 2002.

CHUNG, J.H.; FRASER, D.A.S. Randomization tests for a multivariate two-sample


problem. Journal of the American Statistical Association, v.53, p.729-735, 1958.

CLARKE, K.R. Non-parametric multivariate analysis of changes in community


structure. Australian Journal of Ecology, v.18, p.117-143, 1993.

CONOVER, W.J. Practical nonparametric statistics. 3.ed. New York: John Wiley,
1999. 584 p.

CONOVER, W.J.; IMAN, R.L. Rank transformations as a bridge between parametric


and nonparametric statistics.The American Statistician, v.35, n.3, p.124-129, 1981.

DEMPSTER, A.P. Multivariate theory for general stepwise methods. Annals of


Mathematical Statistics, v.34, p.873-883, 1963a.

DEMPSTER, A.P. Stepwise multivariate analysis of variance based on principal


variables. Biometrics, v.19, p.478-490, 1963b.

DIETZ, E.J. Bivariate nonparametric tests for the one-sample location problem. Journal
of the American Statistical Association, v.77, n.377, p.163-169, 1982.

DIETZ, E.J.; KILLEEN, T.J. A nonparametric multivariate test for monotone trend with
pharmaceutical applications. Journal of the American Statistical Association,
v.78, n.373, 1981.

EDGINGTON, E.S. Randomization tests. 3.ed. New York: Marcel Dekker, 1995.
409p.
97

FISHER, R.A. Statistical methods for research workers. 4.ed. Edinburgh: Oliver &
Boyd, 1932. 307 p.

FLURY, B.N. Common principal componentes in k groups. Journal of the American


Statistical Association, v.79, n.388, p.892-898, 1984.

FLURY, B.N. Common principal components and related multivariate models. New
York: John Wiley, 1988. 258p.

FOLKS, J.L. Combination of independent tests. In KRISHNAIAH, P.R.; SEN, P.K.


Handbook of statistics. New York: Elsevier Science, 1984. v.4, cap.6, p.113-121.

FRYER, J.G. On the nonparametric tests of David and Fix for the bivariate two-sample
location problem. Journal of the American Statistical Association, v.65, n.331,
p.1297-1307, 1970.

GIANNOTTI, J.G. Meta-anlise de parmetros genticos de caractersticas de


crescimento em bovinos de corte sob enfoques clssico e bayesiano. Piracicaba,
2004. 86p. Tese (Doutorado) - Escola Superior de Agricultura "Luiz de Queiroz",
Universidade de So Paulo.

GIESER, P.W.; RANDLES, R.H. A nonparametric test of independence between two


vectors. Journal of the American Statistical Association, v.92, n.438, 1997.

GOOD, I.J. On the weighted combination of significance tests. Journal of the Royal
Statistical Society, Series B, v.17, p.264-265, 1955.

GOOD, P. Permutation tests: a practical guide to resampling methods for testing


hypotheses. 2.ed. New York: Springer-Verlag, 2000. 270p.

GOWER, J.C. The mediancentre. Applied Statistics, v.23, n.3, p.466-470, 1974.

GOWER, J.C.; KRZANOWKI, W.J. Analysis of distance for structured multivariate


data and extensions to multivariate analysis of variance. Applied Statistics, v.48,
n.4, p.505-519, 1999.
98

HEDGES, L.V.; OLKIN, I. Statistical methods in meta-analysis. New York:


Academic Press, 1985. 392p.

HENZE, N. A multivariate two-sample test based on the number of nearest neighbor


type coincidences. Annals of Statistics, v.16, n.2, p.772-783, 1988.

HETTMANSPERGER, T.P.; RANDLES, R.H. A practical affine equivariant


multivariate median. Biometrika, v.89, n.4, p.851-860, 2002.

HETTMANSPERGER, T.P.; MTTNEN, J.; OJA, H. Affine-invariant multivariate


one-sample signed-rank tests. Journal of the American Statistical Association,
v.92, n.440, p.1591-1600, 1997.

HOLLANDER, M.; WOLFE, D.A. Nonparametric statistical methods. 2.ed. New


York: John Wiley, 1999. 787p.

HUH, M.-H.; JHUN, M.. Random permutation testing in multiple linear regression.
Communications in Statistics: Theory and Methods, v.30, n.10, p.2023-2032,
2001.

ITTENBACH, R.F.; CHAYER, D.E.; BRUININKS, R.H.; THURLOW, M.L.;


BEIRRNE-SMITH, M. Adjustment of young adults with mental retardation in
community settings: comparison of parametric and nonparametric statistica
techniques. American Journal of Mental Retardation, v.97, n.6, p.607-615, 1993.

JOHNSON, R.A.; WICHERN, D.W. Applied multivariate statistical analysis. New


Jersey: Prentice-Hall, 1999. 816p.

KANKAINEN, A.; TASKINEN, S.; OJA, H. On Mardias test of multinormality.


http://www.maths.jyu.fi/~ojahannu/files/icorsmars.ps (25 abr. 2005).

KATZ, B.M.; MCSWEENEY, M. A multivariate Kruskal-Wallis test with post hoc


procedures. Multivariate Behavoiral Research, v.15, p.281-297, 1980.
99

KHATTREE, R.; NAIK, D.N. Applied multivariate statistics with SAS software.
2.ed. Carey: Wiley Interscience; SAS Institute's Book by Users, 1996. 338 p.

KRZANOWSKI, W.J. Multifactorial analysis of distance in studies of ecological


community structure. Journal of Agricultural, Biological, and Environmental
Statistics, v.7, n.2, p.222-232, 2002a.

KRZANOWSKI, W.J. Orthogonal components for grouped data: review and


applications. Statistics in Transition, v.5, n.5, p.759-777, 2002b.

LEGENDRE, P.; ANDERSON, M.J. Distance-based redundancy analysis: testing


multispecies responses in multifactorial ecological experiments. Ecological
Monographs, v.69, n.1, p.1-24, 1999.

LITTELL, R.C.; FOLKS, J.L. Asymptotically optimal of Fisher's method of combining


independent tests II. Journal of the American Statistical Association, v.68, n.341,
p.193-194, 1973.

MALKOVICH, J.F.; AFIFI, A.A. On tests for multivariate normality. Journal of the
American Statistical Association, v.68, p.176-179, 1973.

MANLY, B.F.J. Multivariate statistical methods: a primer. 2. ed. London: Chapman


& Hall, 1997. 215p.

MANTEL, N.; VALAND, R.S. A technique of nonparametric multivariate analysis.


Biometrics, v.26, p.547-558, 1970.

MARDIA, K.V. Measures of multivariate skewness and kurtosis with applications.


Biometrika, v.57, n.1, p.519-530, 1970.

MARDIA, K.V. The effect of nonnormality on some multivariate tests and robustness to
nonnormality in the linear model. Biometrika, v.58, n.1, p.105-121, 1971.
100

MARDIA, K.V.; KENT, J.T.; BIBBY, J.M. Multivariate analysis. London: Academic
Press, 1979. 521p.

McARDLE, B.H.; ANDERSON, M.J. Fitting multivariate models to community data: a


comment on distance-based redundancy analysis. Ecology, v.82, n.1, p.290-297,
2001.

MEIER, U. On the asymptotic normality of rank tests for independence. Journal of


Statistical Planning and Inference, v.61, p.279-296, 1997.

MIELKE, P.W.; IYER, H.K. Permutation techniques for analyzing multi-response data
from randomization block experiments. Communications in Statistics: Theory and
Methods. v.11, n.13, p.1427-1437, 1982.

MIELKE, P.W.; BERRY, K.J.; BLOCKWELL, P.J.; WILLIAM, J.S. A class of


nonparametric test based on multiresponse permutation procedures. Biometrika,
v.68, n.3, p.720-724, 1981.

MOOD, A.M.; GRAYBILL, F.A.; BOES, D.C. Introduction to the theory of statistics.
3.ed. Tokyo: McGraw-Hill Kogakusha, 1974. 564 p.

MTTNEN, J.; OJA, H. Multivariate spatial sign and rank methods. Journal of
Nonparametric Statistics, v.5, p.201-213, 1995.

MTTNEN, J.; HSLER, J.; OJA, H. Multivariate nonparametric tests in a


randomized complete block design. Journal of Multivariate Analysis, v.85, p.106-
129, 2003.

MTTNEN, J.; HETTMANSPERGER, T.P.; OJA, H.; TIENARI, J. On the


efficiency of affine invariant multivariate rank tests. Journal of Multivariate
Analysis, v.66, p.118-132, 1998.
101

MUNDRY, R.; FISCHER, J. Use of statistical programs for nonparametric tests of small
samples often leads to incorrect p values: examples from Animal Behaviour. Animal
Behaviour, v.56, p.256-259, 1998.

MUNZEL, U.; BRUNNER, E. Nonparametric methods in multivariate factorial designs.


Journal of Statistical Planning and Inference, v.88, p.117-132, 2000.

NADAR, M.; HETTMANSPERGER, T.P.; OJA, H. The asymptotic matrix of the Oja
median. Statistics & Probability Letters, v.64, p.431-442, 2003.

NEGRILLO, B.M. Mtodos no-paramtricos uni e multivariados. Piracicaba:


FEALQ, 1985. 98 p.

OJA, H. Descriptive statistics for multivariate distributions. Statistics & Probability


Letters, v.1, p.327-332, 1983.

OJA, H.; NYBLOM, J. Bivariate sign tests. Journal of the American Statistical
Association, v.84, n.405, 1989.

OLLILA, E.; OJA, H.; CROUX, C. The affine equivariant sign covariance matrix:
asymptoctic behavior and efficiencies. Journal of Multivariate Analysis, v.87,
p.328-355, 2003.

PARK, H-I; NA, J-H.; DESU, M.M. Nonparametric one-sided tests for multivariate
data. Sankhy Series B, v.63, n.3, p.286-297, 2001.

PEREIRA, J.C.R. Anlise de dados qualitativos: estratgias metodolgicas para as


cincias da sade, humanas e sociais. So Paulo: EDUSP, 1999. 156p.

PESARIN, F. Multivariate permutation tests: with applications in biostatistics.


Chinchester: John Wiley, 2001. 408 p.
102

PETERS, D.; RANDLES, R.H. A multivariate signed-rank test for the one-sample
location problem. Journal of the American Statistical Association, v.85, n.410,
p.552-557, 1990.

PETERS, D.; RANDLES, R.H. A bivariate signed rank test for the two-sample location
problem. Journal of the Royal Statistical Society, Series B, v.53, n.2, p.493-504,
1991.

PLACHKY, D.; RUKHIN, A.L. Nonparametric covariance estimation in multivariate


distributions. Metrika, v.50, p.131-136, 1999.

PONTES, A.C.F. Obteno dos nveis de significncia para os testes de Kruskal-Wallis,


Friedman e comparaes mltiplas no-paramtricas. Piracicaba, 2000. 140p.
Dissertao (Mestrado) - Escola Superior de Agricultura "Luiz de Queiroz",
Universidade de So Paulo.

PONTES, A.C.F.; CORRENTE, J.E. Obteno de nveis de significncia para


experimentos em blocos casualizados e comparaes mltiplas no-paramtricas.
Revista de la Sociedad Argentina de Estadistica, v.1, n.4, p.51-78, 2000.

PONTES, A.C.F.; CORRENTE, J.E. Comparaes mltiplas no-paramtricas para o


delineamento com um fator de classificao simples. Revista de Matemtica e
Estatstica da UNESP, v.19, p.179-197, 2001.

PONTES, A.C.F.; CORRENTE, J.E. The use of nonparametric contrasts in one-way


layouts and random block designs. Journal of Nonparametric Statistics, v.17,
n.3, p.335-346, 2005.

PURI, M.L.; SEN, P.K. Nonparametric confidence regions for some multivariate
location problems. Journal of the American Statistical Association, v.63, p.1373-
1378, 1968.
103

PURI, M.L.; SEN, P.K. Nonparametric methods in multivariate analysis. New York:
John Wiley, 1971. 440p.

RANDLES, R.H. A simpler, affine-invariant, multivariate, distribution-free sign test.


Journal of the American Statistical Association, v.95, n.452, p.1263-1268, 2000.

RANDLES, R.H.; PETERS, D. Multivariate rank tests for the two-sample location
problem. Communications in Statistics: Theory and Methods, v.19, n.11, p.4225-
4238, 1990.

RAO, C.R. Advanced statistical methods in biometric research. New York: John
Wiley, 1952. 390p.

RENCHER, A.C. Methods of multivariate analysis. New York: John Wiley, 1995.
627p.

ROSENTHAL, R. Combining results of independent studies. Psychological Bulletin,


v.85, n.1, p.185-193, 1978.

ROSENTHAL, R.; RUBIN, D.B. Comparing significance levels of independent studies.


Psychological Bulletin, v.86, n.5, p.1165-1168, 1979.

ROSENTHAL, R.; RUBIN, D.B. Comparing effect sizes of independent studies.


Psychological Bulletin, v.92, n.2, p.500-504, 1982.

SCHILLING, M.F. Multivariate two-sample tests based on nearest neighbors. Journal


of the American Statistical Association, v.81, n.395, p.799-806, 1986.

SCHWERTMAN, N.C. A Monte Carlos study of the LN statistic for the multivariate
nonparametric median and rank sum tests for two populations. Communications in
Statistics - Simulation and Computation, v.11, n.6, p.667-676, 1982.
104

SCHWERTMAN, N.C. Multivariate median and rank sum tests. In: KOTZ, S.;
JOHNSON, N.L.; READ, C.B. (Ed.). Encyclopedia of statistical sciences. New
York: Wiley-Interscience, 1984. v.6, p.85-88.

SEN, P.K. On nonparametric simultaneous confidence regions and tests for the one
criterion analysis of variance problem. Annals of the Institute of Statistical
Mathematics, v.18, p.319-336, 1966.

SEN, P.K. Nonparametric tests for multivariate interchangeability. Part 1: problems of


location and scale in bivariate distributions. Sankhy - Series A, v.29, p.351-372,
1967.

SEN, P.K. Nonparametric tests for multivariate interchangeability. Part two: the problem
of MANOVA in two-way layouts. Sankhy - Series A, v.31, p.145-156, 1969.

SIMON, G. Multivariate generalization of Kendalls Tau with application to data


reduction. Journal of the American Statistical Association, v.72, n.358, p. 367-
376, 1977.

SHAPIRO, S.S.; WILK, M.B. An analysis of variance test for normality (complete
samples). Biometrika, v.52, p.591-611, 1965.

SHAPIRO, S.S.; WILK, M.B.; CHEN, H.J. A comparative study of various tests for
normality. Journal of the American Statistical Association, v.63, p.1343-1372,
1968.

SPURRIER, J.D. Generalizations of Steels treatments-versus-control multivariate sign


test. Journal of the American Statistical Association, v.83, n.402, p.471-476,
1988.

SYRJALA, S.E. A statistical test for a difference between the spatial distributions of two
populations. Ecology, v.77, n.1, p.75-80, 1996.
105

SZKELY, G.J.; RIZZO, M.L. A new test for multivariate normality. Journal of
Multivariate Analysis, v.93, n.1, p.58-80, 2005.

TAMURA, R. Multivariate nonparametric several-sample tests. Annals of


Mathematical Statistics, v.37, p.611-618, 1965.

TASHIKEN, S.; KANKAINEN, A.; OJA, H. Sign test of independence between two
random vectors. Statistics & Probability Letters, v.62, p.9-21, 2003.

THOMPSON, G.L. On intercomponent rank tests for the bivariate two-sample location
model. Journal of Statistical Computation and Simulation, v.43, p.103-116,
1992.

TORABI, M.R.; DING, K. Selected measurement and statistical issues in health


education evaluation and research. The International Electronic Journal of Health
Education, v.1, p.26-38, 1998.

UM, Y.; RANDLES, R.H. Nonparametric tests for the multivariate multi-sample
location problem. Statistica Sinica, v.8, p.801-812, 1998.

VISURI, S.; KOIVUNEN, V.; OJA, H. Sign and rank covariance matrices. Journal of
Statistical Planning and Inference, v.91, p.557-575, 2000.

VISURI, S.; OLLILA, E.; KOIVUNEN, V.; MTTNEN, J; OJA, H. Affine


equivariant multivariate rank methods. Journal of Statistical Planning and
Inference, v.114, p.161-185, 2003.

WALD, A.; WOLFOWITZ, J. Statistical tests based on permutations of the


observations. Annals of Mathematical Statistics, v.15, p.358-372, 1944.

WELCH, W.J. Construction of permutation tests. Journal of the American Statistical


Association, v.85, n.411, p.693-698, 1990.
106

WILKINSON, B.A. A statistical consideration in psychological research. Psychological


Bulletin, v.48, p156-158, 1951.

ZWICK, R. Nonparametric ono-way multivariate analysis of variance: a computational


approach based on the Pillai-Bartlett trace. Psychological Bulletin, v.97, n.1, p.148-
152, 1985.

You might also like