Professional Documents
Culture Documents
Anlises Estatsticas
Goinia GO
Abril/ 2009
PARTE 1
ESTATSTICA E INTERPRETAO DE DADOS
Paulo De Marco Jnior
Departamento de Biologia Geral, Universidade Federal de Gois
Adriano Pereira Paglia
Analista de Biodiversidade- Conservao International do Brasil
INTRODUO
O objetivo deste texto no , nem de longe, ser um manual completo para guiar as suas
atividades na rea da anlise de dados. Antes, deseja-se apresentar algumas idias
interessantes que possam desafiar a vontade de ser mais eficiente no uso destas ferramentas.
A nfase aqui demonstrar que todos os testes estatsticos mantm a mesma estrutura lgica
e, portanto, podem ser facilmente entendidos.
POR QUE USAR ESTATSTICA
Considere o seguinte experimento: um pesquisador est interessado em avaliar o status de
conservao de duas espcies filogeneticamente prximas. Tendo recursos limitados para ser
gasto no manejo destas populaes, ele considera a possibilidade de medir sua variabilidade
populacional natural para escolher com qual delas vai gastar seus recursos. Aquela mais
varivel deve ser, a longo prazo, mais ameaada de extino por estocasticidade demogrfica.
O pesquisador escolhe utilizar estimativas do tamanho destas populaes nos ltimos 5 anos e
encontra que a populao A mais varivel que a B. Existe uma pergunta que gera toda a
necessidade de serem utilizados mtodos estatsticos: se outro pesquisador repetisse o
experimento, qual a probabilidade de encontrar os mesmos resultados, a mesma concluso?
Tratando-se de fenmenos biolgicos, cuja natureza est ligada a mltiplas causas de
variao, possvel que os resultados particulares observados no sejam repetidos. Isto quer
dizer que suas concluses podem ser falsas. Todo e qualquer problema para o qual a pergunta
do final do pargrafo anterior possa ser formulada com significado, um problema que exige
uma soluo estatstica.
FILOSOFIA DE TESTES ESTATSTICOS
Todos os mtodos de inferncia estatstica (testes estatsticos) so iguais no sentido de que se
baseiam em uma mesma srie de argumentos lgicos. Considere ainda o problema anterior e
siga os passos lgicos para um teste:
para desconfiar que a hiptese nula seja falsa. Ou seja, se as diferenas encontradas so
passveis de ocorrer mesmo quando as varincias so iguais, deve-se aceitar o acaso para
explicar as variaes observadas. Se a probabilidade baixa, ento muito raro ocorrer um
resultado como o que foi observado quando a hiptese nula verdadeira, o que mostra que ela
no satisfaz como explicao para o fenmeno. Assim, faz-se necessria outra explicao, que
no o acaso, para as diferenas entre as varincias. Elas so estatisticamente diferentes.
Ao decidir pela rejeio ou no da hiptese nula (Ho) o pesquisador corre o risco de estar
tomando uma deciso errada. Existem dois tipos de erros associados deciso em um teste de
hipteses: o primeiro erro, dito Erro Tipo 1, decidir pela rejeio da hiptese nula sendo ela
verdadeira. Voltando ao exemplo, Ho foi rejeitada, ou seja, as populaes A e B tm
varincias diferentes. Faz-se necessrio estimar o grau de incerteza associado essa deciso.
A probabilidade de se cometer o Erro Tipo 1 o chamado nvel de significncia, ou . Adotar
um nvel de significncia de 5% quer dizer probabilisticamente que se a amostragem for
repetida 100 vezes, em 95 delas a deciso tomada estar correta rejeitando-se Ho.
A outra deciso errada aceitar a hiptese nula quando ela falsa. Esse o chamado Erro
Tipo 2, cuja probabilidade definida por . O poder de um teste definido como 1 - , isto ,
quanto menor a probabilidade de cometer o Erro Tipo 2 mais poderoso o teste. Ambos os
erros so indesejveis, porm o pesquisador tem controle mais efetivo sobre o Erro Tipo 1.
Para diminuir a probabilidade de rejeitar uma hiptese nula sendo ela verdadeira, basta
reduzir o nvel de significncia (geralmente de 5% para 1%). A mesma regra no se aplica
para o valor de . Na verdade, quanto mais se reduz o nvel de significncia mais se aumenta
a probabilidade de cometer o Erro Tipo 2. A nica maneira de reduzir simultaneamente
ambos os tipos de erro de deciso aumentar o tamanho da amostra. Assim, para um dado
nvel de significncia, amostras grandes produzem um teste estatstico mais poderoso. Para
concluir, importante ressaltar que no rejeitar a hiptese nula no prova que ela
verdadeira. Pela lgica dos testes de hipteses, quer dizer que no existem evidncias
suficientes para concluir que ela falsa.
TIPOS DE VARIVEIS E ESCOLHA DOS TESTES
Quando procuramos testar uma hiptese, geralmente possvel identificar dois tipos de
variveis: a independente e a dependente. A varivel independente ou preditora aquela
que, em teoria, causa o efeito que procuramos confirmar. A varivel dependente a que mede
o efeito sofrido. No exemplo, o tamanho da populao a varivel dependente e a varivel
independente a espcie. Estamos investigando a possibilidade de que o tamanho
populacional (e a variabilidade desta medida) seja diferente entre as espcies, como resultado
de suas diferenas ecolgicas.
Uma outra maneira de classificar as variveis quanto natureza de suas medidas. Os dois
exemplos extremos das escalas de medidas so as variveis categricas e as quantitativas.
Variveis categricas apenas representam distines de qualidade, enquanto as variveis
quantitativas representam diferenas de quantidades. No exemplo anterior, as espcies so
variveis categricas e o tamanho da populao uma varivel quantitativa. Esta diviso
refere-se forma como os dados foram coletados: uma varivel categrica como a cor (preto,
branco etc.) pode ser medida como quantitativa (o comprimento de onda da luz emitida). A
Tabela 1 apresenta um modelo bastante simplificado para a escolha do teste estatstico
apropriado.
Tabela 1. Sugesto de alguns testes estatsticos a empregar de acordo com o tipo de varivel
observada. Entre parnteses alguns testes no-paramtricos.
Varivel
Dependente
Quantitativa
Quantitativa
Quantitativa
Quantitativa
Quantitativa
Quantitativa
Categrica
Categrica
Varivel
Independente
1 Categrica com 2 nveis
1 Categrica com + 2 nveis
2 Categricas
1 Quantitativa
2 ou mais quantitativas
1 categrica e 1 ou mais
quantitativas
1 Categrica
2 ou mais categricas
Teste
Teste t (teste U)
ANOVA 1-fator (Kruskall-Wallys)
ANOVA 2-fatores (Friedman1)
Regresso simples (correlao Spearman)
Regresso mltipla
ANCOVA
Qui-quadrado2; Teste G2
Log-linear2
(1) No caso de amostras dependentes, (2) Esses testes eventualmente verificam no a relao de dependncia
entre variveis, mas sim a associao entre elas, descaracterizando, portanto a classificao de variveis
dependentes e independentes.
A APRESENTAO DE RESULTADOS
O cientista , em essncia, um escritor. De que realmente vale o conhecimento produzido se
no for exposto com clareza comunidade que poder utilizar este conhecimento? Assim,
deve-se ter a preocupao com apresentar as idias dando sempre nfase ao problema
biolgico e ao tamanho do efeito atingido, e resguardando o resultado dos testes estatsticos
ao bem delimitado espao interno dos parnteses. Por exemplo, no se deve dizer: As
populaes tiveram diferenas de variabilidade populacional estatisticamente diferentes pelo
teste F. Melhor dizer: A populao A variou 2 vezes mais que a populao B (F = 2,31;
P<0.05). No se esquea que mais facilmente compreensvel o que nos for apresentado por
figuras, do que por longas Tabelas.
UM BREVE APANHADO DE PRESSUPOSTOS E TRANSFORMAES
Sero apresentados aqui alguns testes estatsticos mais empregados, tentando demonstrar que
todos eles seguem a mesma lgica de tomada de deciso. O que um teste estatstico faz
fornecer uma medida de incerteza ou as chances de se tomar uma deciso errada. Para que tal
rotina funcione, alguns pressupostos devem ser cumpridos.
Um primeiro cuidado envolve o desenho amostral. preciso garantir que as amostras sejam
tomadas ao acaso e, a menos que seja interesse explcito, que elas sejam independentes.
Muitos dos problemas na anlise dos dados vm da no observncia desses pontos.
Alguns testes estatsticos dependem da distribuio dos dados ou, mais precisamente, da
distribuio da mdia amostral. Tais testes so classificados como "paramtricos" e, para
empreg-los, deve-se garantir que alm da distribuio ser normal as varincias entre grupos
(no caso de teste t e ANOVA) devem ser iguais. De maneira geral, os dois pressupostos:
normalidade e homogeneidade de varincias no so requisitados para os testes noparamtricos. O problema que nem sempre existe uma alternativa no-paramtrica para cada
teste paramtrico.
As transformaes dos dados geralmente so empregadas para tentar corrigir a nonormalidade ou a heterocedasticidade das varincias. Como exemplo de transformaes
temos a logartmica (para corrigir distribuies assimtricas e para remover a dependncia
5
entre mdia e varincia, alm de homogeneizar varincias entre grupos), a raiz-quadrada (para
dados de contagens, por exemplo, nmero de filhotes por gestao) e a transformao arcoseno da raiz-quadrada ou angular (para dados em proporo). Independente da transformao
escolhida, um problema comum que os dados transformados perdem seu significado
biolgico, o que pode levar a interpretaes equivocadas das possveis relaes entre as
variveis.
UMA BREVE RESENHA DOS TESTES ESTATSTICOS
Sero apresentados aqui alguns dos principais testes estatsticos tentando mostrar como so
percorridos os passos lgicos definidos em nosso exemplo.
Comparando categorias: O teste do qui-quadrado
A Tabela 1 mostra que no estudo da dependncia entre duas variveis categricas utiliza-se o
teste de Q-quadrado. Considere a seguinte questo: existe associao entre uma determinada
espcie de ave frugvora e uma determinada famlia de plantas? Para dar nome ao
experimento considere que a ave seja Thraupis sayaca (o sanhao) e a famlia de plantas as
Melastomatceas. Seguindo-se os passos pr-definidos observa-se:
Hiptese. A hiptese nula seria a de que no h associao entre o sanhao e as
Melastomatceas. Como coletar dados para testar esta hiptese? Toda vez que se observar um
ato de frugivoria por uma ave no campo deve-se classificar a espcie de rvore em uma das
categorias: se ou no uma Melastomatacea. Da mesma forma deve-se classificar a ave como
sendo ou no um sanhao. Existem agora duas variveis categricas binrias. A Tabela 2
rene os resultados deste experimento em observaes de campo no campus da Universidade
Federal de Viosa:
Tabela 2. Tabela de contingncia de 99 observaes de pssaros em rvores.
uma
Melastomatcea?
Sim
um Sanhao?
Sim
No
13
34
Total
47
No
12
40
52
Total
25
74
99
as diferenas encontradas nos nmeros observados nas clulas internas da Tabela seriam
explicadas apenas por diferenas no nmero de amostras (a coluna e a linha denominadas
total na Tabela). Assim, a proporo 25 sanhaos no total de 99 aves observadas deveria se
manter tanto para as 47 aves encontradas em Melastomatceas quanto para as 52 encontradas
em no Melastomatceas. Isto o equivalente a predizer que o resultado esperado para o
nmero de sanhaos observados em Melastomatceas seria obtido pela regra de trs simples:
25 est para 99 como x est para 47. A Tabela 3 mostra os valores esperados.
Tabela 3. Valores esperados da Tabela 2 se Ho for verdadeira.
uma
Melastomatcea?
Sim
um Sanhao?
Sim
No
11,9
35,1
Total
47
No
13,1
38,9
52
Total
25
74
99
Pr-adaptao
Sim
Sim
Sim
Sim
No
No
No
No
No
Longevidade
(anos)
2
3
3
2.5
3
2
2
1
0.5
A hiptese nula reza que no h diferenas de longevidade dos primatas com ou sem pradaptao. Propositalmente foi apresentado um conjunto de dados que apresenta dois dos
principais problemas que usualmente assustam quem comea a usar os testes estatsticos. Os
dados parecem muito regulares para estarem apresentando distribuio normal e a
longevidade na ausncia do perodo de pr-adaptao parece variar mais que com a pradaptao.
Para entender melhor o significado destes dados, h necessidade de aprofundar um pouco
mais a fase da construo do teste referente deduo da distribuio esperada caso a
hiptese nula seja verdadeira. Este passo exige uma deduo baseada em alguns pressupostos
bsicos que podem variar entre os testes, mas so muito semelhantes para o conjunto de testes
classificados como modelos lineares gerais, do qual fazem parte o teste de t, a anlise de
varincia e a anlise de regresso.
Na deduo, parte-se do princpio de que os dados provm de uma distribuio normal e de
que a variao dos dados, em cada tratamento (a varincia com e sem a fase de pr-
P1
19
21
16
18
P2
15
22
17
18
PONTOS DE COLETA
P3
P4
P4
P6
17
21
22
23
17
20
17
21
19
18
14
20
14
16
19
15
P7
22
21
15
13
P8
19
24
17
18
A partir dos dados coletados possvel estimar os parmetros mdia e varincia da densidade
populacional para cada uma das quatro cotas de altitude. A varincia em particular pode ser
dividida em dois componentes: varincia entre os grupos (ou varincia devido ao tratamento)
e varincia dentro dos grupos (varincia devido ao erro). Um quadro de ANOVA
caracterstico, resultante do conjunto de dados apresentados no exemplo est ilustrado na
Tabela 6.
Tabela 6. Anlise de varincia testando o efeito da altitude sobre a abundncia da planta.
Fonte de variao
Efeito (Altitude)
Erro amostral
Total
Soma de
Quadrados
94,25
155,25
249,5
Graus de
Liberdade
3
28
31
Quadrado
mdio
31,42
5,54
F
5,66
Valor p
0,004
Uma das maneiras de se estimar quanto um conjunto de dados varia em relao ao valor
mdio, somar todas as diferenas entre cada valor e a mdia, tomando o cuidado de elevar a
diferena ao quadrado para evitar que a soma iguale a zero. Essa a chamada soma dos
quadrados (SQ). Ao dividir esse valor pelo nmero de graus de liberdade temos o quadrado
mdio (QM), ou varincia. A estatstica F calculada ao se dividir o QM do efeito (varincia
entre os grupos) pelo QM do erro (varincia dentro dos grupos). Voc deve lembrar o que foi
dito no incio desse texto: o valor F uma razo entre varincias. Compara-se o valor F
calculado com o valor esperado sendo a hiptese nula verdadeira, e decide-se pela sua
rejeio ou no. A maioria dos programas estatsticos calcula a probabilidade associada ao
valor F calculado. No exemplo acima, o valor F calculado foi de 5,66, com um nvel de
significncia atingido (ou valor-p estimado) de 0,004. Como o valor-p est bem abaixo do
nvel de significncia adotado de 0,05 rejeitamos a hiptese nula, ou seja, existe efeito
significativo da altitude sobre a densidade da planta. Uma boa maneira para ilustrar o
resultado sem apresentar o quadro completo fornecer o valor F com seus graus de liberdade
e o valor-p. No exemplo acima, diramos: Existe diferena na densidade ente as cotas de
altitude (F3,28=5,66; p=0,004). Alm disso, a apresentao grfica dos valores mdios por
grupo, com suas respectivas medidas de variao facilita a visualizao dos resultados.
Grficos do tipo box-plot como o da figura 1 so bem ilustrativos.
10
Existem muitos testes de comparao mltipla, sendo os mais conhecidos, Tukey, Duncan e
Scheff. Aplicando o teste de comparao mltipla de Tukey no exemplo, observa-se que as
diferenas se encontram entre as cotas 1 e 4; 2 e 3; 2 e 4.
A DEPENDNCIA ENTRE DUAS OU MAIS VARIVEIS QUANTITATIVAS:
REGRESSO LINEAR
Todos os modelos estatsticos lineares apresentam a mesma formulao. Podemos escrever o
modelo do exemplo acima da ANOVA como: N de indivduos = + (altitude) + Erro, ou
seja, o nmero de indivduos da planta funo da altitude. O que determina a associao
entre a varivel dependente (n de indivduos) com a varivel independente (altitude) o
coeficiente . Devido ao fato de que a varivel independente ser, no exemplo, categrica
(quatro cotas de altitude), empregamos a tcnica de ANOVA (veja a Tabela 1).
Agora imagine que o pesquisador, ao invs de coletar oito amostras em cada uma das quatro
cotas de altitude, fez coletas ao longo de todo o gradiente altitudinal. Alm disso, o
11
N de espcies de
Nmero de
polinizadores
indivdos da planta
27
31
15
32
12
28
45
29
20
30
40
20
10
15
27
15
29
13
12
12
25
10
8
8
12
7
9
9
Em primeiro lugar, cabe testar se existe associao entre a abundncia de plantas e a altitude.
O modelo linear seria ento:
N de indivduos = + (altitude) + ,
onde e so constantes, sendo o intercepto, isto o ponto onde a reta de regresso corta
o eixo Y e o coeficiente da regresso, que indica o grau de associao entre as duas
variveis. O erro amostral indicado por . O valor estimado do coeficiente da regresso
indica a intensidade e a direo da regresso. A figura 2 ilustra as retas originadas a partir de
diferentes valores de inclinao. O que a regresso linear faz estimar, atravs do mtodo
chamado "quadrados mnimos", os coeficientes do modelo. Associada a essa estimativa, testase as seguintes hipteses:
Ho: = 0 (no existe associao entre as duas variveis)
Ha: 0, (existe associao entre as duas variveis)
12
positivo
igual a zero
negativo
Figura 2. Retas produzidas por diferentes coeficientes de regresso. > 0 indica associao
positiva; < 0 associao negativa e igual a zero indica ausncia de associao entre as
duas variveis.
Voltando ao modelo do exemplo, o mtodo de quadrados mnimos estimou a seguinte
equao: N de indivduos = 52,9 - 0,04 (altitude) + erro. Isso significa que a diminuio de
0,04 unidades da varivel independente leva a um aumento de uma unidade na varivel
dependente. Com essa equao, possvel predizer quantos indivduos deve ter uma
populao dessa planta numa determinada altitude. Ainda no testamos se o coeficiente de
inclinao estatisticamente diferente de zero. Note que o valor -0,04 , indicado na equao
acima, no o valor de . O coeficiente da regresso calculado de tal forma que varie entre
-1 (alta correlao negativa) a 1 (alta correlao positiva), passando por zero (ausncia de
correlao). O resultado de uma regresso pode ser visualizado na Tabela abaixo:
Tabela 8. Efeito da altitude sobre a abundncia de plantas.
Coeficientes
Estatstica
B
g.l.
t
Valor-p
Intercepto
52,928
12
15,316
< 0,001
Altitude
-0,947
-0,0405
12
-10,275
< 0,001
O coeficiente de correlao estimado foi de -0,947, indicando uma alta correlao negativa.
medida que aumenta a altitude, diminui a abundncia da planta. Essa diminuio se d na
"velocidade" de menos 1 indivduo a cada 0,04 metros de altitude. Na Tabela 8 tambm est
indicado o teste t utilizado para testar a hiptese nula de que o coeficiente de inclinao
igual a zero. Com o valor calculado de -10,275 para 12 graus de liberdade rejeita-se Ho. Uma
outra maneira de testar a significncia da regresso utilizar uma anlise de varincia. A
Tabela 9 demonstra a sada tpica da maioria dos programas estatsticos para o procedimento.
Tabela 9. Anlise de varincia para a regresso entre altitude e abundncia da planta.
Fonte de variao
Regresso
Resduo
Soma de
Quadrados
1055,5
119,9
Total
1175,5
Graus de
Liberdade
1
12
Quadrado
mdio
1055,5
9,99
Valor p
105,57
< 0,001
13
Como foi dito no tpico sobre ANOVA, a soma dos quadrados (SQ) uma estimativa da
varincia particionada entre a regresso e o resduo, ou erro. A proporo entre a SQreg e a
1055,5
SQtot indica quanto da variao explicada pela regresso. Nesse caso
= 0,898 . A
1175,5
regresso explica 89,8% da variao dos dados. Esse valor o chamado R2 da regresso, e
pode tambm ser calculado simplesmente elevando-se ao quadrado o valor do coeficiente de
correlao (R = -0,947 R2 = 0,898). O teste segue a mesma lgica de uma ANOVA
comum. Calcula-se o valor da estatstica F pela diviso dos quadrados mdios.
(QMReg/QMRes). Compara-se o valor calculado com o esperado sendo verdadeira a hiptese
nula e toma-se a deciso. No exemplo, o elevado valor de F indica que a regresso
altamente significativa (Figura 3).
14
Intercepto
Altitude
Riqueza
Coeficientes
B
52,495
-0,942
-0,040
0,014
0,011
g.l.
11
11
11
Estatstica
t
10,984
-9,092
0,138
Valor-p
< 0,001
< 0,001
0,892
Soma de
Quadrados
1055,7
119,8
1175,5
Graus de
Liberdade
2
11
Quadrado
mdio
527,86
10,88
F
48,48
Valor p
<0,001
15
Uma situao mais real: algumas espcies de macro-invertebrados de gua doce da famlia
Chironomidae (Diptera) podem ser indicadoras de qualidade ambiental. Certas espcies s
ocorrem em ambientes preservados, enquanto que outras esto presentes em sistemas
aquticos bastante eutrofizados. Os dados apresentados abaixo so de Marques et al. (1999).
Os autores coletaram em 20 pontos da bacia do Rio Doce, no estado de Minas Gerais. Em
cada ponto, foram medidas diversas variveis fsico-qumicas da gua, entre elas, a
concentrao de nitrognio total, que indicador de grau de eutrofizao. Diversas espcies
de Chironomidae foram coletadas. Abaixo apresentamos os dados de ocorrncia de duas
espcies. Observe que nos dados originais a presena das espcies est categorizada em 3
classes de abundncia.
Tabela 12. Presena (1) e ausncia (0) de duas espcies de Chironomidae concentrao de
nitrognio total em 20 pontos da bacia do Rio Doce.
Ponto
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tanitarsus sp Cryptochironomus
1
1
0
1
1
0
0
1
0
0
0
1
0
0
0
1
0
0
0
1
0
1
1
1
1
0
1
1
1
0
0
1
0
1
0
1
0
0
0
0
Nitrognio total
(
g/l)
262,4
420,6
1889
718,5
471,3
1219,3
1587
482,6
2132
3112
5257
454,3
1221
837,8
538,9
136,2
574,5
775,6
7283
308,8
16
Y=
1
1 + e ( + 1X1 + 2 X 2 +...+ i X i )
verossimilhana para o modelo com a varivel N-tot= -2ln(LC) = 26,39; LR = 27,72 - 26,39 =
1,33; n de parmetros do modelo completo = 2 ( e 1); n de parmetros do modelo simples
= 1 (); Graus de liberdade = 1; Valor-p = 0,247. Deste modo, aceita-se a hiptese nula, ou
seja, a ocorrncia de Cryptochironomus sp. no depende da concentrao de nitrognio total
na gua (Figura 4B).
18
A)
B)
19
zero. Quando o tamanho amostral grande os resultados de ambos os testes so iguais. Mas,
se o tamanho amostral pequeno, recomenda-se utilizar o teste LR. Um outro problema do
teste de Wald que sua interpretao para a situao de duas ou mais variveis mais
complicada, e envolve a aplicao de lgebra matricial. Diversos estatsticos recomendam que
se utilize preferencialmente o teste de LR para inferncias estatsticas associadas regresso
logstica.
De maneira geral, vale lembrar que os mesmos princpios lgicos e interpretativos da
regresso linear podem ser aplicados aos modelos de regresso logstica, incluindo as
situaes de mltiplas variveis. Nessas situaes, aplica-se rotina de avaliao do valor de
LR a medida que se adicionam variveis no modelo.
RISCOS ASSIMTRICOS, PENSAMENTO DESEJOSO E A IMPORTNCIA DA
ESTATSTICA NA BIOLOGIA DA CONSERVAO
Voltemos ao exemplo da longevidade de macacos reintroduzidos com ou sem uma fase de
pr-adaptao, discutido na seo sobre o teste de t. H muitas questes importantes a serem
analisadas ali.
Em primeiro lugar vem o problema do nmero de amostras. muito comum ouvir as escusas
de pesquisadores na rea da Ecologia e da Biologia da Conservao de que no possvel um
nmero maior de amostras e que, portanto, deve-se trabalhar com o que se tm. Na maioria
das vezes, esta observao no aceitvel e pode gerar prejuzos maiores que os custos de se
aumentar o nmero de rplicas ou de pelo menos desenvolver um experimento bem
planejado. Naquele caso, rejeitou-se uma hiptese (de que a pr-adaptao aumenta a
longevidade dos animais) que pode ser verdadeira principalmente porque, para conseguir
demonstrar um efeito com um nmero pequeno de rplicas, o tamanho deste efeito precisa ser
muito grande.
Isto nos leva tambm ao problema dos riscos assimtricos, discutido de forma muito
interessante, se bem que ligeiramente diferente, em Caughley & Gunn (1996). Considere os
dois tipos de erros estatsticos que podem ocorrer neste teste. Ns poderamos rejeitar a
hiptese nula sendo ela verdadeira (Erro tipo 1) ou aceit-la sendo ela falsa (Erro tipo 2).
Ao aceitar H0 quando ela falsa, est se desconsiderando uma prtica de manejo que pode
aumentar a sobrevivncia do macaco no campo e contribuir para sua preservao. Ao rejeitla, sendo ela verdadeira, custos adicionais desnecessrios esto sendo introduzidos, onerando
o projeto. Este procedimento pode resultar em um menor nmero de indivduos
reintroduzidos, em razo resultado dos gastos adicionais. Isto mostra dificuldade na tomada
de deciso.
interessante notar certa assimetria entre os erros: em um caso diminui-se diretamente o
sucesso do projeto por desconsiderar uma prtica til, no outro, onera-se o projeto e apenas
indiretamente diminui-se o sucesso da reintroduo. Muitos conservacionistas no hesitariam
em correr o primeiro risco e alguns outros fatores sustentariam esta deciso. Em uma
comunidade cientfica eficiente, em que projetos desta natureza esto sendo continuamente
avaliados, um possvel erro do tipo I ser facilmente detectado medida que outros
experimentos vo sendo desenvolvidos e novos dados sejam adicionados.
H, no entanto, um problema srio no procedimento anterior. Considerar significativo a um
valor-p de 0,10, aceitando um maior erro tipo I, em funo de uma escolha de riscos dentro do
panorama da assimetria descrita acima, s faz sentido se for uma deciso tomada antes do
20
experimento ser executado. Com uma freqncia muito maior que o esperado em uma
comunidade cientfica madura, estas decises so tomadas aps os dados serem coletados,
fruto do que os ingleses chamaram de whishful thinking -- aqui traduzido, pelo Dr Miguel
Petrere Jr., como pensamento desejoso. O desejo de que nossa hiptese alternativa esteja
correta o caminho mais curto para afastar a Biologia da Conservao do vacilante, mas
honesto, caminho das Cincias e traz-la para o caminho do dogmatismo. Afinal, se uma
hiptese considerada correta mesmo que os dados digam o contrrio, para que, ento, se
coletaram os dados?
21
BIBLIOGRAFIA RECOMENDADA
Caughley, G. & Gunn, A. 1996. Conservation Biology in Theory and Practice. Blackwell
Science, Inc., Cambridge, Massachusetts. 459p.
Hosmer, D. W. & lemeshow, S. 1989. Applied Logistic Regression. John Wiley & Sons,
New York. 307 p.
Kleinbaum, D. G. 1994. Logistic Regression: A self-learning text. Springer-Verlag, New
York. 282p.
Krebs, C. J. 1989. Ecological Methodology. Harper & Row, Publishers, New York. 654p.
Magurran, A. E. 1988. Ecological Diversity and its Measurement. Cambridge University
Press, London. 179p.
Neto, P. R. P.; Valentin, J. L. & Fernandez, F. (eds.). 1995. Tpicos em tratamento de dados
biolgicos. Volume 2. 1 Edio. Oecologia Brasiliensis, Rio de Janeiro. 161p.
Manly, B. F. J. 1991. Randomization and Monte Carlo Methods in Biology. Chapman and
Hall, London. 281p.
Martin, P. & Bateson, P. 1986. Measuring Behaviour. Cambridge University Press,
Cambridge. 200p.
Marques, M. M. G. S. M.; Barbosa, F. A. R. & Callisto, M. 1999. Distribution and abundance
of Chironomidae (Diptera, Insecta) in an impacted watershed in south-east Brazil. Ver.
Brasil. Biol. 59(4):553-561.
Sokal, R. R. & Rohlf, 1995. Biometry. W. H. Freeman and Company, New York, USA.
887p.
Tonhasca, A., Jr. 1991. The three "capital sins" of statistics used in biology. Cincia e
Cultura, 43(6):417-422.
Young, L. J. & Young, J. H. 1998. Statistical Ecology: a population perspective.
Zar, J. H. 1984. Biostatistical analysis. Prentice-Hall, Englewood Cliffs, N.J. 218p.
22
PARTE 2
A PROPOSTA DO GUIA
freqente encontrramos pessoas que esto muito preocupadas com as anlises de
dados. Foi muito esforo para coletar, geralmente o prazo para apresentao dos resultados
est apertado, mas ainda faltam aquelas anlises estatticas tanto cobradas... Sentar e chorar,
que nada! A estatstica uma ferramenta muitas vezes indispensvel para os estudos
cientficos e no um bicho de sete cabeas.
Vale a pena se dedicar s matrias e aos cursos de estatticas e compreender as bases
tericas dos testes. Alm disso, percebemos que muitas vezes as pessoas sabem escolher o
teste estatstico mas tem muita dificuldade na organizao das planilhas de dados e na
execuo. Por isso, ns elaboramos esse guia prtico, com os passos das anlises mais
importantes que vocs podem precisar. Ele deve ser utilizado como um caderno de notas, para
facilitar o uso do programa e agilizar o seu trabalho.
BANCO DE DADOS
A correta organizao do banco de dados essencial para a realizao das anlises
estatsticas. Algumas regras auxiliam nesse processo:
1. Utilize o Excel para colocar seus dados (ou outro programa semelhante). Quando
so muitos dados mais adequado utilizar a plataforma Access.
2. Nunca utilize muitos documentos ou muitas planilhas dentro de um documento.
Faa o necessrio para que voc tenha no mximo trs planilhas: uma de dados
brutos, uma de metadados (explicao do que representa cada coluna da sua
tabela) e uma de resultados.
3. Planilha de dados brutos (DADOS): essencial que voc determine a unidade
amostral da sua pesquisa. importante perceber que possvel que voc tenha,
23
dentro da mesma pesquisa, mais de uma unidade amostral. Quando for montar a
planilha DADOS coloque sempre as amostras independentes em linhas
diferentes e as variveis (as informaes da mesma amostra) em colunas. Por
exemplo: Pretende-se testar se h diferena de riqueza de drosofildeos em frutos
pequenos e frutos grandes (tamanho do fruto = varivel categrica/ riqueza =
varivel quantitativa). Se:
a. Forem observados frutos numa mata, cada um deles ser uma amostra:
Tabela 1: Riqueza de drosofildeos em frutos grandes (G) e pequenos (P).
Tamanho do fruto
G
P
P
G
G
G
S
10
4
6
12
9
8
S do fruto pequeno
S do fruto grande
24
LEMBRETES
Varivel dependente: a varivel resposta
Varivel independente: a que causa o efeito
Varivel categrica: qualidade entre os diferentes dados
Varivel quantitativa: varivel contnua
Teste no paramtrico: no segue a distribuio normal.
Teste paramtrico: segue a distribuio normal.
Casas decimais: apresentar os resultados dos testes com trs
casas decimais.
25
; gl=
; p=
). Se
).
28
30
31
5. KRUSKAL-WALLIS
O Kruskal-Wallis um teste de ordenamento que faz um
ranking dos dados, para testar diferenas no somatrio do ranking
entre amostras: se a soma do ranking de cada tratamento parecida
entre si, os tratamentos so estatisticamente semelhantes.
H0= a soma do ranking estatisticamente semelhante entre os
tratamentos
Ha= a soma do ranking estatisticamente diferente entre os tratamentos
Passos:
1. Statistics Nonparametrics
2. Escolher o grupo de acordo com a natureza das variveis. Por
exemplo: Comparing multiple independ. samples (groups) para variveis
com mais de duas categorias OK
3. Variables: clicar na varivel dependente e na varivel independente
OK
4. Summary: Kruskal-Wallis ANOVA and Median test. Aparecem duas
janelas. Em uma h a soma dos ranking e o valor do teste H (gl
tratamento;
6. ANOVA TWO-WAY
1. Stattistics ANOVA Factorial ANOVA OK
2. Variables: depedent/ independent (duas ou mais) OK
OK
3. Testar os pressupostos:
* homogeneidade das varincias: More Results
Assumptions Levenes Test (ANOVA)
* normalidade do resduo: Normal p-p (analisar o grfico)
4. Voltar em All Effects: aparece uma tabela e em cada
linha h um valor, como no exemplo:
SS
Intercept
"Var1"
"Var2"
"Var1"*"Var2"
Error
3110,400
60,000
26,667
13,067
135,333
Degr. Of
Freedom
of
1
1
1
1
6
MS
3110,400
60,000
26,667
13,067
22,556
137,8995
2,6601
1,1823
0,5793
0,000023
0,154016
0,318633
0,475423
7- REGRESSO LINEAR
1. Statistics
2. Multiple Regression
3. Variables: dependent/independente OK
4. Pressupostos (a distribuio dos resduos normal e a varincia dos resduos homognea)
4.1. Se a distribuio dos resduos normal:
Residuals/assumptions/prediction Perform residuals analysis Quick Normal plot
of residuals (anlise visual)
4.2. Se a varincia dos resduos homognea
Residuals Residuals vs. independent var. seleciona a varivel independente OK
(anlise visual)
OBS: se os resduos estiverem dispostos aleatoriamente o pressuposto no foi ferido
5. Apresentao dos resultados
Graphs Scatterplots Variables (X=independente e Y=dependente) Advanced
seleciona R-square e Regression equation (seleciona as variveis X e Y)
8. REGRESSO MLTIPLA
1. Statistics
2. Multiple regression
34
9- REGRESSO LOGSTICA
1. Statistics Advanced Linear/ Nonlinear models Nonlinear Estimation Quick Logit
regression OK
2. Variables: dependent variable/ independent variable
3. Codes for dep. var: 0
and: 1
36
37
TUTORIAL
PARA
PREPARAO
IMPORTAO
DE
DADOS
PARA
Amostras nas
linhas
38
Agora devemos inserir duas linhas acima dos dados. Elas serviro para o cabealho
de legenda para o EstimateS:
39
Na primeira clula (A1) devemos inserir o nome que daremos para a planilha, deve
ser um nome curto, com menos de seis dgitos e que no contenha diacrticos.
Na clula (A2) devemos inserir o nmero de espcies (que o nmero de colunas) e
na clula (B2)o nmero de amostras (linhas) respectivamente. A planilha apresentar o
seguinte aspecto:
A planilha est quase pronta. necessrio salv-la como somente texto separado por
tabulaes, indo em: Arquivo Salvar como Texto separado por tabulaes.
O Excel apresentar algumas mensagens de alerta antes de permitir que voc salve o
documento. Ignore-as e continue o processo.
Pronto: agora podemos fechar o Excel e abrir o EstimateS.
Logo que o programa aberto, uma tela de apresentao exibida. s dar OK e
comear a usar.
40
41
Marque a caixa com a opo Formato 2 (linhas nas amostras e espcies nas colunas)
e d OK. O programa dever carregar a planilha na memria. Se tudo der certo no haver
nenhuma mensagem de erro.
Prossiga ento clicando no menu DIVERSITY DIVERSITY SETTINGS...
42
43
44
Ser aberta a seguinte tela, onde podemos configurar o contedo da Coluna (que o
Statistica sabidamente chama de varivel). Ele indica que a varivel ser adicionada aps a
coluna Jack1_SD. O nome da varivel fica a seu critrio. Mas IC j diz tudo.
Agora vem o importante: Vamos inserir uma frmula no campo maior dessa tela, que
ser utilizada para criar o intervalo de confiana.
45
Como no Excel, toda a formula deve comear com o sinal de igual (=) e o que
digitaremos o seguinte =-vstudent(0,025;v1-1)*Vn
Onde vstudent diz para utilizar a distribuio de Student (a mesma distribuio do
teste t) 0,025 o nosso alfa, j que o teste bicaudal (0,025 + 0,025 = = 0,05)
v1-1 o nmero de amostras menos 1, ou seja, o grau de liberdade.
Vn deve ser substitudo pelo nome da varivel que contm o desvio padro (no caso
V24).
NOTA: A frmula para clculo do intervalo de confiana deveria ser =vstudent(0,025;v1-1)*Vn/sqrt(v1), ou seja, deveramos dividir o desvio padro pela raiz
quadrada de n (v1) para obter o erro padro e a sim multiplicar pelo resto da frmula para
conseguirmos o intervalo desejado. Mas o programa EstimateS fornece o erro padro e o
chama de desvio padro.
Com a nova coluna podemos criar o nosso grfico. s ir em GRAPHS 2D
Graphs Range plots.
46
47
48
30
25
20
15
10
-5
1
11
16
21
26
31
36
41
46
51
56
Nmero de segmentos
Com poucas modificaes nas planilhas voc pode criar um grfico que apresente no
eixo X os locais e no eixo Y as estimativas de riqueza de espcies. Com a presena do
intervalo de confiana teremos um teste estatstico visual para comparao entre reas
distintas. Duas reas sero iguais se o limite do intervalo de confiana de uma alcanar o
valor central da estimativa do outro.
Para criar um grfico que mescle as estimativas de riqueza (com IC associado) de
duas ou mais reas, s realizar os procedimentos acima descritos para cada uma delas e
reunir a ltima linha (ltimo valor estimado) de trs colunas na planilha j importada do
Statistica.
Primeiro vamos criar uma nova planilha:
49
Renomeamos as variveis:
Vamos na planilha do primeiro local e copiamos a ltima linha das 3 colunas que
precisamos:
Vamos agora para a planilha que criamos e mandamos colar na linha desejada:
Clicando duas vezes sobre a coluna externa que normalmente contm o nmero das
linhas, podemos modific-las e inserir o nome dos locais que desejamos comparar.
Realizamos o copiar e colar para cada local sucessivamente at completar a planilha.
50
Depois dessa planilha estar pronta, s criar o grfico de range plot como
explicado anteriormente para criao da curva do coletor e efetivamente comparar os locais.
Estudo de Caso:
Para exemplificar todos os passos do procedimento Jackknife, vamos usar a tabela
planilha teste original. Conforme pode ser verificado, existem trs rios onde foram coletadas
espcies da Ordem Odonata na Amaznia, dois rios de primeira ordem Ac12 e Ac14, e um de
segunda ordem Ac22.
Calculem a riqueza estimada de cada rio, e construa o grfico comparando a riqueza
das trs reas, para ver qual a mais diversa. Ao final compare seus resultados com a planilha
e com o grfico abaixo.
Local
AC12
AC14
AC22
Jackknife jack_SD IC
17.7
2.43 5.086048
18.7
3.11 6.509305
25.55
3.23 6.760468
34
32
30
28
26
24
22
20
18
16
14
12
10
AC12
AC14
AC15
51