Professional Documents
Culture Documents
2005
Índice
PARTE 1 - A metodologia básica de investigação ...............................................1
António Pina
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
ii
Investigação e Estatística com o EpiInfo
1. A Estatística descritiva......................................................................................20
1.1. Interpretar as frequências absolutas e relativas................................................21
1.2. Interpretar as médias, desvios-padrão, medianas, etc. .....................................22
2. A Estatística Dedutiva.......................................................................................25
2.1- Os intervalos de confiança...............................................................................27
2.2.- Provas para verificar a associação entre duas
variáveis qualitativas - o Qui-quadrado e a Prova de Fisher..................................28
2.3.- Provas para verificar a associação entre uma variável qualitativa
e uma variável quantitativa - o t de Student / ANOVA
e o U de Mann-Whitney / Kruskal-Wallis..............................................................31
3- A força da associação........................................................................................32
3.1. Estudos de coorte..............................................................................................33
3.2. Estudos de caso-controlo..................................................................................36
Bibliografia.............................................................................................................37
António Pina
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
1
PARTE 1
A metodologia básica de investigação
António Pina 1
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
2
3º- Os resultados da Estatística poderão dar-nos uma ideia sobre a eventual associação
entre variáveis, mas nunca nos revela a relação de causalidade... Por exemplo, a Estatística
poderá demonstrar que determinados perfis psicopatológicos poderão estar associados à
toxicodependência mas, saber se é esta psicopatologia que leva à toxicodependência, ou vice-
versa, só pode ser respondido tendo em conta o desenho do estudo, nomeadamente um desenho
que permita saber o que é que acontece primeiro (as perturbações psicopatológicas ou a
toxicodependência).
4º- Se os dados que introduzimos no computador para fazer os cálculos estatísticos não
forem os correctos, a interpretação dos resultados poderá ser impossível ou levar a conclusões
totalmente erradas... Por exemplo, se quisermos comparar o peso de dois grupos, e utilizarmos
uma balança diferente para os dois grupos poderemos obter resultados enganadores... Este
problema inclui-se nos denominados vieses de informação!
5º- Se o enquadramento teórico do estudo não for o correcto, é fácil chegar a conclusões
erradas porque os resultados estatísticos são espúrios... Um exemplo de uma de uma associação
espúria é a associação estatisticamente significativa entre o número de telemóveis existentes num
país e o número de doenças cardíacas. Um aprendiz a investigador poderia concluir erradamente
que a influência das ondas dos telemóveis poderia provocar um aumento das doenças
António Pina 2
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
3
cardiológicas. Sucede no entanto que os países onde há mais telemóveis são também os mais
ricos e, devido à sobre-alimentação, têm com maior frequência doenças cardíacas. Assim, há
aqui uma terceira variável escondida, que pode provocar uma associação estatisticamente
significativa mas totalmente espúria. Esta terceira variável denomina-se de confundimento
porque produz um viés de confundimento.
Outro exemplo dum viés de confundimento em investigação é o que aconteceu num
estudo efectuado há alguns anos, sobre os efeitos de deixar de fumar. Verificou-se então que a
maioria dos fumadores que largavam o mau hábito, morriam mais frequentemente no primeiro
ano que os que continuavam a fumar. A conclusão lógica seria que qualquer fumador deveria
manter o seu hábito ... Sucede que, infelizmente, muito dos fumadores que deixam de fumar,
fazem-no porque já se sentem doentes, o que aumenta a probabilidade de morrerem no ano
seguinte, enquanto os outros ainda se sentem saudáveis e em muitos casos ainda o estão...
O que se passou neste estudo é que não se controlou o efeito de uma variável de
confundimento fundamental: o fumador já estava doente ou não, quando deixou de fumar? Estas
questões têm a ver fundamentalmente com o desenho do estudo e não com a Estatística.
Assim, para iniciar um trabalho de investigação é necessário seguir várias regras para
evitar escorregadelas. A primeira regra de ouro é que antes de avançar para o trabalho de campo
é fundamental sempre elaborar um protocolo que nos guie no futuro. Para isto teremos que
seguir uma sequência de passos que nos pouparão muitos problemas e dissabores...
A sequência que vou expor pode ser parcialmente modificada, nomeadamente as fases
posteriores poderão obrigar a reconsiderar as fases iniciais, mas genericamente é sempre a
sequência a utilizar.
António Pina 3
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
4
Por outro lado, um outro óbice importante em estudos com muitos objectivos é que
poderão ser necessários desenhos diferentes de estudo e amostras com dimensões diferentes para
os diferentes objectivos, o que complica muito a sua condução.
António Pina 4
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
5
António Pina 5
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
6
dados - o próprio investigador ou outros indivíduos? Se for com um questionário, como é que as
perguntas estão dispostas e em que condições vai ser aplicado o questionário?
Estas definições são extremamente importantes porque têm a ver com a qualidade da
medição. Aqui põem-se problemas relacionados com a precisão ou repetibilidade e a validade ou
exactidão do nosso método. Todos estes problemas podem traduzir-se em vieses de informação.
V. V. resultado
Exposição
V. interferentes
Suponhamos que vamos fazer um estudo em que uma hipótese é: o "tempo prévio de
consumo de cannabis" está associado ao "tempo de consumo de heroína". Neste caso, o "tempo
de consumo de cannabis" será uma variável de exposição e o "tempo de consumo de heroína" a
variável resultado. As variáveis interferentes poderão ser a idade e o sexo, o nível educacional,
social, etc. Ou seja, em muitos casos, há variáveis que podem interferir e alterar a relação entre
outras duas. É possível que um determinado subgrupo etário ou apenas um sexo tenha uma
associação positiva entre a variável de exposição e a do resultado, enquanto o outro subgrupo
tem uma associação negativa! Este é um dos problemas mais complexos da investigação, que
António Pina 7
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
8
António Pina 8
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
9
António Pina 9
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
10
António Pina 10
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
11
b) Estudos de caso-controlo
Poderão ser confundidos com os estudos de coorte porque também se baseiam em
medições ao longo do tempo, mas aqui os 2 grupos dividem-se tendo em conta os efeitos e não a
exposição. Ou seja, utilizando o exemplo anterior, caso não pudéssemos de antemão saber
quantos estiveram expostos ou não, seria sempre fácil diferenciar o grupo entre os que morreram
ou não no final do ano. Se soubermos, através de informação colhida num ficheiro, qual a forma
de consumo utilizada no passado, é possível estimar também algo aproximado ao risco relativo
que, neste caso, é denominado Odds Ratio.
C - Estudos descritivos
Um estudo descritivo é aquele que ambiciona apenas estimar parâmetros de uma
população, nomeadamente proporções, médias, etc. Não necessita de elaboração de hipóteses de
estudo pois trata-se apenas de uma "fotografia" da situação. Tais estudos têm a importância
fundamental de serem sempre o primeiro passo da investigação. Deles nascem as hipóteses que
poderão ser estudadas em estudos mais sofisticados.
Todos os investigadores e toda a investigação deverá começar por aqui.
António Pina 11
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
12
testes estatísticos). Se estiver previsto apenas saber uma média e algumas frequências,
provavelmente não será importante utilizar o computador, atendendo que o tempo que levamos a
introduzir os dados não compensa os benefícios da sua utilização. Neste caso, bastará utilizar
uma máquina calculadora!
Finalmente, tendo em conta as hipóteses do estudo e a escala de medição das variáveis,
decida quais serão os testes estatísticos a aplicar.
A análise dos dados, depois de colhidos, é genericamente efectuada segundo 4 fases:
1- Verificar e corrigir os erros de preenchimento que sempre se cometem na introdução
dos dados (para isto é conveniente ver a base de dados em matriz, ou seja, listando
todos os valores de uma ou mais variáveis numa tabela; no EpiInfo um bom método
será clicar em LIST na secção ANALYSIS e seleccionar "update" para fazer as
correcções).
Os erros na colheita e transcrição dos dados para as fichas e o computador traduzem-
se em vieses de informação.
2- Efectuar a análise univariada: cada variável é estudada isoladamente e de forma
descritiva (frequências, medianas, médias, etc.).
3- Efectuar a análise bivariada: estuda-se a possibilidade de existir algum tipo de relação
entre uma variável de exposição e uma variável resposta (Qui-quadrado, Kruskall-Wallis,
ANOVA, etc.).
4- Efectuar a análise multivariada: estuda-se o efeito das variáveis interferentes na
relação entre as variáveis de exposição e as de resultado (análise estratificada, emparelhamento
das amostras, regressão linear ou logística multivariada, etc.).
António Pina 12
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
13
quem é suposto estar à procura da "Verdade". Fica-nos a consolação que todos os estudos
cometem erros e têm limitações, pelo que se o nosso os não cometeu, será muito de desconfiar, a
não ser que tenhamos sido orientados por alguma entidade divina.
Na hora de interpretar os resultados, poderemos classificar todas as possibilidades de erro
da seguinte forma:
António Pina 13
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
14
Nos casos referidos nas alíneas c), d) e e), é importante comparar o grupo da
amostra que não respondeu com o grupo que respondeu relativamente a outras
variáveis conhecidas (geralmente sócio-demográficas). Se não há diferenças
estatisticamente significativas entre os dois grupos aumenta a probabilidade de
as não-respostas não terem significado.
♦ Vieses de informação.
Têm a ver com os erros de classificação dos elementos da amostra, erros na
medição das variáveis, ou na codificação e recolha da informação. Geralmente
classificam-se segundo dois tipos:
b) vieses de resposta: é o caso de um questionário que por ser mal feito poderá
induzir a maioria dos elementos da amostra a responderem num determinado
sentido...
António Pina 14
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
15
Estes erros poderão ser minorados se houver rigor humano e técnico, utilizando
instrumentos de medição mais válidos, etc.
♦ Vieses de confundimento.
Falámos já que importa em estudos analíticos classificar as nossas
variáveis em três categorias: variáveis de exposição, de resposta e interferentes.
Há dois tipos de variáveis interferentes: as de confundimento e as
modificadoras de efeito.
O confundimento pode surgir quando uma variável interferente, neste caso
denominada de confundimento, distorce ficticiamente a associação entre a
variável de exposição e de resposta, alterando-lhe a força ou mesmo o sentido.
Um exemplo muito prático é quando o investigador quer saber se há
associação entre o estado civil e o cancro. Possivelmente, encontrar-se-á uma
associação positiva entre o facto de se estar casado e ter cancro, pelo que se
poderia tirar a conclusão errada que o casamento constitui um risco cancerígeno!
A verdade é que existe aqui uma variável de confundimento - a idade - que
distorce a associação! Efectivamente, a idade (v. de confundimento) está
associada tanto ao estado civil (v. de exposição), porque os casados tendem a ser
mais velhos, como ao cancro (v. resposta) porque os doentes de cancro também
tendem a ser mais velhos.
Em todos os casos de confundimento é necessário que a v. de
confundimento esteja associada tanto à exposição como à resposta. Outra forma
de dizer a mesma coisa é referir que além de a v. de confundimento estar
associada à resposta, é necessário também que os diversos grupos classificados
segundo a v. de exposição (no exemplo atrás apontado: dois grupos -
casados/solteiros) estarem desajustados quanto à v. de confundimento
(efectivamente, a proporção de velhos era diferente entre os casados e solteiros).
Repare-se que isto significa que, de alguma maneira, um confundimento é um erro
no desenho do estudo, porque não se deve comparar dois grupos desajustados (no
Anexo 2 dão-se mais informações sobre como controlar o efeito destas variáveis)!
António Pina 15
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
16
Finalmente, para decidirmos que uma determinada variável de exposição poderá ter uma
relação de causalidade com uma variável resposta, deveremos pensar se se cumprem vários
critérios de causalidade. Existem três critérios essenciais de "causalidade":
António Pina 16
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
17
♦ a especificidade: quando a causa leva sempre a um só efeito único é mais fácil estabelecer a
relação de causalidade, no entanto, a maioria das causas de doença ou saúde têm efeitos
múltiplos...
7º - Comentários finais
É importante escrever o protocolo no computador pois será seguramente necessário fazer
muitas modificações e correcções até a forma final! Por outro lado, muito do que se escreve para
o protocolo poderá ser utilizado para o relatório ou artigo a publicar, especialmente para os
capítulos de introdução e métodos.
Faça sempre ainda um cronograma com as suas actividades. É mais uma forma de auto-
disciplina que nos ajuda a levar a bom termo o nosso processo de investigação.
O rigor no cumprimento dos passos do protocolo é muito importante mas é evidente que
não há estudos perfeitos que nos possam revelar a "Verdade". Assim, depois da elaboração do
protocolo, resta-nos segui-lo com o rigor possível mas, também, com a consciência das
imperfeições do mesmo. A paixão pela perfeição não nos deve bloquear e, sobre este assunto,
alguém disse que «em investigação, assim como no amor, uma exagerada concentração na
técnica, levará provavelmente à impotência»...
Atendendo aos erros que todos os estudos incluem, as conclusões têm de ser geralmente
cuidadosas e prudentes.
António Pina 17
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
18
António Pina 18
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
19
PARTE 2
Noções de estatística
António Pina 19
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
20
Noções de Estatística
1. A Estatística descritiva.
Quando queremos investigar, o primeiro objectivo é descrever o fenómeno. Por isso, a
primeira fase de tratamento dos dados é a análise univariada, através da verificação das
frequências e o cálculo das medidas de localização central e de dispersão para cada variável
isoladamente.
Geralmente, não se calculam mais que as seguintes medidas:
♦ as frequências absolutas (números absolutos de cada valor) e as frequências relativas
(as proporções em percentagens ou permilagens, etc.).
♦ a média e desvio-padrão
♦ a mediana e desvio-quartil
♦ a moda.
No entanto, as medidas atrás referidas não poderão ser calculadas para qualquer tipo de
variável. Tudo depende da escala de valores de cada variável, pelo que aqui será importante fazer
um pequeno parêntesis para classificarmos as variáveis quanto à sua escala. Compreender esta
classificação é de importância crucial para utilizarmos de forma adequada a estatística.
Sumariamente, poderemos classificar as variáveis da seguinte forma:
1- Variáveis qualitativas nominais: são variáveis cujos valores não tem uma relação de
ordem entre eles, por ex., o Sexo e Raça.
Para este tipo de variáveis poder-se-á fazer o estudo das frequências absolutas e relativas (no EpiInfo
escolhemos o Comando FREQUENCIES).
2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de
ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito
pesados).
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais, mas
também adicionalmente é possível estudar as medianas, quartis, modas (Comando MEANS no EpiInfo);
António Pina 20
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
21
3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas.
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais e
ordinais, mas também adicionalmente é possível estudar as médias e desvios-padrão (Comando MEANS no
EpiInfo).
Com esta base de dados criada será mais fácil compreender as provas estatísticas.
António Pina 21
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
22
Convém que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso
contrário, os resultados poderão confundir-nos, pois tenderemos a comparar grupos que não são
comparáveis! 1
A Média aritmética assim como o Desvio-padrão que lhe está associado, são conceitos
que geralmente oferecem poucas dúvidas. São calculados apenas em variáveis com a escala
quantitativa. Por exemplo, não tem significado calcular a média para o Sexo (variável nominal)
ou para o Peso medido em escala ordinal.
O conceito de Mediana, no entanto, gera muitas confusões: a Mediana é simplesmente o
valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim,
tem que haver uma relação de ordem nos valores, pelo que a Mediana pode ser calculada tanto
para as variáveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com
a base de dados "Experiência" criada no EpiInfo, poderemos criar uma nova variável idade a
partir da data de nascimento e data actual, tal como se explica no Manual sobre o EpiInfo, e
executar o comando MEANS para a idade, obtendo todas estas medidas. Neste exemplo, temos
cinco pessoas com as seguintes idades já ordenadas:
1
Apesar de tudo, existe a possibilidade de comparar graficamente classes de diferentes amplitudes através dos
histogramas que, são gráficos em que a área das colunas representam o número de indivíduos (ao invés da altura das
colunas). No entanto, apesar deste tipo de gráficos ser muito falado nos cursos de estatística, raramente se vêm em
artigos ...
António Pina 22
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
23
15
20
27
39
50
O número 27 representa o valor que está a meio, ou seja, é a Mediana. Isto significa que
50% das pessoas têm uma idade igual ou maior que 27 e, evidentemente, os outros 50% têm uma
idade igual ou menor que 27.
O número 20 representa o valor que está a meio da primeira metade, ou seja, é o primeiro
Quartil ou Percentil 25. Isto significa que 75% das pessoas têm uma idade igual ou maior que 20
e, evidentemente, os outros 25% têm uma idade igual ou menor que 20.
O número 39 representa o valor que está a meio da segunda metade, ou seja, é o terceiro
Quartil ou Percentil 75. Isto significa que 75% das pessoas têm uma idade igual ou menor que 39
e, evidentemente, os outros 25% têm uma idade igual ou maior que 39.
Claro que a mediana é também o segundo Quartil e o Percentil 50. No caso deste
exemplo, com um número ímpar de valores ordenados (cinco), a mediana é o valor que está a
meio, mas no caso de um número par de valores ordenados, a mediana terá ser calculado
fazendo-se a média entre os dois valores que estão a meio.
A Moda é o valor mais frequente (ou seja, o que "está na moda"...). Neste caso, como não
existe nenhum valor mais frequente, o EpiInfo dá-nos o menor valor (através do comando
MEANS), o que não tem significado absolutamente nenhum, podendo mesmo induzir-nos em
erro. O que se passa é que quando existem várias Modas, o EpiInfo apresenta sempre a menor:
ou seja, se numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo
todas as outras idades menos frequentes, sucede que existem duas Modas, mas o EpiInfo vai
referir apenas a que apresenta o menor valor ou seja, dirá que 20 anos é o valor mais frequente.
Por isto, se nos interessa referir a Moda, convém verificar se não há outro valor tão frequente na
nossa amostra. Para isto basta executar o comando FREQUENCIES, que nos dá as frequências
de todos os valores.
Qual a diferença de interpretação entre a Mediana e a Média?
Em primeiro lugar a Mediana pode ser utilizada tanto em variáveis quantitativas como em
variáveis qualitativas ordinais, enquanto a Média só pode ser utilizada em variáveis
quantitativas.
António Pina 23
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
24
Em segundo lugar, no caso das variáveis quantitativas, embora a Média seja um valor
mais fácil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores
muito extremos. Por exemplo, na distribuição de idades da nossa amostra a Média é de 30,2 e a
Mediana de 27. Imagine que o indivíduo mais velho tinha não 50 anos de idade mas sim 100
anos. Isto faria com que a Média saltasse para 40,2, ou seja, seria superior a quase todos os
valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores
individuais da nossa amostra, verificamos que o número 27 é melhor representante da
distribuição global da idade na nossa amostra que o erróneo número 40,2.
Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente
da Média, é aconselhável considerar sempre a Mediana como valor de referência mais
importante.
Além das medidas de localização central (média, mediana, moda) existem as medidas de
dispersão que nos dão a ideia da variação dos dados.
Quando se calcula a média dever-se-á sempre calcular o desvio-padrão, apresentando-se a
sua fórmula apenas para ficar-se com uma ideia do que representa:
Desvio-padrão =
∑ ( Xi − Média ) 2
N
em que
Xi = Cada valor individual
N = Número de todos os valores
Ou seja, para calcular o Desvio-padrão é necessário primeiro calcular a Média e depois
calcular todas as diferenças entre cada valor individual e a média. É um erro dizer que o desvio-
padrão é a média de todas as diferenças, mas podemos senti-lo como algo aproximado.
Por vezes, queremos comparar duas variáveis quantitativas quanto ao seu grau de
dispersão, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparação não poderá ser
feita comparando simplesmente os Desvios-padrão respectivos, porque estes estão expressos em
unidades de medida diferentes, i.e., não se pode comparar a dispersão de Kg com a de Anos! No
entanto, é possível fazer esta comparação em termos relativos, se calcularmos o coeficiente de
variação, da seguinte forma:
Desvio − padrão
Coeficiente de variação = X 100%
Média
António Pina 24
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
25
convencionando alguns autores que um coeficiente variação maior que 10% significa que
a dispersão é forte.
Nas variáveis ordinais, como não é possível calcular médias ou desvios-padrão, para
avaliar o grau de dispersão, poder-se-á calcular a Amplitude interquartil e o Desvio-quartil.
A Amplitude interquartil é simplesmente a diferença entre o 3º e o 1º Quartil, ou seja, no
exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50%
centrais dos valores.
O Desvio interquartil é sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.
Também é possível, calcular a o coeficiente de variação quartil da seguinte forma:
Amplitude int erquartil
Coeficiente de variação quartil= X 100%
3º Quartil + 1º Quartil
Claro que estes cálculos também podem ser efectuados para as variáveis quantitativas.
2. A Estatística Dedutiva
Para além da simples descrição dos dados que temos, a Estatística pretende ajudar-nos a
inferir até que ponto os nossos resultados poderão ser representativos da população que está por
trás da nossa amostra.
Ou seja, suponhamos que retiramos de forma aleatória uma amostra de 100 doentes de
um ficheiro clínico com 1000 doentes. Após verificarmos que na nossa amostra temos 10% de
mulheres, poderemos perguntar-nos até que ponto, na população, também existe 10% de
mulheres.
De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre
ter o azar de encontrar 100 sujeitos que são muito diferentes da população.
É intuitivo que quanto maior for a diferença entre a amostra e a população de origem,
menor será a probabilidade de isso acontecer. Por outras palavras, a probabilidade de termos uma
amostra semelhante à sua população é elevada, mas existe sempre uma possibilidade de a
amostra ser diferente, sendo a probabilidade de isto acontecer tanto menor quanto maior for esta
diferença. Mas, como medir esta probabilidade?
António Pina 25
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
26
Repare-se que o "p" de significância estatística, resultante destas provas, dá-nos sempre a
a probabilidade de os nossos resultados serem semelhantes ao que existe na população de origem
(partindo do pressuposto que na população de origem não há diferenças entre grupos, nem
associações entre variáveis). Geralmente, em ciências da saúde, quando estas probabilidades são
inferiores a 5%, ou seja, há menos de 5 possibilidade em 100 de suceder um determinado
resultado, nós consideramos que são estatisticamente significativas.
Como este "p" tem a ver apenas com a probabilidade de os nossos resultados se
assemelharem ao que existe na população, têm uma grande limitação: não nos dizem se as
diferenças encontradas ou a associação entre as variáveis são fortes ou importantes! De facto,
nem sempre aquilo que é estatisticamente significativo é importante! Repare-se: suponhamos que
queremos saber se as mulheres são diferentes dos homens quanto à idade. Se aplicarmos um teste
António Pina 26
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
27
estatístico os seus resultados são tanto mais estatisticamente significativos quando maiores forem
as diferenças entre os dois grupos, e também, quanto maior for a dimensão da amostra estudada.
Isto significa que por vezes, pequeníssimas diferenças entre os dois grupos podem ser
estatisticamente significativas se a amostra tiver grandes dimensões. Mas a questão que aqui se
põe é: são estas pequeníssimas diferenças importantes do ponto de vista clínico, social, etc.?
Neste caso particular, o aprendiz de estatística tenderá a valorizar um qualquer resultado
estatisticamente significativo, mesmo que este não tenha interesse absolutamente nenhum,
atendendo ter a ver com pequeníssimas diferenças...
Em conclusão, existem duas dimensões na análise dos resultados: uma em que a
Estatística nos diz até que ponto o que vemos na nossa amostra é o que existe na população, ou
seja, até que ponto é estatisticamente significativo; outra em que procuramos verificar até que
ponto os nossos resultados implicam associações entre variáveis ou diferenças importantes e
fortes, calculadas através de simples subtracções (Diferenças de Riscos) ou quocientes (Risco
Relativo, Odds Ratio, etc). É possível haver uma associação forte nos resultados da nossa
amostra que, no entanto, não sendo estatisticamente significativos, têm pouco interesse porque
não temos garantias de existirem na população real. Por outro lado, tal como já referimos, é
possível haver uma associação estatisticamente significativa mas que, por ser tão fraca, não tem
importância nenhuma.
Posto isto vamos agora partir para a compreensão dos testes estatísticos no EpiInfo.
António Pina 27
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
28
o EpiInfo aplica, poderemos acreditar com uma confiança de 95% que a percentagem de homens
na população estará algures entre 14,7% e 94,7% e a percentagem de mulheres entre 5,3% e
85,3%2.
Repare-se que neste caso os intervalos de confiança são muitíssimos dilatados, atendendo
que a amostra em causa conta com apenas 5 elementos, pelo que o erro de amostragem é enorme.
É evidente que quanto maior for a nossa amostra, mais pequeno será o intervalo de
confiança e por isso, mais provável será obtermos extrapolações precisas das verdadeiras
percentagens da população.
Mas atenção: mesmo este intervalo não é uma certeza pois tem uma confiança de 95%,
ou seja, há sempre uma probabilidade de 5% de a verdadeira percentagem estar fora destes
limites...
É claro que, se as percentagens em causa forem calculadas tendo por base não uma
amostra mas toda a população, os intervalos de confiança que o EpiInfo automaticamente vomita
não têm significado absolutamente nenhum, pelo que devem ser ignorados. Um exemplo é
quando um médico introduz os dados de todo o seu ficheiro clínico e depois quer saber a
percentagem de cada sexo para o seu ficheiro. Se o resultado for 35% de mulheres, é mesmo
35% sem qualquer dúvida ou intervalo de confiança, pois ele quis saber a percentagem de
mulheres do seu ficheiro que, neste caso, está totalmente informatizado.
Finalmente, tenha-se em atenção que se a amostra não é aleatória, também não será
legítimo falar-se em intervalos de confiança para a população, porque aqui a amostra não será
representativa de nenhuma população conhecida.
Suponhamos que temos uma amostra de 5 pessoas, para as quais sabemos o sexo e a
idade. O sexo é uma variável nominal, enquanto a idade poderá ser quantitativa, caso façamos a
sua medição em "anos". No entanto, neste caso vamos transformá-la numa variável também
nominal, criando duas classes - a classe dos adultos e a dos jovens.
2
Novamente, segundo os Estatísticos, a interpretação deverá ser feita com uma pequena nuance: um Intervalo de
confiança de 95% significará que se seleccionarmos um número infinito de amostras sempre da mesma forma
aleatória, em 95% delas, estarão incluidos os valores "verdadeiros" no intervalo de confiança resultante.
António Pina 28
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
29
Nestes casos, assim como em qualquer caso onde tenhamos duas variáveis qualitativas
em jogo, poderemos expor os dados segundo uma tabela de dupla entrada. Tendo em conta o
exemplo já criado no EpiInfo, poderemos criar esta tabela através da execução do comando
TABLES, em que pomos Sexo como variável de exposição e Grupos etários (ex.: Jovens com
menos de 18 anos e Adultos) como variável resposta:
António Pina 29
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
30
Doenças cardíacas
(Variável resultado)
Sim Não
(casos) (controlos)
Variável de 1 (não fuma) 5 85
exposição 2 (1-15 6 54
(Consumo de cigarros/dia)
tabaco) 3 (>15 9 41
cigarros/dia)
Fonte:Massons, J.M.D. - Métodos estadísticos en ciencias de la salud, UD 10 - Barcelona, 11ª Ed, ISBN:
84-8049-189-2, 1999.
António Pina 30
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
31
Neste caso, temos uma variável de exposição ordenada e uma variável resultado
dicotómica. Se, fizermos o Qui-quadrado obteremos o seguinte resultado: p=0,0629 .
Este resultado diz-nos que não há diferenças estatisticamente significativas (para um
nível de significância convencionado de 0,05) entre os doentes e não doentes quanto ao seu
consumo de tabaco, mas não tem em conta o efeito crescente da variável exposição.
Se entrarmos em conta com este efeito, não só tornamos mais potente o teste como
poderemos verificar existir uma relação linear entre as duas variáveis. É o que faz a Prova da
tendência linear do Qui-quadrado cujo “p”, neste caso, é igual a 0,0206. Ou seja, há uma relação
linear estatisticamente significativa entre o nível de consumo de tabaco e a existência de doença
cardíaca.
Esta Prova da tendência linear só poderá ser aplicada quando a variável resposta seja
dicotómica e a variável exposição seja quantitativa ou ordinal (variável de categorias ordenadas
em três ou mais níveis).
Também só poderá ser aplicada depois de verificarmos que não há valores esperados nas
células inferiores a 5. Isto não é automaticamente verificado pelo EpiInfo enquanto se faz a
prova da tendência linear: ter-se-á sempre que aplicar o Qui-quadrado convencional na secção
STATCALC, da forma já referida.
2.3.- Provas para verificar a associação entre uma variável qualitativa e uma
variável quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / Kruskal-
Wallis.
António Pina 31
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
32
O teste ANOVA exige muitos pressupostos pelo que é perigoso ser utilizado por
principiantes, especialmente em amostras de pequena dimensão. Em alternativa, recomendo
utilizar sempre os resultados do teste de Kruskal-Wallis porque é robusto, muito conservador e
não exige nenhum pressuposto. O Kruskal-Wallis pode ser utilizado para variáveis quantitativas
e qualitativas ordinais, tal como a Mediana.
No entanto, caso haja interesse em utilizar o ANOVA, atendendo que quando se
cumprem os seus pressupostos, este teste é de facto um pouco mais potente que o Kruskal-
Wallis, recomenda-se fazê-lo só nestas circunstâncias:
1º- A variável a testar terá de ser quantitativa.
2º- Quando os grupos têm dimensões diferentes, deverá existir homogeneidade nas
variâncias, ou seja, o "p" do teste de Bartlett, efectuado automaticamente pelo EpiInfo deve ser
superior a 0,05. No caso do nosso exemplo é 0,9385 pelo que se conclui estar cumprido este
pressuposto.
3º- Quando pelo menos um dos grupos tem menos de 30 elementos, deverão os diversos
grupos ter uma distribuição Normal. Infelizmente, o EpiInfo não executa qualquer teste para
confirmar esta Normalidade, pelo que se aconselha a nunca aplicar o ANOVA nestes casos.
3- A força da associação.
Já referimos que existe duas dimensões quando estudamos uma associação entre
variáveis: uma em que a Estatística nos diz até que ponto o que vemos na nossa amostra poderá
ser o que existe na população, ou seja, até que ponto é estatisticamente significativo; outra em
que procuramos verificar até que ponto os nossos resultados implicam associações fortes entre
variáveis, calculadas através de simples subtracções (Diferença de Riscos ou Risco Atribuível)
ou quocientes (Risco Relativo, Odds Ratio, etc). É possível haver uma associação forte nos
resultados da nossa amostra que, no entanto, não sendo estatisticamente significativos, têm
António Pina 32
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
33
pouco interesse porque não temos garantias de existirem na população real. Por outro lado, tal
como já referimos, é possível haver uma associação estatisticamente significativa mas que, por
ser tão fraca, não tem importância nenhuma.
Vamos agora falar de duas importantes medidas da força da associação - o Risco Relativo
e o Odds Ratio.
Estas medidas só poderão ser calculadas em tipos particulares de estudos de observação
analítica - os estudos de coorte e de caso-controlo.
António Pina 33
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
34
Com estes dados, poderemos calcular o risco absoluto de morrer quando se injecta a
droga (A/A+B=20%) e o risco absoluto de morrer sem este comportamento (C/C+D=5%). A
medição da força da associação entre as duas variáveis poderá ser calculada ou através da
diferença (20%-5%=15%) ou do quociente entre estes dois riscos (20/5=4). A Diferença de
Riscos é frequentemente denominada como Risco Atribuível (RA) e o quociente entre os dois
riscos corresponde ao denominado Risco Relativo (RR).
Repare-se que a força de associação é nula quando o RA for aproximadamente zero, ou
quando o RR for aproximadamente igual a um.
Qual a diferença de interpretação entre o RA e o RR?
Genericamente o RA é uma medida importante para avaliar o impacto duma intervenção
que diminua a exposição ao factor de risco na comunidade. Assim, no exemplo anterior
poderíamos pensar que se conseguíssemos eliminar os hábitos de consumo endovenosos,
poderíamos eliminar os óbitos em 15% dos toxicodependentes com consumos injectáveis. O RA
é a quantidade de risco que pode ser atribuída ao factor em causa: se retirarmos este factor,
continuará a haver óbitos, embora devido a outros factores. O RA só tem sentido se tivermos
António Pina 34
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
35
informação sobre as duas incidências cumuladas. De facto, se as duas incidências forem 95% e
80%, o significado de um RA=15% é diferente de uma outra situação em que as duas incidências
são de 20% e 5%. A Fracção Etiológica do Risco (FER) já relativiza esta informação de acordo
com a incidência nos expostos, sendo que para estas duas situações daria resultados diferentes:
15/95=0,16 e 15/20=0,75. Isto significaria que, caso pudéssemos erradicar o factor de risco, na
primeira situação haveria uma diminuição de 16% da mortalidade e, na segunda situação, de
75%.
Já o RR é uma medida mais utilizada em investigação porque dá uma ideia mais apurada
da potência de uma associação causal. Neste caso o RR é 4, ou seja o risco de morrer é 4 vezes
superior nos expostos que nos não expostos.
O Odds Ratio (OR), que poderá traduzir-se como "razão de possibilidades", é uma
aproximação estimada do RR, pelo que só tem interesse em estudos onde este não poderá ser
calculado, nomeadamente nos estudos de caso-controlo, dos quais se falará depois.
Tal como é possível calcular os intervalos de confiança para as frequências, também é
possível calcular intervalos de confiança para o RA, o RR e o OR.
O EpiInfo efectua estes cálculos quer através do comando TABLES (quando já existe
uma base de dados criada) quer através da secção STATCALC (nesta secção apenas calcula os
intervalos de confiança do RR e OR).
Chama-se a atenção que o cálculo dos intervalos de confiança de 95% destas medições,
substitui com vantagem qualquer outra prova de significância estatística. Repare-se que, se no
intervalo de confiança do RA não estiver incluído o "0", ou no do RR e OR não estiver incluído
o "1", poderemos afirmar com uma confiança de 95% que existe uma diferença entre o grupo
exposto e não exposto. Por outras palavras, poderemos concluir que existe uma diferença
estatisticamente significativa (para um nível de significância de 5%). Por exemplo, segundo o
EpiInfo o intervalo de confiança do Risco Relativo do exemplo mencionado seria 2,97-5,38 o
que, atendendo não incluir o 1, significaria haver uma associação estatisticamente significativa
entre a forma de consumo e a mortalidade.
António Pina 35
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
36
Repare-se que esta tabela é igual à anterior mas os cálculos efectuados anteriormente não
têm significado epidemiológico e são incorrectos. Efectivamente, não poderemos calcular os
riscos absolutos porque não sabemos qual é a população exposta que deu origem a todos os
óbitos. Consequentemente, também não poderemos calcular o RA e o RR. No entanto,
demonstra-se que, quando o efeito é raro (neste caso, os óbitos) é possível estimar
António Pina 36
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
37
Bibliografia
♦ Abramson, J.H. Survey methods in community medicine - an introduccion to epidemiological
and evaluative studies. 2º ed. New York: Churchill Livingstone, 1979.
♦ Dean, A.G.; et al. Epi Info 2000, a database and statistics program for public health
professionals for use on Windows 95, 98, NT, and 2000 computers. Atlanta (USA): Centers
for Disease Control and Prevention, 2000.
♦ Doménech Massons, José M. Métodos Estadísticos en Ciencias de la Salud. Barcelona
(Espanha): Universitat Autònoma de Barcelona, 1999.
♦ Gerstman, Burt. Data Analysis With Epi Info.
http://www.sjsu.edu/faculty/gerstman/EpiInfo/, Novembro 2000.
♦ Jiménez Villa, J. Como iniciar un trabajo de investigación. Atención Primaria, Vol. 5, Nº 2,
Espanha, 1988.
♦ Serrano, Pedro. Redacção e Apresentação de Trabalhos Científicos. Lisboa: Relógio D'Água,
1996.
António Pina 37
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
ANEXO 1. - A revisão bibliográfica
Anexo 1
A Revisão Bibliográfica
muitos casos, incluem os resumos dos artigos, o que possibilita obter rapidamente uma ideia
sobre os artigos que nos interessam.
Estas pesquisas podem ser feitas nas próprias bibliotecas. Neste caso, temos a vantagem
de ser ajudados pelo técnico da biblioteca e, podemos pedir imediatamente os artigos que
queremos. As bibliotecas quando não têm os artigos, frequentemente, através de convénios com
outras bibliotecas, podem fornecê-los.
Sucede que temos que ser criteriosos na nossa selecção, caso contrário, arriscamo-nos a
ler demasiados artigos que não nos vão interessar e, eventualmente, a ter que pagar o envio
destes artigos desnecessariamente.
Em Portugal, a biblioteca que, na área da toxicodependência, melhor nos pode prestar tais
serviços é, sem sombra de dúvida, a do Instituto da Droga e Toxicodependência.
No Algarve, recomendaria o Centro de Documentação da Administração Regional de
Saúde e a Biblioteca da Universidade do Algarve.
No entanto, actualmente, é ainda possível fazer todas estas pesquisas em casa, desde que
tenhamos ligação à Internet. Depois das pesquisas, será possível também solicitar os artigos em
casa embora, frequentemente, seja necessário pagar este envio.
Eis alguns endereços onde tais pesquisas poderão ser feitas na tranquilidade do lar:
4. TESEO (www.mcu.es/TESEO/index.html)
Base de dados de teses espanholas. Poder-se-á saber em que universidade está a tese e as
diversas bibliotecas em Espanha onde será possível consultá-las.
Além de possibilitar pesquisas de toda a documentação da OMS, têm ainda links para
dicionários e outras bases de dados bibliográficas.
Anexo 2
Controlo das variáveis interferentes
V. Exposição V. resultado
(casamento) (cancro)
V. confundimento
(idade)
V. Exposição V. resultado
(idade) (cancro)
V. modificadora de
efeito
(tabagismo)
Para complicar mais um pouco, é possível haver ainda v. interferentes que são
simultaneamente de confundimento e modificadoras de efeito. Basta que no estudo anterior, em
que verificamos a associação entre idade e cancro, a v. modificadora de efeito "hábito de fumar"
esteja também desajustada nos dois grupos etários (velhos/jovens).
Na prática, para verificar se há confundimento, bastará ver se há associação entre a v.
interferente e a v. resposta e, se há concomitantemente, desajustamento na variável de exposição
entre os dois grupos (expostos/ não expostos) quanto à v. interferente. Para verificar se há
interacção bastará verificar se a força da associação entre as variáveis de exposição e de
resultado (eventualmente medida através do Risco Relativo ou Odds Ratio) é diferente nos
diversos estratos da variável interferente.
O EpiInfo ajuda-nos a controlar o efeito destas variáveis interferentes através do cálculo
dos Riscos Relativos ou Odds Ratios no comando TABLES ou na secção STATCALC.
Efectivamente podemos calcular estas medidas ajustadas e não ajustadas e, através da sua
comparação, verificar o tipo de interferência que existe.
Vejamos algumas situações concretas:
No estudo em que verificamos a associação entre a idade e o cancro, temos uma variável
interferente que denominamos "hábito de fumar".
No primeiro quadro em a), expõe-se a totalidade dos dados, com estratificação de acordo
com a variável interferente, no segundo em b), expõem-se os dados totais sem estratificação e,
nos terceiro e quarto quadro em c) e d), expõem-se os dados para cada estrato da v. interferente:
d) Estrato de fumadores:
Doença (Cancro)
Doença + Doença -
Positiva (>45 anos) 12 188
Exposição (Idade) Negativa (<45 anos) 8 192
Risco Relativo =1,5
Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que
comprova que a v. hábito de fumar não modifica o efeito na v. cancro. Também a proporção de
fumadores tanto num grupo etário como no outro é idêntica (em ambos os grupos etários existe
António Pina Anexo 2 – pag. 5
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
ANEXO 2 - Controlo das variáveis interferentes
uma proporção de fumadores semelhante de 40%), o que significa não haver desajuste ou
confundimento.
Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados para os dois estratos temos os seguintes dados:
RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 1,5
Quando o RR não ajustado é igual ao ajustado, não há confundimento.
Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.
d) Estrato de fumadores
Doença (Cancro)
Doença + Doença -
Positiva (>45 anos) 194 606
Exposição (Idade) Negativa (<45 anos) 24 76
Risco Relativo =1
Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que
comprova que a v. hábito de fumar não modifica o efeito na v. cancro. No entanto, a proporção
de fumadores é diferente nos dois grupos etários (há 80% de fumadores no grupo com mais de
45 anos, e apenas 10% no grupo com menos de 45 anos) e isto provoca confundimento na
associação entre a idade e o cancro.
Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados para os dois estratos temos os seguintes dados:
RR não ajustado (Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 1
Quando o RR ajustado é diferente do não ajustado existe confundimento e, neste caso,
deveremos referir apenas o RR ajustado como medida de força da associação.
Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.
d) Estrato de fumadores
Doença (Cancro)
Doença + Doença -
Positiva (>45 anos) 42 258
Exposição (Idade) Negativa (<45 anos) 8 292
Risco Relativo =5,2
Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que significa que o
hábito de fumar interage com a associação idade - cancro. No entanto, não existe confundimento
porque não existe desajuste: a proporção de fumadores é igual entre os dois grupos etários (em
ambos é de 60%).
Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados para os dois estratos temos os seguintes dados:
RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 4,6
Quando o RR não ajustado é igual ao ajustado, não há confundimento.
Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é
o caso.
No entanto, havendo interacção, comprovada pela diferença na força de associação entre
os diversos estratos, deveremos sempre verificar adicionalmente se estas diferenças são
estatisticamente significativas, através da prova de Mantel-Haenszel Summary Chi-squared
proposta no EpiInfo, em que o "p", neste caso, é de 0,0000017, ou seja, é estatisticamente
significativo.
Quando há interacção como neste exemplo, não poderemos referir apenas um RR para
traduzir a relação entre as duas variáveis. Nestes casos deveremos referir o resultado RR para
cada estrato, atendendo o risco ser efectivamente diferente em cada estrato.
d) Estrato de fumadores
Doença (Cancro)
Doença + Doença -
Positiva (>45 anos) 12 188
Exposição (Idade) Negativa (<45 anos) 48 752
Risco Relativo =1
Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que representa haver
interacção. Por outro lado também existe desajustamento entre os dois grupos etários quanto à v.
hábito de fumar (o grupo com maios de 45 anos tem 20% de fumadores, enquanto o grupo com
menos de 45 anos tem 80% de fumadores).
Claro que se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados, verificamos a existência de confundimento porque o RR não ajustado
(Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 4,2.
Quando o RR não ajustado é diferente do ajustado, há confundimento.
Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é
o caso.
António Pina Anexo 2 – pag. 10
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
Investigação e Estatística com o EpiInfo
ANEXO 2 - Controlo das variáveis interferentes
Posto isto qual será a melhor estratégia para identificar as variáveis de confundimento e
as variáveis modificadoras do efeito? Proponho o seguinte procedimento:
Anexo 3
Cálculo da dimensão da amostra
Veja agora o resultado: terá de ter uma amostra de 94 elementos se quiser obter intervalos
de confiança de 95% ("confidence level of 95%"), cujo limites não ultrapassem 60 ou 40%,
partindo do pressuposto que a verdadeira proporção é de 50%, e que a amostra será seleccionada
pelos métodos aleatórios já designados.
Complicado? Talvez, mas melhor que isto só se perguntar directamente a Deus ...
3
A amostragem por conglomerados aumenta um pouco o erro pelo que existem correcções matemáticas
apropriadas, actualmente só disponíveis no EpiInfo 6.04.
António Pina Anexo 3 – pag. 2
Gabinete de Investigação e Estatística
Delegação Regional do Algarve do Instituto da Droga e Toxicodependência