InvestigaçãoEstatística PDF

António Paula Brito de Pina
2005
Gabinete de Investigação e Estatística

Delegação Regional do Algarve do Instituto da Droga e Toxicodependência
i
Investigação e Estatística com o EpiInfo
Índice
PARTE 1 - A metodologia básica de investigação ...............................................1
1º- Identifique o assunto a investigar.....................................................................3

a) Quais são as perguntas que o investigador propõe?..............................................3
b) Qual a investigabilidade do problema?.................................................................4
c) É pertinente gastar recursos para tentar conseguir respostas a tais perguntas?.....4
d) O que é que já se sabe ou foi publicado sobre o assunto?.....................................4
e) Quais são as hipóteses a comprovar?....................................................................5
2º- Identifique as variáveis a estudar.....................................................................5

a) Quais são as variáveis?..........................................................................................5
b) Classifique cada variável segundo a sua escala de medição.................................6
c) Como vamos proceder à medição da variável?.....................................................6
d) Posicione cada variável no desenho do estudo.....................................................7
3º- Identifique a população e a amostra a estudar...............................................8

a) Qual a unidade de observação?.............................................................................8
b) A população vai ser toda estudada?......................................................................8
4º- Defina o desenho do seu estudo......................................................................10

5º- Planeie a recolha e a análise dos dados..........................................................11
6º- Interprete os resultados para elaborar um relatório....................................12
7º - Comentários finais..........................................................................................17
António Pina
ii
PARTE 2 - Noções de estatística..........................................................................19
1. A Estatística descritiva......................................................................................20
1.1. Interpretar as frequências absolutas e relativas................................................21
1.2. Interpretar as médias, desvios-padrão, medianas, etc. .....................................22
2. A Estatística Dedutiva.......................................................................................25
2.1- Os intervalos de confiança...............................................................................27
2.2.- Provas para verificar a associação entre duas
variáveis qualitativas - o Qui-quadrado e a Prova de Fisher..................................28
2.3.- Provas para verificar a associação entre uma variável qualitativa
e uma variável quantitativa - o t de Student / ANOVA
e o U de Mann-Whitney / Kruskal-Wallis..............................................................31
3- A força da associação........................................................................................32
3.1. Estudos de coorte..............................................................................................33
3.2. Estudos de caso-controlo..................................................................................36
Bibliografia.............................................................................................................37
Anexo 1 - A Revisão Bibliográfica

Anexo 2 - Controlo das variáveis interferentes
Anexo 3 - Cálculo da dimensão da amostra
António Pina
1
PARTE 1
A metodologia básica de investigação
António Pina 1
2
A metodologia básica de investigação

Ao contrário do que muitos julgam, não basta saber Estatística para fazer Investigação,
atendendo que:
1º- A Estatística nunca dá certezas, dá apenas probabilidades baseadas em pressupostos

fictícios ..., tal como explicaremos na Parte 2 desta brochura.
2º- Os resultados estatisticamente significativos podem não ter relevância...,

nomeadamente quando a amostra é muito grande, porque é possível obter resultados
estatisticamente significativos nas pequenas diferenças encontradas entre dois subgrupos da
amostra, mesmo quando estas diferenças, além de pequenas, são pouco importantes.
3º- Os resultados da Estatística poderão dar-nos uma ideia sobre a eventual associação
entre variáveis, mas nunca nos revela a relação de causalidade... Por exemplo, a Estatística
poderá demonstrar que determinados perfis psicopatológicos poderão estar associados à
toxicodependência mas, saber se é esta psicopatologia que leva à toxicodependência, ou vice-
versa, só pode ser respondido tendo em conta o desenho do estudo, nomeadamente um desenho
que permita saber o que é que acontece primeiro (as perturbações psicopatológicas ou a
toxicodependência).
4º- Se os dados que introduzimos no computador para fazer os cálculos estatísticos não
forem os correctos, a interpretação dos resultados poderá ser impossível ou levar a conclusões
totalmente erradas... Por exemplo, se quisermos comparar o peso de dois grupos, e utilizarmos
uma balança diferente para os dois grupos poderemos obter resultados enganadores... Este
problema inclui-se nos denominados vieses de informação!
5º- Se o enquadramento teórico do estudo não for o correcto, é fácil chegar a conclusões
erradas porque os resultados estatísticos são espúrios... Um exemplo de uma de uma associação
espúria é a associação estatisticamente significativa entre o número de telemóveis existentes num
país e o número de doenças cardíacas. Um aprendiz a investigador poderia concluir erradamente
que a influência das ondas dos telemóveis poderia provocar um aumento das doenças
António Pina 2
3
cardiológicas. Sucede no entanto que os países onde há mais telemóveis são também os mais
ricos e, devido à sobre-alimentação, têm com maior frequência doenças cardíacas. Assim, há
aqui uma terceira variável escondida, que pode provocar uma associação estatisticamente
significativa mas totalmente espúria. Esta terceira variável denomina-se de confundimento
porque produz um viés de confundimento.
Outro exemplo dum viés de confundimento em investigação é o que aconteceu num
estudo efectuado há alguns anos, sobre os efeitos de deixar de fumar. Verificou-se então que a
maioria dos fumadores que largavam o mau hábito, morriam mais frequentemente no primeiro
ano que os que continuavam a fumar. A conclusão lógica seria que qualquer fumador deveria
manter o seu hábito ... Sucede que, infelizmente, muito dos fumadores que deixam de fumar,
fazem-no porque já se sentem doentes, o que aumenta a probabilidade de morrerem no ano
seguinte, enquanto os outros ainda se sentem saudáveis e em muitos casos ainda o estão...
O que se passou neste estudo é que não se controlou o efeito de uma variável de
confundimento fundamental: o fumador já estava doente ou não, quando deixou de fumar? Estas
questões têm a ver fundamentalmente com o desenho do estudo e não com a Estatística.
Assim, para iniciar um trabalho de investigação é necessário seguir várias regras para
evitar escorregadelas. A primeira regra de ouro é que antes de avançar para o trabalho de campo
é fundamental sempre elaborar um protocolo que nos guie no futuro. Para isto teremos que
seguir uma sequência de passos que nos pouparão muitos problemas e dissabores...
A sequência que vou expor pode ser parcialmente modificada, nomeadamente as fases
posteriores poderão obrigar a reconsiderar as fases iniciais, mas genericamente é sempre a
sequência a utilizar.
1º- Identifique o assunto a investigar

a) Quais são as perguntas que o investigador propõe?
Clarifique estas perguntas que quer ver respondidas pelo estudo. Não seja vago. Formule
poucas perguntas e restrinja o mais possível os objectivos do seu estudo, caso contrário arrisca-se
a sentir-se completamente perdido quando começar o seu trabalho de campo. Quanto menos
objectivos um estudo tiver, maiores serão as suas probabilidades de êxito.
António Pina 3
4
Por outro lado, um outro óbice importante em estudos com muitos objectivos é que
poderão ser necessários desenhos diferentes de estudo e amostras com dimensões diferentes para
os diferentes objectivos, o que complica muito a sua condução.
b) Qual a investigabilidade do problema?

É necessário verificar se existem tabus ou outros obstáculos culturais ou políticos que
impossibilitem a investigação. Existem ainda questões éticas relativamente à possibilidade de
colher alguns dados privados. Alguns estudos experimentais como por exemplo, os ensaios
terapêuticos, têm também de seguir normas éticas muito estritas, atendendo à perigosidade para a
saúde dos indivíduos que neles participam.
c) É pertinente gastar recursos para tentar conseguir respostas a tais perguntas?

É evidente que devemos ter imediatamente o pragmatismo necessário para identificar as
perguntas que estão muito para além das nossas possibilidades e recursos. Por outro lado, há aqui
também uma questão ética. Mesmo que hajam recursos para investigar um problema, caso este
seja menos pertinente que outros problemas existentes, não será ético gastar os recursos nesta
investigação, pois isto irá anular a oportunidade de investigar o assunto realmente pertinente. Isto
é uma consideração ética importante quando se tem dinheiro para investigar um assunto
particular...
d) O que é que já se sabe ou foi publicado sobre o assunto?

Trata-se de fazer o enquadramento teórico ou definição conceptual do problema, ou seja,
definir o que se sabe de universal sobre o assunto. Repare que aqui é necessário fazer uma
revisão bibliográfica sobre o tema, onde poderemos descobrir que outros já encontraram resposta
para algumas das nossas perguntas. Na revisão bibliográfica poderemos também encontrar ideias
novas sobre como conduzir o nosso estudo (Anexo 1- A revisão bibliográfica).
Esta definição conceptual do problema permite também identificar as variáveis que
deveremos controlar para não confundirem as nossas conclusões.
António Pina 4
5
e) Quais são as hipóteses a comprovar?

A enunciação de hipóteses só poderá acontecer se nós tivermos já uma descrição das
características do problema. Por exemplo, se estiver descrito que a frequência de uma
determinada doença é diferente em duas populações, poderemos formular a hipótese de que essa
diferença está associada a uma diferença de um determinado factor de risco entre as duas
populações.
Quando falamos em hipóteses estamos a falar de perguntas sobre a relação entre
variáveis, para as quais nós vamos tentar encontrar respostas concretas, através da observação
planeada dos factos (no caso anterior, a pergunta poderia ser formulada da seguinte forma: está a
variável "doença" associada à variável "factor de risco"?)
Repare-se que as hipóteses são apenas fundamentais em estudos analíticos ou
experimentais. Um estudo descritivo não necessita de hipóteses: basta-lhe descrever as
características do fenómeno.
2º- Identifique as variáveis a estudar

a) Quais são as variáveis?
As variáveis descrevem as características do atributo a medir.
Num estudo descritivo bastará fazer a análise de forma isolada para cada variável: é a
análise univariada.
Num estudo analítico as variáveis já estão enunciadas nas hipóteses e tentar-se-á verificar
a associação ou não destas: é a análise bi ou multivariada.
É importante definir quais serão as nossas variáveis. A primeira definição é conceptual.
Por exemplo, se quisermos saber quantos toxicodependentes existem numa população, temos
primeiro que definir conceptualmente o que é, para o nosso estudo, ser "toxicodependente". Ser
fumador é toxicodependente? Ou apenas os consumidores de drogas ilícitas o são?
Também aqui, quanto menor for o número de variáveis a estudar, maior a probabilidade
de atingir os objectivos. Para um principiante, mais de 15 variáveis é perigoso...
António Pina 5
6
b) Classifique cada variável segundo a sua escala de medição.

Agora passamos à definição operacional. Vamos supor que considerámos que um
fumador era um toxicodependente. Há que ainda definir se consideramos que alguém que fuma
um cigarro por semana também será considerado fumador, como outro que fuma um maço por
dia. Ou seja, há que definir agora a escala de medição: por exemplo, vamos contar o número de
cigarros por dia, ou apenas criamos dois grupos - fumadores/não fumadores?
Sumariamente, tendo em conta a escala de medição, poderemos classificar as variáveis da
seguinte forma:
1- Variáveis qualitativas nominais, cujos valores não tem uma relação de ordem entre
eles, por ex., o "Sexo" e "Raça". Para este tipo de variáveis, poder-se-á fazer o estudo das
proporções e aplicar-se o Qui-quadrado.
2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de
ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito
pesados). Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as
variáveis nominais, mas também adicionalmente é possível estudar as medianas, quartis, modas,
e aplicar o Kruskal-Wallis, a regressão logística e outros testes não paramétricos.
3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas. Para este tipo de variáveis poder-se-á fazer tudo
quanto é possível fazer-se para as variáveis nominais e ordinais, mas também adicionalmente é
possível estudar as médias, desvios-padrão, e aplicar o ANOVA, a correlação e regressão linear,
etc.
Assim, é fundamental planearmos que tipo de variáveis queremos ter, para sabermos de
antemão quais as provas estatísticas que poderemos aplicar. É evidente que as variáveis
quantitativas são melhores que as meramente ordinais, e estas são melhores que as nominais,
porque incluem mais informação e são susceptíveis de lhes serem aplicadas provas estatísticas
mais potentes.
c) Como vamos proceder à medição da variável?

No caso da variável peso, será numa balança? Será sempre na mesma balança? Faremos 2
ou 3 pesagens e confiaremos na média? Será sem roupa ou com roupa? Confiaremos apenas no
peso que o próprio nos refere? Colhemos o dado da ficha clínica? No caso da variável "Fumar",
será através de um questionário, ou através de análise à saliva, etc.? E quem é que vai colher os
António Pina 6
7
dados - o próprio investigador ou outros indivíduos? Se for com um questionário, como é que as
perguntas estão dispostas e em que condições vai ser aplicado o questionário?
Estas definições são extremamente importantes porque têm a ver com a qualidade da
medição. Aqui põem-se problemas relacionados com a precisão ou repetibilidade e a validade ou
exactidão do nosso método. Todos estes problemas podem traduzir-se em vieses de informação.
d) Posicione cada variável no desenho do estudo.

Quando se querem testar hipóteses, o que só é possível em estudos experimentais ou
analíticos, é útil dividir as variáveis, segundo as nossas hipóteses de estudo, em:
♦ variáveis explicativas, ou de exposição, independentes ou preditoras
♦ variáveis resposta, ou resultado, ou dependentes
♦ variáveis interferentes
É muito importante fazer um desenho que clarifique a relação destas variáveis, por
exemplo:
V. V. resultado
Exposição
V. interferentes
Suponhamos que vamos fazer um estudo em que uma hipótese é: o "tempo prévio de
consumo de cannabis" está associado ao "tempo de consumo de heroína". Neste caso, o "tempo
de consumo de cannabis" será uma variável de exposição e o "tempo de consumo de heroína" a
variável resultado. As variáveis interferentes poderão ser a idade e o sexo, o nível educacional,
social, etc. Ou seja, em muitos casos, há variáveis que podem interferir e alterar a relação entre
outras duas. É possível que um determinado subgrupo etário ou apenas um sexo tenha uma
associação positiva entre a variável de exposição e a do resultado, enquanto o outro subgrupo
tem uma associação negativa! Este é um dos problemas mais complexos da investigação, que
António Pina 7
8
vicia frequentemente as conclusões e que só se resolve cabalmente com a implementação de um

desenho de estudo experimental.
Apesar de tudo, nos outros estudos é possível controlar razoavelmente o efeito das
variáveis interferentes através da análise estratificada (uma análise independente para cada
estrato da variável interferente, verificando seguidamente se há alteração dos resultados de um
estrato para outro) e outras técnicas mais sofisticadas que o EpiInfo disponibiliza (Anexo 2 -
Controlo das variáveis interferentes).
3º- Identifique a população e a amostra a estudar

a) Qual a unidade de observação?
É uma pessoa, ou uma família, ou outro grupo?
b) A população vai ser toda estudada?

Enquanto o Universo do nosso estudo poderá ser um conjunto de unidades de observação
para as quais não temos uma listagem (p.ex., os toxicodependentes no nosso País), a População
já é um conjunto destas unidades para as quais temos uma listagem (p.ex., os toxicodependentes
existentes no ficheiro dos serviços de saúde) e, por isso, da qual poderemos extrair uma amostra
de forma aleatória.
Caso a população seja muito extensa, torna-se impossível ou muito dispendioso incluir
todas as suas unidades de observação no estudo, pelo que se faz a selecção da amostra.
Claro que a única forma de termos alguma confiança na representatividade desta amostra
será fazermos a sua selecção de forma aleatória, para que cada elemento da amostra tenha
exactamente a mesma probabilidade de ser seleccionado. Também será importante calcularmos a
dimensão da amostra, de forma a dar a precisão que queremos às nossas estimativas, o que pode
ser ajudado pelo EpiInfo na secção STATCALC (Anexo 3 - Cálculo da dimensão de uma
amostra).
Existem vários métodos de selecção aleatória:
1. Selecção aleatória simples: é necessário ter uma listagem de toda a população, por
exemplo, de todos utentes dum serviço de saúde, aos quais se atribui um número de 1
António Pina 8
9
a x. Posteriormente, ao acaso, seleccionam-se alguns elementos de toda a lista,

geralmente com a ajuda de uma tabela de números aleatórios.
2. Selecção aleatória sistemática: é necessário também ter uma listagem de toda a
população. Depois seleccionam-se elementos de x em x intervalos, por exemplo,
selecciona-se 1 elemento de 10 em 10 da listagem.
3. Selecção aleatória por conglomerados: é necessário uma listagem dos conglomerados,
por exemplo, uma listagem de escolas da região. Após se seleccionar aleatoriamente
um pequeno número de escolas desta listagem, estudam-se todos os alunos (ou uma
amostra) de cada escola seleccionada. Repare-se que aqui a primeira selecção
aleatória é feita sobre uma listagem de unidades - os conglomerados - que não são as
verdadeiras unidades de observação que interessam. Só numa segunda fase, depois de
escolher os conglomerados, se poderá fazer uma selecção aleatória a partir de uma
listagem que inclua as verdadeiras unidades de observação - os cidadãos incluídos em
cada conglomerado, por exemplo.
4. Selecção aleatória estratificada: é necessário ter uma listagem de toda a população
com alguma informação adicional (eventualmente socio-demográfica) da mesma.
Posteriormente definem-se vários estratos da população, de acordo com a informação
adicional que já se tinha e, a partir da listagem de elementos de cada estrato, faz-se
uma selecção aleatória de uma amostra em cada estrato.
Os métodos de selecção não aleatória poderão ser utilizados em estudos preliminares,

mas nunca garantem minimamente a representatividade, pelo que os seus resultados deverão
sempre ser confirmados com outros estudos.
Por outro lado, mesmo sendo a amostra representativa da população, não é obrigatório
que a população seja representativa do universo no atributo a medir. Por exemplo, a população
de toxicodependentes dos serviços de saúde quase certamente não são representativos de todos
os toxicodependentes (incluindo aqui os que não têm contacto com os serviços de saúde).
Todos os erros cometidos na fase da amostragem incluem-se na categoria dos vieses de
selecção.
António Pina 9
10
4º- Defina o desenho do seu estudo

Seguidamente tentaremos classificar os vários tipos de estudos de investigação existentes.
Como é costume, os melhores desenhos são também os que requerem mais recursos, sendo
geralmente impossíveis de executar...
A- Estudos experimentais: são estudos caracterizados por aleatoriamente distribuirmos

uma população em dois grupos e posteriormente manipularmos as variáveis explicativas num
grupo, de forma a estudar o seu efeito nas variáveis resultado. O outro grupo serve como termo
de comparação e chama-se o grupo-controlo ou testemunha.
Estes estudos são os mais sofisticados e são os únicos que poderão fazer um controlo
eficaz das confusões provocadas pelas variáveis de confundimento que desconhecemos,
revelando assim relações de causalidade. Isto porque ao distribuirmos aleatoriamente os
indivíduos pelos dois grupos, temos a garantia de não haver grandes diferenças significativas
entre os grupos, relativamente às ditas variáveis de confundimento desconhecidas.
B- Estudos de observação analíticos

a) Estudos de coorte
Se pudermos fazer duas ou mais medições ao longo do tempo numa determinada
população, poderemos saber quais os efeitos que a exposição a um factor terá no final,
comparando os que desde o início estiveram expostos com aqueles que nunca estiveram expostos
ao factor. Embora possamos ver algumas semelhanças destes estudos com os estudos
experimentais, repare-se que o investigador não faz a diferenciação dos dois grupos de forma
aleatória como acontece nos estudos experimentais, sendo apenas o destino que separa o grupo
exposto do não exposto. Da mesma forma, neste caso, o investigador também não tem qualquer
poder de manipulação da variável de exposição, limitando-se a observar...
Um exemplo prático é estudar numa população de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria dividir a população
segundo a forma de consumo (ex.: injectável ou não) no início do ano, e depois, no final do ano,
verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o cálculo de taxas
de incidência e prevalência, assim como do risco relativo (o EpiInfo efectua estes cálculos
automaticamente).
António Pina 10
11
b) Estudos de caso-controlo
Poderão ser confundidos com os estudos de coorte porque também se baseiam em
medições ao longo do tempo, mas aqui os 2 grupos dividem-se tendo em conta os efeitos e não a
exposição. Ou seja, utilizando o exemplo anterior, caso não pudéssemos de antemão saber
quantos estiveram expostos ou não, seria sempre fácil diferenciar o grupo entre os que morreram
ou não no final do ano. Se soubermos, através de informação colhida num ficheiro, qual a forma
de consumo utilizada no passado, é possível estimar também algo aproximado ao risco relativo
que, neste caso, é denominado Odds Ratio.
c) Estudos transversais analíticos

Os estudos transversais analíticos são "fotografias" mas que também poderão incluir
alguma análise quando as variáveis de exposição e de resultado são persistentes ao longo do
tempo. Por exemplo, é possível estudar a associação entre a variável sexo (obviamente, quase
imutável...) e uma determinada doença crónica, numa população.
C - Estudos descritivos
Um estudo descritivo é aquele que ambiciona apenas estimar parâmetros de uma
população, nomeadamente proporções, médias, etc. Não necessita de elaboração de hipóteses de
estudo pois trata-se apenas de uma "fotografia" da situação. Tais estudos têm a importância
fundamental de serem sempre o primeiro passo da investigação. Deles nascem as hipóteses que
poderão ser estudadas em estudos mais sofisticados.
Todos os investigadores e toda a investigação deverá começar por aqui.
5º- Planeie a recolha e a análise dos dados

Decida quais serão os suportes de informação que vai utilizar, ou seja, desenhe a ficha ou
a tabela onde vai pôr os dados para posteriormente passar para o computador.
Claro que só deverá ser utilizado o computador se estiver previsto que vão ser efectuadas
várias análises aos mesmos dados (ex.: pedir cumulativamente frequências, médias e outros
António Pina 11
12
testes estatísticos). Se estiver previsto apenas saber uma média e algumas frequências,
provavelmente não será importante utilizar o computador, atendendo que o tempo que levamos a
introduzir os dados não compensa os benefícios da sua utilização. Neste caso, bastará utilizar
uma máquina calculadora!
Finalmente, tendo em conta as hipóteses do estudo e a escala de medição das variáveis,
decida quais serão os testes estatísticos a aplicar.
A análise dos dados, depois de colhidos, é genericamente efectuada segundo 4 fases:
1- Verificar e corrigir os erros de preenchimento que sempre se cometem na introdução
dos dados (para isto é conveniente ver a base de dados em matriz, ou seja, listando
todos os valores de uma ou mais variáveis numa tabela; no EpiInfo um bom método
será clicar em LIST na secção ANALYSIS e seleccionar "update" para fazer as
correcções).
Os erros na colheita e transcrição dos dados para as fichas e o computador traduzem-
se em vieses de informação.
2- Efectuar a análise univariada: cada variável é estudada isoladamente e de forma
descritiva (frequências, medianas, médias, etc.).
3- Efectuar a análise bivariada: estuda-se a possibilidade de existir algum tipo de relação
entre uma variável de exposição e uma variável resposta (Qui-quadrado, Kruskall-Wallis,
ANOVA, etc.).
4- Efectuar a análise multivariada: estuda-se o efeito das variáveis interferentes na
relação entre as variáveis de exposição e as de resultado (análise estratificada, emparelhamento
das amostras, regressão linear ou logística multivariada, etc.).
6º- Interprete os resultados para elaborar um relatório

Já referimos que não bastará aplicar os testes estatísticos para tirar conclusões sobre os
nossos dados porque eles poderão estar errados ou porque o desenho do estudo pode não ser o
correcto. Assim, é fundamental, na hora de concluir o que quer que seja, pensar sempre em todas
as possibilidades de erro nos procedimentos metodológicos escolhidos. É também fundamental
revelar todos estes problemas de forma transparente no capítulo "Discussão" do relatório final,
sem tentar camuflar ou esconder estes erros, pois tal comportamento é extremamente grave para
António Pina 12
13
quem é suposto estar à procura da "Verdade". Fica-nos a consolação que todos os estudos
cometem erros e têm limitações, pelo que se o nosso os não cometeu, será muito de desconfiar, a
não ser que tenhamos sido orientados por alguma entidade divina.
Na hora de interpretar os resultados, poderemos classificar todas as possibilidades de erro
da seguinte forma:
1- Os erros aleatórios relacionados com o processo de selecção aleatória de

amostragem e que as provas estatísticas medem quando nos informam da
probabilidade de os nossos resultados representarem o que sucede realmente na
população. Para diminuir estes erros será necessário aumentar a dimensão da amostra
até um limite razoável, de acordo com os nossos recursos. No Anexo 3 explica-se
uma forma fácil de calcular a dimensão da amostra, tendo em conta o máximo erro
aleatório admissível.
2- Os erros sistemáticos ou vieses que poderão ser classificados da seguinte forma:

♦ Vieses de selecção.
Têm a ver com o facto de seleccionarmos uma amostra através de um método
que não garante a sua representatividade:
a) vieses de admissão, p.ex., quando a nossa amostra é seleccionada a partir
de uma população especial, não representativa da realidade. É o caso se
fizermos um estudo baseado na população de toxicodependentes que vão
aos serviços de saúde: evidentemente as conclusões tiradas de um estudo
como este não podem ser generalizadas para todos os toxicodependentes,
por não incluirem aqueles que não vão aos serviços de saúde. Relacionado
com esta problemática está caracterizado o chamado viés de Berkson, que
tem a ver com o facto de quando se estuda uma população de doentes de
um serviço de urgência hospitalar, encontram-se frequentemente
associações estatísticas entre doenças que não se encontram associadas,
nem na população em geral, nem patogenicamente (p.ex., gota e bronquite,
atendendo serem ambas doenças com o denominador comum de
implicarem contactos frequentes com os serviços de urgência).
António Pina 13
14
b) vieses de amostragem, p.ex., quando aplicamos um questionário a uma

amostra de conveniência que "apanhamos" na rua, esta poderá ser
constituída só pelos cidadãos mais simpáticos e que mais saiem à rua, o
que poderá ser muito diferente dos cidadãos em geral! A única forma de
evitar este viés é fazer sempre a selecção de forma aleatória.
c) vieses de não participação, p.ex., quando muitos elementos da amostra se

recusam a responder ao questionário.
d) vieses de ausência de respostas, p.ex., quando não se consegue contactar

todos os elementos da amostra.
e) vieses relacionados com o desaparecimento de elementos da amostra em

estudos longitudinais.
Nos casos referidos nas alíneas c), d) e e), é importante comparar o grupo da
amostra que não respondeu com o grupo que respondeu relativamente a outras
variáveis conhecidas (geralmente sócio-demográficas). Se não há diferenças
estatisticamente significativas entre os dois grupos aumenta a probabilidade de
as não-respostas não terem significado.
♦ Vieses de informação.
Têm a ver com os erros de classificação dos elementos da amostra, erros na
medição das variáveis, ou na codificação e recolha da informação. Geralmente
classificam-se segundo dois tipos:
a) vieses do observador (ou de classificação)
b) vieses de resposta: é o caso de um questionário que por ser mal feito poderá
induzir a maioria dos elementos da amostra a responderem num determinado
sentido...
António Pina 14
15
Estes erros poderão ser minorados se houver rigor humano e técnico, utilizando
instrumentos de medição mais válidos, etc.
♦ Vieses de confundimento.
Falámos já que importa em estudos analíticos classificar as nossas
variáveis em três categorias: variáveis de exposição, de resposta e interferentes.
Há dois tipos de variáveis interferentes: as de confundimento e as
modificadoras de efeito.
O confundimento pode surgir quando uma variável interferente, neste caso
denominada de confundimento, distorce ficticiamente a associação entre a
variável de exposição e de resposta, alterando-lhe a força ou mesmo o sentido.
Um exemplo muito prático é quando o investigador quer saber se há
associação entre o estado civil e o cancro. Possivelmente, encontrar-se-á uma
associação positiva entre o facto de se estar casado e ter cancro, pelo que se
poderia tirar a conclusão errada que o casamento constitui um risco cancerígeno!
A verdade é que existe aqui uma variável de confundimento - a idade - que
distorce a associação! Efectivamente, a idade (v. de confundimento) está
associada tanto ao estado civil (v. de exposição), porque os casados tendem a ser
mais velhos, como ao cancro (v. resposta) porque os doentes de cancro também
tendem a ser mais velhos.
Em todos os casos de confundimento é necessário que a v. de
confundimento esteja associada tanto à exposição como à resposta. Outra forma
de dizer a mesma coisa é referir que além de a v. de confundimento estar
associada à resposta, é necessário também que os diversos grupos classificados
segundo a v. de exposição (no exemplo atrás apontado: dois grupos -
casados/solteiros) estarem desajustados quanto à v. de confundimento
(efectivamente, a proporção de velhos era diferente entre os casados e solteiros).
Repare-se que isto significa que, de alguma maneira, um confundimento é um erro
no desenho do estudo, porque não se deve comparar dois grupos desajustados (no
Anexo 2 dão-se mais informações sobre como controlar o efeito destas variáveis)!
António Pina 15
16
Finalmente, para decidirmos que uma determinada variável de exposição poderá ter uma
relação de causalidade com uma variável resposta, deveremos pensar se se cumprem vários
critérios de causalidade. Existem três critérios essenciais de "causalidade":
♦ a temporalidade: efectivamente, é impossível um efeito ser anterior à sua causa... no entanto,

é possível uma variável ser anterior a outra e não haver qualquer relação de causalidade...
♦ a associação estatística: as variáveis de exposição terão de estar associadas às variáveis efeito

de forma estatisticamente significativa, ou seja, a associação não deverá ser fortuita (devida
ao acaso). No entanto, é possível haver associações causais entre variáveis que, em virtude da
pequena dimensão da amostra, não dão resultados estatisticamente significativos!
♦ a ausência de espuriedade, ou seja, ausência de associações "artificiais" entre variáveis, que

não têm significado próprio (por ex.: a associação entre o estado civil e o cancro, ou número
de telemóveis e as doenças cardíacas ...) provocadas pela interferência de terceiras variáveis
escondidas. Estamos aqui a falar novamente do problema do confundimento em investigação.
Os estudos experimentais são os que melhor podem controlar as confusões que todas estas
variáveis interferentes podem provocar. Nos outros estudos, tenta-se controlar estas
interferências através do emparelhamento, da padronização, ou da análise estratificada e
multivariada (Anexo 2 - Controlo das variáveis interferentes).
Outros critérios de causalidade menos importantes são:

♦ a força da associação: quanto maior a diferença entre duas populações quanto à frequência da
doença e do factor de risco, mais provável será haver uma associação entre a doença e o
referido factor de risco. A força da associação mede-se em termos epidemiológicos pelo risco
relativo (ou odds ratio), risco absoluto, coeficiente de determinação na correlação linear, etc.
No entanto, é possível pensarmos existir uma verdadeira associação causal, embora fraca,
quando os resultados, apesar de revelarem pouca força de associação, são estatisticamente
significativos...
António Pina 16
17
♦ o gradiente biológico da associação refere-se à existência de uma curva dose-resposta entre a

variável "causal" e a variável efeito. No entanto, este gradiente pode existir mesmo sem
relação de causalidade se existirem variáveis de confundimento a modificar a associação...
♦ a consistência: quando a associação se repete em populações diferentes e em circunstâncias

diferentes.
♦ a especificidade: quando a causa leva sempre a um só efeito único é mais fácil estabelecer a
relação de causalidade, no entanto, a maioria das causas de doença ou saúde têm efeitos
múltiplos...
♦ a coerência com as teorias e conhecimentos vigentes, no entanto, se tivessemos que ser

sempre coerentes com o passado nunca evoluiríamos...
7º - Comentários finais
É importante escrever o protocolo no computador pois será seguramente necessário fazer
muitas modificações e correcções até a forma final! Por outro lado, muito do que se escreve para
o protocolo poderá ser utilizado para o relatório ou artigo a publicar, especialmente para os
capítulos de introdução e métodos.
Faça sempre ainda um cronograma com as suas actividades. É mais uma forma de auto-
disciplina que nos ajuda a levar a bom termo o nosso processo de investigação.
O rigor no cumprimento dos passos do protocolo é muito importante mas é evidente que
não há estudos perfeitos que nos possam revelar a "Verdade". Assim, depois da elaboração do
protocolo, resta-nos segui-lo com o rigor possível mas, também, com a consciência das
imperfeições do mesmo. A paixão pela perfeição não nos deve bloquear e, sobre este assunto,
alguém disse que «em investigação, assim como no amor, uma exagerada concentração na
técnica, levará provavelmente à impotência»...
Atendendo aos erros que todos os estudos incluem, as conclusões têm de ser geralmente
cuidadosas e prudentes.
António Pina 17
18
Um remate final: a investigação deverá sempre que possível resultar num

trabalho publicado, pois só aquilo que é publicado tem existência real...
António Pina 18
19
PARTE 2
Noções de estatística
António Pina 19
20
Noções de Estatística
1. A Estatística descritiva.
Quando queremos investigar, o primeiro objectivo é descrever o fenómeno. Por isso, a
primeira fase de tratamento dos dados é a análise univariada, através da verificação das
frequências e o cálculo das medidas de localização central e de dispersão para cada variável
isoladamente.
Geralmente, não se calculam mais que as seguintes medidas:
♦ as frequências absolutas (números absolutos de cada valor) e as frequências relativas
(as proporções em percentagens ou permilagens, etc.).
♦ a média e desvio-padrão
♦ a mediana e desvio-quartil
♦ a moda.
No entanto, as medidas atrás referidas não poderão ser calculadas para qualquer tipo de
variável. Tudo depende da escala de valores de cada variável, pelo que aqui será importante fazer
um pequeno parêntesis para classificarmos as variáveis quanto à sua escala. Compreender esta
classificação é de importância crucial para utilizarmos de forma adequada a estatística.
Sumariamente, poderemos classificar as variáveis da seguinte forma:
1- Variáveis qualitativas nominais: são variáveis cujos valores não tem uma relação de
ordem entre eles, por ex., o Sexo e Raça.
Para este tipo de variáveis poder-se-á fazer o estudo das frequências absolutas e relativas (no EpiInfo
escolhemos o Comando FREQUENCIES).
2- Variáveis qualitativas ordinais, cujos valores não são métricos mas incluem relações de
ordem. É o caso da variável "Peso" medida em 3 níveis (pouco pesados, pesados, muito
pesados).
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais, mas
também adicionalmente é possível estudar as medianas, quartis, modas (Comando MEANS no EpiInfo);
António Pina 20
21
3- Variáveis quantitativas, cujos valores são medidos numa escala métrica, como por ex.,
a "Idade", ou o "Peso" medido em gramas.
Para este tipo de variáveis poder-se-á fazer tudo quanto é possível fazer-se para as variáveis nominais e
ordinais, mas também adicionalmente é possível estudar as médias e desvios-padrão (Comando MEANS no
EpiInfo).
Se quiser utilizar o EpiInfo (disponível gratuitamente em www.cdc.gov/epiinfo), aconselho a

criar uma pequena base de dados, (recomenda-se estudar o "Manual" existente em
http://www.saudepublica.web.pt/03-Investigacao/032-EpiInfoSoftware/apresentação_epiinfo_2000.htm), e que
poderemos nomear "Experiência":
Nome Data de Nascimento Data Actual Peso Sexo
João 13-12-1973 15-12-2000 60 homem
Maria 10-07-1961 15-12-2000 55 mulher
Manuel 20-11-1980 15-12-2000 80 homem
Luís 11-05-1950 15-12-2000 75 homem
Ana 15-08-1985 15-12-2000 50 mulher
Com esta base de dados criada será mais fácil compreender as provas estatísticas.
1.1.Interpretar as frequências absolutas e relativas.

No caso de variáveis nominais como o sexo ou a raça, só poderão ser calculadas as
frequências. É totalmente impossível calcular a média ou a mediana do sexo porque a escala
destas variáveis não tem sequer uma relação de ordem. Repare-se que por vezes codificam-se as
variáveis com números para introdução no computador, o que torna possível pedir erradamente
médias para variáveis nominais, embora tais resultados, evidentemente, não tenham significado
nenhum!
No caso de variáveis ordinais ou quantitativas, claro que é também possível calcular as
frequências. Por exemplo, suponhamos que sabemos o Peso medido em Kg de 1000 pessoas.
Será possível calcular as frequências de quem tem 40 Kg, 41 Kg, 42 Kg, ..., etc., mas atendendo
ao elevado número de pessoas, será preferível agrupá-las em grupos com o mesmo intervalo, por
exemplo, grupo A (40-45 Kg), grupo B (46-49 Kg), etc., de forma a calcular as frequências para
cada grupo.
António Pina 21
22
Convém que o intervalo de amplitude dos diferentes grupos seja sempre o mesmo, caso
contrário, os resultados poderão confundir-nos, pois tenderemos a comparar grupos que não são
comparáveis! 1
1.2.Interpretar as médias, desvios-padrão, medianas, etc.

Para além das frequências absolutas e relativas já referidas, existem outras medidas
geralmente calculadas para variáveis ordinais ou quantitativas, tal como se encontra no Quadro
seguinte:
Escala da variável Medidas de localização central Medidas de dispersão

Ordinal ou Quantitativa Mediana Amplitude interquartil / Desvio
interquartil
Quantitativa Média Variância / Desvio-padrão
Qualquer escala Moda -
A Média aritmética assim como o Desvio-padrão que lhe está associado, são conceitos
que geralmente oferecem poucas dúvidas. São calculados apenas em variáveis com a escala
quantitativa. Por exemplo, não tem significado calcular a média para o Sexo (variável nominal)
ou para o Peso medido em escala ordinal.
O conceito de Mediana, no entanto, gera muitas confusões: a Mediana é simplesmente o
valor que se situa a meio da fila ordenada de valores, desde o mais baixo ao mais alto. Assim,
tem que haver uma relação de ordem nos valores, pelo que a Mediana pode ser calculada tanto
para as variáveis ordinais como para as quantitativas puras. A partir do exemplo relacionado com
a base de dados "Experiência" criada no EpiInfo, poderemos criar uma nova variável idade a
partir da data de nascimento e data actual, tal como se explica no Manual sobre o EpiInfo, e
executar o comando MEANS para a idade, obtendo todas estas medidas. Neste exemplo, temos
cinco pessoas com as seguintes idades já ordenadas:
1
Apesar de tudo, existe a possibilidade de comparar graficamente classes de diferentes amplitudes através dos
histogramas que, são gráficos em que a área das colunas representam o número de indivíduos (ao invés da altura das
colunas). No entanto, apesar deste tipo de gráficos ser muito falado nos cursos de estatística, raramente se vêm em
artigos ...
António Pina 22
23
15
20
27
39
50
O número 27 representa o valor que está a meio, ou seja, é a Mediana. Isto significa que
50% das pessoas têm uma idade igual ou maior que 27 e, evidentemente, os outros 50% têm uma
idade igual ou menor que 27.
O número 20 representa o valor que está a meio da primeira metade, ou seja, é o primeiro
Quartil ou Percentil 25. Isto significa que 75% das pessoas têm uma idade igual ou maior que 20
e, evidentemente, os outros 25% têm uma idade igual ou menor que 20.
O número 39 representa o valor que está a meio da segunda metade, ou seja, é o terceiro
Quartil ou Percentil 75. Isto significa que 75% das pessoas têm uma idade igual ou menor que 39
e, evidentemente, os outros 25% têm uma idade igual ou maior que 39.
Claro que a mediana é também o segundo Quartil e o Percentil 50. No caso deste
exemplo, com um número ímpar de valores ordenados (cinco), a mediana é o valor que está a
meio, mas no caso de um número par de valores ordenados, a mediana terá ser calculado
fazendo-se a média entre os dois valores que estão a meio.
A Moda é o valor mais frequente (ou seja, o que "está na moda"...). Neste caso, como não
existe nenhum valor mais frequente, o EpiInfo dá-nos o menor valor (através do comando
MEANS), o que não tem significado absolutamente nenhum, podendo mesmo induzir-nos em
erro. O que se passa é que quando existem várias Modas, o EpiInfo apresenta sempre a menor:
ou seja, se numa amostra existem 10 pessoas com 20 anos e 10 pessoas com 30 anos, sendo
todas as outras idades menos frequentes, sucede que existem duas Modas, mas o EpiInfo vai
referir apenas a que apresenta o menor valor ou seja, dirá que 20 anos é o valor mais frequente.
Por isto, se nos interessa referir a Moda, convém verificar se não há outro valor tão frequente na
nossa amostra. Para isto basta executar o comando FREQUENCIES, que nos dá as frequências
de todos os valores.
Qual a diferença de interpretação entre a Mediana e a Média?
Em primeiro lugar a Mediana pode ser utilizada tanto em variáveis quantitativas como em
variáveis qualitativas ordinais, enquanto a Média só pode ser utilizada em variáveis
quantitativas.
António Pina 23
24
Em segundo lugar, no caso das variáveis quantitativas, embora a Média seja um valor
mais fácil de entender, tem o defeito de nos induzir em erro se a nossa amostra tiver valores
muito extremos. Por exemplo, na distribuição de idades da nossa amostra a Média é de 30,2 e a
Mediana de 27. Imagine que o indivíduo mais velho tinha não 50 anos de idade mas sim 100
anos. Isto faria com que a Média saltasse para 40,2, ou seja, seria superior a quase todos os
valores individuais, mas a Mediana continuaria a ser 27. Se olharmos para todos os 5 valores
individuais da nossa amostra, verificamos que o número 27 é melhor representante da
distribuição global da idade na nossa amostra que o erróneo número 40,2.
Assim, no caso das variáveis quantitativas, quando o valor da Mediana é muito diferente
da Média, é aconselhável considerar sempre a Mediana como valor de referência mais
importante.
Além das medidas de localização central (média, mediana, moda) existem as medidas de
dispersão que nos dão a ideia da variação dos dados.
Quando se calcula a média dever-se-á sempre calcular o desvio-padrão, apresentando-se a
sua fórmula apenas para ficar-se com uma ideia do que representa:
Desvio-padrão =
∑ ( Xi − Média ) 2
N
em que
Xi = Cada valor individual
N = Número de todos os valores
Ou seja, para calcular o Desvio-padrão é necessário primeiro calcular a Média e depois
calcular todas as diferenças entre cada valor individual e a média. É um erro dizer que o desvio-
padrão é a média de todas as diferenças, mas podemos senti-lo como algo aproximado.
Por vezes, queremos comparar duas variáveis quantitativas quanto ao seu grau de
dispersão, por exemplo, o Peso (em Kg) e a Idade (em Anos). Esta comparação não poderá ser
feita comparando simplesmente os Desvios-padrão respectivos, porque estes estão expressos em
unidades de medida diferentes, i.e., não se pode comparar a dispersão de Kg com a de Anos! No
entanto, é possível fazer esta comparação em termos relativos, se calcularmos o coeficiente de
variação, da seguinte forma:
Desvio − padrão
Coeficiente de variação = X 100%
Média
António Pina 24
25
convencionando alguns autores que um coeficiente variação maior que 10% significa que
a dispersão é forte.
Nas variáveis ordinais, como não é possível calcular médias ou desvios-padrão, para
avaliar o grau de dispersão, poder-se-á calcular a Amplitude interquartil e o Desvio-quartil.
A Amplitude interquartil é simplesmente a diferença entre o 3º e o 1º Quartil, ou seja, no
exemplo anterior, 39-20= 19. Repare-se que nesta Amplitude inter-quartil situam-se os 50%
centrais dos valores.
O Desvio interquartil é sempre metade da Amplitude interquartil, ou seja, 19/2=9,5.
Também é possível, calcular a o coeficiente de variação quartil da seguinte forma:
Amplitude int erquartil
Coeficiente de variação quartil= X 100%
3º Quartil + 1º Quartil
Claro que estes cálculos também podem ser efectuados para as variáveis quantitativas.
2. A Estatística Dedutiva
Para além da simples descrição dos dados que temos, a Estatística pretende ajudar-nos a
inferir até que ponto os nossos resultados poderão ser representativos da população que está por
trás da nossa amostra.
Ou seja, suponhamos que retiramos de forma aleatória uma amostra de 100 doentes de
um ficheiro clínico com 1000 doentes. Após verificarmos que na nossa amostra temos 10% de
mulheres, poderemos perguntar-nos até que ponto, na população, também existe 10% de
mulheres.
De facto, devido ao acaso, ao seleccionar aleatoriamente uma amostra, podemos sempre
ter o azar de encontrar 100 sujeitos que são muito diferentes da população.
É intuitivo que quanto maior for a diferença entre a amostra e a população de origem,
menor será a probabilidade de isso acontecer. Por outras palavras, a probabilidade de termos uma
amostra semelhante à sua população é elevada, mas existe sempre uma possibilidade de a
amostra ser diferente, sendo a probabilidade de isto acontecer tanto menor quanto maior for esta
diferença. Mas, como medir esta probabilidade?
António Pina 25
26
Aqui entram as Provas estatísticas e os seus resultados em termos de probabilidades "p"

de significância estatística.
É importante referir que existem 3 formas de aplicar os testes estatísticos:
1º - Provas de conformidade, ou seja, para verificar se há diferenças entre uma amostra e
uma população (é o exemplo atrás referido em que pretendemos saber qual a probabilidade de a
percentagem de mulheres na nossa amostra ser semelhante há que existe na população de
origem). Por outras palavras, até que ponto a minha amostra é representativa da população?.
2º - Provas de homogeneidade, ou seja, para verificar se as diferenças encontradas entre
dois grupos da amostra serão representativas de diferenças reais na população de origem. Por
exemplo, através do comando MEANS no EpiInfo, podemos ver se as mulheres são diferentes
dos homens quanto à variável idade na nossa amostra. Também aqui há a possibilidade de haver
diferenças entre a idade dos dois grupos, mas isto poderá ser devido apenas ao acaso e não a
verdadeiras diferenças na população. As provas estatísticas medem sempre a probabilidade de as
diferenças encontradas serem devidas ao acaso, partindo do pressuposto que na verdade não
existem diferenças na população. Se a probabilidade encontrada for pequena, teremos mais
confiança em afirmar que as mulheres e os homens têm idades diferentes na população.
3º- Provas de independência, ou seja, verificar se duas variáveis simétricas são

independentes (ex.: se a cor dos olhos é independente ou está associada `a raça e até que ponto
isso também existe na população de origem).
Repare-se que o "p" de significância estatística, resultante destas provas, dá-nos sempre a
a probabilidade de os nossos resultados serem semelhantes ao que existe na população de origem
(partindo do pressuposto que na população de origem não há diferenças entre grupos, nem
associações entre variáveis). Geralmente, em ciências da saúde, quando estas probabilidades são
inferiores a 5%, ou seja, há menos de 5 possibilidade em 100 de suceder um determinado
resultado, nós consideramos que são estatisticamente significativas.
Como este "p" tem a ver apenas com a probabilidade de os nossos resultados se
assemelharem ao que existe na população, têm uma grande limitação: não nos dizem se as
diferenças encontradas ou a associação entre as variáveis são fortes ou importantes! De facto,
nem sempre aquilo que é estatisticamente significativo é importante! Repare-se: suponhamos que
queremos saber se as mulheres são diferentes dos homens quanto à idade. Se aplicarmos um teste
António Pina 26
27
estatístico os seus resultados são tanto mais estatisticamente significativos quando maiores forem
as diferenças entre os dois grupos, e também, quanto maior for a dimensão da amostra estudada.
Isto significa que por vezes, pequeníssimas diferenças entre os dois grupos podem ser
estatisticamente significativas se a amostra tiver grandes dimensões. Mas a questão que aqui se
põe é: são estas pequeníssimas diferenças importantes do ponto de vista clínico, social, etc.?
Neste caso particular, o aprendiz de estatística tenderá a valorizar um qualquer resultado
estatisticamente significativo, mesmo que este não tenha interesse absolutamente nenhum,
atendendo ter a ver com pequeníssimas diferenças...
Em conclusão, existem duas dimensões na análise dos resultados: uma em que a
Estatística nos diz até que ponto o que vemos na nossa amostra é o que existe na população, ou
seja, até que ponto é estatisticamente significativo; outra em que procuramos verificar até que
ponto os nossos resultados implicam associações entre variáveis ou diferenças importantes e
fortes, calculadas através de simples subtracções (Diferenças de Riscos) ou quocientes (Risco
Relativo, Odds Ratio, etc). É possível haver uma associação forte nos resultados da nossa
amostra que, no entanto, não sendo estatisticamente significativos, têm pouco interesse porque
não temos garantias de existirem na população real. Por outro lado, tal como já referimos, é
possível haver uma associação estatisticamente significativa mas que, por ser tão fraca, não tem
importância nenhuma.
Posto isto vamos agora partir para a compreensão dos testes estatísticos no EpiInfo.
2.1- Os intervalos de confiança

Quando solicitamos o comando "FREQUENCIES" para uma variável como o sexo, por
ex., o EpiInfo dá-nos os valores das percentagens de cada sexo e o Intervalo de Confiança de
95% para as mesmas percentagens.
Este intervalo de confiança só tem interesse se as percentagens em causa são de uma
amostra seleccionada aleatoriamente de uma população mais vasta.
Por exemplo, suponhamos que a nossa base de dados "Experiência" (5 elementos em que
3 são homens e 2 são mulheres) representa uma amostra de todos os utentes dum serviço de
saúde. Nesta amostra poderemos dizer que existem 60% (3/5=0,6) de homens e 40% (2/5=0,4)
de mulheres. Mas será que as percentagens de cada sexo, em toda a população de utentes, são
também estas? Nunca o saberemos ao certo com estes dados. No entanto, aplicando a prova que
António Pina 27
28
o EpiInfo aplica, poderemos acreditar com uma confiança de 95% que a percentagem de homens
na população estará algures entre 14,7% e 94,7% e a percentagem de mulheres entre 5,3% e
85,3%2.
Repare-se que neste caso os intervalos de confiança são muitíssimos dilatados, atendendo
que a amostra em causa conta com apenas 5 elementos, pelo que o erro de amostragem é enorme.
É evidente que quanto maior for a nossa amostra, mais pequeno será o intervalo de
confiança e por isso, mais provável será obtermos extrapolações precisas das verdadeiras
percentagens da população.
Mas atenção: mesmo este intervalo não é uma certeza pois tem uma confiança de 95%,
ou seja, há sempre uma probabilidade de 5% de a verdadeira percentagem estar fora destes
limites...
É claro que, se as percentagens em causa forem calculadas tendo por base não uma
amostra mas toda a população, os intervalos de confiança que o EpiInfo automaticamente vomita
não têm significado absolutamente nenhum, pelo que devem ser ignorados. Um exemplo é
quando um médico introduz os dados de todo o seu ficheiro clínico e depois quer saber a
percentagem de cada sexo para o seu ficheiro. Se o resultado for 35% de mulheres, é mesmo
35% sem qualquer dúvida ou intervalo de confiança, pois ele quis saber a percentagem de
mulheres do seu ficheiro que, neste caso, está totalmente informatizado.
Finalmente, tenha-se em atenção que se a amostra não é aleatória, também não será
legítimo falar-se em intervalos de confiança para a população, porque aqui a amostra não será
representativa de nenhuma população conhecida.
2.2.- Provas para verificar a associação entre duas variáveis qualitativas - o

Qui-quadrado e a Prova de Fisher.
Suponhamos que temos uma amostra de 5 pessoas, para as quais sabemos o sexo e a
idade. O sexo é uma variável nominal, enquanto a idade poderá ser quantitativa, caso façamos a
sua medição em "anos". No entanto, neste caso vamos transformá-la numa variável também
nominal, criando duas classes - a classe dos adultos e a dos jovens.
2
Novamente, segundo os Estatísticos, a interpretação deverá ser feita com uma pequena nuance: um Intervalo de
confiança de 95% significará que se seleccionarmos um número infinito de amostras sempre da mesma forma
aleatória, em 95% delas, estarão incluidos os valores "verdadeiros" no intervalo de confiança resultante.
António Pina 28
29
Nestes casos, assim como em qualquer caso onde tenhamos duas variáveis qualitativas
em jogo, poderemos expor os dados segundo uma tabela de dupla entrada. Tendo em conta o
exemplo já criado no EpiInfo, poderemos criar esta tabela através da execução do comando
TABLES, em que pomos Sexo como variável de exposição e Grupos etários (ex.: Jovens com
menos de 18 anos e Adultos) como variável resposta:
Variável "output" (Grupos)

Adultos Jovens Total
Homem 3 0 3
Variável de Mulher 1 1 2
exposição (Sexo) Total 4 1 5
Também na secção STATCALC é possível construir tabelas mas, neste caso,

directamente do teclado, e não a partir de uma base de dados já existente.
Seja como for, face aos dados da tabela exemplificada em cima, pode-se perguntar se o
grupo de "Adultos" é diferente do grupo de "Jovens" quanto ao sexo.
Vamos supor que na verdade não existe uma diferença entre os dois grupos quanto ao
sexo na população de onde vem esta amostra. Novamente, mesmo que seja esta a verdade, é
também possível que quando colhemos uma amostra o resultado possa apresentar uma diferença
por questões ligadas ao acaso.
É claro que quanto maior for a dimensão da amostra, mais fácil será identificar diferenças
verdadeiras entre os dois grupos. Também, quanto maior for a diferença no género sexual entre
os dois grupos, mais provável será a existência desta diferença verdadeira entre os dois grupos.
O Qui-quadrado mede a probabilidade de as diferenças encontradas nos dois grupos da
nossa amostra serem devidas ao acaso, partindo do pressuposto que, na verdade, não há
diferenças entre os dois grupos na população donde provêm. Se a probabilidade for alta
poderemos concluir que não há diferenças estatisticamente significativas. Se a probabilidade for
baixa (particularmente menor que 5%) poderemos concluir que o grupo de "Adultos" é diferente
do grupo de "Jovens" quanto ao sexo, e de forma estatisticamente significativa.
No entanto, o Qui-quadrado tem limitações, nomeadamente, deverá ser substituído pela
Prova exacta de Fisher quando os valores esperados nas células da tabela são inferiores a 5.
António Pina 29
30
Assim, eu recomendo que se verifique sempre se somos avisados - "Warning: the

expected value of a cell is < 5. Fisher Exact Test should be used". Nestes casos, evidentemente
utilizaremos o "p" unilateral de Fisher ("1-tailed P-value"). Quando não recebemos este aviso
poderemos utilizar o valor "p" do Qui-quadrado não corrigido.
No caso do nosso exemplo o valor "p" do Qui-quadrado seria 0,17 mas o valor a utilizar
deveria ser o de Fisher, ou seja 0,40 (o que significaria que as eventuais diferenças não seriam
estatisticamente significativas).
♦ Outras tabelas (com mais de duas filas e/ou colunas)

Neste caso a Prova de Fisher não é aplicável (só o é para tabelas de 2x2) pelo que o seu
resultado nunca aparece.
O comando TABLES produz a tabela e calcula o Qui-quadrado mas, quando a tabela é
superior a 2x2, não nos avisa quando os valores esperados nas células são inferiores a 5.
Só a secção STATCALC nos dá tais avisos pelo que eu recomendo sempre reproduzir
estas tabelas, com mais de duas filas ou colunas, nesta secção. Deverá ser aceite o valor de "p"
proposto excepto quando somos avisados que o valor esperado de uma célula é inferior a 5.
Nestes casos, como já não podemos utilizar a Prova de Fisher, resta-nos agregar a tabela de
forma a conter menos colunas ou filas, e voltar a aplicar o Qui-quadrado.
Também na secção STATCALC existe a possibilidade muito interessante de se fazer a
prova da tendência linear do Qui-quadrado.
Suponhamos que temos uma tabela do género:
Doenças cardíacas
(Variável resultado)
Sim Não
(casos) (controlos)
Variável de 1 (não fuma) 5 85
exposição 2 (1-15 6 54
(Consumo de cigarros/dia)
tabaco) 3 (>15 9 41
cigarros/dia)
Fonte:Massons, J.M.D. - Métodos estadísticos en ciencias de la salud, UD 10 - Barcelona, 11ª Ed, ISBN:
84-8049-189-2, 1999.
António Pina 30
31
Neste caso, temos uma variável de exposição ordenada e uma variável resultado
dicotómica. Se, fizermos o Qui-quadrado obteremos o seguinte resultado: p=0,0629 .
Este resultado diz-nos que não há diferenças estatisticamente significativas (para um
nível de significância convencionado de 0,05) entre os doentes e não doentes quanto ao seu
consumo de tabaco, mas não tem em conta o efeito crescente da variável exposição.
Se entrarmos em conta com este efeito, não só tornamos mais potente o teste como
poderemos verificar existir uma relação linear entre as duas variáveis. É o que faz a Prova da
tendência linear do Qui-quadrado cujo “p”, neste caso, é igual a 0,0206. Ou seja, há uma relação
linear estatisticamente significativa entre o nível de consumo de tabaco e a existência de doença
cardíaca.
Esta Prova da tendência linear só poderá ser aplicada quando a variável resposta seja
dicotómica e a variável exposição seja quantitativa ou ordinal (variável de categorias ordenadas
em três ou mais níveis).
Também só poderá ser aplicada depois de verificarmos que não há valores esperados nas
células inferiores a 5. Isto não é automaticamente verificado pelo EpiInfo enquanto se faz a
prova da tendência linear: ter-se-á sempre que aplicar o Qui-quadrado convencional na secção
STATCALC, da forma já referida.
2.3.- Provas para verificar a associação entre uma variável qualitativa e uma
variável quantitativa - o t de Student / ANOVA e o U de Mann-Whitney / Kruskal-
Wallis.
Agora execute o comando MEANS da variável Idade segundo o Sexo ("crosstabulated by

value of ...").
Além das Médias, Desvios-padrão, Medianas, Quartis, etc. das idades para os dois sexos,
aqui temos ainda os resultados dos típicos testes de homogeneidade nos quais a pergunta é
"haverá diferenças entre os dois grupos (masculino/feminino) quanto à idade?".
O EpiInfo vomita os resultados do teste ANOVA (correspondem ao teste t de Student
quando é aplicado apenas para duas subamostras) e do teste de Kruskal-Wallis (que
correspondem ao teste U de Mann-Whitney/Wilcoxon quando é também aplicado apenas para
duas subamostras).
António Pina 31
32
O teste ANOVA exige muitos pressupostos pelo que é perigoso ser utilizado por
principiantes, especialmente em amostras de pequena dimensão. Em alternativa, recomendo
utilizar sempre os resultados do teste de Kruskal-Wallis porque é robusto, muito conservador e
não exige nenhum pressuposto. O Kruskal-Wallis pode ser utilizado para variáveis quantitativas
e qualitativas ordinais, tal como a Mediana.
No entanto, caso haja interesse em utilizar o ANOVA, atendendo que quando se
cumprem os seus pressupostos, este teste é de facto um pouco mais potente que o Kruskal-
Wallis, recomenda-se fazê-lo só nestas circunstâncias:
1º- A variável a testar terá de ser quantitativa.
2º- Quando os grupos têm dimensões diferentes, deverá existir homogeneidade nas
variâncias, ou seja, o "p" do teste de Bartlett, efectuado automaticamente pelo EpiInfo deve ser
superior a 0,05. No caso do nosso exemplo é 0,9385 pelo que se conclui estar cumprido este
pressuposto.
3º- Quando pelo menos um dos grupos tem menos de 30 elementos, deverão os diversos
grupos ter uma distribuição Normal. Infelizmente, o EpiInfo não executa qualquer teste para
confirmar esta Normalidade, pelo que se aconselha a nunca aplicar o ANOVA nestes casos.
No caso do nosso exemplo, o grupo de mulheres tem apenas 2 elementos e o grupo de

homens apenas 3 elementos, pelo que nunca se deveria utilizar o ANOVA. Apenas o teste de
Kruskal-Wallis poderia ser aplicado, não sendo as diferenças estatisticamente significativas
(p=0,5637).
3- A força da associação.
Já referimos que existe duas dimensões quando estudamos uma associação entre
variáveis: uma em que a Estatística nos diz até que ponto o que vemos na nossa amostra poderá
ser o que existe na população, ou seja, até que ponto é estatisticamente significativo; outra em
que procuramos verificar até que ponto os nossos resultados implicam associações fortes entre
variáveis, calculadas através de simples subtracções (Diferença de Riscos ou Risco Atribuível)
ou quocientes (Risco Relativo, Odds Ratio, etc). É possível haver uma associação forte nos
resultados da nossa amostra que, no entanto, não sendo estatisticamente significativos, têm
António Pina 32
33
pouco interesse porque não temos garantias de existirem na população real. Por outro lado, tal
como já referimos, é possível haver uma associação estatisticamente significativa mas que, por
ser tão fraca, não tem importância nenhuma.
Vamos agora falar de duas importantes medidas da força da associação - o Risco Relativo
e o Odds Ratio.
Estas medidas só poderão ser calculadas em tipos particulares de estudos de observação
analítica - os estudos de coorte e de caso-controlo.
3.1. Estudos de coorte

Se pudermos fazer duas ou mais medições ao longo do tempo numa determinada
população, poderemos saber quais os efeitos que a exposição a um factor terá no final,
comparando os que desde o início estiveram expostos com aqueles que nunca estiveram expostos
ao factor.
Um exemplo prático é estudar numa amostra de heroinodependentes qual a forma de
consumo com maior risco de mortalidade ao fim de um ano. Bastaria separar a amostras em dois
estratos segundo a forma de consumo (ex.: injectável ou não) no início do ano, e depois, no final
do ano, verificar quantos morreram num grupo e no outro. Estes estudos possibilitam o cálculo
de taxas de incidência e prevalência, assim como do risco relativo.
Vamos a um exemplo com números.
Suponhamos que definimos que existe um problema de maior mortalidade entre os
toxicodependentes e que seria pertinente estudá-lo. Assim, queremos estudar ou identificar
aqueles toxicodependentes que estão em maior risco de morrer. Após a revisão bibliográfica e o
conhecimento que já tínhamos do assunto, pomos a hipótese de existir uma associação entre a
forma de administração da droga e a mortalidade, ou seja, "acreditamos" que o consumo
injectável poderá incluir um maior risco de mortalidade que os outros consumos.
Após termos seguido durante um ano uma amostra de 2000 toxicodependentes, já
caracterizados quanto aos seus consumos, vamos no final caracterizá-los quanto ao seu estado
vital no fim do período e dispor os dados numa tabela de 2x2:
António Pina 33
34
Casos de doença ou de outro tipo de evento

(Óbitos durante o ano em estudo?)
SIM NÂO TOTAL
Exposição no SIM A (200) B (800) A+B (1000)

início do NÃO C (50) D (950) C+D (1000)
período em
estudo TOTAL A+C (250) B+D (1750) A+C+B+D
(Consumos (2000)
injectáveis?)
♦ Risco Absoluto ou Incidência Cumulada nos Expostos = A/A+B=200/1000=20%

♦ Risco Absoluto ou Incidência Cumulada nos Não Expostos = C/C+D=50/1000=5%
♦ Diferença Absoluta ou Risco Atribuível (RA)=Inc. C. nos expostos - Inc. C. nos não expostos =20%-
5%=15%
♦ Diferença relativa ou Fracção Etiológica do Risco (FER)= RA/Inc. C. nos expostos= 15/20=75%
♦ Risco Relativo (RR) = Inc. C. nos expostos / Inc. C. nos não expostos =20/5=4
A/C 200 / 50
♦ OR = = = 4,75
B / D 800 / 950
Com estes dados, poderemos calcular o risco absoluto de morrer quando se injecta a
droga (A/A+B=20%) e o risco absoluto de morrer sem este comportamento (C/C+D=5%). A
medição da força da associação entre as duas variáveis poderá ser calculada ou através da
diferença (20%-5%=15%) ou do quociente entre estes dois riscos (20/5=4). A Diferença de
Riscos é frequentemente denominada como Risco Atribuível (RA) e o quociente entre os dois
riscos corresponde ao denominado Risco Relativo (RR).
Repare-se que a força de associação é nula quando o RA for aproximadamente zero, ou
quando o RR for aproximadamente igual a um.
Qual a diferença de interpretação entre o RA e o RR?
Genericamente o RA é uma medida importante para avaliar o impacto duma intervenção
que diminua a exposição ao factor de risco na comunidade. Assim, no exemplo anterior
poderíamos pensar que se conseguíssemos eliminar os hábitos de consumo endovenosos,
poderíamos eliminar os óbitos em 15% dos toxicodependentes com consumos injectáveis. O RA
é a quantidade de risco que pode ser atribuída ao factor em causa: se retirarmos este factor,
continuará a haver óbitos, embora devido a outros factores. O RA só tem sentido se tivermos
António Pina 34
35
informação sobre as duas incidências cumuladas. De facto, se as duas incidências forem 95% e
80%, o significado de um RA=15% é diferente de uma outra situação em que as duas incidências
são de 20% e 5%. A Fracção Etiológica do Risco (FER) já relativiza esta informação de acordo
com a incidência nos expostos, sendo que para estas duas situações daria resultados diferentes:
15/95=0,16 e 15/20=0,75. Isto significaria que, caso pudéssemos erradicar o factor de risco, na
primeira situação haveria uma diminuição de 16% da mortalidade e, na segunda situação, de
75%.
Já o RR é uma medida mais utilizada em investigação porque dá uma ideia mais apurada
da potência de uma associação causal. Neste caso o RR é 4, ou seja o risco de morrer é 4 vezes
superior nos expostos que nos não expostos.
O Odds Ratio (OR), que poderá traduzir-se como "razão de possibilidades", é uma
aproximação estimada do RR, pelo que só tem interesse em estudos onde este não poderá ser
calculado, nomeadamente nos estudos de caso-controlo, dos quais se falará depois.
Tal como é possível calcular os intervalos de confiança para as frequências, também é
possível calcular intervalos de confiança para o RA, o RR e o OR.
O EpiInfo efectua estes cálculos quer através do comando TABLES (quando já existe
uma base de dados criada) quer através da secção STATCALC (nesta secção apenas calcula os
intervalos de confiança do RR e OR).
Chama-se a atenção que o cálculo dos intervalos de confiança de 95% destas medições,
substitui com vantagem qualquer outra prova de significância estatística. Repare-se que, se no
intervalo de confiança do RA não estiver incluído o "0", ou no do RR e OR não estiver incluído
o "1", poderemos afirmar com uma confiança de 95% que existe uma diferença entre o grupo
exposto e não exposto. Por outras palavras, poderemos concluir que existe uma diferença
estatisticamente significativa (para um nível de significância de 5%). Por exemplo, segundo o
EpiInfo o intervalo de confiança do Risco Relativo do exemplo mencionado seria 2,97-5,38 o
que, atendendo não incluir o 1, significaria haver uma associação estatisticamente significativa
entre a forma de consumo e a mortalidade.
António Pina 35
36
3.2. Estudos de caso-controlo

Poderão ser confundidos com os estudos de coorte porque também se baseiam em
medições ao longo do tempo, mas aqui os dois grupos dividem-se tendo em conta os efeitos e
não a exposição. Vamos a um exemplo com números.
Suponhamos que queríamos estudar exactamente a mesma associação já referido entre a
forma de administração da droga e a mortalidade. No entanto, ao contrário do estudo anterior,
não tínhamos disponibilidade de recursos ou tempo para seguirmos durante um ano uma amostra
de toxicodependentes como no exemplo anterior de estudo de coorte. Por outro lado, é previsível
haver poucos óbitos (poucos efeitos) no final de um ano pelo que, para implementarmos um
estudo de coorte, teríamos que certamente vigiar milhares de pessoas. Isto torna, evidentemente,
um estudo de coorte totalmente impraticável para a maioria das situações onde o efeito a medir é
pouco frequente (ex: doenças raras, etc). Felizmente, tínhamos a possibilidade de saber nos
ficheiros dos serviços de saúde quem tinha morrido no último ano. Assim, desenhámos um
estudo de caso-controlo, formado por um grupo de toxicodependentes que morreram e um outro
grupo de sobreviventes. Aos dois grupos verificámos os hábitos de consumo (eventualmente,
através da consulta das fichas clínicas) e dispusemos os dados numa tabela de 2x2:
Casos de doença ou de outro tipo de evento

(Óbitos durante o ano em estudo?)
SIM NÂO TOTAL
Exposição no SIM A (200) B (800) A+B (1000)

início do NÃO C (50) D (950) C+D (1000)
período em
estudo TOTAL A+C (250) B+D (1750) A+C+B+D
(Consumos (2000)
injectáveis?)
Repare-se que esta tabela é igual à anterior mas os cálculos efectuados anteriormente não
têm significado epidemiológico e são incorrectos. Efectivamente, não poderemos calcular os
riscos absolutos porque não sabemos qual é a população exposta que deu origem a todos os
óbitos. Consequentemente, também não poderemos calcular o RA e o RR. No entanto,
demonstra-se que, quando o efeito é raro (neste caso, os óbitos) é possível estimar
António Pina 36
37
aproximadamente o RR num estudo de caso-controlo, dando-lhe neste caso a denominação de

Odds Ratio (OR), da seguinte forma:
A/C 200 / 50
OR = = = 4,75
B / D 800 / 950
O OR e o seu intervalo de confiança interpretam-se da mesma forma que para o RR,

sendo também calculados automaticamente pelo EpiInfo (neste caso, o intervalo de confiança de
95% é 3,4-6,7 sendo este resultado também estatisticamente significativo porque não inclui o
"1").
Bibliografia
♦ Abramson, J.H. Survey methods in community medicine - an introduccion to epidemiological
and evaluative studies. 2º ed. New York: Churchill Livingstone, 1979.
♦ Dean, A.G.; et al. Epi Info 2000, a database and statistics program for public health
professionals for use on Windows 95, 98, NT, and 2000 computers. Atlanta (USA): Centers
for Disease Control and Prevention, 2000.
♦ Doménech Massons, José M. Métodos Estadísticos en Ciencias de la Salud. Barcelona
(Espanha): Universitat Autònoma de Barcelona, 1999.
♦ Gerstman, Burt. Data Analysis With Epi Info.
http://www.sjsu.edu/faculty/gerstman/EpiInfo/, Novembro 2000.
♦ Jiménez Villa, J. Como iniciar un trabajo de investigación. Atención Primaria, Vol. 5, Nº 2,
Espanha, 1988.
♦ Serrano, Pedro. Redacção e Apresentação de Trabalhos Científicos. Lisboa: Relógio D'Água,
1996.
António Pina 37
ANEXO 1. - A revisão bibliográfica
Anexo 1
A Revisão Bibliográfica
António Pina Anexo 1 – pág. 1

1- Porque fazer a pesquisa bibliográfica?

Na fase inicial da elaboração de um protocolo de investigação é necessário fazer a revisão
bibliográfica do assunto com os seguintes objectivos:
1- Saber se alguém já publicou as respostas às nossas questões, para decidir da
pertinência de repetir uma investigação com objectivos idênticos;
2- Saber quais os métodos utilizados em investigações similares, para decidir sobre o
melhor método a utilizar;
3- Quando pretendemos enveredar por um estudo de desenho experimental ou
analítico, no qual pomos hipóteses sobre a associação entre variáveis, a revisão bibliográfica
permite enquadrarmos o nosso estudo num modelo de causalidade e, assim, diferenciar quais
serão as variáveis de exposição, de resposta e, sobretudo, as variáveis interferentes. Estas
variáveis interferentes (sejam elas de confusão ou apenas modificadoras do efeito), deverão
ser identificadas logo no início do estudo através do que já é sabido sobre o assunto. Isto
possibilitará desenhar adequadamente o estudo de forma a controlar estas variáveis, não
deixando que as mesmas confundam os nossos resultados (no Anexo 2. explica-se melhor
esta problemática).
2- Como fazer a pesquisa bibliográfica?

A revisão bibliográfica, em primeiro lugar, deverá ser efectuada nos livros de texto e
tratados, de forma a enquadrar o melhor possível o problema a investigar.
No entanto, quando queremos fazer investigação, é também obrigatório ler aquilo que há
de mais actual sobre o assunto, e isto só se encontra em revistas periódicas ou através da consulta
de teses de doutoramento em mestrados. A questão é saber onde estão os artigos que nos
interessam no meio das dezenas de milhares que são publicados anualmente.
Para identificar estes artigos deverá fazer a pesquisa nas fontes secundárias (publicações
que indexam a informação bibliográfica de milhares de artigos, por assunto, palavras-chave,
autores, revistas, etc.). Actualmente, é muito comum fazer tais pesquisas em computador,
embora ainda seja possível fazê-las em publicações de papel. Estas fontes secundárias, em

muitos casos, incluem os resumos dos artigos, o que possibilita obter rapidamente uma ideia
sobre os artigos que nos interessam.
Estas pesquisas podem ser feitas nas próprias bibliotecas. Neste caso, temos a vantagem
de ser ajudados pelo técnico da biblioteca e, podemos pedir imediatamente os artigos que
queremos. As bibliotecas quando não têm os artigos, frequentemente, através de convénios com
outras bibliotecas, podem fornecê-los.
Sucede que temos que ser criteriosos na nossa selecção, caso contrário, arriscamo-nos a
ler demasiados artigos que não nos vão interessar e, eventualmente, a ter que pagar o envio
destes artigos desnecessariamente.
Em Portugal, a biblioteca que, na área da toxicodependência, melhor nos pode prestar tais
serviços é, sem sombra de dúvida, a do Instituto da Droga e Toxicodependência.
No Algarve, recomendaria o Centro de Documentação da Administração Regional de
Saúde e a Biblioteca da Universidade do Algarve.
No entanto, actualmente, é ainda possível fazer todas estas pesquisas em casa, desde que
tenhamos ligação à Internet. Depois das pesquisas, será possível também solicitar os artigos em
casa embora, frequentemente, seja necessário pagar este envio.
Eis alguns endereços onde tais pesquisas poderão ser feitas na tranquilidade do lar:
1. Instituto da Droga e Toxicodependência (www.idt.pt).

Um site com muita informação oficial na área da toxicodependência onde se poderá
pesquisar artigos e documentos na sua biblioteca (que é seguramente a melhor do País sobre o
assunto).
2. Medline (www.nlm.nih.gov/hinfo.html)
Talvez a melhor base de dados em biomedicina.
3. Annual Reviewes (http://annurev.org)
Excelente base de dados bibliográfica na área das ciências biomédicas (inclui o tema da
psicologia), físicas, sociais (inclui temas da saúde pública).
4. TESEO (www.mcu.es/TESEO/index.html)
Base de dados de teses espanholas. Poder-se-á saber em que universidade está a tese e as
diversas bibliotecas em Espanha onde será possível consultá-las.
5. Base de dados da Organização Mundial da Saúde

(www.who.int/hlt/virtuallibrary/English/virtuallib.htm)

Além de possibilitar pesquisas de toda a documentação da OMS, têm ainda links para
dicionários e outras bases de dados bibliográficas.
Há ainda endereços na Internet para revistas especializadas onde poderemos pesquisar

artigos, geralmente sem pagar e, evidentemente solicitá-los, mediante um pagamento:
1. American Journal of Epidemmiology (www.aje.oupjournals.org)
2. American Journal of Public Health (www.apha.org/journal/AJPH2.htm)
3. Annals of Epidemiology (www.elsevier.nl/inca/publications/store/5/0/5/7/4/6/)
4. British Medical Journal (www.bmj.com)
5. Journal of the American Medical Association - JAMA (http://jama.ama-
assn.org)
6. The Journal of Public Health Medicine - Online services
(www3.oup.co.uk/pubmed)
7. The Lancet (www.thelancet.com)
8. The British Psychological Society (www.bps.org.uk/index.cfm)
Possibilita pesquisar e solicitar artigos de várias revistas ligadas à Psicologia.
Finalmente, há ainda a estratégia de pesquisa bibliográfica em árvore: quando num artigo

interessante, verificamos que existem referências bibliográficas sobre um assunto, tentamos
aceder aos artigos citados. Este método pode clarificar aspectos e pormenores importantes, mas
tem o defeito de fazer depender demasiado a pesquisa bibliográfica de um só artigo ou autor,
pelo que nunca deverá ser o método único de pesquisa bibliográfica.
Referência bibliográfica aconselhada:

Serrano, Pedro. Redacção e Apresentação de Trabalhos Científicos. 2ª ed. Lisboa:
Relógio D'Água; 2004.

ANEXO 2 - Controlo das variáveis interferentes
Anexo 2
Controlo das variáveis interferentes
António Pina Anexo 2 – pag. 1

Uma introdução ao controlo das variáveis interferentes

Como controlar o efeito de confundimento das variáveis interferentes?
a) Em primeiro lugar será necessário um bom enquadramento teórico do modelo de
causalidade para detectarmos tais confundimentos através de uma boa revisão bibliográfica
do problema.
b) Após esta revisão é importante listar todas as variáveis interferentes que
eventualmente poderão levar a confundimento.
c) Infelizmente, mesmo com uma boa revisão bibliográfica não temos a garantia de
conhecer todas as variáveis interferentes pelo que apenas os estudos experimentais dão
garantias de controlo de todas estas variáveis, atendendo compararem grupos que são
formados de forma aleatória (única forma de garantir com muita fiabilidade que os grupos
são idênticos relativamente a terceiras variáveis interferentes desconhecidas).
d) Nos outros estudos de observação analíticos existem vários métodos estatisticos
para controlar estas variáveis (pelo menos as conhecidas...), nomeadamente através do
emparelhamento, da padronização, ou da análise estratificada e multivariada.
É importante ter a noção da existência dos dois tipos de variáveis interferentes: as v. de

confundimento (que produzem confundimento) e as v. modificadoras de efeito (que produzem
interacção). Enquanto as primeiras traduzem um desajustamento na comparabilidade dos grupos
produzindo a confusão, as segundas fazem parte do modelo causal, ou seja, são também uma
variável de exposição que modifica a variável resposta, mesmo quando os grupos estão
ajustados.
Figura 1 - Exemplo de confundimento
V. Exposição V. resultado
(casamento) (cancro)
V. confundimento
(idade)

Um exemplo de confundimento clássico é quando fazemos a comparação entre dois

grupos - casados/ não casados - e verificamos que o grupo dos casados tem mais cancro (Figura
1). A conclusão errada poderia ser que o casamento provoca o cancro! Mas o problema aqui foi o
facto de o grupo dos casados ser mais idoso que o dos solteiros! Ou seja, os dois grupos estavam
desajustados quanto à idade pelo que a sua comparação feita desta forma "crua" levava à
confusão! Realça-se que as variáveis de confundimento (ex.: a idade) estão sempre associadas
tanto às variáveis de exposição (ex.: estado civil) como às variáveis resultado (ex.: cancro).
Figura 2 - Exemplo de interacção
V. Exposição V. resultado
(idade) (cancro)
V. modificadora de
efeito
(tabagismo)
Um exemplo de interacção de uma variável interferente modificadora de efeito é quando

ao estudarmos a associação entre a idade (v. de exposição) e o cancro (v. resposta), verificamos
que o hábito de fumar (v. modificadora do efeito) também produz cancro (Figura 2). Repare-se
que, neste caso, a v. "hábito de fumar" também modifica a possibilidade de ter cancro, mesmo
que os dois grupos (fumadores/não fumadores) estejam ajustados quanto à idade. Da mesma
forma, a idade modifica a possibilidade de ter cancro, mesmo que os dois grupos (novos ou
idosos) tenham exactamente os mesmos hábitos tabágicos. Ou seja, neste caso não há
confundimento: existe é duas variáveis – tabaco e idade - que têm efeitos próprios e
independentes na variável resultado (cancro).
Com as variáveis modificadoras de efeito há um somatório ou uma subtracção do efeito,
sendo por isso variáveis que pertencem ao modelo causal, enquanto as variáveis de
confundimento puras são apenas vieses.

Para complicar mais um pouco, é possível haver ainda v. interferentes que são
simultaneamente de confundimento e modificadoras de efeito. Basta que no estudo anterior, em
que verificamos a associação entre idade e cancro, a v. modificadora de efeito "hábito de fumar"
esteja também desajustada nos dois grupos etários (velhos/jovens).
Na prática, para verificar se há confundimento, bastará ver se há associação entre a v.
interferente e a v. resposta e, se há concomitantemente, desajustamento na variável de exposição
entre os dois grupos (expostos/ não expostos) quanto à v. interferente. Para verificar se há
interacção bastará verificar se a força da associação entre as variáveis de exposição e de
resultado (eventualmente medida através do Risco Relativo ou Odds Ratio) é diferente nos
diversos estratos da variável interferente.
O EpiInfo ajuda-nos a controlar o efeito destas variáveis interferentes através do cálculo
dos Riscos Relativos ou Odds Ratios no comando TABLES ou na secção STATCALC.
Efectivamente podemos calcular estas medidas ajustadas e não ajustadas e, através da sua
comparação, verificar o tipo de interferência que existe.
Vejamos algumas situações concretas:
1-Exemplo de inexistência de confundimento e de interacção:
No estudo em que verificamos a associação entre a idade e o cancro, temos uma variável
interferente que denominamos "hábito de fumar".
No primeiro quadro em a), expõe-se a totalidade dos dados, com estratificação de acordo
com a variável interferente, no segundo em b), expõem-se os dados totais sem estratificação e,
nos terceiro e quarto quadro em c) e d), expõem-se os dados para cada estrato da v. interferente:

a) Amostra total com estratificação para a v. interferente:

V. Exposição V. Doença (Cancro) % de Fumadores
Interferente Doença + Doença - em cada grupo
etário
Fumador 12 188 40%
Exposição (Idade) Não Fumador 18 282
Positiva (>45 anos)
Fumador 8 192 40%
Negativa (<45 anos)
b) Amostra total (sem estratificação):

Doença (Cancro)
Doença + Doença -
Positiva (>45 anos) 30 470
Exposição (Idade) Negativa (<45 anos) 20 480
Risco Relativo=1,5
c) Estrato de não fumadores:

Doença (Cancro)
Doença + Doença -
Risco Relativo =1,5
d) Estrato de fumadores:
Doença (Cancro)
Doença + Doença -
Risco Relativo =1,5
Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que
comprova que a v. hábito de fumar não modifica o efeito na v. cancro. Também a proporção de
fumadores tanto num grupo etário como no outro é idêntica (em ambos os grupos etários existe
uma proporção de fumadores semelhante de 40%), o que significa não haver desajuste ou
confundimento.
Repare-se que, se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados para os dois estratos temos os seguintes dados:
RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 1,5
Quando o RR não ajustado é igual ao ajustado, não há confundimento.
Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.
2- Exemplo de confundimento sem interacção:

etário
Fumador 194 606 80%
Positiva (>45 anos)
Fumador 24 76 10%
Negativa (<45 anos)
b) Amostra total (não estratificada)

Doença (Cancro)
Doença + Doença -
Risco Relativo =4

c) Estrato de não fumadores

Doença (Cancro)
Doença + Doença -
Risco Relativo =1
d) Estrato de fumadores
Doença (Cancro)
Doença + Doença -
Risco Relativo =1
Ou seja, neste caso, o Risco Relativo é rigorosamente igual em qualquer estrato, o que
comprova que a v. hábito de fumar não modifica o efeito na v. cancro. No entanto, a proporção
de fumadores é diferente nos dois grupos etários (há 80% de fumadores no grupo com mais de
45 anos, e apenas 10% no grupo com menos de 45 anos) e isto provoca confundimento na
associação entre a idade e o cancro.
RR não ajustado (Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 1
Quando o RR ajustado é diferente do não ajustado existe confundimento e, neste caso,
deveremos referir apenas o RR ajustado como medida de força da associação.
Quando o RR é igual em cada estrato, não há interacção ou modificação do efeito.

3- Exemplo de interacção sem confundimento:

etário
Fumador 42 258 60%
Positiva (>45 anos)
Fumador 8 292 60%
Negativa (<45 anos)

Doença (Cancro)
Doença + Doença -
Risco Relativo =4,6

Doença (Cancro)
Doença + Doença -
Risco Relativo =2
Doença (Cancro)
Doença + Doença -
Risco Relativo =5,2

Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que significa que o
hábito de fumar interage com a associação idade - cancro. No entanto, não existe confundimento
porque não existe desajuste: a proporção de fumadores é igual entre os dois grupos etários (em
ambos é de 60%).
RR não ajustado (Crude RR) = RR ajustado (Mantel-Haenszel Weighted RR) = 4,6
Quando o RR não ajustado é igual ao ajustado, não há confundimento.
Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é
o caso.
No entanto, havendo interacção, comprovada pela diferença na força de associação entre
os diversos estratos, deveremos sempre verificar adicionalmente se estas diferenças são
estatisticamente significativas, através da prova de Mantel-Haenszel Summary Chi-squared
proposta no EpiInfo, em que o "p", neste caso, é de 0,0000017, ou seja, é estatisticamente
significativo.
Quando há interacção como neste exemplo, não poderemos referir apenas um RR para
traduzir a relação entre as duas variáveis. Nestes casos deveremos referir o resultado RR para
cada estrato, atendendo o risco ser efectivamente diferente em cada estrato.
4- Exemplo de confundimento e interacção juntos:

etário
Fumador 12 188 20%
Positiva (>45 anos)
Fumador 48 752 80%
Negativa (<45 anos)

Doença (Cancro)
Doença + Doença -
Risco Relativo =4

Doença (Cancro)
Doença + Doença -
Risco Relativo =23,5
Doença (Cancro)
Doença + Doença -
Risco Relativo =1
Ou seja, neste caso o Risco Relativo dos dois estratos é diferente, o que representa haver
interacção. Por outro lado também existe desajustamento entre os dois grupos etários quanto à v.
hábito de fumar (o grupo com maios de 45 anos tem 20% de fumadores, enquanto o grupo com
menos de 45 anos tem 80% de fumadores).
Claro que se pedirmos ao EpiInfo (através da secção STATCALC) que calcule um
sumário destes dados, verificamos a existência de confundimento porque o RR não ajustado
(Crude RR) = 4 ≠ RR ajustado (Mantel-Haenszel Weighted RR) = 4,2.
Quando o RR não ajustado é diferente do ajustado, há confundimento.
Quando o RR é diferente em cada estrato, há interacção ou modificação do efeito, como é
o caso.
Repete-se que a interacção só deverá ser valorizada quando estatisticamente significativa,

comprovada pelo resultado da prova de Mantel-Haenszel Summary Chi-squared (o "p", neste
caso, é de 0,00000, ou seja, é estatisticamente significativo).
O confundimento terá que ser valorizado apenas de acordo com o nosso juízo clínico,
porque não há uma prova objectiva, tal como a significância estatistica da interacção. Neste caso,
embora seja um facto que existe confundimento, comprovado pela diferença entre o RR ajustado
e não ajustado, a verdade é que essa diferença é relativamente pequena (de 4 a 4,2), pelo que
provavelmente o mais correcto seria não a valorizar.
Posto isto qual será a melhor estratégia para identificar as variáveis de confundimento e
as variáveis modificadoras do efeito? Proponho o seguinte procedimento:
a) Já aqui foi referida a necessidade de fazer um bom enquadramento teórico do qual

resulte uma listagem das possíveis variáveis interferentes.
b) Durante a análise bivariada dever-se-á verificar a possibilidade de alteração de
associações após a estratificação segundo possíveis v. interferentes.
c) Se há diferenças de RR entre os estratos, existe interacção (que só deve ser
valorizada quando é estatisticamente significativa). Nestes casos, nos resultados deveremos
apresentar os RR de cada estrato, não sendo compreensível um RR global.
d) Se há diferença entre o RR ajustado e não ajustado, existe confundimento e deverá
sempre ser apresentado o RR ajustado, como medida da força de associação entre a variável
de exposição e de resultado (eliminando o efeito da variável de confundimento).
e) Se há diferenças estatisticamente significativas de RR entre os estratos, e entre o
RR ajustado e não ajustado, existe confundimento e interacção, devendo também ser
apresentados apenas os RR de cada estrato, não sendo compreensível um RR global.

ANEXO 3 - Cálculo da dimensão da amostra
Anexo 3
Cálculo da dimensão da amostra

ANEXO 3 - Cálculo da dimensão da amostra
Calcular a dimensão de uma amostra através do EpiInfo

Esta possibilidade de calcular a dimensão de uma amostra é muito útil se queremos partir
para o estudo com alguma confiança sobre a possibilidade de, no futuro, podermos extrapolar os
nossos resultados para a população. Por outras palavras, a dimensão da amostra tem tudo a ver
com a precisão dos intervalos de confiança que queremos vir a ter quando fizermos os nossos
cálculos. No entanto, é necessário ter em conta que esta amostra terá que ser obrigatoriamente
seleccionada pelo método aleatório (simples, sistemático ou estratificado)3.
Para isso, na secção STATCALC do EpiInfo, poderemos verificar qual a dimensão
correcta da nossa amostra, escolhendo "Sample size & power" e depois "Population survey".
Teremos que responder seguidamente às perguntas colocadas, nomeadamente:
1º- Qual a dimensão da população total? Experimente pôr 5000.
2º - Qual a frequência que julgamos ser verdadeira na população total? É evidente que
não estamos certos desta frequência, no entanto, tendo em conta outros estudos ou informações
poderemos estimar esta frequência... Quando não fazemos a mínima ideia desta frequência real,
poderemos escolher o valor mais conservador que é 50%. Experimente então pôr 50%.
3º - Qual o valor mais errado que admitiríamos obter da nossa amostra? Suponhamos que
admitiríamos ter um intervalo de confiança de 50% + 10%, ou seja seria obter ou 60% ou 40%
como limites. Terá que responder a esta pergunta colocando ou 60 ou 40%.
Atenção! Verifique sempre se ambos os valores limites são credíveis! Suponha que dá ao EpiInfo a
informação que admitiria um intervalo de confiança de 5% + 10%, ou seja, seria obter ou 15% como limite máximo,
ou -5% como limite mínimo, o que não é credível porque é um número negativo!
Veja agora o resultado: terá de ter uma amostra de 94 elementos se quiser obter intervalos
de confiança de 95% ("confidence level of 95%"), cujo limites não ultrapassem 60 ou 40%,
partindo do pressuposto que a verdadeira proporção é de 50%, e que a amostra será seleccionada
pelos métodos aleatórios já designados.
Complicado? Talvez, mas melhor que isto só se perguntar directamente a Deus ...
3
A amostragem por conglomerados aumenta um pouco o erro pelo que existem correcções matemáticas
apropriadas, actualmente só disponíveis no EpiInfo 6.04.

InvestigaçãoEstatística PDF

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

InvestigaçãoEstatística PDF

Uploaded by

Copyright:

Available Formats

António Paula Brito de Pina

Gabinete de Investigação e Estatística

1º- Identifique o assunto a investigar.....................................................................3

2º- Identifique as variáveis a estudar.....................................................................5

3º- Identifique a população e a amostra a estudar...............................................8

4º- Defina o desenho do seu estudo......................................................................10

PARTE 2 - Noções de estatística..........................................................................19

Anexo 1 - A Revisão Bibliográfica

A metodologia básica de investigação

1º- A Estatística nunca dá certezas, dá apenas probabilidades baseadas em pressupostos

2º- Os resultados estatisticamente significativos podem não ter relevância...,

1º- Identifique o assunto a investigar

b) Qual a investigabilidade do problema?

c) É pertinente gastar recursos para tentar conseguir respostas a tais perguntas?

d) O que é que já se sabe ou foi publicado sobre o assunto?

e) Quais são as hipóteses a comprovar?

2º- Identifique as variáveis a estudar

b) Classifique cada variável segundo a sua escala de medição.

c) Como vamos proceder à medição da variável?

d) Posicione cada variável no desenho do estudo.

vicia frequentemente as conclusões e que só se resolve cabalmente com a implementação de um

3º- Identifique a população e a amostra a estudar

b) A população vai ser toda estudada?

a x. Posteriormente, ao acaso, seleccionam-se alguns elementos de toda a lista,

Os métodos de selecção não aleatória poderão ser utilizados em estudos preliminares,

4º- Defina o desenho do seu estudo

A- Estudos experimentais: são estudos caracterizados por aleatoriamente distribuirmos

B- Estudos de observação analíticos

c) Estudos transversais analíticos

5º- Planeie a recolha e a análise dos dados

6º- Interprete os resultados para elaborar um relatório

1- Os erros aleatórios relacionados com o processo de selecção aleatória de

2- Os erros sistemáticos ou vieses que poderão ser classificados da seguinte forma:

b) vieses de amostragem, p.ex., quando aplicamos um questionário a uma

c) vieses de não participação, p.ex., quando muitos elementos da amostra se

d) vieses de ausência de respostas, p.ex., quando não se consegue contactar

e) vieses relacionados com o desaparecimento de elementos da amostra em

a) vieses do observador (ou de classificação)

♦ a temporalidade: efectivamente, é impossível um efeito ser anterior à sua causa... no entanto,

♦ a associação estatística: as variáveis de exposição terão de estar associadas às variáveis efeito

♦ a ausência de espuriedade, ou seja, ausência de associações "artificiais" entre variáveis, que

Outros critérios de causalidade menos importantes são:

♦ o gradiente biológico da associação refere-se à existência de uma curva dose-resposta entre a

♦ a consistência: quando a associação se repete em populações diferentes e em circunstâncias

♦ a coerência com as teorias e conhecimentos vigentes, no entanto, se tivessemos que ser

Um remate final: a investigação deverá sempre que possível resultar num

Se quiser utilizar o EpiInfo (disponível gratuitamente em www.cdc.gov/epiinfo), aconselho a

1.1.Interpretar as frequências absolutas e relativas.

1.2.Interpretar as médias, desvios-padrão, medianas, etc.

Escala da variável Medidas de localização central Medidas de dispersão

Aqui entram as Provas estatísticas e os seus resultados em termos de probabilidades "p"

3º- Provas de independência, ou seja, verificar se duas variáveis simétricas são

2.1- Os intervalos de confiança

2.2.- Provas para verificar a associação entre duas variáveis qualitativas - o

Variável "output" (Grupos)

Também na secção STATCALC é possível construir tabelas mas, neste caso,

Assim, eu recomendo que se verifique sempre se somos avisados - "Warning: the

♦ Outras tabelas (com mais de duas filas e/ou colunas)

Agora execute o comando MEANS da variável Idade segundo o Sexo ("crosstabulated by

No caso do nosso exemplo, o grupo de mulheres tem apenas 2 elementos e o grupo de

3.1. Estudos de coorte

Casos de doença ou de outro tipo de evento

Exposição no SIM A (200) B (800) A+B (1000)