You are on page 1of 49

CAPÍTULO 1: Introdução

PÁGINA 3
Como é estimada a taxa de desenvolvimento de uma nova doença?

Para estimar a taxa de desenvolvimento de uma nova doença, por exemplo, a doença
cardiovascular, precisamos de uma estratégia de amostragem específica. Para esta análise,
usaríamos uma amostra apenas de pessoas sem doença cardiovascular e as acompanharíamos
ao longo do tempo (prospectivamente) para avaliar o desenvolvimento da doença. Uma questão
principal nesses tipos de estudos é o período de acompanhamento. O pesquisador deve decidir
se irá acompanhar os participantes por 1, 5 ou 10 anos, ou por algum outro período, para
observar o desenvolvimento ou não da doença. Se for interessante estimar o desenvolvimento
da doença ao longo de 10 anos, será preciso acompanhar cada participante da amostra por 10
anos para determinar o status da doença de cada um. A proporção do número de novos casos
da doença em relação ao tamanho total da amostra reflete a proporção ou a incidência cumulativa
de novos casos da doença ao longo do período de acompanhamento predeterminado. Suponha
que acompanhamos cada um dos participantes da nossa amostra por 5 anos e descobrimos que
2,4% desenvolveram a doença. Novamente, de modo geral, é interessante fornecer uma faixa
de valores plausível para a proporção de novos casos da doença. Isso é conseguido
incorporando uma margem de erro que reflita a precisão da nossa estimativa. A incorporação da
margem de erro pode resultar em uma estimativa da incidência cumulativa da doença entre 1,2
e 3,6% ao longo de 5 anos.

A epidemiologia é um campo de conhecimento focado no estudo da saúde e da doença em


populações humanas, padrões de saúde ou de doença, e os fatores que influenciam esses
padrões. O estudo descrito aqui é um exemplo de estudo epidemiológico. Os leitores
interessados em aprender mais sobre epidemiologia devem consultar Magnus.

Como são identificados os fatores de risco ou características que podem


estar relacionados ao desenvolvimento ou à progressão da doença?

Suponha que criamos a hipótese de que um determinado fator de risco ou exposição específicos
estejam relacionados ao desenvolvimento de uma doença. Há diversos projetos ou formas de
estudo diferentes em que podemos coletar informações para avaliar o relacionamento entre um
possível fator de risco e as primeiras manifestações de uma doença. O projeto de estudo mais
apropriado depende, entre outras coisas, da distribuição do fator de risco e do resultado na
população de interesse (por exemplo, quantos participantes estão suscetíveis a ter, ou não, um
determinado fator de risco). (Discutimos diferentes projetos de estudo no Capítulo 2 e qual projeto
é o melhor em uma situação específica.) Independente do projeto específico utilizado, o fator de
risco e o resultado devem ser medidos em cada membro da amostra. Se estivermos interessados
na relação entre o fator de risco e o desenvolvimento da doença, mais uma vez envolveríamos
participantes sem a doença no começo do estudo e acompanharíamos todos os participantes
em relação ao desenvolvimento da doença. Para avaliar se há uma relação entre um fator de
risco e o resultado, estimamos a proporção (ou percentual) de participantes com o fator de risco
que desenvolvem a doença e comparamos com a proporção (ou percentual) de participantes que
não têm o fator de risco e desenvolvem a doença. Existem várias maneiras de fazer essa
comparação; ela pode ser baseada em uma diferença em proporções ou em uma razão de
proporções. (Os detalhes dessas comparações são amplamente discutidos no Capítulo 6 e no
Capítulo 7.)

Suponha que entre os participantes com o fator de risco, 12% desenvolvam a doença durante o
período de acompanhamento e entre aqueles sem o fator de risco, 6% desenvolvam doença. A
razão das proporções é chamada de risco relativo e aqui é igual á 0,12 / 0,06 = 2,0. A
interpretação é que duas vezes mais pessoas com o fator de risco desenvolvem a doença em
comparação a pessoas sem o fator de risco. O problema, então, é determinar se essa estimativa,
observada em uma amostra de estudo, reflete um risco aumentado na população. Representar
a incerteza pode resultar em uma estimativa do risco relativo de 1,1 a 3,2 vezes maior para
pessoas com o fator de risco. Como a faixa contém valores de risco superiores a 1, os dados
refletem um risco maior (porque o valor de 1 sugere que não há aumento de risco).

Outro problema em avaliar a relação entre um fator de risco específico e o status da doença
envolve entender relações complexas entre fatores de risco. Pessoas com o fator de risco podem
ser diferentes de pessoas sem o fator de risco; por exemplo, podem ser mais velhas e mais
propensas a ter outros fatores de risco. Existem métodos que podem ser usados para avaliar a
associação entre o fator de risco hipotético e o status da doença, levando em consideração o
impacto dos outros fatores de risco. Essas técnicas envolvem modelagem estatística. Discutimos
como esses modelos são desenvolvidos e, mais importante, como os resultados são
interpretados, no Capítulo 9.
CAPÍTULO 4: Resumo dos dados coletados na amostra
PÁGINAS 41-44

4.2 Variáveis ordinais e categóricas


Variáveis ordinais e variáveis categóricas possuem um número fixo de opções de resposta, as
quais podem ser ordenadas ou não, respectivamente. Variáveis categóricas e ordinais
geralmente têm mais de duas opções de resposta, enquanto variáveis dicotômicas possuem
somente duas opções de resposta. Estatísticas resumidas para variáveis categóricas e ordinais
enfocam principalmente frequências relativas (ou porcentagens) ou respostas obtidas para cada
categoria.

4.2.1 Estatísticas descritivas para variáveis categóricas e ordinais

Considere novamente um estudo sobre fatores de risco cardiovasculares como o Framingham


Heart Study. Nele, podemos coletar informações sobre os participantes tais como: pressão
sanguínea, colesterol total e índice de massa corporal (IMC). Muitas vezes, os médicos
classificam os pacientes em categorias; por exemplo, o NHLBI e a American Heart Association
usam a classificação de pressão sanguínea apresentada na Tabela 4–11. A American Heart
Association usa a seguinte classificação para os níveis de colesterol total: desejável, menos de
200 mg/dl; e risco alto, 240 mg/dl ou mais. O Índice de massa corporal (IMC) é calculado dividindo
o peso em quilogramas pela altura em metros elevada ao quadrado, e geralmente utiliza as
seguintes categorias: baixo peso, abaixo de 18,5; peso normal, de 18,5 a 24,9; sobrepeso, de
25,0 a 29,9; e obeso, 30,0 ou acima. Todos esses são exemplos de variáveis ordinais. Em cada
um dos casos, é considerado mais saudável estar na categoria mais baixa.

Exemplo 4.2. Usando os dados do sétimo exame do Framingham Offspring Study (n = 3539),
criamos as categorias que foram definidas previamente para pressão sanguínea, colesterol total
e IMC. Tabelas de distribuição de frequência, similares às apresentadas para os dados
dicotômicos, também são usadas para resumir as variáveis categóricas ordinais. A Tabela 4–5 é
uma tabela de distribuição de frequência da variável ordinal de pressão sanguínea. As categorias
mutuamente exclusivas (sem sobreposição) e exaustivas (que cobrem todas as possibilidades)
são apresentadas na primeira coluna da tabela. A frequência, ou o número de participantes em
cada categoria, é apresentada na coluna do meio, e a frequência relativa, em porcentagem, está
na coluna à direita.

Apesar do tamanho da amostra ser de n=3539, note que há apenas n=3533 respostas válidas.
Não há dados sobre pressão sanguínea de seis indivíduos. Mais de um terço da amostra (34,1%)
tem pressão normal, 41.1% são classificados como pré-hipertensão, 18,5% têm hipertensão
estágio 1 e 6,3% tem hipertensão estágio 2. Para variáveis ordinais, muitas vezes duas colunas
são adicionadas à tabela de distribuição de frequência: frequência acumulada e frequência
relativa acumulada, respectivamente (Veja a Tabela 4–6).

Nesse exemplo, a frequência acumulada representa o número de pacientes que estão no nível
de pressão sanguínea ou abaixo dele. Por exemplo, 2.658 pacientes apresentam pressão normal
ou pré-hipertensão. Há 3.311 pacientes com pressão normal, pré-hipertensão ou hipertensão
estágio 1. A frequência relativa acumulada é útil para resumir as variáveis ordinais e indicar o
percentual de pacientes em um nível específico ou abaixo dele. Nesse exemplo, 75,2% dos
pacientes não foram classificados como hipertensos (ou seja, eles apresentam pressão normal
ou pré-hipertensão). Note que para a última categoria de pressão sanguínea (a mais alta), a
frequência acumulada equivale ao tamanho da amostra (n=3533) e a frequência relativa
acumulada é de 100%, indicando que todos os pacientes estão no nível mais alto ou abaixo dele.

TABELA 4-5 Tabela de distribuição de frequência


para categorias de pressão sanguínea

Frequência
Frequência relativa (%)
Normal 1206 34,1
Pré-hipertensão 1452 41,1
Hipertensão estágio 1 653 18,5
Hipertensão estágio 2 222 6,3
Total 3533 100,0

TABELA 4-6 Tabela de distribuição de frequência para categorias de pressão sanguínea com
frequência acumulada e frequência relativa acumulada
Frequência relativa
Frequência Frequência relativa (%) Frequência acumulada acumulada (%)
Normal 1206 34,1 1206 34,1
Pré-hipertensão 1452 41,1 2658 75,2
Hipertensão estágio 1 653 18,5 3311 93,7
Hipertensão estágio 2 222 6,3 3533 100,0
Total 3533 100,0

A Tabela 4-7 mostra a tabela de distribuição de frequência para o colesterol total. As categorias
de colesterol total são descritas a seguir e, novamente, são baseadas nos valores de colesterol
mensurados. Pessoas com colesterol total abaixo de 200 mg/dl são classificadas como tendo
colesterol total desejável; 200-239 mg/dl, são classificadas como limítrofe; e 240 mg/dl ou acima,
são classificadas como tendo colesterol total alto. No sétimo exame do Framingham Offspring
Study, 51,6% dos pacientes tinham colesterol total desejável e outros 34,3% tinham colesterol
total limítrofe. Usando a frequência relativa acumulada, podemos resumir os dados da seguinte
forma: 85,9% dos pacientes apresentam níveis de colesterol total desejável ou limítrofe. Os
14,1% restantes possuem colesterol total alto.
TABELA 4-7 Tabela de distribuição de frequência para categorias de colesterol total
Frequência relativa
Frequência Frequência relativa (%) Frequência acumulada acumulada (%)
Desejável 1712 51,6 1712 51,6
Limítrofe 1139 34,3 2851 85,9
Alto 469 14,1 3320 100,0
Total 3320 100,0

A Tabela 4–8 mostra a tabela de distribuição de frequência para a variável ordinal IMC. Tanto a
altura como o peso são medidos diretamente e o IMC é calculado conforme descrito
anteriormente. Na amostra do sétimo exame do Framingham Offspring Study, 28% dos pacientes
apresentam peso normal, 41,3% são classificados com sobrepeso e 30,1% são obesos. Usando
a frequência relativa acumulada, podemos dizer que quase 70% dos pacientes estão abaixo do
peso, com peso normal ou com sobrepeso. Isso é o mesmo que dizer que 70% dos pacientes da
amostra não são obesos.

TABELA 4-8 Tabela de distribuição de frequência para categorias de Índice de massa corporal
Frequência relativa
Frequência Frequência Relativa (%) Frequência acumulada acumulada (%)
Abaixo do peso 20 0,6 20 0,6
Peso normal 932 28,0 932 28,6
Sobrepeso 1374 41,3 2326 69,9
Obeso 1000 30,1 3326 100,0
Total 3326 100,1

As tabelas 4–5 a 4–8 contêm estatísticas resumidas para variáveis ordinais. As principais
estatísticas resumidas para variáveis ordinais são frequência relativa e frequência relativa
acumulada. As tabelas 4–9 a 4–11 contêm estatísticas resumidas para variáveis categóricas.
Variáveis categóricas são aquelas com duas ou mais respostas distintas, sendo que estas não
são ordenadas. Alguns exemplos de variáveis categóricas mensuradas no Framingham Heart
Study são: estado civil, mão dominante e tabagismo. Tabelas de distribuição de frequência
contendo frequência e frequência relativa fornecem resumos adequados das variáveis
categóricas. Frequência acumulada e frequência relativa acumulada normalmente não são úteis
para resumir variáveis categóricas, pois como não há ordem inerente às categorias, não é
interessante combiná-las.

A Tabela 4–9 mostra a tabela de distribuição de frequência para a variável categórica estado
civil. As categorias mutuamente exclusivas e exaustivas encontram-se na primeira coluna. A
frequência, ou o número de participantes em cada categoria, é apresentada na coluna do meio,
e a frequências relativa, em porcentagem, está na coluna à direita. Há n=3530 respostas válidas
para a pergunta sobre estado civil. Nove participantes não responderam à esta pergunta. A
amostra é composta majoritariamente por pessoas casadas (73,1%); aproximadamente 10% são
divorciados, 10% são viúvos, 6% são solteiros e 1% são separados. A frequência relativa é a
estatística mais relevante para descrever uma variável categórica. Frequência acumulada e
frequência relativa acumulada geralmente não são estatísticas descritivas informativas para
variáveis categóricas.

Estado civil é uma variável categórica; como não há uma ordem a seguir para as respostas, a
primeira coluna pode ser organizada de formas diferentes. Por exemplo, às vezes as respostas
são listadas da mais frequente a menos frequente, ou as repostas podem ser apresentadas em
ordem alfabética. Qualquer ordem pode ser considerada apropriada. Por outro lado, respostas a
variáveis ordinais são ordenadas e, portanto, somente podem ser apresentadas do maior para o
menor (mais saudável a menos saudável) ou vice-versa. As opções de resposta em escala
ordinal não podem ser reorganizadas.

TABELA 4-9 Tabela de distribuição de frequência


para estado civil

Frequência
Frequência Relativa (%)
Solteiro 203 5,8
Casado 2850 73,1
Viúvo 334 9,5
Divorciado 367 10,4
Separado 46 1,3
Total 3530 100,0

A Tabela 4–10 é uma tabela de distribuição de frequência para uma variável categórica
dicotômica. Variáveis dicotômicas são um caso especial de variáveis categóricas com
exatamente duas opções de resposta. A Tabela 4–10 mostra a distribuição da mão dominante de
participantes que compareceram ao sétimo exame do Framingham Offspring Study. As opções
de resposta são "direita" ou "esquerda". Há n = 3.513 respostas válidas para a avaliação da mão
dominante. Um total de 26 participantes não forneceu dados sobre a mão dominante. A maioria
da amostra de Framingham é destra (89,5%). A Tabela 4–11 é uma tabela de distribuição de
frequência para uma variável categórica que reflete a posição do tabagismo. A posição do
tabagismo aqui é medida como não fumante, ex-fumante ou fumante atualmente. Há n = 3.536
respostas válidas para as perguntas sobre a condição do tabagismo. Três participantes não
forneceram dados adequados a serem classificados. Quase metade da amostra é de ex-
fumantes (48,8%), mais de um terço (37,6%) nunca fumou e aproximadamente 14% são
fumantes atualmente. Os efeitos do tabagismo adversos à saúde foram um grande foco das
mensagens de saúde pública em anos recentes, e o percentual de participantes que se declaram
fumantes atualmente deve ser interpretado com relação ao período do estudo. A Tabela 4–12
mostra as proporções dos participantes que se declaram fumantes atualmente no momento de
cada exame do Framingham offspring. As datas de cada exame também são fornecidas.
TABELA 4-10 Tabela de distribuição de
frequência para mão dominante
Frequência
Frequência relativa (%)
Direita 3.143 89,5
Esquerda 370 10,5
Total 3.513 100,0

TABELA 4-11 Tabela de distribuição de


frequência para condição do tabagismo
Frequência
Frequência relativa (%)
Não fumante 1.330 37,6
Ex-fumante 1.724 48,8
Fumante atualmente 482 13,6
Total 3.536 100,0

TABELA 4-12 Fumantes atualmente no


Framingham Offspring Study por data do exame

Ciclo do Fumantes
exame Datas atualmente (%)
Ago 1971-Set 1975 59,7
Out 1979-Out 1983 28,5
Dez 1983-Set 1987 23,9
Abr 1987-Set 1991 21,7
Jan 1991-Jun 1995 17,4
Jan 1995-Set 1998 13,8
Set 1998-Out 2001 13,6

Nas próximas duas seções, apresentamos exibições gráficas para variáveis ordinais e
categóricas, respectivamente. Enquanto os resumos numéricos para variáveis ordinais e
categóricas são idênticos (pelo menos em termos das frequências e frequências relativas), as
exibições gráficas para variáveis ordinais e categóricas são diferentes, em um modo muito
importante.
CAPÍTULO 6: Estimativas de intervalo de confiança
PÁGINAS 101-102
Começamos agora a inferência estatística. No Capítulo 4, apresentamos estatísticas descritivas
usadas para resumir os dados da amostra. No Capítulo 5, apresentamos os principais conceitos
de probabilidade e o Teorema central do limite. Na inferência estatística, usamos todos esses
conceitos para fazer inferências sobre parâmetros de população desconhecidos com base em
estatísticas de amostra. Há duas grandes áreas de inferência estatística: estimativa e teste de
hipóteses. Na estimativa, as estatísticas de amostra são usadas para gerar estimativas sobre
parâmetros de população desconhecidos. No teste de hipóteses, uma declaração específica ou
hipótese é gerada sobre um parâmetro de população, e as estatísticas da amostra são usadas
para avaliar a probabilidade de que a hipótese seja verdadeira. Discutimos estimativa aqui e
apresentamos o teste de hipóteses no Capítulo 7.

Estimativa é o processo de determinar um valor provável para um parâmetro de população (p.


ex., a verdadeira média da população ou proporção da população) com base em uma amostra
aleatória. Na prática, selecionamos uma amostra da população e usamos estatísticas da amostra
(p. ex., a média da amostra ou a proporção da amostra) para estimar o parâmetro desconhecido.
A amostra deve ser representativa da população, com participantes da população selecionados
aleatoriamente. Como diferentes amostras podem produzir diferentes resultados, é necessário
quantificar a precisão — ou a falta dela — que pode existir entre estimativas de diferentes
amostras.

As técnicas para estimativa, bem como para outros procedimentos em inferência estatística,
dependem da classificação adequada da principal variável do estudo (que também chamamos
de resultado ou meta final) como contínua ou dicotômica. (Há outros tipos de variáveis, que são
discutidas nos Capítulos 7, 10 e 11; aqui focamos em resultados contínuos e dicotômicos.) Outro
assunto importante é o número de grupos de comparação na investigação. Por exemplo, no caso
do grupo de duas comparações é importante determinar se as amostras dos grupos são
independentes (isto é, fisicamente separadas, como homens contra mulheres) ou dependentes
(também chamadas de combinadas ou correlacionadas). Essas questões ditam a técnica de
estimativa adequada. A Tabela 6–1 descreve essas questões e identifica as técnicas de
estimativa que discutimos aqui.

TABELA 6-1 Técnicas de estimativa


Número de amostras Variável de resultado Parâmetro a ser estimado
Uma amostra Contínua Média
Duas amostras independentes Contínua Diferença de médias Diferença de média
Duas amostras dependentes, combinadas Contínua Proporção (p. ex., prevalência, incidência
Uma amostra Dicotômica cumulativa)
Duas amostras independentes Dicotômica Diferença ou razão de proporções (p. ex., risco
atribuível, risco relativo, razão de possibilidades)
CAPÍTULO 7: Teste de hipóteses
PÁGINAS 123-127
A segunda área de inferência estatística é o teste de hipóteses. No teste de hipóteses, uma
declaração específica ou hipótese é gerada sobre um parâmetro de população, e as estatísticas
da amostra são usadas para avaliar a probabilidade de que a hipótese seja verdadeira. Essa
declaração ou hipótese é baseada em informações disponíveis e na convicção do pesquisador
a respeito do parâmetro. O processo de teste de hipóteses envolve estabelecer duas hipóteses
que competem entre si: uma reflete nenhuma diferença, nenhuma associação ou nenhum efeito
(chamada hipótese nula) e a outra reflete a convicção do pesquisador (chamada de hipótese
ou alternativa de pesquisa). Selecionamos uma amostra aleatória (ou várias amostras quando
há mais grupos de comparação) e geramos estatísticas de resumo. Em seguida, avaliamos a
probabilidade de que os dados da amostra sustentem a hipótese de pesquisa ou alternativa.
Similar à estimativa, o processo de teste de hipóteses é baseado na teoria da probabilidade e no
Teorema central do limite.

As técnicas para teste de hipóteses dependem novamente da classificação adequada da


principal variável de resultado ou meta final do estudo. O número de grupos de comparação na
investigação também deve ser especificado. Mais uma vez, é importante determinar se os grupos
de comparação são independentes (ou seja, fisicamente separados, como homens versus
mulheres ou participantes designados para receber uma nova droga ou placebo em um ensaio
clínico) ou dependentes (isto é, combinados ou correlacionados, como pré e pós-avaliações
sobre os mesmos participantes). Essas questões ditam a técnica de teste de hipóteses
adequada. Em estimativa, focamos explicitamente em técnicas para uma e duas amostras.
Discutimos a estimativa para um parâmetro específico (p. ex., a média m ou proporção p de uma
população), por diferenças (p. ex., diferença em médias µ1 – µ2, a diferença de risco p1 – p2) e
para razões [(p. ex., o risco relativo RR = p1/p2 e a razão de possibilidades ou = (p1 /(1 – p1))/(p2
/(1 – p2))]. Aqui focamos em procedimentos para uma, duas e mais de duas amostras. O teste
de hipóteses pode generalizar para a situação de mais de dois grupos, enquanto a estimativa
não é intuitiva quando há mais de dois grupos. A Tabela 7–1 esboça procedimentos de teste de
hipóteses que consideramos aqui.
TABELA 7-1 Técnicas de teste de hipóteses

Número de amostras Variável de resultado


Uma amostra Contínua
Duas amostras independentes Contínua
Duas amostras dependentes, Contínua
combinadas
Mais de duas amostras Contínua
independentes
Uma amostra Dicotômica

Duas amostras independentes Dicotômica

Mais de duas amostras Dicotômica


independentes
Categórica ou ordinal
Uma amostra (mais de 2 opções
de resposta)
Duas ou mais amostras Categórica ou ordinal
independentes

7.1 INTRODUÇÃO AO TESTE DE HIPÓTESES


Antes de discutir os diferentes procedimentos que são adequados para cada cenário esboçado
na tabela 7–1, primeiro apresentamos a abordagem geral usando um exemplo simples. Os
Centros de Controle e Prevenção de Doença (CDC) informaram a respeito das tendências de
peso, altura e índice de massa corporal (IMC) desde 1960 até 2002.1 Os dados para o relatório
foram coletados no Exame Nacional de Saúde [National Health Examination] e nas Pesquisas
de Exame de Nutrição e Saúde Nacionais [National Health and Nutrition Examination Surveys],
que foram conduzidos entre 1960 e 2002. A tendência geral era de que os norte-americanos
eram muito mais pesados e um pouco mais altos em 2002 em comparação com 1960. O relatório
indicou que homens e mulheres ganharam aproximadamente 11 kg, em média, entre 1960 e
2002. Em 2002, o peso médio para o homem norte-americano era relatado em 86,5 quilos, e o
peso médio para a mulher norte-americana era relatado em 74 quilos.

Suponha que foquemos no peso médio dos homens. Em 2002, o peso médio para os homens
era relatado em 86,5 quilos. Suponha que um pesquisador trace a hipótese de que os pesos
sejam ainda maiores em 2006 (ou seja, que a tendência continuou nos 4 anos seguintes). Em
um teste de hipóteses, configuramos hipóteses concorrentes sobre o parâmetro desconhecido.
Uma hipótese é chamada de hipótese nula, e a outra é chamada de hipótese alternativa ou de
pesquisa. A hipótese de pesquisa é de que o peso médio dos homens em 2006 seja superior a
86,5 quilos. A hipótese nula é que não haja alteração no peso e, portanto, o peso médio ainda
seja 86,5 quilos em 2006. As hipóteses nula e de pesquisa são denotadas como

Hipótese nula, H0: µ = 191 (nenhuma alteração),


Hipótese de pesquisa, H1: µ > 191 (convicção do pesquisador).
Para testar as hipóteses, selecionamos uma amostra aleatória de homens norte-americanos em
2006 e medimos seus pesos. Suponha que tenhamos recursos disponíveis para recrutar n = 100
homens para a nossa amostra. Pesamos cada participante e computamos estatísticas de resumo
nos dados da amostra. Suponha que na amostra determinamos o seguinte: n = 100, Χ� = 197,1,
s = 25,6.

Os dados da amostra sustentam a hipótese nula ou de pesquisa? A média da amostra de 89,5


quilos é numericamente maior que 86,5 quilos. Entretanto, essa diferença é mais do que seria
esperado, por acaso? No teste de hipóteses, presumimos que a hipótese nula se mantenha até
que seja provado o contrário. Portanto, precisamos determinar a probabilidade de observar uma
média de amostra de 89,5 ou mais quando a verdadeira média da população é 86,5 (ou seja, se
a hipótese nula for verdadeira ou estiver abaixo da hipótese nula). Computamos essa
probabilidade usando o Teorema central do limite. Especificamente:

197,1 − 191
Ρ(𝑋𝑋� > 197,1) = Ρ �𝑧𝑧 > � = Ρ (𝑧𝑧 > 2,38) = 1 − 0,9913 = 0,0087
25,6
√100

(Observe que usamos o desvio padrão da amostra para computar a pontuação z. Geralmente,
trata-se de uma substituição adequada, desde que a amostra seja grande, n> 30.) Assim, há
menos de 1% de chance de observar uma média de amostra da ordem de 89,5 kg quando a
média populacional real for 86,5. Você acha que a hipótese nula é provavelmente verdadeira?
Com base na improbabilidade de observar uma média de amostra de 89,5 abaixo da hipótese
nula (isto é, chance menor que 1%), podemos inferir, a partir dos nossos dados, que a hipótese
nula provavelmente não seja verdadeira.

Suponha que os dados da amostra tenham sido diferentes. Suponha que, em 2006, observamos
o seguinte: n = 100, Χ� = 192,1, s = 25,6. Qual é a probabilidade de observar uma média de
amostra de 87 ou mais quando a verdadeira média da população é 86,5 (isto é, se a hipótese
nula for verdadeira)? Computamos outra vez essa probabilidade usando o Teorema central do
limite. Especificamente:

192,1 − 191
Ρ(𝑋𝑋� > 192,1) = Ρ �𝑧𝑧 > � = Ρ (𝑧𝑧 > 0,43) = 1 − 0,6664 = 0,3336
25,6
√100

Há uma chance de que 33,4% da observação da média de uma amostra tão grande quanto 87
quando a verdadeira média da população é 86,5. Você acha que a hipótese nula é provavelmente
verdadeira?

Precisamos determinar um limiar ou um ponto de corte (chamado de valor crítico) para decidir
quando acreditar na hipótese nula e quando acreditar na hipótese de pesquisa. É importante
observar que, embora seja possível observar qualquer média da amostra quando a verdadeira
média da população é 86,5, alguns valores são bastante improváveis. Com base nas duas
amostras anteriores, parece razoável acreditar na hipótese de pesquisa quando Χ� = 89,5, mas
para acreditar na hipótese nula quando Χ� = 87. O que precisamos é de um valor limiar tal que se
Χ� estiver acima desse limiar, acreditamos que H1 seja verdadeira e se Χ� estiver abaixo desse
limiar, acreditamos que H0 seja verdadeira. A dificuldade em determinar um limiar para Χ� é que
ele depende da escala de medição. Neste exemplo, o valor crítico pode ser 88,5 quilos (isto é,
se a média da amostra for 88,5 quilos ou mais, acreditamos que H1 seja verdadeira e se a média
da amostra for menor que 88,5 quilos, acreditamos que H0 seja verdadeira). Suponha que
estejamos interessados em avaliar um aumento na pressão sanguínea ao longo do tempo. O
valor crítico seria diferente, pois pressões sanguíneas são medidas em milímetros de mercúrio
(mmHg) e não em quilos. A seguir, explicamos como o valor crítico é determinado e como lidamos
com o problema da escala.

Primeiro, para abordar o problema da escala para determinar o valor crítico, convertemos nossos
dados da amostra (em particular, a média da amostra) em uma pontuação z. Sabemos, desde o
Capítulo 5, que o centro da distribuição z é 0 e os valores extremos são os que excedem 2 ou
recaem abaixo de 22 (valores acima de 2 e abaixo de 22 representam aproximadamente 5% de
todos os valores z). Se a média da amostra observada estiver perto da média especificada em
H0 (µ =191), então z é próximo a 0. Se a média da amostra observada for muito maior do que a
média especificada em H0, então z é amplo.

No teste de hipótese, selecionamos um valor crítico na distribuição z. Isso é feito determinando


o que é chamado de nível de significância primeiro, denotado a. Lembre-se de que, se a hipótese
nula for verdadeira, é possível observar qualquer média da amostra. O que estamos fazendo
aqui é desenhar uma linha em valores extremos. O nível de significância é a probabilidade de
rejeitarmos a hipótese nula (em favor da alternativa) quando ela, de fato, for verdadeira:

α = Nível de significância = P(Rejeitar H0 | H0 é verdadeira).

Por α ser uma probabilidade, ele fica entre 0 e 1. O valor usual para α é 0,05, ou 5%. Se um
pesquisador selecionar α = 0,05, ele/ela está permitindo uma probabilidade de 5% de rejeitar
incorretamente a hipótese nula em favor da alternativa quando a nula for verdadeira. Os valores
típicos para α são 0,01, 0,05 e 0,10, com α = 0,05 sendo o valor mais comumente usado.

Suponha que no nosso estudo sobre peso tenhamos selecionado α = 0,05. Precisamos
determinar o valor de z que mantenha 5% dos valores acima dele (Figura 7–1). O valor crítico de
z para α = 0,05 é z = 1,645 (ou seja, 5% da distribuição está acima de 1,645). Com esse valor,
podemos definir o que chamamos nossa regra de decisão para o teste. A regra é rejeitar H0 se
a pontuação z for 1,645 ou mais.

Com a primeira amostra, temos Χ� = 197,1 e z = 2,38. Por causa de 2,38 > 1,645, rejeitamos a
hipótese nula. (A mesma conclusão pode ser atingida comparando a probabilidade de 0,0087 de
observar uma média da amostra tão extrema quanto 89,5 para o nível de significância de 0,05.
Se a probabilidade observada for menor que o nível de significância, rejeitamos H0.) Como a
causa da pontuação z excede o valor crítico (2,38 > 1,645), concluímos que o peso médio para
os homens em 2006 é superior a 86,5 quilos, o valor reportado em 2002. Se observássemos a
segunda amostra (Χ� = 192,1), não rejeitaríamos a hipótese nula, porque a pontuação z é 0,43,
que não está na região de rejeição (isto é, a região na extremidade da cauda da curva em 1,645
ou acima desse valor). Com a segunda amostra, não temos evidências para concluir que os
pesos aumentaram. (Mais uma vez, a mesma conclusão pode ser atingida comparando-se
probabilidades. A probabilidade de observar uma média da amostra tão extrema quanto 87 é de
33,4%, o que não está abaixo do nosso nível de 5% de significância.)
FIGURA 7-1 Valor crítico de Z para α = 0,05

0,05

1,645

O procedimento para teste de hipóteses é baseado nas ideias descritas anteriormente.


Especificamente, definimos hipóteses concorrentes, selecionamos uma amostra aleatória da
população de interesse e computamos as estatísticas de resumo. Em seguida, determinamos se
os dados da amostra sustentam a hipótese nula ou alternativa. O procedimento pode ser dividido
nas cinco etapas a seguir. Usamos esta abordagem de cinco etapas para fazer testes de
hipóteses para todos os cenários da Tabela 7–1.

Etapa 1: Definir a hipótese e determinar o nível de significância.


H0: Hipótese nula (nenhuma alteração, nenhuma diferença),
H1: Hipótese de pesquisa (convicção do pesquisador),
α = 0,05.

A hipótese de pesquisa ou alternativa pode tomar uma das três formas. Um pesquisador pode
acreditar que o parâmetro aumentou, diminuiu ou foi alterado. Por exemplo, um pesquisador
pode criar a hipótese:

1. H1: µ> µ 0, em que µ 0 é o comparador ou valor nulo (p. ex., µ 0 =191 no nosso exemplo
sobre peso de homens, em 2006) e um aumento é a hipótese – esse tipo de teste é
chamado de teste de cauda superior.
2. H1: µ< µ 0, em que uma diminuição é a hipótese – chamado de teste de cauda inferior.
3. H1: µ≠ µ 0, em que uma diferença é a hipótese – chamado de teste bicaudal.
A forma exata da hipótese de pesquisa depende da convicção do pesquisador sobre o parâmetro
de interesse e se ele possivelmente aumentou, diminuiu ou está diferente do valor nulo. A
hipótese de pesquisa é definida pelo pesquisador antes que qualquer dado seja coletado.

Etapa 2: Selecionar a estatística de teste adequada.


A estatística de teste é um único número que resume a informação da amostra. Um exemplo de
uma estatística de teste é a estatística z computada como

Χ� − 𝜇𝜇0
𝑧𝑧 =
𝑠𝑠/√𝑛𝑛

Quando o tamanho da amostra é pequeno, usamos estatísticas t (exatamente como fizemos na


estimativa no Capítulo 6). Conforme apresentamos cada cenário, estatísticas de teste
alternativas são fornecidas junto com condições para o uso adequado.

Etapa 3: Definir a regra de decisão.


A regra de decisão é uma declaração que diz sob quais circunstâncias rejeitar a hipótese nula. A
regra de decisão é baseada em valores específicos da estatística de teste (p. ex., rejeitar H0 se
z ≥ 1,645). A regra de decisão para um teste específico depende de três fatores: a hipótese de
pesquisa, a estatística de teste e o nível de significância.

A regra de decisão depende se é proposto um teste de cauda superior, inferior ou bicaudal. No


teste de cauda superior, a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística
de teste for maior que o valor crítico ou igual a ele. No teste de cauda inferior, a regra de decisão
faz os pesquisadores rejeitarem H0, se a estatística de teste for menor que o valor crítico ou igual
a ele. No teste bicaudal, a regra de decisão faz os pesquisadores rejeitarem H0, se a estatística
de teste for extrema – maior que um valor crítico superior ou igual a ele, ou menor que um valor
crítico inferior ou igual a ele.

A forma exata da estatística de teste também é importante para determinar a regra de decisão.
Se a estatística do teste segue a distribuição normal padrão (z), a regra de decisão é baseada
na distribuição padrão normal. Se a estatística do teste segue a distribuição t, a regra de decisão
é baseada na distribuição t. O valor crítico adequado é selecionado da distribuição t, novamente
dependendo da hipótese alternativa específica e do nível de significância.

O terceiro fator é o nível de significância, que é selecionado na Etapa 1 (p. ex., α = 0,05). Por
exemplo, em um teste de cauda superior z, se α = 0,05, o valor crítico é z = 1,645.

As Figuras 7–2 até a Figura 7–4 ilustram as regiões de rejeição definidas pela regra de decisão
para testes z de cauda superior, inferior e bicaudais com α = 0,05. Observe que as regiões de
rejeição estão nas caudas superior, inferior e em ambas as curvas, respectivamente. Observe,
no teste bicaudal, que a região de rejeição está dividida em duas partes iguais. A área total na
região de rejeição ainda é igual a α. Na Figura 7–4, α = 0,05 e a área em cada cauda é 0,025.

Os valores críticos dos testes z de cauda superior, inferior e bicaudais podem ser encontrados
na Tabela 1C, no Apêndice. Os valores críticos dos testes z de cauda superior, inferior e bicaudais
podem ser encontrados na Tabela 2, no Apêndice.
FIGURA 7-2 Região de rejeição para teste Z de cauda superior
(H1: µ > µ 0) com α = 0,05

0,05

1,645

FIGURA 7-3 Região de rejeição para teste Z de cauda inferior


(H1: µ > µ 0) com α = 0,05

0,05

-1,645
FIGURA 7-4 Região de rejeição para teste Z bicaudal
(H1: µ ≠ µ 0) com α = 0,05

-1,960 1,960

Etapa 4: Computar a estatística de teste.


Aqui computamos a estatística de teste substituindo os dados da amostra observados na
estatística de teste identificada na Etapa 2.

Etapa 5: Conclusão.
A conclusão final é feita comparando-se a estatística de teste (que é um resumo das informações
observadas na amostra) com a regra de decisão. A conclusão final é, ou rejeitar a hipótese nula
(pois os dados da amostra são muito improváveis se a hipótese nula for verdadeira) ou não
rejeitar a hipótese nula (pois os dados da amostra não são muito improváveis).
CAPÍTULO 9: Métodos multivariáveis
PÁGINAS 193-195
Nos Capítulos 6 e 7, apresentamos procedimentos de inferência estatística para estimativa e
teste de hipóteses. Discutimos vários cenários que diferem em termos de natureza da variável
de resultado (contínua, dicotômica, categórica ou ordinal), o número de grupos de comparação
(um, dois ou mais de dois), e se os grupos eram independentes (fisicamente separados) ou
dependentes (combinados). Em cada cenário, consideramos uma variável de resultado e
investigamos se havia diferenças nessa variável de resultado entre os grupos de comparação ou
se houve uma associação entre uma exposição ou fator de risco e um resultado. O que não
consideramos até este ponto é a possibilidade de que diferenças ou associações observadas
podem se dar devido a outras características ou variáveis. Métodos estatísticos multivariáveis
são usados para avaliar as inter-relações entre diversos fatores de risco ou variáveis de
exposição e um único resultado. O tópico de análise multivariável é extensivo. Aqui, descrevemos
apenas princípios gerais e conceitos. Os leitores interessados devem consultar Kleinbaum,
Kupper e Muller; Jewell; e Hosmer e Lemeshow, para uma discussão mais aprofundada.

Discutimos especificamente o uso de técnicas de modelagem multivariável para abordar


confusão e modificação de efeito. No Capítulo 2, definimos confusão como uma distorção do
efeito de uma exposição ou fator de risco em um resultado por outra característica ou variável. A
modificação de efeito ocorre quando há uma relação diferente entre a exposição ou fator de
risco e o resultado, dependendo do nível de outra característica ou variável. Nas duas situações,
a terceira variável pode exagerar ou mascarar a associação entre o fator de risco e o resultado.
A modificação de efeito também é chamada de interação estatística.

Analiticamente, confusão e modificação de efeito são administradas de modo diferente. Quando


há confusão, métodos multivariáveis podem ser usados para gerar uma estimativa da associação
entre uma exposição ou fator de risco e um resultado que ajusta ou leva em consideração o
impacto do fator de confusão. Em contraste, com modificação de efeito há uma relação diferente
entre o fator de risco e o resultado, dependendo do nível de uma terceira variável, portanto, uma
estimativa geral da associação não transmite exatamente a informação nos dados. Na presença
de modificação de efeito, os resultados geralmente são apresentados separadamente para cada
nível da terceira variável (usando as técnicas apresentadas no Capítulo 6 e no Capítulo 7). Para
formalizar esses conceitos, primeiro apresentamos alguns exemplos e depois passamos para os
métodos.

Suponha que queiramos avaliar a associação entre tabagismo e doença cardiovascular em um


estudo de coorte. Podemos descobrir que os fumantes na coorte são muito mais propensos a
desenvolver doença cardiovascular. Suponha que estimamos um risco relativo de 𝑅𝑅� 𝑅𝑅 = 2,6 com
um intervalo de confiança de 95% (1,5; 4,1). No nosso estudo, fumantes têm 2,6 vezes o risco
de desenvolver doença cardiovascular em comparação a não fumantes. Entretanto, pode ser o
caso também de que os fumantes são menos propensos a fazer exercícios e têm níveis de
colesterol mais altos. Sem examinar essas outras características, faríamos a inferência incorreta
de que há uma forte associação entre tabagismo e doença cardiovascular, quando a relação
pode ser devida, em parte, à falta de exercício ou ao colesterol alto. Métodos multivariáveis
podem ser usados para abordar essas relações complexas e destrinchar qual proporção da
associação pode ser devida ao tabagismo, em oposição a outros fatores de risco. Em outras
palavras, usamos esses métodos para ajustar a magnitude de associação para o impacto de
outras variáveis (p. ex., a associação entre tabagismo e doença cardiovascular ajustada para
exercício e colesterol). Também são discutidos métodos que nos permitem avaliar se uma
associação permanece estatisticamente significativa depois de ajustar o impacto de outras
variáveis.

Métodos multivariáveis também podem ser usados para avaliar a modificação de efeito –
especificamente, a situação em que o relacionamento entre um fator de risco e o resultado de
interesse varia por causa de uma terceira variável. Por exemplo, suponha que estejamos
interessados na eficácia de uma nova droga para reduzir o colesterol total. Um ensaio clínico é
conduzido e se comprova que a droga é eficaz, com uma redução estatisticamente significativa
no colesterol total em pacientes que recebem a nova droga, em comparação a pacientes que
recebem placebo. Suponha que os pesquisadores analisem mais de perto os dados e descubram
que a redução (ou efeito da droga) está presente apenas em participantes com um marcador
genético específico e que não há redução em pessoas que não possuem o marcador. Isso é um
exemplo de modificação de efeito, ou interação estatística. O efeito do tratamento é diferente,
dependendo da presença ou ausência do marcador genético. Métodos multivariáveis podem ser
usados para identificar modificação de efeito. Quando a modificação de efeito está presente, a
estratégia é apresentar resultados separados de acordo com a terceira variável (isto é, relatar o
efeito do tratamento separadamente em pessoas com e sem o marcador).

Outros usos de métodos multivariáveis incluem a consideração de diversos fatores de risco


simultaneamente, em que o objetivo é avaliar a importância relativa de cada um em relação a
uma única variável de resultado. Por exemplo, o Framingham Heart Study tem um histórico longo
de desenvolvimento de funções de risco multivariável.4,5 Essas funções de risco são usadas para
prever a probabilidade de que uma pessoa desenvolva doença cardiovascular durante um
período fixo (p. ex., os próximos 10 anos) como uma função dos seus fatores de risco. Os fatores
de risco incluem idade, sexo, pressão sanguínea sistólica, níveis de colesterol total e HDL,
tabagismo atualmente e status da diabetes. Técnicas multivariáveis são usadas nessa
configuração para englobar todos os fatores de risco simultaneamente. Essa aplicação é similar
à primeira, exceto que, em vez de focar na associação entre um fator de risco e o resultado
(ajustando outros), estamos interessados nas relações entre cada um dos fatores de risco e o
resultado.

Há muitos outros usos dos métodos multivariáveis. Focamos aqui apenas em algumas
aplicações específicas. As computações são intensivas e, por isso, nossa apresentação é mais
geral, com ênfase especial em interpretação, e não em computação. Na prática, as computações
são feitas usando um pacote de computação estatística.6

É importante observar que a análise estatística de qualquer estudo deve começar com uma
descrição completa dos dados do estudo, usando os métodos descritos no Capítulo 4. As
análises primárias devem proceder, conforme planejado, para gerar estimativas de parâmetros
desconhecidos ou executar testes de hipóteses usando as técnicas descritas no Capítulo 6 e no
Capítulo 7, respectivamente. As análises que apresentamos no Capítulo 6 e no Capítulo 7 são
chamadas de análises não ajustadas ou cruas, já que focam exclusivamente na associação entre
um fator de risco ou exposição e o resultado. Métodos multivariáveis são usados após os dados
do estudo serem descritos e após as análises não ajustadas serem feitas. Na configuração de
ensaios clínicos, as análises não ajustadas geralmente são as análises finais, devido,
primeiramente, ao componente da escolha aleatória que, (em teoria), elimina a possibilidade de
confusão. Enquanto os métodos multivariáveis que descrevemos são formas de dar conta da
confusão, não se deve confiar neles para "corrigir" problemas em um estudo.
Modelos multivariáveis são usados para o ajuste estatístico da confusão, enquanto o projeto
cuidadoso do estudo pode oferecer muito mais no que diz respeito a minimizar a confusão. A
escolha aleatória é uma forma muito eficaz de minimizar a confusão. Infelizmente, nem todos os
estudos se enquadram na escolha aleatória. Há outras opções de minimizar a confusão (p. ex.,
combinação), mas em todos os casos é importante reconhecer que modelos multivariáveis
podem apenas ajustar ou dar conta de diferenças em variáveis que confundem medidas no
estudo. Portanto, os pesquisadores devem planejar cuidadosamente os estudos, não apenas
com um olhar em direção a minimizar confusão sempre que possível, mas também com a
prudência de medir variáveis que possam ser possíveis fatores de confusão.

CAPÍTULO 12: Visualização de dados


PÁGINAS 280-281, 286-289, 303-313, 316-322, 325-327

12.1 PRINCÍPIOS DO PROJETO


Antes de entrarmos nos princípios específicos do projeto para tabelas e figuras efetivas, primeiro
precisamos considerar uma das várias perguntas críticas que orienta nosso processo: Como
vamos nos envolver com nosso público? Se estivermos apresentando resultados oralmente para
um público, devemos ir rapidamente para as conclusões. Em uma apresentação oral, os
membros do público não conseguem digerir todos os detalhes ou intervir em uma análise – eles
precisam entender a pergunta de interesse, sua importância e nossa abordagem para a análise.
A forma dessas apresentações é mais ampla – ou seja, o grande quadro. Em contraste, se
estivermos distribuindo um relatório escrito dos resultados, temos uma oportunidade de oferecer
muito mais detalhes, já que os leitores podem ir e voltar no material, em seu próprio ritmo. Dito
isso, devemos ainda permanecer na tarefa e não sobrecarregar os leitores com dados
inconsequentes. Ao mesmo tempo, devemos fornecer aos leitores informações necessárias e
suficientes para fazer comparações adequadas e chegar a conclusões válidas. Quando tivermos
uma abordagem geral em mente, passamos para as especificidades.

Vários recursos excelentes estão disponíveis para orientar o desenvolvimento de tabelas e


figuras eficientes. Talvez, o mais amplamente reconhecido desses recursos seja os de Edward
E. Tufte, que publicou diversos livros sobre o tópico e também oferece muitos recursos on-line.2,3
Tufte promove diversos princípios que, geralmente, são direcionados para o desenvolvimento de
figuras ou exibições gráficas, mas esses princípios também se aplicam ao desenvolvimento de
tabelas. Ele recomenda que o desenvolvedor "provoque o pensamento sobre o assunto em
mãos", para motivar os leitores ou consumidores a querer saber mais e se tornar tão interessados
que vão querer compartilhar a informação. Deve ficar claramente evidente para os leitores ou
consumidores que os dados ou resultados estatísticos são importantes: O leitor precisa se
mostrar interessado pelo que está sendo mostrado e querer se envolver. Quando estamos
desenvolvendo tabelas ou figuras para resumir dados e resultados estatísticos para contar uma
história, precisamos começar nossa história com uma visão de alto nível, do grande quadro,
depois passar para os detalhes.

Tufte recomenda honestidade na visualização dos dados e clareza na apresentação. Uma forma
de chegar a isso é minimizando o que ele chama de "lixo gráfico". Lixo gráfico se refere a recursos
desnecessários em uma tabela ou figura que não transmitem nenhum significado. Tufte
argumenta que o lixo gráfico prejudica a mensagem principal da tabela ou da figura. Em
contraste, ele favorece as apresentações de dados que incentivam a comparação como uma
forma específica de envolver-se com os dados e resultados estatísticos. Para facilitar esse tipo
de envolvimento, as tabelas e figuras devem ser configuradas de modo que forneçam, aos
leitores ou consumidores, os dados corretos e suficientemente detalhados para tornar as
comparações válidas e para descobrir o significado, conforme eles exploram os dados ou
resultados estatísticos.

Outro conjunto de princípios voltado para exibições gráficas, mas também aplicável a
demonstrações tabulares, são os princípios de CONVINCE para a visualização de dados
eficiente. Os princípios de CONVINCE são consistentes com aqueles estabelecidos por Tufte,
mas reforçam questões essenciais e são fáceis de lembrar pelo acrônimo:

• Comunicar significado, com identificação clara de títulos, eixos, legendas, variáveis,


linhas e colunas.
• Objetividade na apresentação, que é maximizada com dimensionamento justo de eixos
de modo que os dados e resultados estatísticos não sejam ocultados ou exagerados.
• Necessidade de todos os elementos da tabela e da figura – ou seja, evitar desordem e
itens desnecessários em tabelas e figuras que prejudicam a mensagem em mãos,
consistente com a recomendação de Tufte de minimizar o lixo gráfico.
• Verdade visual – novamente exigindo o uso adequado de tipos específicos de tabelas e
gráficos, junto com o dimensionamento e a identificação que apresentam dados de modo
honesto e equilibrado.
• Imaginar o público – reforçar a noção de que nós, enquanto desenvolvedores de tabelas
e figuras, devemos conhecer nosso público, o que eles precisam saber e como podemos
melhor atender suas necessidades por meio da nossa entrega.
• Notabilidade – um princípio específico que talvez seja mais evidente em exibições
gráficas, pelas quais os leitores ou consumidores conseguem acessar mais dados ou
níveis adicionais de detalhes, caso precisem ou queiram se aprofundar mais. Isso talvez
seja mais bem atingido através de gráficos interativos.
• Contexto – um princípio que se sobrepõe aos princípios de Tufte, estimulando-nos a
oferecer, aos leitores ou consumidores, contexto suficiente para entender a pergunta de
interesse e sua importância, e depois, dados e resultados estatísticos adequados, de
modo que eles possam tirar conclusões válidas.
• Encorajar a interação – envolver os leitores e consumidores para que se interessem pelos
dados e os explorem mais a fundo.

Um terceiro conjunto de princípios vem de Steven Few, que sugere oito ideias ou princípios
nucleares para a visualização de dados.5 Mais uma vez, os princípios de Few são voltados para
figuras, mas, de modo geral, podem ser aplicados para tabelas e figuras. Ele nos obriga a:

• Simplificar os dados e resultados estatísticos para a apresentação. Esse é sempre um


equilíbrio delicado, já que nunca queremos simplificar demais os dados, para não correr
o risco de perder nuances importantes, mas encontrar o ponto em que essas nuances
fiquem claras e os dados sejam compreendidos.
• Perguntar. Poucos nos incentivam a criar tabelas e figuras que incentivem o leitor a querer
saber mais, a perguntar de onde vêm os dados, a considerar por que estamos
investigando essa pergunta ou problema em particular e, idealmente, pensar sobre quais
ações podem ser tomadas com base no que comunicamos.
• Comparar. Devemos desenvolver tabelas e figuras que permitam aos leitores fazer
comparações válidas, de modo que possam interpretar diferenças, efeitos e impacto.
• Explorar. Devemos desenvolver tabelas e figuras que permitam aos leitores explorar os
dados e descobrir coisas por conta própria.
• Comparecer. Esse princípio se refere à nossa necessidade de entender os leitores ou
consumidores dos dados ou resultados estatísticos, para que possamos comunicar, mais
efetivamente, nossos resultados. O que nosso público precisa ver para entender os dados
ou resultados estatísticos? Qual a melhor forma de comunicarmos nossas descobertas
para atender nossas necessidades? Devemos destacar o que é verdadeiramente
importante e garantir que as mensagens principais fiquem claramente visíveis e
interpretáveis, e não perdidas em tabelas desordenadas ou figuras muito complicadas.
• Garantir a diversidade. Poucos sugerem que os dados devem ser apresentados sob
diferentes pontos de vista para incentivar a diversidade de interpretações – um resultado
que talvez seja mais facilmente atingido por meio de exibições gráficas interativas em
oposição a exibições tabulares, mas que, apesar disso, seja importante lembrar em todas
as apresentações de dados e resultados estatísticos. Precisamos apresentar dados e
resultados estatísticos que sejam amplamente acessíveis a públicos diversificados.
Devemos considerar os níveis de alfabetização, o histórico educacional e diferentes
perspectivas do nosso público. Podemos, por exemplo, ter uma abordagem diferente ao
preparar tabelas ou figuras para um artigo de uma pesquisa em comparação a uma
apresentação para um grupo comunitário.
• Ser cético. Enquanto criadores e consumidores de dados e resultados estatísticos,
devemos questionar o que vemos. De onde vieram os dados? Quais inferências são
adequadas? Quais são as limitações dos dados?
• Responder. A noção aqui diz respeito a compartilhar dados e resultados estatísticos.
Como bioestatísticos, certamente focamos a coleta, a administração e a análise dos
dados. Um aspecto adicional essencial e necessário do nosso trabalho é a comunicação
dos resultados. Na verdade, é nossa responsabilidade compartilhar resultados, conforme
descrito nas "Diretrizes éticas para a prática estatística"1 ("Ethical Guidelines for Statistical
Practice.)

Antes de nos aprofundarmos ainda mais no desenvolvimento de tabelas e figuras eficientes, vale
a pena repetir várias mensagens de suma importância. Não importa em que formato escolhemos
relatar os nossos dados e resultados estatísticos, precisamos defender a ideia do porquê os
dados e resultados estatísticos serem importantes – ou seja, por quê o leitor deveria se interessar
por eles. Devemos destacar os elementos importantes, sermos claros em nosso processo (quais
etapas seguimos e por que), para garantir que o leitor ou o consumidor possa focar nos aspectos
mais importantes dos dados e resultados estatísticos. Nossa meta final é nos certificarmos de
que nossa mensagem seja precisa, clara e inesquecível.
12.3.1 COMPONENTES DE UMA TABELA

Antes de discutirmos tipos específicos de tabelas e seus conteúdos, vamos delinear os


componentes de uma tabela. Como lembrete, geralmente, não convém combinar tabelas
menores ou dividir tabelas maiores, já que, no primeiro caso, a mensagem pode ficar confusa, e
no segundo caso, a mensagem pode ser perdida.

Boas tabelas têm um título claro e conciso. O título deve ser suficientemente claro para que o
leitor não precise voltar ao texto para entender o que está sendo mostrado na tabela. O título
deve descrever o que está sendo mostrado entre quem (ou seja, principais grupos de
comparação) e quando. Via de regra, não deve ter mais de duas linhas e deve aparecer na parte
superior da tabela. As tabelas de um artigo ou relatório também devem ser numeradas na ordem
em que são mencionadas nesse artigo ou relatório. A menos que a revista, site ou cliente
recomendem o contrário, as tabelas devem ser incluídas no trabalho ou relatório bastante
próximas ao local onde os dados ou resultados estatísticos são discutidos, e não no final, o que
pode dificultar a consulta enquanto o leitor lê o texto. Tabelas muito longas com mais detalhes
granulares podem ser movidas para um apêndice ou, se disponível, um suplemento on-line.

Conforme pensamos em estruturar um trabalho ou relatório, devemos considerar a sequência


lógica das tabelas. As principais descobertas devem sempre vir antes dos dados ou resultados
que são secundários ou auxiliares. Muitas vezes, uma primeira tabela contém uma descrição dos
participantes do estudo ou outros dados que forneçam o contexto para as principais descobertas,
que vêm logo a seguir.

Os dados (tamanhos da amostra, médias, percentuais, resultados de testes estatísticos)


compõem o corpo da tabela. As colunas são, muitas vezes, organizadas dentro da tabela para
estabelecer as comparações mais importantes dos dados. Ao definirmos a estrutura de uma
tabela (às vezes chamada de estrutura da tabela), devemos levar em consideração as
comparações de interesse. Os dados a serem comparados devem ser apresentados, se possível,
em colunas adjacentes. Por exemplo, se quisermos mostrar melhoria de desempenho em um
teste padronizado, antes contra depois, de uma intervenção educacional, as medidas coletadas
antes da intervenção e após a intervenção devem ser apresentadas em colunas adjacentes para
facilitar essa comparação.

Cada coluna da tabela deve também ter um cabeçalho claro. Os cabeçalhos da coluna devem
ser suficientemente concisos para que não ultrapassem uma linha. Um cabeçalho por coluna é
o suficiente, já que mais de um cabeçalho pode gerar confusão. Uma chave de coluna, que
descreve a variável de agrupamento (p. ex., "Tratamento"), aparece acima dos cabeçalhos de
coluna. Às vezes, os cabeçalhos da coluna são suficientes para descrever e diferenciar os
grupos, outras vezes, uma chave de coluna é necessária para esclarecer o significado. A chave
de coluna é, às vezes, usada para descrever as estatísticas que serão mostradas nas colunas –
como exemplo, veja como tabulamos os resultados de uma análise de regressão no Exemplo
12.1.

Muitas vezes, variáveis diferentes são mostradas nas linhas de uma tabela. Nomes e unidades
de variáveis de medida devem ser especificados de modo claro e preciso. As unidades de medida
são extremamente importantes. Algumas medidas clínicas e laboratoriais, por exemplo, podem
ser medidas e relatadas regularmente usando diferentes escalas, portanto, é essencial que as
unidades exatas sejam relatadas para garantir que os leitores e consumidores possam fazer
comparações válidas. Assim como revistas têm guias de estilo específicos para relatar dados e
resultados estatísticos em tabelas e figuras, há também diretrizes para relatar medidas clínicas
e laboratoriais que devem ser consultadas ao relatar tais dados. Algumas revistas, sites ou
clientes podem preferir unidades métricas (p. ex., metros e gramas) a unidades imperiais (dos
EUA) (p. ex., pés, libras), e suas convenções devem ser seguidas, conforme for adequado. Os
dados devem ser arredondados tanto quanto for apropriado; geralmente, duas casas decimais
são mais do que suficientes.

Os componentes de uma tabela são mostrados na Figura 12–4.

FIGURA 12-4 Componentes de uma tabela

Número da tabela. Título da tabela


Descrição do que vem a seguir Chave da coluna
Cabeçalho 1 Cabeçalho 2 ... Cabeçalho x

Linhas (variáveis e unidades) Dados

Observação: Notas de rodapé, referências

Linhas de grade, que muitas vezes são vistas em planilhas, são desnecessárias em tabelas; na
verdade, podem dificultar a leitura dos dados em uma tabela. Deve haver algumas linhas, se for
o caso, no corpo da tabela. A tabela deve usar espaçamento consistente e as colunas devem
estar razoavelmente perto para facilitar as comparações de interesse. Espaço em branco ao
redor da tabela e estrategicamente posicionado dentro da tabela pode ajudar a destacar
determinados aspectos dos dados e resultados estatísticos. O objetivo é a clareza – criar uma
tabela que permita que o leitor ou o consumidor se aprimore sobre as principais mensagens dos
dados e resultados estatísticos.

Exemplo 12.1. A análise de regressão logística é usada para avaliar as associações entre as
categorias de índice de massa corporal (IMC) – normal (IMC ≤ 25,0), sobrepeso (25,0 < IMC <
30,0) e obeso (IMC ≥ 30,0) – e três resultados – enfarte do miocárdio incidental, doença
cardiovascular incidental e derrame incidental, que são considerados separadamente. A Tabela
12–1 resume as associações entre categorias de IMC (peso normal, sobrepeso e obesidade)
usando razões de chances e intervalos de confiança de 95% para razões de chances. A Tabela
12–2 mostra os mesmos dados que a Tabela 12–1, mas sem linhas de grade e um pouco mais
de espaçamento. Qual tabela é mais fácil de ler?
TABELA 12-1 Associação entre categorias de IMC e doença cardiovascular
incidental após ajuste para fatores de risco clínicos*
Razão de possibilidades* (OR) (95% de intervalo de confiança)
Peso normal Sobrepeso Obeso
Enfarto do miocárdio incidental 1,00 (Referência) 1,01 (0,69-1,29) 1,14 (1,01-1,50)
Doença cardiovascular incidental 1,00 (Referência) 1,21 (0,89-1,37) 1,36 (1,13-2,54)
Derrame incidental 1,00 (Referência) 0,99 (0,82-1,08) 1,18 (1,09-1,23)

* Ajustado para idade, sexo, pressão sanguínea diastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo;
peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0).

TABELA 12-2 Associação entre categorias de IMC e doença cardiovascular


incidental após ajuste para fatores de risco clínicos*
Razão de possibilidades* (OR) (95% de intervalo de confiança)
Peso normal Sobrepeso Obeso
Enfarto do miocárdio incidental 1,00 (Referência) 1,01 (0,69-1,29) 1,14 (1,01-1,50)
Doença cardiovascular incidental 1,00 (Referência) 1,21 (0,89-1,37) 1,36 (1,13-2,54)
Derrame incidental 1,00 (Referência) 0,99 (0,82-1,08) 1,18 (1,09-1,23)

* Ajustado para idade, sexo, pressão sanguínea diastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo;
peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0).

Notas de rodapé, como as notas nas partes inferiores das Tabelas 12–1 e 12–2, podem ser
usadas para fornecer informações adicionais necessárias para interpretar os dados ou resultados
estatísticos apresentados na tabela. Tais explicações não devem ser incluídas nos cabeçalhos
das colunas ou no título, já que podem diminuir a interpretabilidade dos resultados. Todas as
abreviações e símbolos podem ser esclarecidos nas notas de rodapé. A Tabela 12–3 mostra os
mesmos dados que as Tabelas 12–1 e 12–2, mas usa abreviações de alguns dos resultados para
aumentar a legibilidade. As abreviações são explicadas nas notas de rodapé. A decisão de usar
ou não abreviações depende do público. Se o público estiver familiarizado com as abreviações,
elas podem promover a legibilidade. Se o público não estiver familiarizado com as abreviações,
elas dão mais trabalho para localizar as definições.

TABELA 12-3 Associação entre categorias de IMC e doença cardiovascular


incidental após ajuste para fatores de risco clínicos*
Razão de possibilidades* (OR) (95% de intervalo de confiança)
Peso normal Sobrepeso Obeso
EM incidental** 1,00 (Referência) 1,01 (0,69-1,29) 1,14 (1,01-1,50)
DCVincidental 1,00 (Referência) 1,21 (0,89-1,37) 1,36 (1,13-2,54)
Derrame incidental 1,00 (Referência) 0,99 (0,82-1,08) 1,18 (1,09-1,23)
* Ajustado para idade, sexo, pressão sanguínea diastólica e sistólica, colesterol sérico total, lipoproteína de alta densidade e tabagismo;
peso normal (índice de massa corporal [IMC]≤ 25,0), sobrepeso (25,0 < IMC < 30,0) e obeso (IMC ≥ 30,0).
** Observação: EM = enfarte do miocárdio; DCV = doença cardiovascular.
É uma boa prática rascunhar estruturas de tabelas, ou modelos, antes de começar uma análise
estatística. As estruturas da tabela delineiam o que será apresentado nas tabelas, e como. As
estruturas da tabela ajudam a organizar o raciocínio do autor para desenvolver uma história clara
e lógica da investigação e dos resultados. A Tabela 12–4 é um exemplo de uma estrutura de
tabela feita para resumir as características de contexto dos participantes em um estudo que
compara um grupo que recebeu uma intervenção com um grupo de controle. Observe que, na
estrutura da tabela, nomes de variáveis são especificados junto com as unidades (primeira
coluna). Estatísticas de resumo que serão mostradas são especificadas e, em alguns casos, o
número exato de casas decimais que serão mostradas é indicado (veja a última coluna, onde os
valores p serão relatados). Na Tabela 12–4, o título é mostrado na parte superior da tabela e as
colunas representam os diferentes grupos de intervenção, que são os grupos de comparação
primários.

TABELA 12-3 Exemplo de uma estrutura de tabela


Tabela xx. Características demográficas de participantes asiático-americanos por grupo de estudo
Tratamento
Característica Grupo de intervenção (n = xx) Grupo de controle (n = xx) Valor p*
Idade, anos x,xx

Anos vividos nos Estados Unidos, anos x,xx

Proficiência em inglês
Sem proficiência prática x,xx
Proficiência elementar
Proficiência limitada
Proficiência total
Proficiência nativa ou bilíngue

* Valores p para medidas contínuas com base em duas amostras independentes do teste t; valores p para características categóricas
com base nos testes qui-quadrados de independência.

Apenas um tipo de fonte deve ser usado em uma tabela; itálico, negrito e outros destaques devem
ser usados com moderação, se necessário. Às vezes, os criadores de tabelas querem ter certeza
de que o leitor ou consumidor encontre os dados principais ou faça as comparações principais,
mas, se a tabela for organizada adequadamente, isso deve ser autoevidente. Há exceções: Por
exemplo, o uso de negrito pode ser útil quando houver grande quantidade de dados para
entender e pode ser útil chamar a atenção para aspectos específicos dos dados. A Tabela 12–5
e a Tabela 12–6 mostram os mesmos dados com e sem destaques. Os destaques são úteis?
Observe que alguns podem ser úteis, enquanto outros geram confusão.

Quando um trabalho ou relatório incluir uma série de tabelas com os mesmos grupos de
comparação, a organização dos grupos de comparação deve ser consistente em todas as
tabelas. Nunca devemos reordenar os grupos ou trocar a orientação das tabelas (isto é, trocar
de linhas para colunas).
TABELA 12-5 Impacto de alto consumo* de grãos TABELA 12-6 Impacto de alto consumo* de grãos
e doença cardiovascular incidental e câncer e doença cardiovascular incidental e câncer

Razão de possibilidades (95% Razão de possibilidades (95%


Grão de intervalo de confiança) Grão de intervalo de confiança)

Doença cardiovascular Doença cardiovascular


incidental incidental

Pão integral 0,85 (0,72, 0,97) Pão integral 0,85 (0,72, 0,97)
Cereal integral 0,71 (0,63, 0,84) Cereal integral 0,71 (0,63, 0,84)
Grãos refinados 1,05 (0,87, 1,36) Grãos refinados 1,05 (0,87, 1,36)
Pão branco 1,10 (0,95, 1,30) Pão branco 1,10 (0,95, 1,30)
Arroz (branco e integral) 0,99 (0,92, 1,04) Arroz (branco e integral) 0,99 (0,92, 1,04)
Grãos totais 1,03 (0,91, 1,24) Grãos totais 1,03 (0,91, 1,24)
Câncer incidental Câncer incidental

Pão integral 0,91 (0,77, 0,99) Pão integral 0,91 (0,77, 0,99)
Cereal integral 0,91 (0,86, 0,97) Cereal integral 0,91 (0,86, 0,97)
Grãos refinados 0,97 (0,84, 1,06) Grãos refinados 0,97 (0,84, 1,06)
Pão branco 1,01 (0,95, 1,13) Pão branco 1,01 (0,95, 1,13)
Arroz (branco e integral) 0,94 (0,87, 1,02) Arroz (branco e integral) 0,94 (0,87, 1,02)
Grãos totais 0,95 (0,86, 1,11) Grãos totais 0,95 (0,86, 1,11)

* Alto consumo é consumo acima da média. * Alto consumo é consumo acima da média.

12.4.3 DEMONSTRAR DADOS E DISTRIBUIÇÕES


Alguns estudos têm amostras pequenas por causa do projeto (p. ex., séries de casos ou estudos
de ciências básicas), enquanto outros focam em condições raras (p. ex., síndrome da morte
súbita infantil). Se desejarmos demonstrar os dados coletados em uma amostra de estudo
pequena, uma boa opção para uma variável contínua é um gráfico dotplot (gráfico de pontos).
Gráficos dotplots mostram observações reais, em oposição a estatísticas de resumo, assim,
são adequados para pequenas amostras.

Exemplo 12.8. É feito um estudo para medir as idades de mães que passaram pela perda de
uma criança por síndrome da morte súbita infantil (SIDS), definida como morte devido a causa
desconhecida antes de 1 ano de idade. Uma amostra de n = 9 crianças é identificada para as
quais a causa da morte foi SIDS. As idades das mães, em anos, são as seguintes e estão
demonstrada em um gráfico dotplot na Figura 12–18:

19 21 26 28 30 32 33 39 30
FIGURA 12–18 Distribuição das idades das mães
em um estudo da síndrome da morte súbita infantil

Idade da mãe, anos

Em estudos maiores, é importante resumir as distribuições em vez de demonstrar observações


reais. No Capítulo 4, discutimos histogramas e gráficos de barras como boas formas de resumir
as distribuições de variáveis ordinais e categóricas, respectivamente. Aqui, recapitulamos essa
discussão e acrescentamos um pouco mais de detalhes relativos ao projeto dessas
visualizações.

Gráficos de barras são usados para resumir variáveis dicotômicas e categóricas e são
considerados as figuras mais fáceis de construir e entender. Em muitos estudos, é importante
mostrar a distribuição de uma característica particular na amostra do estudo ou em subgrupos-
chave da amostra.

Novamente, considere o Exemplo 12.7, que discute os dados extraídos do relatório de avaliação
de pessoas sem-teto de 2015 da Agência de Planejamento e Desenvolvimento Comunitário
(Office of Community Planning and Development).

A Figura 12–19 mostra a distribuição racial/étnica das pessoas sem-teto (como vimos no
Capítulo 4, em que raça/etnia é uma variável categórica, portanto, um gráfico de barras é uma
exibição gráfica adequada).

As barras de um gráfico de barras podem ser verticais ou horizontais; podemos demonstrar


frequências ou frequências relativas – a que fizer mais sentido para transmitir a mensagem
desejada. As Figuras 12–19 e 12–20 são gráficos de barras que exibem os mesmos dados,
apresentados verticalmente e depois horizontalmente. Qual formato é mais fácil de ler e
interpretar? Você tem uma preferência?
FIGURA 12–19 Raça/etnia de pessoas sem-teto nos Estados Unidos,
2015

Percentual

Branco Afro- Asiático Nativo- procedent Multirraças


americano americano es das
ilhas do
Pacífico
Raça/Etnia
Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento
Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas
de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless
Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf.
Novembro de 2015.

FIGURA 12–20 Raça de pessoas sem-teto nos Estados Unidos, 2015

Multirraças

procedentes das
ilhas do Pacífico
Raça/Etnia

Nativo-americano

Asiático

Afro-americano

Branco

Percentual

Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento
Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas
de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless
Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf.
Novembro de 2015.
A Figura 12–21 mostra os percentuais de pessoas sem-teto abrigadas e desabrigadas em 2015
por grupo etário. Devido às pessoas sem-teto serem classificadas como abrigadas ou
desabrigadas (uma variável dicotômica), podemos simplificar a apresentação e mostrar apenas
uma das respostas – por exemplo, os percentuais de desabrigados (Figura 12–22). Qual
apresentação comunica os dados com mais eficiência?

FIGURA 12–21 Percentuais de pessoas sem-teto que estão


abrigadas e desabrigadas por grupo etário

Abaixo de 18 18 a 24 Acima de 24
Abrigados Desabrigados

Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento
Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas
de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless
Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf.
Novembro de 2015.
FIGURA 12–22 Percentuais de pessoas sem-teto que estão
desabrigadas por grupo etário

Percentual de desabrigados

Abaixo de 18 18 a 24 Acima de 24

Idade, anos
Dados do Departamento de Habitação e Desenvolvimento Urbano dos EUA, Agência de Planejamento e Desenvolvimento
Comunitário (US Department of Housing and Urban Development, Office of Community Planning and Development) Estimativas
de ponto no tempo de pessoas sem-teto: Relatório Anual de Avaliação de Pessoas Sem-Teto 2015 [The 2015 Annual Homeless
Assessment Report (HAR)] para o Congresso. https://www.hudexchange.info/resources/documents/2015-AHAR-Part-1.pdf.
Novembro de 2015.

Histogramas são usados para resumir as distribuições de variáveis ordinais. Por exemplo, a
Figura 12–23 mostra o número de horas de atividade física por semana (uma variável ordinal,
com respostas que variam de 0 a 15 horas por semana) para participantes que compareceram
ao nono exame do Framingham Offspring Study.

A distribuição de uma variável contínua também pode ser exibida em um histograma criando-se
grupos para resumir os dados para apresentação. Os grupos podem ser definidos para incluir
percentuais especificados dos dados (p. ex., 10 grupos, ou décimos) ou por limites clinicamente
relevantes (p. ex., categorias de índice de massa corporal normal, sobrepeso e obeso; categorias
de pressão sanguínea sistólica ótima, normal, pré-hipertensão e hipertensão). Histogramas
podem ser feitos para mostrar frequências ou frequências relativas – a que for melhor para
transmitir a mensagem. Como exemplo, a Figura 12–24 mostra a distribuição de colesterol sérico
total, medido como variável contínua em miligramas por decilitro (mg/dl), em uma amostra de
mais de 4.000 participantes. As medidas contínuas são organizadas em recipientes de
aproximadamente 50 unidades de mg/dl cada (p. ex., 100–150 mg/dl, 150–200 mg/dl) para
apresentação.
FIGURA 12–23 Horas de atividade física por semana

Percentual

Horas de atividade física por semana

FIGURA 12–24 Distribuição do colesterol sérico total (mg/dl)


Frequência

Colesterol sérico total


Conforme discutido no Capítulo 4, as distribuições de variáveis contínuas também podem ser
exibidas usando diagramas de caixas. Os mesmos dados mostrados na Figura 12–24 são
apresentados em um diagrama de caixa na Figura 12–25. Lembre-se de que, em um diagrama
de caixa, a linha horizontal do meio é a mediana, as linhas horizontais superiores e inferiores
representam os limites para detectar valores atípicos [ou seja, Q1 − 1,5(Q3 − Q1) e Q3 + 1,5(Q3 −
Q1)] e os pontos representam valores atípicos. Qual figura melhor transmite para um leitor a
distribuição de colesterol sérico total na amostra do estudo?

FIGURA 12–25 Distribuição do colesterol sérico total (mg/dl)


Colesterol sérico total

Diagramas de caixa também são úteis para comparar distribuições de variáveis contínuas entre
grupos. Por exemplo, a Figura 12–26 mostra as distribuições do colesterol sérico total em
homens e mulheres. Qual a comparação entre o colesterol sérico total em homens e mulheres?
FIGURA 12–26 Distribuição do colesterol sérico total (mg/dl) em homens e mulheres

Masculino Feminino

12.4.4 Figuras para comparar estimativas entre grupos

Nos Capítulos 6, 7, 10 e 11, discutimos várias técnicas estatísticas para comparar dois ou mais
grupos em resultados dicotômicos, categóricos, ordinais, contínuos e no momento do evento.
Com resultados dicotômicos, categóricos e ordinais, a comparação é geralmente de proporções
ou percentuais. Com resultados contínuos, geralmente se envolvem médias, presumindo que
tenhamos amostras razoavelmente amplas e resultados distribuídos de modo aproximadamente
normal; do contrário, focamos em comparar distribuições usando testes não paramétricos. Com
resultados no momento do evento, geralmente comparamos curvas de sobrevivência. Não
importando as estatísticas que são comparadas, como prática geral, devemos também
apresentar estimativas de variabilidade, tais como erros padrão ou intervalos de confiança para
cada grupo, para que os leitores possam julgar se os grupos são significativamente diferentes.

Considere novamente o Exemplo 12.4, que descreveu um estudo de coorte que avaliou
diferenças entre pesos ao nascer e outros resultados de gravidez de bebês nascidos de mães
de diferentes contextos raciais/étnicos. Suponha que estejamos interessados em estimar e
comparar pesos médios ao nascer, em gramas, por raça/etnia. A Figura 12–27 apresenta pesos
médios ao nascer junto com erros padrão dos pesos médios ao nascer em cada grupo
racial/étnico.

FIGURA 12–27 Médias e erros padrão de pesos ao nascer por


raça/etnia
Peso ao nascer, gramas

Branca (n = 155) Hispânica (n = 145) Negra (n = 153)

Raça da mãe/Etnia

Erros padrão quantificam a variabilidade nas estimativas do peso médio ao nascer em cada
grupo. Suponha que uma análise de variância seja feita e revele uma diferença estatisticamente
significativa em pesos médios ao nascer entre os três grupos raciais/étnicos com p = 0,04. Pode
ser interessante também avaliar diferenças em pares nos pesos médios ao nascer. Poderíamos
fazer três testes t de duas amostras independentes (comparando os pesos médios ao nascer
entre bebês brancos e hispânicos, bebês brancos e negros e bebês negros e hispânicos), mas
isso aumentaria a taxa geral de erro do Tipo I. Uma abordagem melhor é conduzir um
procedimento de comparação múltipla, que permite várias comparações de pares, mas controla
a taxa geral de erro do Tipo I. Leitores interessados devem consultar Cabral17 para saber mais
detalhes.

Alguns leitores ou consumidores de dados estatísticos comparam intervalos de confiança de 95%


entre grupos como forma de julgar se há evidências estatísticas de uma diferença entre grupos.
Quando dois intervalos de confiança não se sobrepõem, há evidências de uma diferença
estatisticamente significativa entre os grupos. Mas o oposto nem sempre é verdadeiro: Se dois
intervalos de confiança se sobrepõem, nem sempre é o caso de não haver nenhuma diferença
estatisticamente significativa. Temos que ter este ponto em mente quando fazemos julgamentos
com base nas figuras que fornecem intervalos de confiança para grupos individuais. Comparar
intervalos de confiança não é um teste estatístico.

A Figura 12-28 mostra pesos médios ao nascer junto com intervalos de confiança de 95% para
pesos médios ao nascer em cada grupo racial/étnico. Neste exemplo, todos os intervalos de
confiança se sobrepõem, então, não podemos tirar nenhuma conclusão com base unicamente
nos intervalos de confiança dentro do grupo sobre diferenças no nível de pares.

FIGURA 12–28 Médias e intervalos de confiança de 95% para pesos


ao nascer por raça/etnia
Peso ao nascer, gramas

Branca (n = 155) Hispânica (n = 145) Negra (n = 153)

Raça da mãe/Etnia

Uma demonstração ainda melhor dos dados mostrados na Figura 12–28 aparece na Figura 12–
29, que retrata as médias como símbolos (caixas) em vez de barras. Retomando a noção de
Tufte de lixo gráfico e da razão dados para tinta (e a meta de maximizar essa razão).2 Mostrar
médias usando gráficos de barras pode ser visto como uso excessivo de tinta. Na Figura 12–29,
removemos a "tinta" extra contida nas barras e também tornamos os níveis de confiança mais
visíveis para facilitar as comparações adequadas.
FIGURA 12–29 Médias e intervalos de confiança de 95% para
pesos ao nascer por raça/etnia

Peso ao nascer, gramas

Branca (n = 155) Hispânica (n = 145) Negra (n = 153)


Raça da mãe/Etnia

Considere os dados mostrados na Figura 12–30. Quais médias são significativamente


diferentes? A média no grupo B é diferente, estatística e significativamente, das médias nos
grupos A, C e D, pois os intervalos de confiança para os respectivos grupos de comparação não
se sobrepõem. A média no grupo C também é diferente, estatística e significativamente, das
médias no grupo D, pois os intervalos de confiança para os grupos C e D também não se
sobrepõem. Entretanto, com base somente na Figura 12–30, não podemos fazer julgamentos
sobre se outros pares podem ser estatisticamente diferentes. Os níveis de confiança se
sobrepõem e, portanto, não podemos fazer nenhuma inferência sobre significância estatística.
Se a significância estatística for de interesse primário, então devem ser feitos testes formais de
estatística.

FIGURA 12–30 Avaliar diferenças com base em intervalos de


confiança que não se sobrepõem
Pontuação de resultado

Grupo de tratamento
Suponha que no estudo descrito no Exemplo 12.4 também tenhamos medido diversas
complicações na gravidez, como aborto, parto prematuro e diabetes gestacional, e criamos um
indicador composto de qualquer complicação (uma variável dicotômica). A Figura 12-31 mostra
as proporções de mães com complicações, junto com intervalos de confiança de 95% para as
proporções em cada grupo racial/étnico.

FIGURA 12–31 Proporções e intervalos de confiança de 95% para


proporções com complicações na gravidez por raça/etnia
Complicações na gravidez

Branca (n = 155) Hispânica (n = 145) Negra (n = 153)

Raça da mãe/Etnia

Um teste qui-quadrado de independência é feito e descobre uma diferença estatisticamente


significativa nas proporções de mães com complicações na gravidez por grupos raciais/étnicos
com p = 0,002. Com base nos intervalos de confiança de 95% mostrados na Figura 12–31, quais
grupos são significativamente diferentes? A Figura 12–32 retrata os mesmos dados, mas sem
as barras. Qual apresentação é mais fácil de interpretar?
FIGURA 12–32 Proporções e intervalos de confiança de 95% para
Complicações na gravidez proporções com complicações na gravidez por raça/etnia

Branca (n = 155) Hispânica (n = 145) Negra (n = 153)

Raça da mãe/Etnia

Conforme observado anteriormente, às vezes, as figuras mostram limites de confiança em volta


de estimativas de médias ou proporções e, às vezes, mostram barras de erro padrão. Qualquer
escolha é aceitável, desde que seja clara para o leitor – ou seja, a escolha deve ser identificada
no título da figura ou em uma nota de rodapé. Se houver muitos grupos de comparação, os limites
de confiança ou barras de erros podem tumultuar a figura, então, é importante decidir se é de
fato importante incluí-los. Em algumas instâncias, os limites de confiança ou barras de erro dos
grupos de comparação são aproximadamente iguais e podem ser mostrados uma vez – por
exemplo, fora e ao lado – desde que esse detalhe seja adequadamente transmitido para o leitor.

Considere outra vez o Exemplo 12.4 e suponha que queiramos comparar os pesos ao nascer
por sexo da criança e por grupo racial/étnico. A Figura 12-33 demonstra os pesos médios ao
nascer junto com intervalos de confiança de 95% para meninos e meninas por grupo racial/étnico.
(Observe o redimensionamento do eixo y.)
FIGURA 12–33 Médias e intervalos de confiança de 95% para peso
médio ao nascer por raça/etnia e sexo da criança

Branco Hispânica Negra


Masculino Feminino

Alguns desenvolvedores de figura cometem um erro ao conectar as barras em um gráfico de


barra (Figura 12–34). Conectar as médias não é adequado, já que as linhas devem ser usadas
para ilustrar mudança ou tendências dentro das mesmas unidades. Linhas de tendência não
devem ser incluídas na demonstração, já que nenhuma dessas relações é retratada no gráfico
de barras. Na próxima seção, delineamos o uso adequado das linhas de tendência em figuras.

FIGURA 12–34 Média e intervalos de confiança de 95% para pesos


ao nascer por raça/etnia e sexo da criança: Uso incorreto de linhas de

Branco Hispânica Negra


Masculino Feminino
12.4.6 Demonstrar associações entre variáveis
Gráficos de dispersão são figuras úteis para mostrar associações entre duas variáveis contínuas
– frequentemente, um resultado contínuo ou variável dependente (Y) e um indicador contínuo
(X). A Figura 12–39 é um gráfico de dispersão que mostra a associação entre a pressão
sanguínea sistólica (em mm Hg) e o colesterol sérico total (em mg/dl). A Figura 12–40 mostra os
mesmos dados, mas com a linha de regressão linear simples estimada ( 𝑦𝑦 � = −24,36 + 2,0x, em
que b0 = −24,36 e b1 = 2,0) acrescentados à demonstração. Ao produzir figuras como a Figura
12–40, não devemos extrapolar a linha de regressão além da faixa dos dados (Figura 12–41).

FIGURA 12–39 Associação entre a pressão sanguínea sistólica e o colesterol


sérico total
Colesterol sérico total, mg/dl

Pressão sanguínea sistólica, mm Hg


FIGURA 12–40 Regressão do colesterol sérico total na pressão
sanguínea sistólica

Colesterol sérico total, mg/dl

Pressão sanguínea sistólica, mm Hg

FIGURA 12–41 Regressão do colesterol sérico total na pressão


sanguínea sistólica: Não extrapolar
Colesterol sérico total, mg/dl

Pressão sanguínea sistólica, mm Hg


Gráficos de dispersão precisam ser construídos cuidadosamente, já que podem levar a leituras
erradas. Considere os dados mostrados na Figura 12–42, que são baseados em n = 54
participantes e mostram a associação entre dias em tratamento e resposta; a resposta é uma
medida contínua que vai de zero a 50, com pontuações mais altas indicando uma resposta mais
favorável. O gráfico de dispersão sugere uma associação fraca e positiva entre os dias em
tratamento e a resposta. A Figura 12–43 inclui a linha de regressão estimada, que tem uma
� = 14,59 + 0,17x, em que b0 = 14,59 e b1 = 0,17).
inclinação positiva 𝑦𝑦

FIGURA 12–42 Associação entre dias em tratamento e resposta (amostra


total)
Reposta

Dias em tratamento
FIGURA 12–43 Regressão da resposta em dias em tratamento (amostra
total)
Reposta

Dias em tratamento

Suponha que há n = 34 mulheres e n = 20 homens na amostra. A Figura 12–44 é um gráfico de


dispersão que diferencia respostas em homens e mulheres por símbolos e tons diferentes.
Parece haver uma associação positiva entre os dias em tratamento e a resposta em homens ou
em mulheres? Observe que as mulheres estão em tratamento em qualquer ponto de zero até
pouco acima de 60 dias, enquanto os homens recebem tratamento em qualquer ponto entre 60
e 100 dias. Há também uma mudança na resposta entre sexos (a resposta média entre homens
é 30 em comparação a 18 entre mulheres).
FIGURA 12–44 Associação entre dias em tratamento e resposta em
homens e mulheres
Reposta

Dias em tratamento

Feminino Masculino

A Figura 12–45 inclui as linhas de regressão, estimadas separadamente em homens e mulheres.


Cada linha de regressão é essencialmente plana (as inclinações estimadas são 1|homens = −0,013
e b1|mulheres = 0,0007). Então, há poucas evidências de uma associação entre dias em tratamento
e resposta tanto em homens como em mulheres, mas agrupar os dados cria uma associação
positiva. Esse é um exemplo de confusão por sexo. Como analistas cuidadosos, devemos
sempre explorar os dados para investigar possíveis variáveis que confundam.
FIGURA 12–45 Regressões da resposta em dias em tratamento por sexo
Reposta

Dias em tratamento
Feminino Masculino Linear Linear
(Mulher) (Homem)

Considere os dados mostrados na Figura 12–46 com base em uma amostra pequena de n = 9
participantes. Presumindo que todas as medidas estejam corretas (e nenhuma seja um erro de
entrada de dados), a observação no canto inferior direito parece ser um valor atípico – chamado
de ponto de influência. Ele desvia das observações remanescentes, de modo que, quando
colocamos uma linha de regressão, esse ponto puxa a linha de regressão para baixo. A equação
de regressão estimada é 𝑦𝑦� = 26,83 − 0,66x conforme indicado na Figura 12–47. Sem essa
observação (e não devemos nunca remover uma observação!), a equação de regressão é 𝑦𝑦� =
23,50 − 0,27x com base em n = 8 observações.
FIGURA 12–46 Gráfico de dispersão com um ponto de influência

Variável dependente

Variável independente

FIGURA 12–47 Linha de regressão com um ponto de influência


Variável dependente

Variável independente
Um gráfico de dispersão é uma ferramenta útil para examinar associações e para, às vezes,
identificar observações extremas, relativas aos outros. Precisamos estar cientes das
observações influentes, principalmente quando a amostra é pequena. As Figuras 12–46 e 12–47
sugerem que podemos precisar de mais dados ou de uma amostra maior para explorar toda a
distribuição de valores.

Frequentemente nos envolvemos em estudos em que estamos investigando associações entre


um número de possíveis variáveis independentes e uma variável dependente em uma análise
multivariável. Com uma variável dependente contínua, podemos gerar uma série de diagramas
de dispersão para obter um senso de associações entre cada variável independente e a variável
dependente, considerada separadamente, ou entre variáveis independentes, tomadas duas por
vez. A Figura 12–48 é um exemplo de uma matriz de gráfico de dispersão que mostra correlações
entre pares de variáveis independentes, incluindo colesterol sérico total, pressões sanguíneas
sistólicas e diastólicas e frequência cardíaca. Uma matriz de gráfico de dispersão é geralmente
usada para julgar associações entre variáveis como parte do processo de construção de modelo,
em vez de para fins de apresentação. Na Figura 12–48, as variáveis exibidas nas linhas e colunas
da matriz são indicadas ao longo da diagonal. Observe que a matriz também é simétrica,
mostrando correlações entre variáveis abaixo e acima da diagonal. Por exemplo, a correlação
mostrada na primeira coluna, segunda linha (e também na segunda coluna, primeira linha) é a
correlação entre o colesterol sérico total (TOTCHOL, na sigla em inglês) e a pressão sanguínea
sistólica (SYSBP, na sigla em inglês). Observe a associação positiva sólida entre pressões
sanguíneas sistólica (SYSBP) e diastólica (DIABP) (segunda coluna, terceira linha), sugerindo
que ambas podem não ser necessárias no modelo multivariável.

FIGURA 12–48 Matriz de gráfico de dispersão das correlações


entre variáveis independentes
12.4.8 Gráfico de pizza

Gráficos de pizza são um tipo popular de exibição gráfica, mas, em geral, não recomendamos
seu uso porque podem ser bastante difíceis de interpretar. Os gráficos de pizza foram feitos para
representar graficamente os vários componentes de um todo (p. ex., o percentual de distribuição
de uma categoria única ou variável ordinal). Infelizmente, pode ser difícil para os leitores e
consumidores diferenciar, com precisão, os tamanhos dos segmentos que compõem o gráfico
de pizza, ou comparar precisamente os segmentos entre gráficos de pizza. Embora existam
técnicas para promover a interpretabilidade (p. ex., organizar os segmentos de componente por
tamanho), uma tabela ou uma exibição gráfica diferente pode ser mais eficiente.

Considere, por exemplo, os dados resumidos na Figura 12–54, que estão disponíveis on-line
(http://budget.data.cityofboston.gov/#/) para cidadãos interessados; eles detalham o ano fiscal
2017 do orçamento de capital de Boston (isto é, os gastos planejados da cidade em infraestrutura
e projetos de melhoria). Esses dados estão resumidos na Tabela 12–17 e também na Figura
12–55. Qual formato torna mais fácil comparar investimentos em categorias de orçamento?

FIGURA 12–54 Orçamento de capital para a cidade de Boston no ano fiscal de 2017 –
usando um gráfico de pizza

Saúde e serviços
humanos - US$47,4 M
Desenvolvimento
Informação e tecnologia - econômico - US$19,1 M
US$ 89,4 M
Operações - Habitação e
US$ 90,3 M desenvolvimento da
vizinhança - US$5,7 M
Segurança pública -
US$150,6 M
Gabinete do
Prefeito - US$47,4

Artes e cultura -
US$168,3 M
Ruas - US$775,6 M

Meio ambiente, energia


e espaço aberto -
US$234,0 M Educação - US$353,2 M
TABELA 12–17 Orçamento de capital para a cidade de Boston no ano fiscal de 2017
Categoria orçamentária Milhões Percentual do total
Ruas US$ 755,6

Educação US$ 353,2

Meio ambiente, energia e espaço aberto US$ 234,0

Artes e cultura US$ 168,3

Segurança pública US$ 150,6

Operações US$ 90,3

Informação e tecnologia US$ 89,4

Saúde e serviços humanos US$ 47,4

Desenvolvimento econômico US$ 19,1

Habitação e desenvolvimento da vizinhança US$ 5,7

Gabinete do Prefeito US$ 0,4

Orçamento total de capital US$ 1.914,0

Dados da Cidade de Boston Aplicação do orçamento aberto. http://budget.data.cityofboston.gov/#/. n.d.

Sullivan, L. M. (2018). Essentials of biostatistics in public health. (Componentes básicos da bioestatística


em saúde pública.) Burlington, Massachusetts: Jones & Bartlett Learning.

You might also like