You are on page 1of 95

FundEsteve_n26_portada.

pdf 1 04/07/13 19:35

26 CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE N º 26

Bioestadística
para periodistas
C

M
y comunicadores
Y

CM

MY
Coordinador: Gonzalo Casino
CY

CMY

Bioestadística para periodistas y comunicadores

Asociación Española de
Comunicación Científica
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26

Bioestadística
para periodistas
y comunicadores
Coordinador: Gonzalo Casino

Asociación Española de
Comunicación Científica
La presente edición recoge la opinión de sus autores,
por lo que la Fundación Dr. Antonio Esteve no se hace
necesariamente partícipe de su contenido.

© 2013, Fundación Dr. Antonio Esteve


Llobet i Vall-Llosera 2. E-08032 Barcelona
Teléfono: 93 433 53 20; fax: 93 450 48 99
Dirección electrónica: fundacion@esteve.org
http://www.esteve.org

Depósito Legal: GI. 495-2013


ISBN: 978-84-940656-5-1
La Fundación Dr. Antonio Esteve, establecida en 1983, contempla como objetivo prioritario el estímulo del
progreso de la farmacoterapéutica por medio de la comunicación y la discusión científica.

La Fundación quiere promover la cooperación internacional en la investigación farmacoterapéutica y, a


tal fin, organiza reuniones internacionales multidisciplinarias donde grupos reducidos de investigadores
discuten los resultados de sus trabajos. Estas discusiones se recogen diferentes formatos de publicación
como los Esteve Foundation Symposia y los Esteve Foundation Discussion Groups.

Otras actividades de la Fundación Dr. Antonio Esteve incluyen la organización de reuniones dedicadas a
la discusión de problemas de alcance más local y publicadas en formato de monografías o cuadernos.
La Fundación participa también en conferencias, seminarios, cursos y otras formas de apoyo a las ciencias
médicas, farmacéuticas y biológicas, entre las que cabe citar el Premio de Investigación que se concede,
con carácter bienal, al mejor artículo publicado por un autor español dentro del área de la farmacoterapia.

Entre la variedad de publicaciones que promueve la Fundación Dr. Antonio Esteve, cabe destacar la serie
Pharmacotherapy Revisited en la cual a través de diferentes volúmenes se recopilan, en edición facsímil,
los principales artículos que sentaron las bases de una determinada disciplina.

-III-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Índice

Presentación
Gonzalo Casino............................................................................................................................ VII

Participantes.................................................................................................................................... IX

Los periodistas ante la bioestadística: problemas, errores y cautelas


Gonzalo Casino............................................................................................................................ 1

¿Qué pretende y qué puede contestar la investigación biomédica?


Erik Cobo .................................................................................................................................... 11

La epidemiología y los estudios observacionales de cohortes y de casos y controles


José Luis Peñalvo ........................................................................................................................  19

La confianza en los resultados de la investigación y el sistema GRADE


Pablo Alonso................................................................................................................................ 25

Diálogo 1. Herramientas estadísticas, buenos consejos y cierta intuición periodística


Ainhoa Iriberri .............................................................................................................................. 33

Diálogo 2. Sobre los estudios observacionales y su tratamiento periodístico


Pablo Francescutti........................................................................................................................ 39

Talleres. Análisis de papers, comunicados de prensa y artículos periodísticos


Esperanza García Molina.............................................................................................................. 47

Seeing through the hype: problems with media coverage and how to do better
Steven Woloshin and Lisa M. Schwartz........................................................................................ 55

Seeing through the hype: Garbage! When the news is not fit to print
Lisa M. Schwartz and Steven Woloshin........................................................................................ 63

33 mensajes clave .......................................................................................................................... 69

Bibliografía recomendada .............................................................................................................. 73

Apéndice
Numbers glossary ....................................................................................................................... 77
Statistics glossary ........................................................................................................................ 78
Questions to guide your reporting ................................................................................................ 79
How to highlight study cautions ................................................................................................... 80

-V-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Presentación

Gonzalo Casino

Esta publicación quiere dar cuenta de la jornada estas características, enseguida quedó claro
sobre bioestadística para periodistas y comuni- que, por los intereses y antecedentes de ambas
cadores organizada al alimón por la Asociación entidades, éramos los socios idóneos para esta
Española de Comunicación Científica (AECC) y la iniciativa. Desde un primer momento convinimos
Fundación Dr. Antonio Esteve, que se celebró en perfilar una jornada formativa que combinara la
Madrid el 14 de febrero de 2013, año internacio- teoría y la práctica, con el máximo rigor y lo más
nal de la estadística. Además de cumplir este ob- pegada posible al quehacer cotidiano de los in-
jetivo, pretende servir de guía y orientación para formadores, con presentaciones breves y talle-
los informadores que se enfrentan a un estudio res prácticos con casos reales, complementado
biomédico. Para ello, compensa la ausencia de todo ello con diálogos entre periodistas y esta-
una exposición formal de los conceptos esta- dísticos. Y que todo esto quedara plasmado en
dísticos básicos con numerosas indicaciones y una publicación que pudiera servir de guía y refe-
pautas para mejorar la información sobre los re- rencia para periodistas y comunicadores.
sultados de la investigación médica. Encapsular por completo estos contenidos
Informar sobre la investigación de los proble- teóricos y prácticos en el limitado margen de una
mas de salud y sobre los riesgos y beneficios de jornada hubiera sido imposible sin la estrecha
las intervenciones médicas es un asunto com- colaboración y el entusiasmo de Erik Cobo y Pa-
plicado para los periodistas, entre otras cosas blo Alonso, auténticos cómplices en el diseño del
porque la mayoría no ha recibido formación para programa y protagonistas incansables de los diá-
interpretar estadísticas de salud. (Digamos, en- logos y talleres. La presencia en la jornada –y en
tre paréntesis, que muchos médicos tampoco este libro– de Lisa M. Schwartz y Steven Wolo­
las saben interpretar correctamente.) Casi todos shin, expertos entre los expertos en comunica-
tenemos alguna dificultad para entender las esta- ción de resultados biomédicos, es una garantía
dísticas –y en consecuencia para tomar decisio- de máxima calidad. Cuando aceptaron partici-
nes sobre nuestra salud– porque en la escuela par, supe que los periodistas no se irían con las
no se enseñan las matemáticas de la incertidum- manos vacías. Sin miedo a exagerar, se puede
bre sino las de la certeza. Sin embargo, en el ám- afirmar que esta pareja de médicos ha liderado
bito de la salud apenas hay certezas, todo son las principales investigaciones sobre la adecua-
probabilidades, y una de las funciones básicas ción a las pruebas científicas de las informacio-
de los periodistas que informan sobre biomedici- nes periodísticas, los comunicados de prensa y
na es precisamente explicar esta incertidumbre. la publicidad. Las abundantes investigaciones de
La formación en bioestadística es una de las estos maestros del rigor y la ponderación en los
grandes carencias de los periodistas y comunica- mensajes de salud, así como los textos incluidos
dores científicos. Cuando en nombre de la AECC en este libro, hablan por sí solos.
propuse a Fèlix Bosch, director de la Fundación Mis colegas periodistas Ainhoa Iriberri, Espe-
Dr. Antonio Esteve, coorganizar una jornada de ranza García Molina y Pablo Francescutti, com-

-VII-
Para que la muestra sea representativa hace falta azar

pañeros en los diálogos, dieron buenas muestras Luis Peñalvo. Su director, Valentín Fuster, nos dio
de que el periodismo científico es probablemente la bienvenida; Fèlix Bosch inauguró la jornada, y
más necesario que nunca, como también atesti- Antonio Calvo, presidente de la AECC, la cerró
guaron algunos de los asistentes. Lo acontecido con unas reflexiones sobre el oficio de informar.
en las casi 10 horas de jornada desborda los lí- Entre todos los ponentes hemos elabora-
mites de esta publicación, cuyo éxito se debió do una lista de 33 mensajes clave, que figura
en buena medida al apoyo organizativo de Gon- al final del libro como colofón, guía e invitación
zalo Remiro y Patricia Medrano, por parte de la para mejorar la práctica del oficio de informador.
AECC, y de Pol Morales por parte de la Funda- Como complemento, el ilustrador Enrique Ventu-
ción Dr. Antonio Esteve, así como a la colabo- ra ha creado una serie de viñetas que aporta un
ración del Centro Nacional de Investigaciones contrapunto lúdico y escéptico para reflexionar
Cardiovasculares (CNIC), que acogió la jornada sobre la interpretación de las estadísticas en bio-
y estuvo representado por el epidemiólogo José medicina.

Para que la muestra sea representativa


hace falta azar

Behar / Ventura

La idea de incluir una serie de viñetas de humor la planteó Erik Cobo, en una conversación con Pablo Alonso,
Fèlix Bosch y Gonzalo Casino. Enrique Ventura sumó con entusiasmo su profesionalidad y todos recogimos
ideas del entorno. Nuestro especial agradecimiento a José Antonio González, Matt Elmore y Jordi Cortés
por sus ideas y críticas. Y a Roberto Behar, Pera Grima y Lluís Marco por ser fuente de inspiración (Behar R,
Grima P, Marco-Almagro L. Twenty-five analogies for explaining statistical concepts. JASA. 2013;67:44-48).

-VIII-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Participantes

Pablo Alonso Coello Ainhoa Iriberri Moreno


Especialista en Medicina Familiar y Comunitaria e Periodista especializada en biomedicina. Empe-
investigador Miguel Servet del Centro Cochrane zó su carrera en El Mundo en 2000 y ha traba-
Iberoamericano (Instituto de Investigación Bio- jado también en Reuters y Público. Actualmente
médica Sant Pau), en Barcelona. Su investiga- es periodista freelance para varios medios, como
ción se centra en la metodología de las guías de Muy Interesante, British Medical Journal y SINC,
práctica clínica, revisiones sistemáticas y ensa- entre otros.
yos clínicos, y en la toma de decisiones por parte
de los pacientes. José Luis Peñalvo
Licenciado en Farmacia y doctor en Nutrición, es
Gonzalo Casino investigador del Departamento de Epidemiología
Periodista científico y licenciado en Medicina con y Genética de Poblaciones del Centro Nacional
posgrado en Bioestadística. Coordinador de la in- de Investigaciones Cardiovasculares. Su inves-
formación de salud de El País durante una déca- tigación se centra en el estudio de los factores
da y director editorial de Doyma/Elsevier España. de riesgo cardiovascular, en colaboración con la
Actualmente dirige la revista Técnica Industrial y Johns Hopkins Bloomberg School of Public
escribe para El País, Intramed y The Lancet. Health, de Estados Unidos.

Erik Cobo Lisa M. Schwartz y Steven Woloshin


Estudió Medicina en Barcelona y Estadística en Profesores de Medicina Familiar y Comunitaria
Essex y París. Es profesor titular del Departa- en la Geisel School of Medicine, en Dartmouth
mento de Estadística e Investigación Operativa (Estados Unidos), y codirectores del Center for
de la UPC de Barcelona, editor de metodología Medicine and the Media en el Dartmouth Institute
de Medicina Clínica y editor asociado de Trials. for Health Policy and Clinical Practice. Investigan
Uno de sus últimos libros es Bioestadística para las esperanzas y temores desproporcionados
no estadísticos. creados por las revistas médicas, la publicidad y
los medios de comunicación. Participan habitual-
Pablo Francescutti mente en cursos de formación para periodistas
Periodista científico, profesor de la Facultad de en Estados Unidos. Sus estudios se han publi-
Ciencias de la Comunicación de la Universidad cado en las principales revistas médicas, y han
Rey Juan Carlos de Madrid y secretario de la escrito en diarios como The New York Times y el
Asociación Española de Comunicación Científi- Washington Post.
ca. Autor de varios estudios sobre comunicación
científica.

Esperanza García Molina


Redactora jefa de la agencia SINC y vicepresiden-
ta de la Asociación Española de Comunica­ción
Científica. Es licenciada en Física por la UCM y
máster en Periodismo y Comunicación de la Cien­
cia, la Tecnología y el Medio Ambiente por la UC3M.

-IX-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
No todas las preguntas
de salud necesitan
responderse
con un ensayo clínico

Alonso / Ventura

Los periodistas ante la bioestadística:


problemas, errores y cautelas
Gonzalo Casino

Detrás de cada mensaje de salud hay –o debería ticas de salud.1 Este problema lo podemos
haber– números. Los resultados de la investiga- enunciar de muy diversas maneras: «los papers
ción médica se expresan con números y datos resultan muy difíciles de entender», «la jerga es-
estadísticos que los resumen y no son fáciles tadística nos desborda», «el periodismo se lleva
de entender. La omnipresencia del cálculo de muy mal con la incertidumbre», «los expertos re-
probabilidades en la investigación clínica y epi- conocen que muchas estadísticas se cocinan»,
demiológica hace que la información biomédica etcétera. Pero estas y otras expresiones vienen
sea algo demasiado técnico no sólo para la ciu- a decir que a los periodistas científicos nos fal-
dadanía sino también para los periodistas. Para ta formación estadística. Así pues, tenemos un
mejorar la información médica es imprescindible problema, o más bien un doble problema: no en-
entender las estadísticas de salud. Y para ello tendemos bien las estadísticas de salud y, por
conviene analizar el problema, revisar algunos tanto, tenemos dificultades para informar correc-
errores habituales y tener presentes ciertas cau- tamente.
telas a la hora de informar. Éste es el propósito Las causas de este problema son diversas. En
de este capítulo. primer lugar, la ciencia médica y su herramienta,
la bioestadística, son cada vez más sofisticadas;
en segundo lugar, la formación de los periodis-
Un doble problema
tas no siempre es suficiente, y en tercer lugar, la
Más de tres cuartas partes de los periodistas escasez de voluntad divulgadora entre los inves-
reconocen tener dificultades con las estadís- tigadores y, a veces, de la necesaria transparen-

-1-
Los periodistas ante la bioestadística: problemas, errores y cautelas

cia. La consecuencia de todo ello es que, dema- ción médica con personas distingue entre estu-
siado a menudo, lejos de informar contribuimos dios observacionales y experimentales o de in-
a la desinformación, con el consiguiente posible tervención, es decir, entre los que se limitan a
perjuicio para la salud que esto acarrea. observar las características de una población y
Bien es verdad que las dificultades con las los que realizan una intervención sobre ella (tra-
estadísticas de salud no afectan sólo a los perio- tamiento, prueba diagnóstica, etcétera). Estos
distas. Muchos médicos también tienen dificul- últimos son básicamente los ensayos clínicos,
tades. Un reciente estudio de Odette Wegwarth2 mientras que los estudios observacionales pue-
realizado con médicos estadounidenses indica den ser de distinto tipo, aunque los más habitua-
que los clínicos están muy lejos de comprender les son las series de casos, los estudios trans-
las estadísticas del cribado. La mayoría de ellos versales, los estudios de casos y controles, y los
no distingue la información relevante (reducción estudios de cohortes.
de la mortalidad) de la no relevante (tasa de su- Aparte de los estudios de intervención y de
pervivencia), se dejan confundir por el engañoso los observacionales, realizados con personas,
concepto de supervivencia en el cribado, ignoran pueden considerarse también los estudios in vi-
la influencia del sesgo de anticipación diagnósti- tro y los estudios preclínicos o con animales, que
ca y demuestran una preocupante falta de cono- son un primer escalón en las investigaciones de
cimientos estadísticos básicos. salud y que a menudo suscitan también interés
Así pues, un primer mensaje para los perio- informativo. Unos y otros conforman la denomi-
distas es que conviene consultar fuentes compe- nada investigación primaria, mientras que la se-
tentes en estadística. cundaria sería la realizada a partir de ésta. Entre
los estudios secundarios, los de mayor interés
informativo son las revisiones sistemáticas, con
«Según un estudio»
o sin metaanálisis.
Nada parece respaldar tanto la veracidad de un La confianza que merecen los resultados de
mensaje como el aval de un estudio. La muletilla todos estos tipos de estudios es muy distinta.
«según un estudio» es moneda corriente en las En función del diseño, clásicamente se han je-
informaciones periodísticas de salud. La palabra rarquizado en una pirámide, la llamada «pirámide
«estudio» tiene las espaldas tan anchas y tan de la evidencia», o mejor dicho de las pruebas
amplias las tragaderas que lo mismo sirve para científicas (fig. 1). En esta pirámide se observa un
designar una encuesta de medio pelo que una ri-
gurosa investigación científica, un intrascendente
análisis estadístico que un ensayo clínico riguro-
so. Pero lo cierto es que aludir vagamente a «un
estudio» no dice nada si no se añaden a con-
Revisiones
tinuación sus datos esenciales. De esta impre- y
metaanálisis
cisión y calculada ambigüedad se aprovechan,
Ensayos clínicos
obviamente, los trabajos más chapuceros, que aleatorizados
no sólo se utilizan para publicitar los supuestos Cohortes
beneficios de un producto o una intervención
Casos y controles
sino que a veces encuentran eco en informacio-
nes periodísticas. Estudios transversales

Casos y series de casos

La pirámide de la evidencia Estudios in vitro / estudios con animales

Los estudios de salud pueden clasificarse de di- Figura 1. La pirámide de la evidencia (pruebas científicas)
ferentes maneras en función de su diseño. Una jerarquiza los distintos tipos de estudios según la confianza
primera y elemental clasificación de la investiga- que a priori merecen por su diseño.

-2-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


gradiente de calidad o confianza exclusivamente al 0,2% (100%, en términos relativos, en ambos
según el tipo de estudio. No obstante, el diseño casos). Y es que si un riesgo es extremadamente
no lo es todo y es necesario considerar otros as- bajo, aunque se reduzca a la mitad o se duplique
pectos, como la consistencia o la precisión de seguirá siendo muy bajo.
los resultados, para conocer la confianza que Como consecuencia de esta deficiente infor-
éstos merecen (véase el capítulo La confianza mación, el público puede tener una percepción
en los resultados de la investigación y el sistema del riesgo equivocada. Culpar de esta situación
GRADE). a los periodistas es fácil, pero el problema es
Así pues, hay que tener presente que referir- más complejo. La mayoría de los artículos publi-
se en un artículo periodístico a «un estudio» es cados en las principales revistas biomédicas no
demasiado vago, porque no todos los estudios indica en los resúmenes los riesgos absolutos,
son iguales ni merecen la misma confianza. Es y la mitad de esos artículos ni siquiera los men-
imprescindible informar de sus características y cionan en el resto del texto. Un análisis de los
de la confianza que merecen los resultados. artículos científicos sobre mediciones de riesgos
para la salud publicados durante un año en las
principales revistas de medicina mostró que en
Algunos errores habituales
muchos de ellos no figura el valor de riesgo ab-
Aunque muchas piezas periodísticas son impe- soluto, un dato esencial para valorar en su justa
cables, realmente no es difícil encontrar errores medida un riesgo para la salud.4 Además, en los
en las informaciones sobre estudios de salud. En press releases que distribuyen las revistas bio-
descargo de los periodistas, hay que hacer notar médicas, y que suelen ser el punto de partida
que muchos de estos errores ya vienen induci- para la elaboración de las informaciones perio-
dos por las fuentes, los comunicados de prensa dísticas, tampoco suelen aparecer.5
y otros intermediarios de la información biomédi- Con todo, los periodistas no debemos enfati-
ca. Por su importancia y recurrencia, voy a llamar zar un riesgo relativo olvidando el riesgo absolu-
la atención sobre tres errores habituales. to, que es el que mejor ilustra la dimensión de un
problema de salud.

Enfatizar el riesgo relativo


y olvidar el riesgo absoluto Mitificar la prevención

Una de las formas habituales de expresar los re- La idea de que es mejor prevenir que curar goza
sultados de las investigaciones de salud es en de tal prestigio y difusión que cualquier argumen-
forma de riesgos. Y uno de los principales errores tación en contra parece poco menos que un des-
que se cometen en la comunicación de riesgos varío. En medicina, las exploraciones colectivas o
es omitir los valores absolutos e indicar sólo los cribados (screening) de ciertas enfermedades se
relativos, que muestran de forma muy expresiva ven con general aprobación, sin reparar en que
la magnitud de un efecto en los ensayos clínicos estas pruebas, aparte de un coste importante,
o la asociación entre una exposición y un efec- tienen también sus riesgos. La idea de que la
to en los estudios observacionales.3 Decir, por detección precoz no siempre es la mejor opción
ejemplo, que un fármaco reduce un 50% el ries- resulta difícil de cuestionar, pues es contraintuiti-
go de muerte o que una exposición lo aumenta va y sólo es posible llegar a ella tras una rigurosa
un 100% puede resultar muy impactante, pero ponderación de los riesgos y los beneficios.
también puede ser engañoso si estos valores no Los mensajes que defienden el cribado, ava-
se acompañan de los correspondientes valores lados por médicos y autoridades sanitarias, es-
absolutos. No es lo mismo reducir el riesgo de tán por todas partes y a veces incluso respalda-
muerte del 10% al 5% que hacerlo del 0,2% al dos con la imagen y el testimonio de famosos.
0,1% (50% en ambos casos); tampoco es lo ¿Cómo vamos a ponerlos en duda? ¿Acaso la
mismo aumentarlo del 10% al 20% o del 0,1% mamografía no ayuda al diagnóstico precoz del

-3-
Los periodistas ante la bioestadística: problemas, errores y cautelas

Tabla 1. Beneficios y riesgos del cribado del cáncer de mama con mamografía.

Beneficio: reducción del riesgo de muerte (10 años)


Edad: 40-49 años Edad: 50-59 años
Sin cribado 3,5/1000 5,3/1000
Con cribado 3,0/1000 0,7/1000
Perjuicios: angustia, biopsias, sobretratamientos
Edad: 40-49 años Edad: 50-59 años
Falsos positivos + biopsia 60-200/1000 50-200/1000
Sobrediagnósticos 1-5/1000 1-7/1000

cáncer de mama y a evitar sufrimientos en mu- las mujeres de 40 a 49 años de edad son todavía
chas mujeres? ¿Acaso la prueba del PSA (antí- más elocuentes (tabla 1).
geno prostático) no ayuda a detectar el cáncer La prevención tiene, por tanto, un precio no
de próstata y a reducir su mortalidad? Sin em- sólo económico. Los falsos positivos y los tra-
bargo, algunos análisis y artículos en las princi- tamientos innecesarios representan mucho sufri-
pales revistas médicas han puesto de manifiesto miento inútil. Por cada persona que podrá sobre-
una tendencia a sobrestimar los beneficios del vivir al cáncer gracias a la detección precoz hay
cribado y subestimar sus riesgos. otras muchas que serán sometidas a pruebas y
Steven Woloshin y Lisa M. Schwartz ilustran tratamientos innecesarios por un cáncer que no
con números sencillos los riesgos y beneficios tienen. Conocer estos números, presentados de
del cribado del cáncer de mama con mamogra- forma clara y con sus riesgos absolutos, es el pri-
fía.6 Para las mujeres de 50 a 59 años de edad, mer paso para sopesar los riesgos y beneficios y
el beneficio del cribado se resume en reducir el tomar una decisión. Por desgracia, como dicen
riesgo de muerte a 10 años de 5,3 a 4,6 mujeres Woloshin y Schwartz, promover las decisiones
por cada 1000 revisadas anualmente durante 10 informadas es más difícil que vender el cribado.
años, es decir, apenas se evita la muerte de una El psicólogo Gerd Gigerenzer ha realizado un
de cada 1000; el riesgo del cribado se cifra en estudio revelador sobre la percepción de los be-
que de 50 a 200 de cada 1000 serán sometidas neficios del cribado de los cánceres de mama
innecesariamente a una biopsia por un falso po- y próstata en Europa.7 Los resultados muestran
sitivo, y entre 1 y 7 de cada 1000 serán tratadas que el 92% de las mujeres de nueve países eu-
por un cáncer que no tienen. Y los números para ropeos, entre ellos España, sobrevalora o ignora

Tabla 2. La población europea sobrevalora el beneficio de las mamografías en la curación del cáncer.

Porcentaje de respuestas
Reducción riesgo muerte 9 países UE
(x1000 en 10 años) (n  = 10.288) España Alemania Francia
Ninguna 6,4 3,9 1,4 0,8
1 1,5 2,7 0,8 1,3
10 11,7 6,9 12,8 15,7
50 18,9 11,7 21,3 21,7
100 15,0 11,3 16,8 21,5
200 15,2 15,7 13,7 23,7
No sabe 31,2 48,0 33,1 15,3

-4-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Empieza el cáncer Diagnóstico por síntomas Muerte
60 años 67 años 70 años

Cáncer sin diagnosticar

Mortalidad = z
Supervivencia a 5 años = 0%

Empieza el cáncer Diagnóstico por cribado Muerte


60 años 63 años 70 años

Cáncer sin diagnosticar

Mortalidad = z
Supervivencia a 5 años = 100%

Figura 2. Una mayor tasa de supervivencia no implica necesariamente una menor mortalidad, porque hay que considerar el
sesgo por anticipación en el diagnóstico del cáncer.

el efecto real de las mamografías en la reducción los 67 años de edad y que acaban muriendo
de la mortalidad por cáncer de mama (muchas a los 70 años; como sobreviven sólo 3 años,
creen que las mamografías salvan vidas en una la tasa de supervivencia (a 5 años) es del 0%.
proporción 10, 50, 100 o incluso 200 veces su- Ahora bien, supongamos que ese mismo grupo
perior a la real). Asimismo, el 89% de los hom- se somete a un cribado a los 60 años de edad,
bres europeos sobrevalora o ignora el efecto que a todos ellos se les diagnostica un cáncer
del cribado del cáncer de próstata mediante la y que mueren también a los 70 años; como
determinación del PSA. Lo que revela el traba- sobreviven 10 años, la tasa de supervivencia
jo de Gigerenzer, un experto en comunicación (igualmente a 5 años) es del 100%. Lo que ilus-
de riesgos, es que la población no está bien in- tra este escenario hipotético que se explica en
formada para poder tomar decisiones sobre su el citado artículo de Odette Wegwarth1 es que
salud (tabla 2). la tasa de supervivencia, a pesar de su impre-
sionante aumento de 0 a 100, no demuestra el
beneficio del cribado, ya que no hay reducción
Considerar que una mayor tasa
de la mortalidad (fig. 2).
de supervivencia implica más tiempo de vida
No se puede, por tanto, comparar la supervi-
El beneficio del cribado suele comunicarse en vencia entre los diagnosticados (anticipadamen-
forma de tasas de supervivencia, que pueden te) mediante una prueba de cribado (una mamo-
ser muy llamativas pero que no son una prueba grafía, por ejemplo) y los que han sido diagnos-
del alargamiento del tiempo de vida ni, por tan- ticados cuando se presentan los síntomas del
to, del beneficio del cribado. La supervivencia, tal cáncer. Adelantar el diagnóstico implica aumen-
como se define en el cribado del cáncer, es un tar el tiempo de conocimiento de la enfermedad,
indicador del número de personas que tras ser pero no por ello el tiempo de vida.
diagnosticadas siguen vivas al cabo de un tiem- Las estadísticas de supervivencia se ven dis-
po, generalmente 5 o 10 años. Pero el tiempo torsionadas asimismo por el diagnóstico precoz
que media entre el diagnóstico y la muerte (su- de casos de cáncer que no progresan (por ejem-
pervivencia) depende mucho del momento del plo, una gran proporción de los carcinomas duc-
diagnóstico. tales in situ de la mama) y que por tanto nunca
Imaginemos, por ejemplo, un grupo de pa- darían síntomas. El cribado los saca a la luz y los
cientes a quienes se diagnostica un cáncer a contabiliza como casos de cáncer, inflando así

-5-
Los periodistas ante la bioestadística: problemas, errores y cautelas

las estadísticas de supervivencia. Al comparar los resultados de la investigación están amplia-


la supervivencia del grupo sometido a cribado mente aceptados, cuando esto no suele ser así,
con la del grupo control, aparece una tasa muy porque las investigaciones comunicadas en los
elocuente, aunque la reducción de la mortalidad congresos suelen estar en sus etapas iniciales.
no lo sea tanto. Ignorar que existe este sesgo Lo cierto es que muchas de estas comunicacio-
por anticipación del diagnóstico (lead-time bias) nes tienen un diseño imperfecto, se basan en
e interpretar erróneamente las estadísticas de muestras pequeñas o en estudios de laboratorio
supervivencia hace que muchos médicos tengan o con animales. Además, el 25% de los trabajos
un entusiasmo desmedido por el cribado. preliminares que han recibido atención mediática
Detectar más casos de cáncer no quiere de- permanecen sin publicar en la literatura médica
cir, por tanto, que una prueba de cribado sea be- después de 3 años desde su presentación en un
neficiosa. La prevención y el diagnóstico precoz congreso.8
también tienen sus riesgos, en el caso del criba- A pesar de estos peligros, la difusión de re-
do, en forma de falsos diagnósticos, sobrediag- sultados preliminares está muy extendida. Un
nósticos y sobretratamientos. Éstas son algunas estudio9 realizado sobre más de 50 periódicos y
de las ideas que chocan con la sabiduría popu- revistas de gran circulación publicados en inglés
lar y con el conocimiento médico convencional. ha mostrado que sólo el 57% de las noticias de
Pero ser un buen periodista científico implica biomedicina que saltan a primera página de los
cuestionarse ciertos prejuicios y, también, tener periódicos están basadas en investigaciones re­
presentes estas cuestiones. visadas por expertos y publicadas en revistas
Así pues, conviene recordar que las tasas de revi­sadas por pares, mientras que la cuarta parte
supervivencia del cribado pueden crear confu- (24%) de las informaciones periodísticas se ba-
sión, y que la reducción de la mortalidad sólo se san en investigaciones preliminares que siguen
demuestra con un ensayo clínico que compare la sin publicarse en revistas de prestigio 3 años
mortalidad de un grupo cribado con otro que no después de aparecer en un periódico.
lo ha sido. Como indican Steven Woloshin y Lisa M.
Schwartz, «mucho del trabajo presentado en
congresos no está listo para consumo público».10
Cautelas a la hora de informar
A la vista del carácter preliminar de los resultados
Cuando se maneja un material tan sensible como difundidos en congresos, los periodistas que in-
las estadísticas de salud, todas las cautelas son forman de biomedicina deben plantearse la co-
pocas a la hora de informar. A continuación quie- bertura de estos eventos médicos y valorar, en
ro llamar la atención sobre algunas de las más cada caso, hasta qué punto interesa la informa-
importantes. ción preliminar a la ciudadanía, sobre todo si no
se hacen las oportunas advertencias sobre sus
limitaciones y contextualización.
Cuidado con la información preliminar

La divulgación en los medios de comunicación


Estar alerta ante las posibles exageraciones
de resultados de investigaciones preliminares, es
de los comunicados de prensa
decir, antes de que hayan concluido y de ser re-
visadas por expertos, como es usual en la comu- Los estudios realizados sobre la calidad de los
nidad científica, plantea un problema importante. comunicados de prensa (press releases) de bio-
La cobertura mediática de estos resultados medicina indican que, en general, distan mucho
preliminares, en general presentados en congre- de reflejar objetivamente los resultados de la in-
sos y otros eventos, puede trasladar al público vestigación que tratan de divulgar e interpretar.
la falsa impresión de que los datos presentados Los sesgos y otras deficiencias observadas es-
están maduros y son consistentes, que la meto- tán presentes no sólo en los comunicados de
dología empleada es fiable y contrastada, y que prensa elaborados por la industria farmacéutica,

-6-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


sino también en los que proceden de centros uni- doras mejor conocidas. Si una enfermedad tiene
versitarios y de las propias revistas médicas.4,11-13 más afectados, parece que el problema es ma-
yor y las soluciones médicas más necesarias y
acuciantes. Aunque muchos investigadores no
¡Localizar el paper y leer el resumen!
se atreverían a decir abiertamente que algunas
Para informar correctamente acerca de una in- estadísticas de prevalencia están infladas, algu-
vestigación biomédica publicada en una revista nos sí reconocen que dentro de estos números
científica no basta con tener información indirec- se incluyen personas con formas muy benignas
ta de esta publicación, a través de un comunica- de la enfermedad en cuestión.
do de prensa o de otra fuente. Conviene localizar En cualquier caso, si uno se entretiene en rea-
el estudio original mediante el enlace que suelen lizar una suma de urgencia de las estadísticas de
ofrecer los comunicados de prensa o con una afectados por algunas de las enfermedades que
búsqueda en Internet. En la base de datos de más habitualmente salen en los medios de co-
PubMed (http://www.ncbi.nlm.nih.gov/pubmed) municación, se sorprendería de la cantidad de
están disponibles al menos los resúmenes de dolencias per cápita que encuentra. Ante esta
muchos de estos artículos. situación, es responsabilidad del periodista
contrastar todas las estadísticas de prevalencia
que introduzca en una información, y sospe-
Los papers pueden tener errores estadísticos
char que los datos pueden estar inflados.
Incluso los mejores trabajos de investigación bio-
médica, que aparecen publicados en las revistas
Parece de Perogrullo,
de más prestigio, pueden contener errores. Un
pero los animales no son humanos
análisis realizado por Emili García-Berthou14 reve-
ló que uno de cada cuatro estudios incluidos en Los resultados de la investigación realizada con
British Medical Journal, una de las cinco grandes ratas y otros animales de laboratorio no siempre
revistas médicas, tiene errores en los datos es- pueden generalizarse a otros mamíferos, y mu-
tadísticos, mientras que en la otra revista anali- cho menos extrapolarse directamente a los seres
zada, la reputada Nature, el 38% de los artículos humanos. Sin embargo, en los medios de comu-
incluye algún error. nicación este salto en el vacío se da a menudo.
La revisión de los cálculos estadísticos de los Y una vez más, esta situación no sólo es respon-
trabajos publicados en estas dos revistas britá- sabilidad del periodista. Los elementos previos
nicas durante un año reveló incoherencias en el de la cadena de producción también favorecen
11% de los resultados. Los errores más frecuen- la información errónea y sensacionalista. Como
tes son de redondeo de los números y de trans- caricaturizaba el oncólogo Josep Baselga en una
cripción de los resultados. Pero si ya se detectan entrevista, «un investigador básico ve una célula
errores en estos datos verificables, según Gar- y se cree que es un paciente».15
cía-Berthou, ¿qué habrá en los que no son fácil-
mente comprobables? Este trabajo muestra, por
Vigilar la terminología
un lado, que incluso las mejores revistas tienen
margen de mejora, y por otro, que no hay que El periodista escribe para ser leído y entendido.
descartar que en los trabajos científicos pueda Todo su oficio se orienta en esta dirección y, así,
haber errores estadísticos. es imprescindible manejar con buen juicio y me-
sura la jerga científica. El mensaje ha de ser en-
tendido por una persona no experta, y por ello
Alerta ante las posibles exageraciones
es necesario que el periodista comprenda bien
en las estadísticas de prevalencia
aquello de lo que está hablando.
Exagerar las estadísticas de prevalencia de las Como advierte el veterano periodista científi-
enfermedades es una las estrategias medicaliza- co Tim Radford,16 «no escribes para impresionar

-7-
Los periodistas ante la bioestadística: problemas, errores y cautelas

al científico a quien acabas de entrevistar, ni al observado serían muy poco probables (normal-
profesor que fue decisivo para tu graduación, ni mente con una p o probabilidad menor de 0,05 o
al editor estúpido que te rechazó o a esa persona de 0,01). En el caso de un tratamiento, un resul-
tan atractiva que acabas de conocer en la fiesta tado significativo (p <0,05) quiere decir que hay
y sabía que eras periodista (o a su madre). Escri- una posibilidad menor del 5% de observar (por
bes para impresionar a alguien que está colgado azar) ese resultado favorable aun cuando el tra-
de la barra del metro (…) y que dejaría de leerte tamiento no sea eficaz.
en un milisegundo si pudiera hacer algo mejor». Sin embargo, «desde el punto de vista clíni-
Por ello, añade: «Cuidado con las palabras largas co la significación estadística no resuelve todos
y absurdas, con la jerga. Esto es doblemente im- los interrogantes que hay que responder, ya que
portante si eres periodista científico, pues de vez la asociación estadísticamente significativa pue-
en cuando tendrás que manejar palabras que no de no ser clínicamente relevante y, además, la
utiliza ningún ser humano normal: fenotipo, mito- asociación estadísticamente significativa puede
condria, inflación cósmica, campana de Gauss, no ser causal», como escriben Salvador Pita Fer-
isostasia…». nández y Sonia Pértega Díaz en un esclarecedor
artículo,18 donde añaden que «podemos encon-
trar asociaciones estadísticamente posibles y
Significaciones que no significan nada
conceptualmente estériles».
Muchos investigadores médicos parecen creer Y es que una cosa es la significación esta-
que si no encuentran algo «estadísticamente sig- dística, otra la significación médica o relevancia
nificativo» no hay nada que valga la pena mostrar. clínica, y una tercera la significación periodística
O dicho al revés: basta encontrar algo «estadísti- o interés mediático, sin el cual difícilmente una
camente significativo» para que el trabajo merezca investigación tendrá eco en los medios. En me-
ser publicado y tenido en cuenta, porque esa sig- dicina, como advierten Pita y Pértega, «cualquier
nificación estadística es un marchamo de calidad. diferencia entre dos variables estudiadas puede
Con esta actitud, nefasta y engañosa como pocas ser significativa si se dispone del suficiente nú-
en la investigación médica, lo que se ha consegui- mero de pacientes». Así pues, la significación
do es inundar la literatura de significaciones que estadística puede ser también un camino hacia
no significan nada en la práctica médica y, a la la irrelevancia y la confusión. Y esto es algo que
postre, que estos resultados tengan eco en los hay que tener en cuenta a la hora de decidir si se
medios de comunicación. ¿Tiene acaso relevan- informa de una investigación.
cia que un fármaco contra el cáncer pueda alargar
«significativamente» la vida del enfermo durante
Atención al texto y al contexto
un mes a cambio de una peor calidad de vida?
En 2008, la revista Nature llamaba la atención En la información científica, el contexto es funda-
sobre algunos de los términos científicos más mental. Sin contextualizar los resultados de una
difíciles de definir,17 y uno de los ocho elegidos investigación, el estudio en cuestión no deja de
era precisamente «significativo», un adjetivo que ser una anécdota. Podemos entender la investi-
parece ilustrar por sí mismo la importancia de un gación como una conversación continuada, como
descubrimiento. Pero esto no es así, entre otras una discusión coral a lo largo del tiempo en la cual
cosas porque el concepto de significación esta- unos investigadores replican a otros, se respaldan
dística está lejos de ser comprendido por la ma- o se desdicen con sus respectivos estudios. Un
yoría de los científicos, según afirma en Nature el estudio sería, pues, como una frase en medio de
bioestadístico Steven Goodman. Decir que una una conversación, de modo que para entenderla
asociación entre dos variables es estadística- debidamente hay que conocer de qué están ha-
mente significativa quiere decir que puede des- blando los investigadores y qué han dicho.
cartarse que haya aparecido por azar, porque si El periodista debe, por tanto, informar de la
no hubiera dicha asociación, resultados como el conversación, del contexto en que se realiza el

-8-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


estudio en cuestión. Y para ello no sólo tiene que 9. Lai WY, Lane T. Characteristics of medical research
hablar con los protagonistas del estudio, sino news reported on front pages of newspapers. PLoS
también con fuentes independientes que le ayu- One. 2009;4:e6103.
den a contextualizar los nuevos resultados. 10. Woloshin S, Schwartz LM. Media reporting on re-
search presented at scientific meetings: more caution
needed. Med J Aust. 2006;184:576-80.
Bibliografía 11. Kuriya B, Schneid EC, Bell CM. Quality of pharma-
1. Voss M. Checking the pulse: Midwestern reporters’ ceutical industry press releases based on original re-
opinions on their ability to report health care news. Am search. PLoS One. 2008;3:e2828.
J Public Health. 2002;92:1158-60. 12. Woloshin S, Schwartz LM, Casella SL, Kennedy AT,
2. Wegwarth O, Schwartz LM, Woloshin S, Gaissmaier Larson RJ. Press releases by academic medical
W, Gigerenzer G. Do physicians understand cancer centers: not so academic? Ann Intern Med. 2009;
screening statistics? A national survey of primary 150:613-8.
care physicians in the United States. Ann Intern Med. 13. Puliyel J, Mathew JL, Priya R. Incomplete reporting of
2012;156:340-9. research in press releases: et tu, WHO? Indian J Med
3. Casino G. Producers, communicators and consumers Res. 2010;131:588-9.
of ‘risk’. J Epidemiol Community Health. 2010;64:940. 14. García-Berthou E, Alcaraz C. Incongruence between
4. Schwartz LM, Woloshin S, Dvorin EL, Welch HG. Ratio test statistics and P values in medical papers. BMC
measures in leading medical journals: structured re- Med Res Methodol. 2004;4:13.
view of accessibility of underlying absolute risks. BMJ. 15. Millás JJ. Entrevista a Josep Baselga. El País Se-
2006;333:1248. manal, 27 de enero de 2002.
5. Woloshin S, Schwartz LM. Press releases: translating 16. Radford T. Manifiesto para periodistas sencillos. (Con-
research into news. JAMA. 2002;287:2856-8. sultado el 20/01/2013.) Disponible en: http://www.pa
6. Woloshin S, Schwartz LM. The benefits and harms of perpapers.net/2012/05/manifiesto-para-periodistas-
mammography screening: understanding the trade- sencillos.html
offs. JAMA. 2010;303:164-5. 17. Ledford H. Language: disputed definitions. Nature.
7. Gigerenzer G, Mata J, Frank R. Public knowledge of 2008;455:1023-8.
benefits of breast and prostate cancer screening in 18. Pita Fernández S, Pértega Díaz S. Significancia es-
Europe. J Natl Cancer Inst. 2009;101:1216-20. tadística y relevancia clínica. Cad Aten Primaria.
8. Schwartz LM, Woloshin S, Baczek L. Media coverage 2001;8:191-5. Actualizado el 19/09/2001. (Consulta-
of scientific meetings: too much, too soon? JAMA. do el 20/01/2013.) Disponible en: http://www.fisterra.
2002;287:2859-63. com/mbe/investiga/signi_estadi/signi_estadi.asp

-9-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
La ciencia no escribe
leyes, propone modelos

Cobo / Ventura

¿Qué pretende y qué puede contestar


la investigación biomédica?
Erik Cobo

Introducción poder entrar en conflicto con datos futuros ob-


servables. Por ejemplo, «los marcianos existen»
Este capítulo ofrece claves muy generales, pero
es una expresión hoy por hoy infalible, en el sen-
básicas, para interpretar los estudios empíricos.
tido de que, como es imposible recorrer todo el
Incluye principios científicos, metodológicos, clí-
universo y demostrar que no existen, no puede
nicos y estadísticos que permitirán al lector situar
entrar en conflicto con datos concebibles.
cada estudio en su contexto. La ciencia progresa
La ciencia, pues, quiere ser falible. Este con-
gracias al contraste entre ideas y datos. Diferen-
traste empírico implica que los modelos científi-
tes preguntas médicas requieren distintos y es-
cos son constantemente abandonados en bene-
pecíficos diseños.
ficio de otros que los mejoran y matizan. En con-
secuencia, no se pretende que sean definitiva-
Principios generales mente ciertos, pero sí que sean útiles y ofrezcan
claves para interpretar, mejorar y disfrutar nues-
Conjeturas y refutaciones
tro entorno. Por ejemplo, las leyes de Newton
El método científico propone modelos que repre- son falsas: fueron refutadas por Einstein, que las
sentan el entorno y los enfrenta con datos reco- modificó para abarcar también largas distancias.
gidos de forma reproducible: la ciencia establece Pero los modelos de Newton se siguen usando
puentes entre ideas y datos. Esta capacidad de para hacer casas ¡que se aguantan!
ser observado es fundamental, ya que para po- La ciencia no pretende escribir las leyes del
der ser considerado científico un modelo debe universo, tan sólo modelos que lo reproduzcan.

-11-
¿Qué pretende y qué puede contestar la investigación biomédica?

Una cita célebre de George Box dice «todos los su viaje. Pero en realidad un bioestadístico pe-
modelos son erróneos, pero algunos son útiles». diría a Colón lo mismo que los Reyes Católicos:
«Qué interesante. Ande, vuelva y confírmelo». El
primer viaje fue una atractiva novedad, pero se
Inducción frente a deducción
necesitaron varios más para abrir una nueva vía
Tenemos una gran tradición en razonamiento comercial.
deductivo: partiendo de unos principios que no El mérito de Fleming no radicó en inhibir acci-
se discuten, matemáticas, derecho o teología dentalmente un cultivo. Su mérito fue conjeturar
deducen sus consecuencias. Pero la predicción acertadamente qué pasó y luego replicarlo. John
de lo que ocurrirá mañana requiere aplicar el co- P.A. Ioannidis1 desarrolla un modelo que muestra
nocimiento más allá. El método científico parte que los estudios confirmatorios con resultados
del conocimiento disponible para, primero, de- positivos tienen una probabilidad de ser ciertos
ducir consecuencias contrastables, y luego, una del 85%, que baja al 0,1% en los exploratorios.
vez observadas éstas en unos casos, usar la in- Leah R. Jager y Jeffrey T. Leek2 estiman que son
ferencia estadística para inducir los resultados a ciertos un 84% de los resultados positivos de
una población más amplia. cinco revistas médicas punteras, que podríamos
clasificar como confirmatorias. Y Stephen Senn
suele bromear diciendo: «disfrute de sus inespe-
Exploración y confirmación
rados resultados significativos… ¡porque no los
Esta posibilidad de enfrentar las ideas con sus volverá a ver!». En resumen, un estudio explo-
consecuencias contrastables divide al proceso ratorio aporta ideas nuevas; uno confirmatorio
científico en dos fases. Al inicio del proceso de ratifica o descarta ideas previas (fig. 1).
investigación y desarrollo (I+D), el análisis explo-
ratorio propone un modelo a partir de los datos.
Intervención frente a pronóstico
Es lícito torturar los datos hasta que canten, pero
debe quedar claro: «nuestros resultados sugie- Los modelos pueden construirse con dos obje-
ren que…». Al final de la I+D, un análisis con- tivos claramente diferenciados. En primer lugar,
firmatorio preespecificado permite decir «hemos por su ambición, tenemos los modelos de inter-
demostrado que…». vención, que pretenden cambiar la evolución de
Se bromea diciendo que un bioestadístico es los pacientes y requieren una relación de causa-
un profesional que niega que Colón descubrie- efecto que permitirá, mediante intervenciones en
ra América porque no estaba en el protocolo de la variable causa, modificar el valor futuro de la

Muestra A Conocimiento previo

Análisis exploratorio ¿Qué modelo se ajusta mejor a estos datos?

Muestra B Hipótesis

Análisis confirmatorio Estos datos, ¿apoyan o refutan el modelo?

Teoría

Figura 1. Estudios exploratorios y confirmatorios.

-12-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


variable respuesta (outcome, endpoint) o desen­ interpretaciones causales. En cualquier caso,
lace que sirve para medir el efecto. Por otra parte, tanto la intervención como el pronóstico hacen
tenemos los modelos de relación o predictivos. predicciones sobre relaciones que luego deben
A diferencia de los anteriores, no precisan una ser contrastadas.
relación de causa-efecto. Se utilizan, por ejem-
plo, en el diagnóstico y en el pronóstico médico. Medidas del efecto
Por ejemplo, cuando David me lleva a pescar y medidas de la reducción de la incertidumbre
me pide que observe dónde está agitada el agua
en la superficie. Saber que los peces mayores Para determinar cuánto cambiamos la variable
empujan a los menores hacia arriba y que es- respuesta, recurrimos a medidas de la mag-
tos baten la superficie, le permite predecir una nitud del efecto. Dos posibles ejemplos serían:
mayor probabilidad de pesca allí donde el agua «si toma esta pastilla a diario, bajará 5 mmHg
está agitada. Usa la agitación como un “chivato”. su presión arterial sistólica» o «por cada kilo de
Pero David no sugiere intervenir sobre la agita- peso que pierda, bajará 1 mmHg su presión ar-
ción del agua para aumentar la probabilidad de terial sistólica».
pesca. Para saber cuánto anticipamos de otra va-
Otro ejemplo: en la ciudad de Framingham riable (presente o futura), recurrimos a medidas
recogieron datos iniciales de una gran cohorte de reducción de la incertidumbre. Por ejemplo,
que siguieron muy fielmente durante décadas «si desconozco la altura de un hombre, mi pre-
para observar episodios cardiovasculares. Con dicción sobre el peso se centra en su media, 70
la ayuda del modelado estadístico, establecieron kg, con una desviación típica (o error esperado)
grupos con diferente riesgo de presentar un epi- de 10 kg, pero si conozco que mide 150 cm, mi
sodio cardiovascular. Entre las variables que con- predicción cambia a 50 kg y la desviación típica
tribuían al pronóstico estaba la presión arterial. alrededor de esta predicción baja a 6 kg»; o tam-
Una interpretación causal («los que hoy tienen las bién «el peso predice un 15% de la variabilidad
arterias a reventar, mañana les revientan; ergo, de la presión arterial sistólica de un adulto sano».
si bajo hoy la presión arterial, bajaré mañana los
episodios cardiovasculares») abrió la vía para Tipos de estudios
pensar en intervenciones que bajaran la presión
Objetivos sanitarios
arterial, cuyos efectos fueron estimados en ensa-
yos clínicos. Este ejemplo muestra que un estu- Los objetivos sanitarios se traducen en diferentes
dio de cohortes cuantifica un pronóstico y lanza preguntas científicas (fig. 2).

Preguntas Médica Científica

¿Qué me pasa? Diagnóstico Clasificación

¿Qué me pasará? Pronóstico Predicción

¿Por qué me pasa? Etiología Causas Longitudinales


Tratamiento
¿Puede ayudarme? + Efectos
prevención

Requiere causa asignable

Mejor evidencia si el estudio es aleatorizado

Figura 2. Preguntas clínicas y tipos de estudios.

-13-
¿Qué pretende y qué puede contestar la investigación biomédica?

El diagnóstico pretende una clasificación fina, (output, end-point) del seguimiento, la respuesta
en la cual los casos de un mismo grupo son si- (outcome) o desenlace.
milares entre sí pero diferentes de los de otros Una vez iniciado un estudio, se desea cono-
grupos. Los estudios de la precisión diagnóstica cer la evolución de todos los casos que cumplen
de un indicador lo enfrentan a una variable de re- los criterios de selección. Aunque es frecuente
ferencia (gold estandard). El pronóstico también usar el término «criterios de exclusión» para ha-
pretende hacer grupos homogéneos, pero ahora blar de pacientes que no deben ser incluidos,
respecto al futuro. como puede ser malinterpretado en el sentido
de poder excluir pacientes a lo largo del estudio,
el punto 4ª de la declaración CONSORT aconse-
Preguntas de seguimiento
ja hablar únicamente de criterios de elegibilidad.
frente a preguntas instantáneas
Evitar la pérdida de casos es tan importante que
En un estudio diagnóstico, los datos sobre el la revista New England Journal of Medicine ha
indicador y sobre la referencia pueden recogerse recordado a sus autores que cualquier exclusión,
simultáneamente, pero los estudios de predic- pérdida o dato ausente aumenta la incertidum-
ción y los de intervención requieren un intervalo bre, y por tanto debería ser prevenida o tratada
de tiempo. Cuando las dos variables en estudio con un buen análisis.3
se observan en el mismo momento se habla de En los estudios de cohortes, el criterio que
estudios transversales; en cambio, cuando una determina la elegibilidad de los pacientes es ini-
acontece previamente a la otra, se habla de es- cial. Si son un conjunto, se habla de criterios de
tudios longitudinales. inclusión o de selección. En resumen, si los ca-
La relación causal también precisa un lapso sos de un estudio se seleccionan en función de
de tiempo para que se manifieste el efecto. En una variable inicial, recibe el nombre de «estudio
la investigación etiológica puede buscarse la de cohortes». Si además sus casos se asignan al
información en el pasado, pero la confirmación azar a varias opciones terapéuticas en compara-
de efectos requiere asignar la causa y observar ción, se habla de «ensayo clínico».
el efecto en el futuro. Por ejemplo, si cierto com- Los estudios que validan un índice pronóstico
ponente plasmático ha de predecir enfermedad o cuantifican los efectos de una intervención tie-
cardiovascular, debe ser previo en el tiempo a nen una variable final que indica la evolución o el
ésta, ya que si la determinación analítica se rea- resultado. Por ser desconocida al inicio, es alea-
lizara simultáneamente a la aparición de la enfer- toria en términos estadísticos. Pero en los es-
medad, el valor de anticipación sería nulo. Aun tudios etiológicos, que buscan posibles causas,
más, si el objetivo fuera especular si hipotéticos puede “invertirse” el orden de recogida de las
cambios en dicho componente modificarían la variables. Así, la evolución (variable final o res-
enfermedad cardiovascular, se requiere este pe- puesta) es el criterio que determina la inclusión
riodo de tiempo para que se manifiesten dichos del individuo, y luego se investiga en el pasado
efectos. el valor de las posibles causas que son ahora
Un estudio diagnóstico relaciona variables las variables en estudio (aleatorias en términos
simultáneas, pero los pronósticos y los de inter- estadísticos). Por ejemplo, en un estudio de ca-
vención precisan un lapso de tiempo entre ellas. sos y controles se seleccionan unos casos con
la enfermedad en estudio y unos controles que
no la tienen, y se averigua su exposición previa a
Variables iniciales y finales
posibles causas hipotéticas.
En un estudio predictivo, la variable inicial (input) En resumen, la variable que determina la in-
será el índice o el indicador pronóstico. En un clusión del individuo puede ser inicial (cohortes y
estudio de intervención, la variable inicial será ensayos clínicos) o final (casos y controles). Por
la maniobra o el tratamiento que se aplica. En otro lado, la referencia o control en un ensayo
ambos tipos de estudios se observará, al final clínico es una intervención (variable inicial), pero

-14-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


en un estudio etiológico de casos y controles es hasta qué punto los destinatarios de la interven-
una evolución (final). Obsérvese, por tanto, que ción siguen las recomendaciones.
el término «control» se aplica a la variable inicial o No obstante, los estudios experimentales no
tratamiento en un ensayo clínico, y a la situación ofrecen ventajas cuando se persiguen las otras fi-
final en un estudio de casos y controles. nalidades de la investigación sanitaria. Por ejem-
plo, en la predicción, si se desea establecer el
pronóstico, un estudio de seguimiento no expe-
Hacer frente a ver
rimental (longitudinal prospectivo o de cohortes)
En los estudios experimentales, el investigador basado en un muestreo aleatorio representativo
asigna el valor de la intervención a los volunta- será mejor que un ensayo clínico con selectivos
rios, pero en los estudios observacionales las criterios de elegibilidad. Igualmente, si se desea
unidades se presentan con valor en las variables valorar la capacidad diagnóstica de un indicador,
de estudio. Por ejemplo, si se pretende estudiar el diseño instantáneo o transversal es suficiente.
el efecto de la monitorización de los pacientes Hay que recordar, por tanto, que los mejores di-
hipertensos en el control de su presión, en un seños para valorar las capacidades diagnóstica y
estudio observacional los médicos y los pa- pronóstica son los transversales y los de segui-
cientes decidirán el número y el momento de miento, respectivamente.
las visitas, pero en un estudio experimental el
investigador asigna un número de visitas a cada
Preguntas sobre efectos
voluntario.
y preguntas sobre causas
De este modo, la asignación permite distin-
guir entre experimentos y observaciones. Sin En el entorno de la relación causa-efecto con-
embargo, por respeto al principio de no male- viene distinguir entre preguntas sobre efectos y
ficencia, sólo las intervenciones que pretendan preguntas sobre causas. Nótese la diferencia en-
mejorar el estado de salud son asignables. Por tre «si me tomo una Aspirina, ¿se me irá el dolor
ejemplo, un adolescente no puede asignarse al de cabeza?» y «se me ha ido el dolor de cabeza,
grupo «fumador de tabaco desde los 15 has- ¿será porque me tomé una Aspirina?».
ta los 50 años». De aquí, la predilección de la Al estudiar relaciones de causa-efecto tam-
epidemiología por la observación. En cambio, bién conviene distinguir si el objetivo es confirmar
la pregunta habitual de la farmacología («¿me- o explorar. El ensayo clínico aporta la evidencia
jora este tratamiento la evolución?») permite la de mayor calidad para confirmar y estimar un
asignación del tratamiento y, por tanto, el diseño efecto, pero si el objetivo es explorar posibles
experimental. Para recurrir a la asignación, pri- causas, como en la investigación etiológica,
mero la epidemiología debe redefinir la causa en muchas evidencias provendrán de estudios de
estudio para convertir en positivos los efectos. cohortes o de casos y controles bien diseñados.
Por ejemplo, ¿qué pasará si introduzco esta ayu- Así, el estudio de relaciones de causa-efecto
da para dejar de fumar? La gran ventaja de la suele comportar dos pasos sucesivos. El prime-
asignación es que permite utilizar las herramien- ro, dado un determinado efecto (una enferme-
tas del diseño de experimentos para minimizar dad, por ejemplo) se desea explorar sus posi-
errores. Pero además también permite evaluar bles determinantes, sus causas. En el segundo
si, cuando se asigne la causa en estudio, las uni- paso, identificada una causa asignable, es decir,
dades seguirán el consejo. En el ejemplo anterior que puede ser intervenida, se desea confirmar y
del seguimiento observacional de los pacientes cuantificar el efecto que origina su intervención.
hipertensos, la primera asunción necesaria para Por ejemplo, cuando el Dr. Joan Clos encargó a
aplicar los resultados a una intervención futura los Dres. Jordi Sunyer y Josep Maria Antó es-
es que los pacientes se visitarán con la frecuen- tudiar las epidemias de asma en la Barcelona
cia sugerida por el médico. En cambio, el estu- preolímpica, la respuesta a la primera pregun-
dio experimental permite observar y cuantificar ta, retrospectiva, «¿cuáles son las causas del

-15-
¿Qué pretende y qué puede contestar la investigación biomédica?

asma?», fue «la descarga de soja en el puerto clínica, o bien modificar los hábitos higiénico-
con viento hacia el lugar de presentación de los dietéticos eliminando (o añadiendo) alguno.
casos». El estudio de aquello sobre lo que se Hay que insistir en la acción como interven-
podía intervenir y de aquello que, como el vien- ción. Atributos como la edad o el sexo son útiles
to, no lo era, llevó a la segunda pregunta, pros- para hacer un pronóstico o una predicción; por
pectiva, «¿conseguiremos reducir los brotes de ejemplo, cabe esperar que una mujer viva alre-
agudización del asma reparando el silo y pro- dedor de 5 años más que un hombre. Pero no
tegiendo la descarga de soja?», que tuvo una son modificables y, por tanto, no tiene sentido
respuesta positiva. actuar (intervenir) sobre ellos. No tendría ningún
sentido que un médico dijera «cambie usted este
mal hábito de ser hombre; hágase mujer y vivirá
«Prospectivo» y «retrospectivo»
5 años más».
son términos ambiguos
En consecuencia, desde un punto de vista
Un primer uso de prospectivo (P) y retrospectivo práctico, de intervención, es irrelevante pregun-
(R) hace referencia a la pregunta en estudio: so- tarse si el sexo o la edad tienen un efecto cau-
bre efectos (P) o sobre causas (R). Un segundo sal en, por ejemplo, la supervivencia. Basta con
uso considera la estrategia de muestreo y reco- conocer su capacidad pronóstica para anticipar
gida de datos, según si la variable que determina el futuro. Ahora bien, el siguiente estudio “de la-
la inclusión en el estudio es inicial (P: cohortes, boratorio” permite estimar el efecto del sexo en el
ensayo clínico) o bien final (R: casos y controles). salario: se pregunta a empleadores por el sueldo
Esta segunda acepción implica otra: que los da- que darían a los currículos de una serie de traba-
tos sean futuros (P) o pasados (R); lo cual requie- jadores a quienes, artificialmente, se les asigna el
re recoger cada variable en el momento en que sexo al azar.
acaece (P) o bien buscando en el pasado la va-
riable inicial (R). Finalmente, un tercer uso valora
Principios estadísticos
la existencia de una hipótesis independiente de
los datos, llamando prospectivos a los estudios Niveles de evidencia
en que puede documentarse que la hipótesis es Suele usarse una gradación sobre la calidad de
previa a la existencia de los datos (confirmato- evidencia que cada tipo de estudio puede apor-
rios) y retrospectivos en caso contrario (explora- tar sobre una intervención: ensayos clínicos, es-
torios). Así, los términos «prospectivo» y «retros- tudios observacionales longitudinales, estudios
pectivo» tienen varios usos y acepciones, lo que observacionales transversales, y notificaciones
quebranta uno de los principios fundamentales anecdóticas de casos. Sin embargo, debe que-
de la ciencia: «un término, un significado». Por dar claro que esta gradación de la evidencia se
tanto, conviene evitar, por su ambigüedad, los aplica a la intervención, pero no al diagnóstico
términos «prospectivo» y «retrospectivo». En su ni al pronóstico. Por último, disponemos del
lugar, hay que aclarar si la pregunta es sobre metaanálisis, que es la técnica estadística que
causas o sobre efectos, si había hipótesis previa permite agregar la información contenida en los
(confirmatorio o exploratorio) y cuál es la variable estudios. Una revisión sistemática formal con su
o criterio que determina la inclusión de un caso correspondiente metaanálisis aportará una visión
en el estudio. más global que la de estudios separados.

Causas y condiciones Determinismo frente a variabilidad

Intervenir implica cambiar algo, lo que requiere Para afirmar que mañana se hará de día sólo ne-
un mínimo de dos valores para la variable causa. cesitamos asumir igualdad entre pasado y futuro.
Puede ser sustituir una opción terapéutica A por Pero si nos preguntamos si lloverá, además de
otra B, o añadir un nuevo tratamiento C a la guía asumir igualdad entre pasado y futuro necesita-

-16-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


mos modelizar de qué depende la lluvia, tratar Multiplicidad
la variabilidad y cuantificar la duda. En resumen,
Para controlar la posibilidad de obtener resulta-
considerar la variabilidad implícita en un proceso
dos simplemente por azar, el proceso habitual
obliga a recurrir a la estadística, pero si el proceso
consiste en definir una sola hipótesis que se con-
carece de variabilidad puede olvidar la estadística.
trastará en una variable respuesta con un único
método de análisis. La existencia de un protoco-
Objetivos e hipótesis lo público, escrito antes de acceder a los resul-
tados, garantiza que se ha respetado el orden
Un objetivo es la motivación o finalidad subjetiva
requerido en los estudios confirmatorios: primero
del estudio. La hipótesis, en cambio, expresa sin
la hipótesis y el plan estadístico, luego los datos,
ambigüedades y de forma cuantitativa el criterio
y finalmente el análisis.
o consecuencia contrastable en que se basará
la conclusión. Por ejemplo, «nuestra intención,
según figura en el protocolo, es demostrar que Error aleatorio frente a error sistemático
añadir el componente T a la guía de práctica mé-
Las clases de estadística empiezan con la frase
dica mejora la evolución de los pacientes. Nues-
«sea X una variable aleatoria de la que tenemos
tra hipótesis es que el nivel de autonomía, valo-
una muestra aleatoria». A partir de aquí se derivan
rado a las 12 semanas con la escala de Rankin
métodos para cuantificar la posible influencia del
por evaluadores acreditados, tiene un valor mejor
azar y cuantificar la incertidumbre o el ruido del
en los tratados que en los controles».
muestreo que, aplicado a la señal obtenida, pro-
porciona estimaciones por intervalo de los valo-
Hipótesis y premisas res poblacionales. Por ejemplo, en una muestra
aleatoria de 2000 afiliados a un proveedor de
No todas las ideas especificadas en el modelo
servicios sanitarios se ha observado una propor-
conceptual del estudio tienen la misma impor-
ción de un 20% de hipertensos (400/2000). Con
tancia. El nombre «premisas» suele reservarse
una confianza del 95%, la auténtica proporción
para las ideas acompañantes que son nece-
poblacional es algún valor comprendido entre
sarias para poder contrastar las hipótesis. Por
18,3% y 21,8%.
ejemplo, para estudiar el efecto de un nuevo
Por tanto, la estadística proporciona instru-
tratamiento es usual asumir que el efecto es el
mentos para cuantificar la incertidumbre origi-
mismo (constante) en todos los pacientes y que
nada por un proceso aleatorio. Sin embargo, si
la evolución es independiente de un paciente a
la muestra no es aleatoria hay que recordar que
otro. La primera premisa podría verse afectada
existen otras fuentes de error no contempladas
en un ensayo clínico con criterios de elegibilidad
por las herramientas estadísticas. Por ejemplo, si
excesivamente amplios, y la segunda en una in-
se observa que un 50% (50/100) de los casos
tervención grupal, como un consejo profiláctico
de botulismo registrados en cierta comunidad
en una clase de adolescentes o los efectos de
en cierto periodo fallecieron, ¿cómo cuantificar la
una vacuna, cuando la probabilidad de contagio
incertidumbre? Es necesario considerar sus dos
puede depender del efecto en otros casos.
fuentes, aleatoria y no aleatoria, en dos pasos
Así, el objetivo principal de un estudio con-
sucesivos. Para el primero, se asume que todos
firmatorio es contrastar con datos empíricos la
los habitantes de esa comunidad tienen la misma
hipótesis, aceptando o asumiendo como razo-
probabilidad de contraer botulismo. Si además se
nables ciertas premisas. Eso sí, analizar el gra-
asume que dichas probabilidades son indepen-
do de verosimilitud de las premisas constituye
dientes entre sí, ya se dispone de los mecanis-
uno de los objetivos secundarios. En resumen,
mos que hubieran originado una muestra aleato-
más relevante que saber si las premisas son cier-
ria simple y puede magnificarse el error aleatorio
tas es conocer que se llega a la misma conclu-
mediante un intervalo de confianza: cierto cálculo
sión si se parte de otras premisas.
adecuado para muestras pequeñas (basado en

-17-
¿Qué pretende y qué puede contestar la investigación biomédica?

la distribución binomial) dice que, si los 100 ca- asociados a dos posibles acciones erróneas
sos proceden al azar de una población, observar contrapuestas (errores de tipo I y tipo II).
50 muertes es compatible con probabilidades Como el conocimiento en sí mismo no tiene im-
de morir en la población comprendidas entre el plicaciones, pero sí las acciones y las decisiones
39,83% y el 60,17%, con una confianza del 95%. que se toman basándose en él, debe distinguirse
El segundo paso es cuestionarse si se detec- entre “almacenes” de conocimiento (revistas cien-
taron todos los casos de botulismo. Si, por ejem- tíficas, bibliotecas o las colaboraciones Cochrane
plo, cabe esperar que la mitad de las muertes y Campbell) y órganos de decisión (agencias re-
por botulismo no fueran diagnosticadas como guladoras, departamentos de farmacia, agencias
tales, deberíamos añadir 50 casos al numerador de salud pública). El proceso de decisión incluye
y al denominador, subiendo la mortalidad al 66% la inferencia, pero también las opiniones sobre los
(100/150). En cambio, si lo que cabía esperar es posibles resultados: utilidad, coste, preferencias
que los casos leves no se diagnosticaran y su nú- o cualquier función de pérdida. Un ejemplo muy
mero se estima igual al de los casos diagnostica- celebrado es que antes de usar el paracaídas en
dos, ahora deben añadirse 50 casos, pero sólo al un salto desde mil metros de altura nadie pregun-
denominador, resultando en una mortalidad del taría por el ensayo aleatorizado y enmascarado
33% (50/150). Este ejemplo muestra que la mag- que aporte las pruebas científicas sobre el efecto
nitud del error sistemático por imprecisiones en beneficioso del paracaídas.
la recogida de los datos (del 33,33% al 66,67%) Por supuesto, las decisiones implícitas en el
puede ser mayor que el error contemplado por acto médico deben basarse en el conocimiento
un proceso aleatorio puro (intervalo de confianza contrastado empíricamente que aportan los artí-
del 95%: 39,83% a 60,17%). culos científicos, pero también en las consecuen-
El error originado por una obtención no alea- cias (utilidades, beneficios, costes, etcétera) de
toria de los datos puede ir en cualquier sentido, las alternativas en consideración, y su valoración
por lo que se denomina «sesgo impredecible». por los destinatarios. Como todas estas últimas
De hecho, una monografía de Jon J. Deeks4 para pueden variar fácilmente de un entorno a otro,
la agencia de tecnología sanitaria inglesa mues- es más fácil establecer un conocimiento común
tra que los estudios no aleatorizados tienen una que recomendar acciones generales para todo
mayor imprecisión que no contemplan las medi- el universo. Precisamente, la teoría de la decisión
das estadísticas de error aleatorio ni se corrige aporta los elementos para racionalizar el paso
con las técnicas de ajuste. desde un artículo científico “universal” a una guía
de práctica clínica “local”.
Saber (ciencia) frente a hacer (técnica)
Para interpretar correctamente los resultados Bibliografía
hay que distinguir entre el objetivo científico de
adquisición de conocimiento y el objetivo clínico 1. Ioannidis JPA. Why most published research findings
que requiere tomar decisiones. De hecho, au- are false. PLoS Med. 2005;2(8):e124. Disponible en:
mentar el conocimiento disponible requiere in- http://www.plosmedicine.org/article/info:doi/10.1371/
ducción, pero aplicarlo es un ejercicio deductivo: journal.pmed.0020124
la inferencia adquiere conocimiento valorando 2. Jager LR, Leek JT. Empirical estimates suggest most
published medical research is true. Disponible en:
las pruebas científicas (evidencia) a favor o en
http://arxiv.org/ftp/arxiv/papers/1301/1301.3718.pdf
contra de los modelos establecidos. Para ello se
3. Ware JH, Harrington D, Hunter DJ, D’Agostino RB.
recomienda utilizar los intervalos de confianza,
Missing data. N Engl J Med. 2012;367:1353-4.
aunque si el autor así lo considera puede repor- 4. Deeks JJ, Dinnes J, D’Amico R, Sowden AJ, Sakarov-
tar el valor p. Por otro lado, el acto médico, las itch C, Song F, et al. Evaluating non-randomised in-
medidas de salud pública, la gestión de recursos tervention studies. Health Technology Assessment.
o el permiso para comercializar un nuevo fárma- 2003;7(27). Disponible en: http://www.hta.ac.uk/full
co implican un proceso de decisión con riesgos mono/mon727.pdf

-18-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Hay más casualidades
que causalidades

González / Ventura

La epidemiología y los estudios observacionales


de cohortes y de casos y controles
José Luis Peñalvo

La epidemiología es el estudio de la aparición de El método epidemiológico


enfermedades en poblaciones humanas a partir
El método epidemiológico puede dividirse en fa-
del recuento de los episodios relacionados con
ses. La primera de ellas, la fase descriptiva, tiene
la salud que presentan las personas en la rela-
como objetivo la caracterización de los proble-
ción con los grupos que existen de forma natural
mas de salud que existen en una determinada
(poblaciones) y a los cuales pertenecen dichas
personas.1 La epidemiología clínica es una de las población, qué impacto tiene un problema de-
ciencias básicas en que se apoyan los médicos terminado en dicha población y cuáles son sus
para la asistencia a los pacientes, y tiene como patrones de aparición en cuanto a tiempo, lugar
objetivo el desarrollo y la aplicación de métodos y población afectada. La epidemiología descrip-
de observación clínica que den lugar a conclusio- tiva nos sirve para componer una fotografía fija
nes válidas, evitando las equivocaciones deriva- de un problema de salud pública. Dentro de esta
das del error sistemático y del azar.2 La medicina área descriptiva, los estudios de prevalencia exa-
basada en la evidencia es un concepto relati- minan a las personas que forman parte de una
vamente reciente, que se refiere a la aplicación población en busca de un efecto o suceso de
de la epidemiología clínica a la asistencia de los interés en un tiempo determinado. La fracción
pacientes y que incluye, entre otros aspectos, la de población que presenta el efecto constituye
revisión crítica de la información derivada de las la prevalencia de la enfermedad. Este tipo de
investigaciones epidemiológicas para la toma de estudios se denominan también estudios trans-
decisiones.3 versales o estudios de corte, ya que las perso-

-19-
La epidemiología y los estudios observacionales de cohortes y de casos y controles

nas son estudiadas en un momento del tiempo. denominan variables extrañas, covariables y, en
Nos proporcionan información sobre la carga de algunos casos, variables confusoras.
la enfermedad y la magnitud de ésta, es decir, En resumen, el método epidemiológico es un
en una analogía con el periodismo, estos estu- proceso de estudio de hipótesis que expliquen
dios contestan a las preguntas de quién, dónde los patrones de distribución de las exposiciones
y cuándo. Posteriormente, al definir la exposición y los sucesos observados, eliminando aquellas
(posible causa de la enfermedad o suceso) las que no sean concordantes con las observacio-
preguntas serán por qué y cómo, y al definir el nes. Así, las fases del proceso son: 1) genera-
efecto la pregunta será qué. Hay tres indicadores ción de hipótesis; 2) diseño e implementación de
básicos a la hora de estudiar la carga de una en- estudios para generar variables y observaciones;
fermedad: 1) la prevalencia, definida como el nú- 3) descripción de la distribución de las observa-
mero de casos de una enfermedad determinada ciones (análisis exploratorio de datos), y 4) infe-
o exposición en una población y en un momento rencia o evaluación de la magnitud de la eviden-
dado; 2) la incidencia, o los casos nuevos de una cia (análisis de datos confirmatorio).
enfermedad en una población definida dentro
de un plazo determinado (también denominada
Estudios de cohortes
densidad de incidencia o tasa de incidencia), y
3) la mortalidad, o número de defunciones en La población analizada en un estudio de inciden-
una población por cada 1000 habitantes durante cia se denomina «cohorte». Una cohorte se de-
un periodo determinado (generalmente 1 año). fine como un grupo de personas que tienen una
Una vez que el problema de salud pública se característica en común en el momento en que
ha caracterizado, es función de la epidemiolo- se forma el grupo, y que son seguidas prospec-
gía generar hipótesis que expliquen los patrones tivamente en el tiempo hasta que se produce el
hallados. La generación de hipótesis y su eva- suceso objeto de estudio. Los estudios de co-
luación no dependen sólo de las observaciones hortes también se conocen como longitudinales
realizadas, sino también del conocimiento de (participantes seguidos a lo largo del tiempo) y
los resultados de estudios previos, así como de prospectivos (dirección del seguimiento, hacia
la integración del conocimiento de otras áreas delante). En este diseño, el riesgo o la incidencia
científicas y, por último, de la intuición del inves- de la enfermedad y el riesgo relativo (incidencia
tigador. El epidemiólogo pretende contestar a las en expuestos frente a incidencia en no expues-
mismas preguntas que un periodista, y el resul- tos) se obtienen directamente.
tado final de un trabajo epidemiológico se podría En los estudios de cohortes se selecciona a
comparar a generar una noticia. En el estudio los participantes en función de que presenten
de hipótesis se busca, generalmente, la causa- o no la exposición que interesa al investigador,
lidad. Al método para determinar las razones y quien a posteriori buscará el efecto propuesto en
causas de los datos observados se le denomina su hipótesis. Una cohorte es, por tanto, un grupo
«inferencia causal», y es uno de los principales de personas definidas en un espacio de tiempo
objetivos de la epidemiología. En esta fase de y un lugar determinado, con unas exposiciones
inferencia, se denomina «variable» (aquello que definidas y en quienes los epidemiólogos tienen
varía y puede medirse) a los atributos de los pa- un efecto claro que buscar, asociado a esas ex-
cientes y a los episodios clínicos, y en un estudio posiciones. La principal medida que se utiliza en
típico de asignación de causalidad hay tres tipos un estudio de cohortes es el riesgo relativo: el
de variables: una es una supuesta exposición o número de veces que la incidencia de un efecto
variable predictora (a veces denominada varia- es mayor en los sujetos expuestos que en los no
ble independiente), la otra es un efecto o even- expuestos.
to (a veces denominada variable dependiente) y Las principales fases de un estudio de co-
la tercera es un grupo de variables que pueden hortes son: 1) selección de los participantes;
afectar a la relación de las dos primeras, y se 2) obtención de datos de la exposición; 3) se-

-20-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


guimiento de los participantes, y 4) análisis de a identificar los factores de riesgo que influyen
los datos. en el desarrollo de la aterosclerosis, y mejorará
Este tipo de estudio tiene algunas ventajas así la prevención de la enfermedad ateroscleró-
respecto a los experimentales. En primer lugar, tica al poder hacer un diagnóstico precoz inclu-
permite estudiar la progresión de una enferme- so antes de la aparición de los síntomas. Hasta
dad en el caso de que, por distintos motivos ahora, diversos proyectos han intentado evaluar
(entre ellos, éticos), no puedan llevarse a cabo si las técnicas avanzadas de diagnóstico por la
estudios experimentales. Esto permite ver los imagen pueden ayudar a la detección precoz
diferentes factores que, a lo largo del estudio, de la enfermedad, pero la mayoría se llevan a
van influyendo en el desarrollo o la evolución de cabo en poblaciones mayores de 60 años. Se
la patología. Este tipo de estudio observacional ha demostrado que, en este grupo de edad, la
permite, frente a los experimentales, demostrar aterosclerosis lleva ya décadas desarrollándose,
varias hipótesis a la vez. por lo que podría no ser reversible aunque se
Los estudios de cohortes son, seguramente, detectara de forma precoz. Este estudio usa las
la manera más lógica de estudiar la aparición de técnicas de diagnóstico por la imagen más avan-
sucesos, aunque en la práctica son complicados zadas de Europa para identificar individuos con
de llevar a cabo y requieren una gran inversión. aterosclerosis subclínica, en una población de
Las enfermedades crónicas tardan mucho tiempo 4500 trabajadores de 40 a 54 años de edad. El
en manifestarse, y el periodo de latencia desde estudio examinará la asociación entre los pará-
la exposición hasta el desarrollo de síntomas es metros clínicos y la presencia de factores genéti-
largo. Por tanto, la principal ventaja de un estudio cos, epigenéticos, metabolómicos, proteómicos
de cohortes es su duración. Esto supone un alto y ambientales, incluyendo los hábitos dietéticos,
remplazo del personal técnico e investigador del la actividad física, las características psicosocia-
estudio, por lo que se necesita un altísimo grado les y la exposición a contaminantes ambientales.
de estandarización de los procedimientos y mé-
todos para que la recogida de datos y su análisis
Estudios de casos y controles
sean siempre homogéneos y los datos sean con-
cordantes durante el tiempo que dure el estudio. Una alternativa a los diseños de alto coste eco-
En una cohorte, además, también es fácil que se nómico como los de cohortes, muy utilizada, son
introduzca un sesgo de selección a la hora de es- los denominados estudios de casos y controles.
coger a los participantes. Por último, sin ser una En ellos no es necesario esperar a que tras la
desventaja, hay que tener en cuenta que el análisis medición de la exposición se produzca el suce-
estadístico de este tipo de estudios es muy com- so, sino que éstos (los casos) son seleccionados
plejo y requiere un alto grado de conocimientos. por el investigador entre un grupo de pacientes
Un ejemplo clásico de este tipo de estudios disponibles y, paralelamente, se selecciona un
es el Framingham, iniciado en la década de 1940 grupo de individuos sanos que servirán como
y del que se ha obtenido la caracterización de controles. Una vez identificados los casos y los
los principales determinantes del riesgo de ate- controles, la exposición se mide o se identifica de
rosclerosis.4 En el caso del estudio Framingham manera retrospectiva.
las exposiciones eran los factores de riesgo clási- En este diseño no hay forma de conocer las
cos de enfermedad cardiovascular (hipertensión, tasas del suceso, ya que los grupos no se de-
colesterol…), y la hipótesis, demostrada, es que terminan de forma natural (como en una cohorte)
dichos factores de riesgo aumentan las posibili- sino en función de los criterios de selección del
dades de padecer aterosclerosis. investigador. Por tanto, no puede calcularse una
En la actualidad, el Centro Nacional de Inves- tasa de incidencia entre el grupo de personas ex-
tigaciones Cardiovasculares coordina la cohorte puestas y no expuestas, ni determinar el riesgo
del PESA (Progression of Early Subclinical Athe- relativo dividiendo la incidencia entre personas
rosclerosis).5 Este estudio de cohortes ayudará expuestas y no expuestas. Sin embargo, lo que

-21-
La epidemiología y los estudios observacionales de cohortes y de casos y controles

sí puede calcularse es la frecuencia relativa de Aunque en principio un diseño de este tipo


exposición en los casos y los controles, que pro- se considera el estándar para la asignación de
porciona una medida de riesgo conceptualmen- causalidad, también se hacen objeciones a la
te similar al riesgo relativo. Es lo que se conoce idoneidad de un ensayo clínico aleatorizado para
como razón de posibilidades (odds ratio), que se asignar causalidad, ya que muchas veces este
define como la posibilidad de que un caso esté tipo de estudios conllevan criterios de inclusión
expuesto dividida por la posibilidad de que un muy restrictivos y poblaciones definidas (hospita-
control lo esté. les universitarios, centros de referencia, etcétera)
Si la frecuencia de exposición es más alta en- que ponen en duda la generalización de los re-
tre los casos, la odds ratio será superior a 1, lo sultados obtenidos. Por tanto, lo más adecuado
que indicará un mayor riesgo. Por tanto, cuanto es pensar en ambas opciones como diseños epi-
más estrecha sea la asociación entre exposición y demiológicos complementarios, ya que los estu-
enfermedad, mayor será la odds ratio, y viceversa. dios observacionales pueden servir para verificar
La interpretación es, de esta forma, similar al ries- y replicar resultados procedentes de estudios
go relativo obtenido de estudios de cohortes, y de controlados y aleatorizados en la práctica habi-
hecho ambas medidas son equivalentes cuando tual, en los que la variabilidad de las característi-
la incidencia de la enfermedad es reducida. cas individuales es mayor.
Los diseños observacionales también son los
Asignación de causalidad: más adecuados para el estudio de efectos o su-
estudios controlados y aleatorizados cesos muy poco frecuentes, o de tratamientos
frente a estudios observacionales largos, en los que el reclutamiento de un grupo
control no es éticamente aceptable, y en general
En la evaluación de la eficacia de un tratamiento para todas aquellas hipótesis en que la experi-
o intervención se busca estudiar la magnitud de mentación no es posible y sólo podemos inferir
la asociación entre una exposición y un efecto. relaciones causales a partir de la observación.
Podría decirse que el mayor grado de asociación
Si bien es cierto que hay diferencias relevan-
es la relación causal, en la cual la exposición es
tes entre los ensayos aleatorizados y los estu-
la causa del efecto observado. En epidemiolo-
dios observacionales en cuanto a la magnitud de
gía es comúnmente aceptado que el diseño más
la relación (causalidad) entre exposición y efecto,
apropiado para establecer una relación causal es
la elección de un diseño u otro depende de las
el del ensayo controlado (en el cual la exposición
características de la hipótesis de partida a estu-
bajo evaluación se compara frente a un control,
diar, y elegir un diseño controlado y aleatorizado
normalmente placebo), con asignación aleatoria
no es sinónimo de garantía de calidad. La asig-
de los pacientes a uno u otro grupo. El objetivo
nación de causalidad mediante estudios experi-
de esta aleatorización es evitar la influencia de
mentales u observacionales es un tema que ha
las diferentes características individuales en los
generado un amplio debate durante décadas.
resultados finales, promoviendo que éstas se re-
Actualmente, uno de los criterios más menciona-
partan de forma similar (aleatoria) entre los gru-
dos como estándar de definición de causalidad
pos a comparar. El objetivo final es, por tanto,
son los rasgos teóricos para valorar una asocia-
que los grupos sólo difieran en la característica
ción como signo de causalidad propuestos por el
objeto de análisis.
conocido epidemiólogo Austin Bradford Hill,6 que
En el caso de los denominados estudios ob-
servacionales, los participantes no son asigna- son, de forma resumida:
dos a ningún tratamiento o, si lo son, la asigna- • Temporalidad: la causa precede al efecto.
ción se efectúa según la práctica clínica habitual
• Solidez: riesgo relativo grande.
y el investigador es un simple observador de la
aparición o del desarrollo del efecto que es obje- • Dosis-respuesta: a mayor exposición, mayor
to de estudio. tasa de enfermedad.

-22-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


• Reversibilidad: la reducción en la exposición co. El sesgo de confusión debe tenerse en cuen-
disminuye la tasa de enfermedad. ta durante el análisis de los datos, mientras que el
sesgo de selección es crucial durante la fase de
• Consistencia: observaciones homogéneas en
diseño del estudio.
distintas circunstancias, lugares, momentos
La principal diferencia entre los ensayos con-
y personas.
trolados aleatorizados y los estudios observa-
• Plausibilidad: sentido biológico. cionales radica, por tanto, en la variabilidad in-
terindividual en la población objeto de estudio.
• Especificidad: una exposición conlleva un
En los primeros, el objetivo del diseño permite
efecto.
disminuir al mínimo esta variabilidad para asig-
• Analogía: la causalidad ya está establecida nar causalidad al tratamiento; en los segundos,
para una relación exposición-efecto similar. el reclutamiento de los participantes normalmen-
te está sujeto a posibles sesgos de selección.
Quizá los más relevantes para un estudio ob-
Por ejemplo, cuando los participantes incluidos
servacional son la solidez (fuerza de la asocia-
en una cohorte difieren en otras características
ción), que viene determinada por el diseño epi-
además de la variable de estudio (presencia de
demiológico y el modelo estadístico utilizado, y la
otras enfermedades, por ejemplo), se produce
evidencia experimental. En epidemiología obser-
un sesgo de selección denominado «de suscep-
vacional es muy importante recoger covariables
tibilidad». Puede producirse un sesgo de migra-
que describan exposiciones coincidentes con la
ción cuando los integrantes de un subgrupo de
exposición objeto de estudio, así como la máxi-
la cohorte abandonan este grupo para pasar a
ma información posible para luego poder ajus-
otro (por ejemplo, trabajadores activos pasan a
tar la asociación que se está estudiando hasta
inactivos con el transcurso de los años).
prácticamente poder decir que la exposición tie-
Existen métodos para corregir, en cierta me­
ne cierto grado de causalidad, casi como en un
dida, los sesgos originados durante el diseño, el
estudio experimental. desarrollo y el análisis de un estudio epidemio­
lógico:
Confusión y sesgos • Aleatorización: pacientes elegidos al azar para
formar parte de un grupo determinado.
El sesgo es un proceso que, durante la etapa de
inferencia, introduce de forma sistemática des- • Restricción: limitación en la variabilidad de las
viaciones en la recogida, el análisis, la interpreta- características de la población.
ción, la publicación o la revisión de los datos de • Emparejamiento: a cada participante de un
un estudio, y puede dar lugar a conclusiones que grupo se le asigna uno (o más) participantes
difieren de la verdad.7 Hay tres tipos generales con las mismas características, excepto por la
de sesgos: 1) sesgo de selección, derivado de la variable objeto de estudio, con el fin de crear
comparación de grupos de individuos que difie- comparaciones.
ren en factores determinantes para el resultado,
• Estratificación: comparación de resultados
pero que no han sido objetivo del diseño; 2) ses- entre subgrupos que tienen probabilidades
go de medición, originado cuando los instrumen- similares de obtener un mismo resultado.
tos de medición difieren entre los participantes, y
• Ajuste sencillo: ajusta matemáticamente las
3) sesgo de confusión, que se produce cuando
tasas brutas o crudas en función de varia-
los factores están asociados y el efecto de uno
bles seleccionadas para dar el mismo peso a
influye en el efecto del otro.
subgrupos con riesgos similares.
Los sesgos de selección y confusión no son
mutuamente excluyentes, pero se describen por • Ajuste multivariable: ajusta, mediante modelos
separado porque representan diferentes proble- matemáticos, las diferencias de diferentes fac-
mas en el transcurso de un estudio epidemiológi- tores asociados con el resultado.

-23-
La epidemiología y los estudios observacionales de cohortes y de casos y controles

Bibliografía 4. Dawber TR. The Framingham Study: the epidemiology


of aterosclerosis disease. Cambridge, MA: Harvard
1. Friedman GD. Primer of epidemiology. 5th ed. New University Press; 1980.
York: Appleton and Lang; 2003. 5. Estudio PESA (Progression of Early Subclinical Ath-
2. Fletcher RH, Fletcher SW. Epidemiología clínica. 4ª ed. erosclerosis). Disponible en: www.estudiopesa.org
Barcelona: Wolters Kluwer; 2008. 6. Hill AB. The environment and disease: association or
3. Sackett DL, Straus SE, Richardson WS, Rosenberg causation? Proceedings of the Royal Society of Medi-
W, Haynes RB. Evidence-based medicine. How to cine. 1965;58: 295-300.
practice and teach EBM. 2nd ed. New York: Churchill 7. Last JM. A dictionary of epidemiology. 3rd ed. New
Livingstone; 2000. York: Oxford University Press; 1995.

-24-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Las hipótesis deben ser
previas a los resultados
del estudio

Schwartz-Woloshin / Ventura

La confianza en los resultados de la investigación


y el sistema GRADE
Pablo Alonso Coello

Introducción ciones sanitarias en general, vienen evaluando la


calidad de la información mediante diferentes sis-
Para tomar decisiones necesitamos estar adecua-
temas desde hace ya más de dos décadas.1 Es-
damente informados. En las que afectan a nuestra
tos sistemas que evalúan la calidad –y algunos de
salud, o simplemente a la hora de poder valorar
ellos también la fuerza de las recomendaciones–
una información proveniente de la investigación,
se han denominado sistemas de clasificación de
necesitamos saber hasta qué punto podemos
la evidencia o, más comúnmente, niveles de evi-
confiar en los resultados disponibles. Esta con-
dencia. Las recomendaciones son el ingrediente
fianza también se ha denominado habitualmente
fundamental de las guías de práctica clínica, un
calidad o riesgo de sesgo. Más recientemente, el
instrumento cada vez más popular para la toma
concepto de calidad (o confianza) ha evoluciona-
de decisiones de los profesionales sanitarios.2
do, y en él se incluyen ahora otros factores, que
Para realizar recomendaciones se tiene en cuenta
van desde el diseño y la ejecución de los estudios
no sólo la calidad de la información, sino también
hasta la precisión de los resultados, entre otros
otros factores como, por ejemplo, el balance be-
(quality of evidence). Como veremos, la calidad es,
por tanto, un atributo continuo, y nuestro veredic- neficio-riesgo, las preferencias o los costes.3
to dependerá de la ponderación de estos factores. Un aspecto que ha generado confusión es la
convivencia de diferentes sistemas que presen-
tan, en mayor o menor medida, similares limita-
¿Cómo podemos evaluar la calidad?
ciones. En general, una de las más frecuentes es
Los profesionales de la salud, a través de sus so- la penalización de los estudios observacionales,
ciedades científicas principalmente, y las institu- asignándoles evidencia de calidad baja.1,4 Esto

-25-
La confianza en los resultados de la investigación y el sistema GRADE

es contraintuitivo, pues hay bastantes situacio- 2) están basadas en la mejor evidencia científica
nes en las que no es necesario realizar un ensayo disponible; 3) formulan preguntas claramente
clínico para tener una confianza alta en el efec- definidas, y 4) utilizan métodos sistemáticos y
to de una intervención. Por ejemplo, cuando se explícitos para identificar y seleccionar estudios,
descubrió la insulina, el efecto de su administra- evaluarlos críticamente, extraer los datos de in-
ción en unos pocos casos fue tan espectacular terés y analizarlos.6 En consecuencia, las revi-
que no se llegaron a realizar ensayos clínicos, ni siones sistemáticas tienen como objetivo ser:
ya nunca se realizarán. Por otra parte, a pesar de 1) rigurosas, evaluando la calidad de los estudios
disponer de ensayos clínicos para una interven- incluidos; 2) informativas, esto es, enfocadas ha-
ción, la confianza puede ser baja debido a fac- cia problemas reales, presentando la información
tores como, por ejemplo, las limitaciones en su del modo que mejor ayude a la toma de decisio-
diseño y ejecución. nes; 3) exhaustivas, con el objetivo de identificar
y utilizar la mayor cantidad posible de informa-
ción pertinente, minimizando la introducción de
¿Dónde encajan
posibles sesgos (por ejemplo sesgo de publica-
las revisiones sistemáticas?
ción), y 4) explícitas, con los métodos utilizados
Otra de las limitaciones de estos sistemas de cla- descritos de manera detallada.6
sificación es que otorgaban un peso excesivo a
las revisiones sistemáticas. Este tipo de revisio-
Revisiones sistemáticas
nes son el método de referencia a la hora de co-
frente a metaanálisis
nocer los efectos de las intervenciones, pero de-
bemos tener en cuenta que sus resultados son En ocasiones, una revisión sistemática puede
tan fiables como los estudios que incluyen.5,6 Por incluir un metaanálisis, un concepto introducido
ello, nuestra confianza debe estar fundamentada por Glass en 1976 y que se define como una in-
en el conjunto de los estudios que contiene una tegración estructurada, con una revisión cualita-
revisión sistemática (contenido) y en su calidad, y tiva y cuantitativa, de los resultados de diversos
no en el hecho de que sea una revisión sistemá- estudios independientes acerca de un mismo
tica (continente). tema.5 En otras palabras, un metaanálisis es la
Archie Cochrane señaló en 1972 la necesidad combinación estadística de al menos dos estu-
de realizar un mayor número de revisiones, cuan- dios para obtener una estimación global sobre el
do afirmó que era muy grave que todavía no se efecto de una intervención. En la figura 1 pode-
hubiese organizado una síntesis crítica de todos mos ver la representación de un metaanálisis es-
los ensayos clínicos relevantes, por especialida- tándar. Los estudios individuales están indicados
des o subespecialidades, y que fuera actualizada con un cuadrado (efecto) y una línea horizontal
con periodicidad.7 Precisamente, la respuesta a (intervalo de confianza), de tal modo que cuanto
este desafío es la Colaboración Cochrane, una más corta es la línea más preciso es el resultado.
organización internacional sin ánimo de lucro Finalmente, abajo, con un rombo, se representa
que tiene como objetivo principal ayudar a tomar el efecto global de la intervención resultante del
decisiones clínicas y sanitarias bien fundamen- metaanálisis. La línea vertical que pasa por el nú-
tadas, preparando, manteniendo y divulgando mero 1 indica la posición alrededor de la cual los
revisiones sistemáticas sobre los efectos de la resultados se concentrarían si las dos interven-
atención sanitaria (http://www.cochrane.org/).8,9 ciones comparadas tuviesen efectos similares. Si
Las revisiones sistemáticas son investigacio- una línea horizontal toca esta línea, significa que
nes (investigación secundaria) que sintetizan los aquel ensayo clínico concreto no halló diferen-
resultados de un conjunto de estudios individua- cias claras entre los tratamientos. La posición del
les (investigación primaria). Las características rombo a la izquierda de esta línea indica que el
fundamentales que mejor las definen son: 1) rea- tratamiento estudiado es beneficioso, y a la de-
lizan una síntesis y un análisis de la información; recha perjudicial.

-26-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Figura 1. Efecto de los corticosteroides antenatales sobre el distrés respiratorio neonatal.10

El logotipo de la Colaboración Cochrane (fi- ya se habían realizado siete ensayos más, que
gura 2) ilustra el metaanálisis de la figura 1, que mostraron aún con más claridad que esta inter-
corresponde a una revisión sistemática que eva- vención reduce un 30% a un 50% la probabilidad
luó la administración de corticosteroides (un tra- de morir de los recién nacidos.
tamiento corto y barato) a mujeres gestantes con Sin embargo, como no se publicó ninguna re-
amenaza de parto prematuro, en comparación visión sistemática de estos ensayos hasta 1989,
con placebo, para prevenir la disnea.10 En la revi- la mayoría de los obstetras no pudo conocer la
sión se incluyeron 12 ensayos clínicos que eva- efectividad real de este tratamiento, y decenas
luaban esta misma cuestión, el primero de ellos de miles de recién nacidos prematuros no se
publicado en 1972. La revisión proporcionó una beneficiaron de recibir esta intervención. Éste es
síntesis de la información disponible una década uno de los muchos ejemplos que ponen de ma-
después de la publicación del primer ensayo que nifiesto la necesidad de disponer de revisiones
mostraba que los corticosteroides reducen el sistemáticas actualizadas sobre todos los aspec-
riesgo de muerte de los recién nacidos. En 1991 tos de la atención sanitaria.
Aunque a veces se utilicen indistintamente los
dos términos, revisión sistemática no es equiva-
lente a metaanálisis. Podemos tener una revisión
sistemática sin metaanálisis, pero no deberíamos
tener un metaanálisis sin revisión sistemática. En
el primer caso, los resultados de los estudios pri-
marios se resumen, pero no se combinan con
métodos estadísticos (revisión sistemática «cua-
litativa»).5,6 Si se realiza un metaanálisis, estamos
ante una revisión sistemática «cuantitativa». El
metaanálisis es, por tanto, sólo una parte, aun-
que importante, de la revisión sistemática. La
virtud fundamental del metaanálisis es que au-
Figura 2. Logotipo de la Colaboración Cochrane. menta la potencia estadística del análisis, pues

-27-
La confianza en los resultados de la investigación y el sistema GRADE

disponemos de más estudios y pacientes, y por nales ha constituido el grupo de trabajo GRADE
tanto proporciona resultados más precisos. (Grading of Recommendations Assessment, De-
Las revisiones cumplen otra función funda- velopment and Evaluation).3,12 El sistema GRADE
mental: dan a conocer de un solo vistazo toda la ha sido adoptado por más de 70 organizaciones
información disponible sobre una pregunta de in- en todo el mundo, algunas tan importantes como
vestigación. Esto es crucial desde el punto de vis- la Organización Mundial de la Salud, la Colabo-
ta del periodismo científico, pues ayudan a con- ración Cochrane, el National Institute of Clinical
textualizar los resultados de los nuevos estudios. Excellence, la Scottish Intercollegiate Guidelines
Además, sirven para señalar las deficiencias de la Network y publicaciones como Clinical Evidence
investigación realizada hasta el momento y la in- o Uptodate (http://www.gradeworkinggroup.org/
vestigación que es necesaria en un determinado society/index.htm). En nuestro entorno, el Progra-
campo. Por tanto, bienvenidas sean también para ma Nacional de Elaboración de Guías de Prácti-
los periodistas. Así pues, conviene extremar las ca Clínica del Sistema Nacional de Salud (http://
cautelas cuando en un comunicado de prensa o www.guiasalud.es/web/guest/gpc-sns) también
en un artículo no se contextualizan los resultados ha comenzado a utilizarlo (manual MSC).13
con la investigación previa, idealmente mediante El sistema GRADE propone varios factores
una revisión sistemática. No obstante, muchos para evaluar la confianza en los resultados, de
ensayos todavía no empiezan ni terminan con una los cuales algunos pueden disminuir nuestra
revisión sistemática, como se recomienda.11 confianza y otros la pueden aumentar.12 A los en-
sayos clínicos se les asigna de entrada una cali-
dad alta, pero pueden ser penalizados. A los es-
¿Cómo valorar una revisión sistemática?
tudios observacionales se les asigna de entrada
Para leer una revisión sistemática tenemos que una calidad baja, pero en algunas ocasiones la
comprobar al menos dos factores clave. El pri- confianza en ellos puede aumentar. Este sistema
mero es que presente una pregunta y unos cri- explícito de subida y bajada es propio y único del
terios de inclusión y exclusión de los estudios sistema GRADE.
claros y concretos. El segundo, que documen- La figura 3 resume los diferentes factores que
te haber realizado una búsqueda de la literatura pueden disminuir la confianza en la estimación
disponible, idealmente en una o más bases de del efecto observado.14 Éstos son, fundamental-
datos o fuentes. Y el tercero, que haya realizado mente, que los estudios presenten limitaciones
una evaluación de al menos el diseño y la ejecu- en el diseño o la ejecución (riesgo de sesgo), que
ción de los estudios, esto es, que haya evaluado los resultados no sean concordantes, que no se
de manera crítica el contenido. Existen instru- disponga de evidencia directa para nuestra pre-
mentos más sofisticados para evaluar la calidad gunta de interés, que los resultados sean impre-
de las revisiones sistemáticas, pero llevan tiempo cisos o que se sospeche un sesgo de publica-
y requieren cierta experiencia para ser aplicados. ción. La ponderación global de estos factores,
En el contexto del periodismo, en principio es su- que limitan nuestra confianza en los resultados,
ficiente poder reconocer una revisión sistemática determinará que la confianza aumente o dismi-
y diferenciarla de la que probablemente no lo es. nuya. El sistema GRADE establece que la calidad
global es la menor entre los desenlaces o resul-
tados de interés. Por último, el sistema GRADE
El sistema GRADE
reconoce que la opinión de los expertos influye
En este contexto, un grupo internacional de epi- en la evaluación de la evidencia disponible (con
demiólogos, metodólogos y clínicos ha desa- independencia de su diseño), pero no la conside-
rrollado una propuesta que tiene como objetivo ra un tipo de evidencia en sí misma.
consensuar un sistema común para evaluar la El sistema GRADE proporciona, por tanto, un
calidad o confianza, y que supere las limitaciones marco para que tanto los periodistas como los
de los sistemas previos. Este grupo de profesio- profesionales de la salud nos orientemos sobre

-28-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


la confianza que podemos depositar en los resul- que no haya sujetos de quienes no tengamos
tados de la investigación. Por lo que respecta al información a partir de un momento dado, pues
periodismo, estas premisas pueden resultar úti- pueden tener un pronóstico diferente al de los
les para diferenciar el grano de la paja. que permanecen en el estudio y, por tanto, ses-
gar de manera importante los resultados (sesgo
de desgaste).
¿Qué puede disminuir la confianza
En los estudios observacionales se conside-
en los resultados?
ran otros factores, como la presencia de unos
Problemas de diseño y ejecución criterios de selección de la población inapropia-
dos, las mediciones inadecuadas para la expo-
Las limitaciones en el diseño y la ejecución di-
sición o el desenlace de interés, un mal control
fieren entre los ensayos clínicos aleatorizados
de los factores de confusión o un seguimiento
y los estudios observacionales. En los primeros,
incompleto, entre otros.
los factores clásicos son los relacionados con
una adecuada aleatorización, un cegamiento
Resultados no concordantes
de los participantes y un seguimiento adecua-
do y completo de los participantes. La aleato- La calidad de la evidencia disminuye si los resul-
rización, si está correctamente realizada y con tados son heterogéneos o incongruentes, es de-
un número suficiente de sujetos, proporcionará cir, si los distintos estudios muestran resultados
dos poblaciones o más que tendrán un pro- muy diferentes. Debe valorarse, además, si tras
nóstico similar, pues el azar habrá repartido de explorar las razones que pudieran explicar las
manera equilibrada (pronósticamente) a los par- diferencias (por ejemplo, diferencias en la pobla-
ticipantes en el estudio, y con ello estaremos ción, la intervención, los desenlaces de resultado
evitando un sesgo de selección. En el caso del o el riesgo de sesgo), éstas persisten. En caso de
cegamiento, esta medida evitará, entre otras no identificar las razones de la heterogeneidad,
cosas, que los pacientes asocien el hecho de la confianza disminuye porque podría haber di-
recibir uno u otro tratamiento con el efecto que ferencias reales entre las estimaciones del efecto
experimenten o evalúan (sesgo de detección), y proporcionadas por los estudios.
que los profesionales sanitarios traten de mane- La concordancia depende muy a menudo de
ra diferencial a un grupo o a otro (sesgo de rea- la contextualización con la investigación previa.
lización). En el caso del seguimiento, es crucial Esta información debería estar en el comunicado

Figura 3. Evaluación de la confianza (calidad) y factores modificadores según el sistema GRADE.14

-29-
La confianza en los resultados de la investigación y el sistema GRADE

Figura 4. Revisión sistemática sobre la efectividad del cribado genético preimplantacional comparado con el tratamiento
estándar en parejas sin trastornos genéticos. A) Metaanálisis con importante heterogeneidad/variabilidad. B) Metaanálisis con
escasa heterogeneidad/variabilidad. PGS: preimplantation genetic screening; IVF: in vitro fertilization.15

de prensa, e idealmente, como comentábamos poco concordantes. En cambio, el rombo de la


antes, mediante una revisión sistemática previa. figura 4 B corresponde al análisis conjunto de
Un estudio no es una isla y siempre hay un con- cinco estudios que presentan intervalos de con-
texto. Si la información no está disponible, es fianza más precisos, con mayor solapamiento y
recomendable que los informadores consulten efectos más similares. En este caso, los resulta-
varias fuentes independientes, incluyendo un ex- dos son más congruentes y nuestra confianza no
perto en metodología y estadística, sea o no clí- se verá mermada.
nico. Además, a menudo puede ser interesante
considerar la visión tanto de la atención primaria Resultados imprecisos
como de la hospitalaria. Estas fuentes nos ayu- Cuanto más imprecisos sean los resultados de
darán no sólo a evaluar la heterogeneidad, sino un estudio o de una revisión sistemática, menos
también el resto de los factores. confianza tendremos. Para poder valorar la pre­
Si disponemos de una revisión sistemática, cisión es fundamental fijarse en el intervalo de
una fórmula práctica para valorar la consistencia confianza (la línea horizontal que mencionába-
es observar si los intervalos de confianza se so- mos antes al explicar el metaanálisis), valorando
lapan en el gráfico correspondiente. También se que no se solape con la línea vertical del valor
dispone de pruebas estadísticas más complejas, relativo 1, que indica que hay un riesgo similar
con las cuales no tienen por qué estar familiariza- en ambos grupos y que, por tanto, no hay di-
dos los periodistas, sino nuestra fuente experta ferencias entre las intervenciones. Asimismo,
en métodos. En la figura 4 A observamos, en la ante un intervalo de confianza preciso, si el nú-
parte superior, un primer rombo que corresponde mero de sucesos (por ejemplo, el número total
al análisis conjunto de los ensayos.15 Los interva- de reingresos o infartos) o de sujetos evaluados
los de confianza son muy amplios y se solapan en los diferentes estudios son escasos, también
escasamente. Asimismo, los efectos son muy debe considerarse disminuir la confianza, pues
dispares. Estaríamos, por tanto, ante resultados en ocasiones los estudios pequeños, por puro

-30-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


azar, pueden proporcionar efectos beneficiosos ficas (por ejemplo el funnel plot) que a menudo
muy importantes (que no son tales). Finalmente, las revisiones sistemáticas incluyen como parte
hay que valorar si al considerar un extremo u otro de sus métodos, facilitándonos el trabajo. Aun-
del intervalo de confianza, teniendo en cuenta que muchas veces es un aspecto difícil de valo-
los riesgos e inconvenientes de la intervención, rar, es bueno tenerlo en cuenta.
nuestra decisión cambiaría. Si es así, la confianza
en el resultado disminuirá, por impreciso.
¿Qué puede aumentar la confianza
en los resultados?
Información no directamente aplicable
(indirecta) Las situaciones que justificarían un aumento de
nuestra confianza en los resultados de un con-
La confianza en los resultados depende tam-
junto de estudios son menos comunes y se apli-
bién de si el estudio o los estudios que estamos
can fundamentalmente en los estudios observa-
sopesando son suficientemente similares a los
cionales (sobre todo de cohortes y de casos y
nuestros (población, intervención, comparación
controles), siempre que no coexistan otras limita-
y desenlaces de interés). Por ejemplo, si los es-
ciones de las anteriormente descritas (por ejem-
tudios son en animales, la evidencia será muy in-
plo, limitaciones de diseño y ejecución). Estas
directa y nuestra confianza disminuirá de manera
situaciones son poco frecuentes, pero existen.
marcada. Si un estudio nos proporciona informa-
ción sobre supervivencia, por ejemplo en el cam-
Asociación fuerte
po del cáncer y la quimioterapia, y nos interesa
más la calidad de vida, nuestra confianza en que Cuando los resultados de un estudio, sin otras
ésta mejore (o empeore menos), por ejemplo, limitaciones, muestran un efecto, protector o
en comparación con el tratamiento sintomático, perjudicial, con una asociación fuerte (riesgo re-
será también baja. Esta analogía es igualmente lativo u odds ratio >2 o <0,5) o muy fuerte (riesgo
válida en el caso del riesgo de fractura en las mu­ relativo u odds ratio >5 o <0,2), la confianza en
jeres posmenopáusicas, si un estudio sólo nos los resultados aumenta. Un ejemplo es la rela-
proporciona datos sobre densidad mineral pero ción que se encuentra entre la mortalidad por
no sobre la calidad de vida. En ocasiones, cuan- cualquier causa y el consumo de tabaco, que re-
do no hay comparaciones directas entre trata- sultó ser hasta tres veces mayor en los fumado-
mientos, se realizan comparaciones indirectas res respecto a los no fumadores en una cohorte
mediante técnicas estadísticas. Sus resultados prospectiva de médicos británicos. Así pues, la
serán, por tanto, de menor confianza que los ob- confianza en esta asociación no es baja (punto
tenidos mediante comparaciones directas. de partida de los estudios observacionales). Del
mismo modo, si el efecto de la intervención es
Sospecha de sesgo de publicación relativamente inmediato y cambia de manera
radical el pronóstico de los pacientes, nuestra
Finalmente, hay situaciones en las que se sos-
confianza también aumenta. Por ejemplo, no ha
pecha que existen estudios, principalmente con
sido necesario hacer ensayos clínicos sobre la
resultados negativos, que no se han publicado
colocación o no de una prótesis de cadera en
y que por tanto hay una posible sobrestimación
pacientes con artrosis grave de esta articulación.
del efecto. Esta posibilidad debe explorarse si
La mejora es muy importante, el efecto es bas-
nos encontramos con un conjunto de ensayos
tante inmediato y el pronóstico de los pacientes
de pequeño tamaño, positivos y financiados por
es radicalmente diferente.
la industria. Al ser pequeños, por azar debería
haber tanto resultados positivos como negativos.
Gradiente dosis-respuesta
En estos casos se reduciría la confianza en la es-
timación de un efecto. Para detectar este posible Otro factor que aumenta la confianza en la esti-
sesgo se dispone de pruebas estadísticas o grá- mación de un efecto es la existencia de un claro

-31-
La confianza en los resultados de la investigación y el sistema GRADE

gradiente dosis-respuesta, ya que nos aporta evidence and strength of recommendations. BMJ.
una mayor certidumbre sobre una posible rela- 2008;336:924-6.
ción causa-efecto. Por ejemplo, se ha compro- 4. The GRADE Working Group. Systems for grading the
quality of evidence and the strength of recommenda-
bado que el riesgo de desarrollar una enferme-
tions I: critical appraisal of existing approaches. BMC
dad pulmonar obstructiva crónica es proporcio-
Health Serv Res. 2004;4:38.
nal al consumo acumulado de tabaco, y que es
5. Cook DJ, Mulrow CD, Haynes RB. Systematic re-
2,6 veces mayor en los fumadores de 15 a 30 views: síntesis of best evidence for clinical decisions.
paquetes al año y 5,1 veces mayor en los fuma- Ann Intern Med. 1997;126:376-80.
dores de más de 30 paquetes al año.16 La exis- 6. Gisbert JP, Bonfill X. ¿Cómo realizar, evaluar y utilizar
tencia de este gradiente de asociación entre el revisiones sistemáticas y metaanálisis? Gastroenterol
factor estudiado y el efecto aumenta la confianza Hepatol. 2004;27:129-49.
en la relación entre el tabaco y la enfermedad 7. Cochrane AL. Effectiveness and efficiency. Ran-
pulmonar obstructiva crónica. dom reflections on health services. London: Nuffield
Provincial Hospitals Trust; 1972.
8. Bero L, Rennie D. The Cochrane Collaboration. Prepar-
Conclusiones ing, maintaining, and disseminating systematic reviews
La calidad es la confianza que tenemos en que of the effects of health care. JAMA. 1995;274:1935-8.
9. Higgins JPT, Green S, editores. Cochrane handbook
los resultados de la investigación sean ciertos.
for systematic reviews of interventions, version 5.1.0.
Las revisiones sistemáticas son clave para con-
Actualizado en marzo de 2011. The Cochrane Col-
textualizar y conocer con mayor seguridad el laboration, 2011. Disponible en: www.cochrane-
efecto de las intervenciones, pues nos propor- handbook.org
cionan todos los estudios disponibles para una 10. Crowley P, Chalmers I, Keirse MJ. The effects of cor-
determinada cuestión. ticosteroid administration before preterm delivery: an
El sistema GRADE aporta un marco explícito overview of the evidence from controlled trials. Br J
y riguroso para evaluar la calidad que podemos Obstet Gynaecol. 1990;97:11-25.
depositar en los resultados de la investigación. 11. Clarke M, Hopewell S, Chalmer I. Clinical trials should
begin and end with systematic reviews of relevant evi-
La calidad (o la confianza) no sólo está determi-
dence: 12 years and waiting. Lancet. 2010;376:20.
nada por el diseño de los estudios. La confianza
12. Alonso-Coello P, Rigau D, Solà I, Martínez García L. La
puede disminuir debido a problemas de diseño
formulación de recomendaciones en salud: el sistema
y ejecución, resultados imprecisos o no concor- GRADE. Med Clin (Barc). 2013;140:366-73.
dantes, evidencia indirecta o sospecha de sesgo 13. Grupo de Trabajo sobre GPC. Elaboración de guías
de publicación. La confianza puede aumentar, de práctica clínica en el Sistema Nacional de Salud.
en los estudios observacionales, cuando hay un Manual metodológico. Guías de práctica clínica en el
gradiente dosis-repuesta o si el efecto observa- SNS: I+CS. N8 2006/0I. Madrid: Plan Nacional para
do es muy importante (y no se observan otras el SNS del MSC. Instituto Aragonés de Ciencias de la
limitaciones). Salud-I+CS; 2007.
14. Guyatt G, Oxman AD, Akl EA, Kunz R, Vist G, Brozek
J, et al. GRADE guidelines: introduction – GRADE evi-
Bibliografía dence profiles and summary of findings tables. J Clin
Epidemiol. 2011;64:383-94.
1. Systems to rate the strength of scientific evidence. 15. Checa MA, Alonso-Coello P, Solà I, Robles A, Carre-
Summary, evidence report/technology assessment: ras R, Balasch J. IVF/ICSI with or without preimplanta-
number 47. AHRQ Publication No. 02-E015. Rock- tion genetic screening for aneuploidy in couples with-
ville, MD: Agency for Healthcare Research and Quality; out genetic disorders: a systematic review and meta-
2002. analysis. J Assist Reprod Genet. 2009;26(5):273-83.
2. Laine C, Taichman DB, Mulrow C. Trustworthy clinical 16. Miravitlles M, Soriano JB, García-Río F, Muñoz L,
guidelines. Ann Intern Med. 2011;154:774-5. Durán-Taulería E, Sánchez G, et al. Prevalence
3. Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter of COPD in Spain: impact of undiagnosed COPD
Y, Alonso-Coello P, et al.; GRADE Working Group. on quality of life and daily life activities. Thorax.
GRADE: an emerging consensus on rating quality of 2009;64:863-8.

-32-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
El intervalo de confianza
se interpreta mejor
que el valor de p

Cobo / Ventura

Diálogo 1
Herramientas estadísticas, buenos consejos
y cierta intuición periodística
Ainhoa Iriberri

Los periodistas que acudimos a la jornada de de los primeros pueden pensar. Informamos lo
bioestadística organizada el pasado 14 de febre- mejor que podemos con nuestros conocimientos
ro por la Asociación Española de Comunicación y las opiniones de expertos acreditados.
Científica y la Fundación Dr. Antonio Esteve pe- Quizás el error, como quedó de manifiesto en
díamos algo imposible: que en menos de 12 ho- la jornada, es que la bioestadística es una disci-
ras los expertos nos enseñaran a los comunica- plina nueva y algunos investigadores –y la mayo-
dores a informar bien sobre un estudio publicado ría de los periodistas– carecen muchas veces de
en una revista científica. Se trataba de aprender conocimientos suficientes sobre la materia. Pero
a evitar algunos de los grandes males del perio- el diálogo entre ambos agentes también demos-
dismo científico: la exageración, la falta de rigor y tró que compartimos un deseo común: informar
la descontextualización, entre otros. con rigor de los avances científicos.
Así, estos conceptos salieron a la luz en el pri-
mer diálogo entre periodistas y bioestadísticos,
Pirámides y confianza
que sirvió también como punto de encuentro.
Porque ni los bioestadísticos son esas perso- Los periodistas estamos acostumbrados a tra-
nas que, con sus enrevesados términos, dificul- bajar con pirámides. Desde la famosa pirámide
tan muchísimo la comprensión de un estudio, ni invertida, o regla de las «5 w», sabemos que la
los periodistas los irresponsables que algunos información hay que clasificarla y jerarquizarla.

-33-
Diálogo 1 Herramientas estadísticas, buenos consejos y cierta intuición periodística

Por ello no nos extrañó cuando se habló del con- ce interesante, es decir, de interés periodístico.
cepto de «pirámide de la evidencia». No todos Otros factores, como la revista científica en que
los estudios científicos son iguales, y no debe- se publica un determinado estudio, también pe-
mos confiar en todos ellos por igual. De nuevo, sarán en nuestra decisión, ya que no es lo mismo
hemos de recurrir a una pirámide; en este caso, que un trabajo aparezca en una revista de alto
la de la evidencia. impacto o en una de tercera fila. Para saberlo,
La pirámide ilustra que hay una jerarquía de hay un ranking que clasifica las revistas por su
la confianza que nos merecen los distintos tipos factor de impacto (citas recibidas), el Journal Ci-
de estudios, y el interés de un grupo de trabajo tation Reports del Institute for Scientific Informa-
que comenzó en 2000, el grupo GRADE (siglas tion, actualmente Thomson Reuters, por la em-
en inglés de Clasificación de la Evaluación, De- presa que lo elabora. Un obstáculo para los pe-
sarrollo y Valoración de las Recomendaciones). riodistas: su acceso es de pago, aunque muchas
El objetivo de este colectivo no era otro que de- instituciones, entre ellas la Fundación Española
sarrollar un sistema común y razonable para ca- para la Ciencia y la Tecnología, lo ponen a dispo-
lificar la calidad de la evidencia y la fuerza de las sición de los investigadores. Una razón añadida
recomendaciones. Un sistema que, obviamente, para que se cuente entre nuestras fuentes más
puede servir también a los periodistas a la hora consultadas.
de elaborar sus informaciones sobre un avance
científico.
Revisión frente a metaanálisis
En la base de la pirámide están los estudios
experimentales realizados con animales de labo- Uno de los primeros conceptos que se discu-
ratorio, luego se encuentran los distintos tipos tieron en este diálogo fue la diferencia entre re-
de estudios observacionales, y en la cúspide los visión sistemática y metaanálisis. Las revisiones
mejores ensayos clínicos y las revisiones siste- sistemáticas (con o sin metaanálisis) pueden
máticas (con o sin su correspondiente metaaná- cambiar la práctica clínica y, por tanto, son más
lisis). que dignas de merecer un hueco destacado en
A partir de ahí, podríamos pensar que está los periódicos. Pero como explicaron los espe-
todo dicho. A la hora de valorar si informamos cialistas, no todas las revisiones pueden tener
sobre un estudio, sólo hemos de situarlo en la metaanálisis. ¿Por qué? Lo primero que hay
pirámide. Si la confianza es baja, no se informa- que tener claro es que las revisiones “narrati-
rá sobre él; si es alta, intentaremos que vaya en vas” del pasado han dado lugar a las revisiones
portada. Esto que dicta la lógica está, sin embar- sistemáticas, con una metodología explícita,
go, muy lejos de la realidad. idealmente especificada en un protocolo. Una
Como los ponentes dejaron muy claro desde vez obtenidos los estudios pertinentes, los in-
el principio, tal jerarquía es flexible, como lo es cluidos en la revisión en ocasiones pueden me-
la clasificación de la confianza que nos ofrece. taanalizarse de manera conjunta, pero no siem-
Estudios observacionales que a priori merecen pre, por diversas circunstancias. Asimismo, los
poca confianza pueden aumentarla si reunen una estudios pueden no haber medido una variable
serie de requisitos, que la mejoran. Del mismo de manera similar, o haber reportado los resul-
modo, estimaciones procedentes de un ensayo tados numéricos de distintas maneras o inclu-
clínico, incluso aleatorizado –lo que es clave para so de forma incompleta. Una cosa está clara:
empezar a confiar en este tipo de estudio– pue- siempre que sea razonable, los autores llevarán
den no ser buenas si el ensayo está mal diseña- a cabo un metaanálisis, algo que suma valor a
do y ejecutado. la investigación porque aumenta la precisión de
Sin embargo, la confianza en los resultados los resultados.
no es el único criterio que los periodistas segui- En la definición de «metaanálisis» hubo algo
mos a la hora de informar. Obviamente, el prime- de controversia entre los participantes en la jor-
ro será si la información en cuestión nos pare- nada. Según se explicó, este tipo de estudio

-34-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


supone poder combinar pacientes de diferen- boración Cochrane. Ésta es una entidad en la
tes trabajos previos. ¿Se trata, entonces, de un que colaboran más de 28.000 investigadores
artificio estadístico? Algunos de los ponentes de más de 100 países (incluido España), y que
prefirieron cambiar esa palabra (artificio) por una se dedica a hacer revisiones sistemáticas sobre
más neutra: método. Su argumento fue que pro- los temas más variados. Si hay una revisión de
porciona respuesta a dos preguntas cruciales: este tipo sobre un tema polémico, sus conclu-
1) cuál es el efecto de la intervención en estudio siones son dignas de figurar en la información
y 2) cuál es el grado de homogeneidad de este periodística.
efecto entre los diferentes estudios. Tenemos así una herramienta que los perio-
En cualquier caso, los expertos nos ofrecie- distas científicos hemos de consultar con regula-
ron algunas claves para detectar una buena re- ridad, ante informaciones que llegan a la redac-
visión sistemática. En primer lugar, la revisión de ción, el estudio de radio o el plató de televisión. Si
los trabajos ha de ser sistemática, es decir, se entramos en la web de la Colaboración Cochrane
ha de buscar todo lo que se ha publicado so- (www.cochrane.org) y accedemos a Top 50 Re-
bre una determinada hipótesis. «Nos debe aler- views, veremos algunos ejemplos interesantes,
tar que alguien realice un metaanálisis sin haber como revisiones sobre si el uso de estatinas pre-
hecho una revisión sistemática; si no, no hay viene la enfermedad cardiovascular en las perso-
manera de trazar lo que hay metido ahí dentro, nas sanas, si los suplementos con antioxidantes
puede que sean los estudios favoritos de los au- previenen la mortalidad o si la vitamina C es útil
tores. Es la principal cautela que hay que tener para prevenir los tan frecuentes catarros. Seguro
a la hora de mirar una revisión», señaló Pablo que, como periodistas, hemos recibido informa-
Alonso. ciones sobre estos temas a lo largo de nuestra
Al hablar de homogeneidad de estudios para carrera; la próxima vez, sabremos qué consultar
poder incluirlos en un metaanálisis, tampoco hay antes de decidir incluirlas o no. Es aconsejable
que exagerar. No se trata de que sean trabajos mirar otras revisiones sistemáticas, pues hay vida
exactamente iguales, pero sí tienen que intentar más allá de la Cochrane. Una buena fuente es
responder a la misma pregunta. Por ejemplo, si el metabuscador TripDatabase (http://www.trip
el metaanálisis evalúa el valor de una intervención database.com/), que clasifica los resultados en
terapéutica, ésta ha de ser similar en todos los diferentes categorías.
trabajos, pudiendo variar la dosis, el comparador Sin embargo, está claro que los bioestadísti-
(por ejemplo, incluyendo placebo y no interven- cos no son partidarios de las soluciones fáciles.
ción) e incluso las características de los pacien- Así, aunque la Cochrane goza de su confianza,
tes, aunque sólo ligeramente. Como dijo Pablo Pablo Alonso indicó que «no todas sus revisiones
Alonso, «tiene que tener un sentido biológico y son de igual calidad». Pero la realidad, señalaron,
clínico a la hora de combinar los estudios, que no es que hay estudios empíricos que comparan
chirríe al incluir pacientes o intervenciones com- revisiones de esta organización y otras, y con-
pletamente diferentes; por eso hay unos criterios cluyen que, en términos generales, las primeras
de inclusión y exclusión consensuados en las re- tienen una mayor calidad.
visiones sistemáticas». Una revisión sistemática debería tener un pro-
Los periodistas insistían: ¿cómo distinguir tocolo, hacer una pregunta específica y llevar a
qué metaanálisis es el mejor? De nuevo, la clave cabo una búsqueda rigurosa, bien descrita en la
está en la calidad. «El drama del metaanálisis es publicación. Ejemplos de buenas prácticas son
la heterogeneidad», dijo Erik Cobo. las que consultan más de una base de datos,
Al final se consiguió la receta que los comu- expertos, referencias bibliográficas, registros de
nicadores estábamos buscando. Cuando se ensayos clínicos e incluso inquieren a la indus-
busca la respuesta a una pregunta científica tria farmacéutica. Además, han de hacer una
polémica, una buena estrategia es averiguar, en evaluación del riesgo de sesgo, es decir, eva-
primer lugar, si existe una revisión de la Cola- luar de alguna manera la calidad de los estudios

-35-
Diálogo 1 Herramientas estadísticas, buenos consejos y cierta intuición periodística

que incluyen. Si queremos profundizar más en La p y el intervalo de confianza


la interpretación de una revisión sistemática, es
El bioestadístico añadió algunas afirmaciones sin
aconsejable consultar una fuente con experien-
duda curiosas. Por ejemplo, que p (ese núme-
cia. Al fin y al cabo, la metodología de las revisio-
ro que establece hasta qué punto una hipótesis
nes sistemáticas, y la estadística en general, es
puede ser debida a la casualidad) «ha de jubi-
toda una ciencia.
larse» y que es mejor fijarse en otro parámetro,
Que la bioestadística sea una ciencia no
como es el intervalo de confianza. «Los investi-
quiere decir que los periodistas no nos poda-
gadores, al publicar, siguen la tradición. Por eso,
mos formar en ella. Así, Erik Cobo fue más allá
esta jubilación sólo se conseguirá si disponemos
y recomendó a los comunicadores presentes la
de guías sobre cómo publicar artículos. No olvi-
lectura y el estudio de la guía Prisma,1 elabora-
demos que las revistas científicas no publican ar-
da para evitar la inercia de los investigadores y
tículos buenos, sino los mejores que les llegan»,
consistente en una serie de ítems que éstos de-
afirmó.
ben preguntarse para saber si están elaboran-
do correctamente un metaanálisis. Por ejemplo, Los periodistas presentes en la jornada pre-
todo buen metaanálisis ha de incluir información guntamos por ejemplos prácticos. Al fin y al
sobre cuándo se empezaron a recoger los da- cabo, teníamos que salir de esta reunión sabien-
tos y cuando cesó su recopilación. Es útil tam- do cazar al vuelo un metaanálisis y diferenciarlo,
bién, por tanto, para evaluar la calidad de los además, de otros tipos de estudios.
metaanálisis ajenos y no sólo los que se están El ejemplo clásico, señaló Pablo Alonso, es
llevando a cabo. una revisión sistemática publicada en la década
Erik Cobo recordó por qué se creó esta guía de 1990 que evaluaba la eficacia de un fármaco,
y otras similares, que pueden consultarse en la la lidocaína, para prevenir arritmias en los pa-
web de la Red Equator (http://www.equator- cientes que habían sufrido un infarto agudo de
network.org): «Se supone que los investigado- miocardio. El medicamento se aplicaba desde
res son los profesionales que rompen fronteras, 20 años atrás. Algunos estudios observacionales
que consiguen que la sociedad vaya más lejos, parecían demostrar un posible efecto beneficio-
pero hay casos clarísimos de cosas absurdas so en la disminución del riesgo de muerte, pero
que se hacían en todas las revistas de investi- algunos investigadores empezaron a cuestionar
gación sobre las que los estadísticos llevábamos la idea y se iniciaron ensayos aleatorizados, que
años advirtiendo». Antes de que surgieran este compararon la evolución de los pacientes tra-
tipo de iniciativas, no era raro que los investiga- tados con lidocaína con la de aquellos que no
dores utilizaran como argumento para emplear recibían el fármaco. Aunque estos estudios por
una determinada metodología que era la que se separado apuntaban (de manera no concluyente)
utilizaba en una revista de referencia. Por eso, los que los enfermos que tomaban el medicamento
metodólogos se unieron con placer a la iniciativa morían más, se continuaron haciendo ensayos
para buscar transparencia en las investigaciones clínicos y hubo que esperar a que alguien rea-
científicas, iniciada por el grupo de investigado- lizará una revisión sistemática (con metaanálisis)
res y editores médicos herederos del llamado para que cambiara la práctica clínica y se aban-
Grupo de Vancouver, que lideró la mejora de la donara el uso de lidocaína con este fin. Dicho
calidad de los originales científicos. ¿Era esto ne- metaanálisis se publicó en la década de 1990,
cesario? «Hay una argucia que se utiliza mucho: pero si se hubieran metaanalizado los estudios
un investigador pide al estadístico que le haga llevados a cabo en la década de 1980 ya se hu-
el análisis lo más complicado posible, para que biera visto que el efecto era claramente perju-
revisores y editores no entiendan nada y no les dicial. Conclusión: durante muchos años, miles
quede más remedio que tragar; esto se usa y es de personas fueron tratadas innecesariamente y
contrario a las ideas originales de los estadísti- con consecuencias muy graves. ¡Como para no
cos”, apuntó Erik Cobo. valorar las revisiones sistemáticas!

-36-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Estudios observacionales Las cohortes tienen, por definición, una du-
ración larga. El ejemplo clásico es la cohorte del
Cuando parecía que ya todo estaba explicado,
estudio Framingham, un trabajó que empezó
el epidemiólogo José Luis Peñalvo, del Centro
en 1948 en el pueblo de la costa este de Es-
Nacional de Investigaciones Cardiovasculares,
tados Unidos del mismo nombre y que sirvió
añadió un nuevo dato en el cual fijarse: que no
para establecer los factores clásicos de riesgo
es lo mismo un metaanálisis de estudios experi-
cardiovascular. Actualmente se está estudiando
mentales que uno de trabajos observacionales.
la tercera generación, los nietos de los primeros
Los estudios observacionales ocupan mu-
voluntarios que accedieron a que un equipo de
chas veces los distintos medios de comunica-
cardiólogos les vigilara de por vida. Ahora, los
ción. Cada vez que leemos informaciones que
factores que se estudian están más centrados
asocian un determinado factor de riesgo a un
en la herencia.
efecto, es más que probable que la información
Por último, son importantes los estudios ob-
venga de un trabajo de este tipo, por lo que
servacionales transversales, también muy ha-
conviene saber un poco más sobre ellos. A fin
bituales y muy presentes en los medios de co-
de cuentas, como observó Cobo, la búsque-
municación. Un ejemplo claro son las encuestas
da de causas es la pasión favorita de las mentes
nacionales de salud (en España se realizan cada
más racionalistas, a diferencia de la confirmación
2 años). Se trata de establecer tendencias con
de efectos que persiguen las más pragmáticas y
datos a partir de estudios observacionales. Un
empíricas.
ejemplo de este tipo de estudio son las informa-
La primera clave sobre los estudios observa- ciones que, a partir de combinar la información
cionales es básica para el periodismo. Con los de varios “cortes” transversales en la población,
estudios observacionales no puede inferirse cau- relacionan la entrada en vigor de la Ley Antitaba-
salidad. «Lo único que podemos deducir es una co con la disminución de episodios cardiovascu-
asociación o una relación y, dentro de ésta, to- lares o de muertes por esta causa.
dos los grados de gris: fuerte, modesta, no signi-
ficativa, una tendencia…», señaló Peñalvo. En la
escala de fuerza de asociación, hay tres tipos de La importancia de la causalidad
diseño: de casos y controles, transversales y En realidad, destacaron los expertos, nunca
de cohortes. podrá decirse con total seguridad que una cir-
Los estudios de casos y controles respon- cunstancia ha llevado a la otra, y como ocurre
den a un tipo de diseño observacional que es siempre con la epidemiología observacional, la
muy atractivo, porque es muy rápido. No hace relación no necesariamente será causal. El de-
falta mucha infraestructura y son perfectos para bate se complicó aún más cuando Erik Cobo
estudiar hipótesis sobre enfermedades de baja reflexionó en alto: «¿Y si, en ocasiones, no im-
prevalencia. ¿Cómo se llevan a cabo? Se acude portara realmente si es causal o no?». Así, este
a un hospital y se seleccionan todas las personas estadístico habló de un ejemplo concreto: los
que ingresen con una determinada enfermedad, estudios que asocian las modificaciones de las
a las que se denominará «casos». Después se leyes de seguridad vial con la reducción del nú-
establecen una serie de criterios para escoger mero de muertos en la carretera. «Si decidimos
unos «controles», que estarán emparejados por titular La nueva Ley ha evitado 100 muertes no
tener similitudes con los casos. Posteriormen- lo hacemos bien; si titulamos Desde la entrada
te, se utilizan registros o se hacen preguntas a en vigor de la Ley ha descendido el número de
los participantes, por ejemplo sobre elementos muertes, el titular es neutro y correcto», explica
a los que están expuestos, y se establecen aso- Cobo, que sin embargo añadió: «A mí, como ciu-
ciaciones. Son, en definitiva, estudios rápidos y dadano, los dos titulares me son útiles. A veces
fáciles de hacer que, en ocasiones, se realizan los estadísticos nos ponemos muy antipáticos»,
dentro (anidados) de estudios de cohortes. concluyó.

-37-
Diálogo 1 Herramientas estadísticas, buenos consejos y cierta intuición periodística

De este primer diálogo entre periodistas y habitualmente: los bioestadísticos, que sin duda
estadísticos queda claro que existen muchas tienen mucho que decir.
herramientas que los primeros podemos utilizar
para informar correctamente sobre las investi- Bibliografía
gaciones científicas. No obstante, es evidente 1. Moher D, Liberati A, Tetzlaff J, Altman DG, The
que sigue haciendo falta formación, una cierta PRISMA Group. Preferred reporting items for sys-
intuición y, sobre todo, consultar a los expertos. tematic reviews and meta-analyses: the PRISMA
Sólo que ahora, en la agenda, habrá que añadir statement. PLoS Med. 2009;6:e1000097. Dispo­
un apartado al de investigadores, cardiólogos, nible en: http://www.plosmedicine.org/article/info%3
físicos o cualesquiera categorías que utilicemos Adoi%2F10.1371%2Fjournal.pmed.1000097

-38-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Una cosa es conocer
la causa y otra
dar con la solución

Casino / Ventura

Diálogo 2
Sobre los estudios observacionales
y su tratamiento periodístico
Pablo Francescutti

El segundo diálogo se centró en los estudios ob- es algo que os toca a vosotros determinar. Lo
servacionales y su tratamiento en los medios de que sí podemos es repasar lo que se ha dicho a
comunicación, pero desbordó este marco inicial lo largo de la jornada: diferentes diseños ofrecen
para adentrarse en otras cuestiones de interés diferentes niveles de confianza de entrada, con-
periodístico. La sesión, también moderada por fianza alta los ensayos clínicos y baja los obser-
Gonzalo Casino, contó con la presencia de los vacionales. Ése es un primer criterio. Otros pará-
dos expertos de la mañana, Erik Cobo y Pablo metros a tener en cuenta son que la cuestión que
Alonso, y dos periodistas, Esperanza García Mo- se plantearon los investigadores sea relevante y
lina y Pablo Francescutti. que el diseño elegido sea adecuado para res-
Esperanza García Molina inició el debate con ponder a esa cuestión. Conviene tener presente
una cuestión muy concreta y de gran valor prácti- que en cada estudio observacional, al igual que
co en términos periodísticos: ¿en qué elementos en los ensayos clínicos, hay una serie de posi-
debe fijarse un periodista que tiene entre manos bles sesgos, sesgos de detección, de realización
un estudio observacional para saber si merece y otros. Dependiendo del estudio habrá que ha-
difusión? cer una serie de preguntas para saber si ha sido
bien ejecutado, cómo se reclutó la muestra, si
Alonso: Nosotros no podemos entrar a valorar se ajustaron los factores de confusión, y cómo
la importancia periodística de un estudio, porque se hizo el seguimiento. Cada estudio tiene unas

-39-
Diálogo 2 Sobre los estudios observacionales y su tratamiento periodístico

características sobre las que hay que hacerse por eso algunos ensayos se diseñan para poder
preguntas específicas, y eso requiere un conoci- estudiar ese contagio entre unidades. Pero por
miento básico de cómo leer críticamente un es- lo habitual se asume que las unidades se com-
tudio observacional (ya sea, por ejemplo, de ca- portan independientemente y se hace el análisis
sos y controles o de cohortes), de cómo valorar sobre esta base. Por lo tanto, la lectura correcta
su diseño y ejecución (riesgo de sesgo), y de qué de un ensayo clínico sería la siguiente: asumiendo
factores aumentan o disminuyen la confianza, ciertas todas las premisas, entre las que resalta
por ejemplo, sabiendo que ésta será mayor si se que el efecto es independiente en las unidades
ha establecido una asociación muy importante o –y habiéndose cumplido todo lo recién dicho por
existe un gradiente dosis-respuesta (en el caso Pablo Alonso– podemos afirmar que el efecto de
de los observacionales), y que será menor si los esta intervención es el siguiente: “…”. Por eso, en
resultados son inconsistentes, si son imprecisos general debemos ser muy modestos al hablar de
y si no son directamente aplicables a la población los resultados, incluso delante del mejor diseño
que interesa. que tenemos, que es el ensayo clínico. En lo rela-
tivo a los estudios observacionales, tenemos que
García Molina: Mi segunda pregunta tiene que ser muy transparentes con lo que hemos obser-
ver con la causalidad. ¿Nunca puede decirse de vado y lo que interpretamos. Faltaría más que los
un estudio observacional que ha establecido una autores del estudio Framingham no terminasen
relación causa-efecto? postulando que, si se logra bajar la presión arterial
de las personas, a largo plazo bajarán los eventos
Cobo: Para que nos entendamos, siempre es de- cardiovasculares. Es magnífico que interpretaran
licado hablar de causalidad, incluso en un ensayo así sus resultados, pero tienen que dejar claro
clínico. Recordemos que existen dos formas de que lo que identificaron es una “simple” relación
razonar: una es la deductiva, en la que partimos entre dos variables: aquellos con la presión más
de unos principios que damos por ciertos, que alta fueron luego quienes sufrieron más eventos
podemos llamar premisas; y la otra es la inducti- cardiovasculares al cabo de unos años. Luego,
va, en la que partiendo de unos pequeños casos por supuesto, pueden tocar en la discusión as-
intentamos generalizar lo observado a muchos pectos que no fueron observados en el estudio, y
otros. Decía esta mañana que no tenemos que plantear la hipótesis de que si se consigue bajar la
hablar de las leyes de Newton sino del modelo presión arterial de las personas, quizás disminu-
de Newton, porque las piedras no están obliga- yan a largo plazo los ictus, los infartos, etcétera.
das a seguirlo o ir a la cárcel si no lo hacen. Por Este razonamiento especulativo es lícito, pero hay
eso resulta una vanidad decir que estamos es- que dejar claro que lo estás haciendo. Volviendo
cribiendo las leyes de la naturaleza; lo que tiene a tu pregunta: ¿pueden estos autores hablar de
mucho mérito es que somos capaces de elaborar causalidad? Sí, pero dejando muy claro que esa
modelos que nos permiten construir edificios que relación no se deduce directamente de ningún
se aguantan, y eso ya es mucho. Un modelo es estudio si no le añade alguna premisa más. Y
una esquematización de la realidad en un lengua- por supuesto, los observacionales requieren más
je muy abstracto, que tiene la ventaja de que lo premisas. Una diferencia del ensayo clínico con
interpretan igual un japonés y un americano. Pero el observacional es que cuando le dices a una
estos modelos también tienen sus propias pre- persona que haga algo, lo hará o no lo hará. Si a
misas. Todos los ensayos clínicos, que se sitúan alguien le dices que no se vaya de su comunidad
en el nivel máximo de evidencia, tienen premisas; durante su tiempo de vida porque quieres hacerle
por ejemplo, el efecto que observamos en una un seguimiento durante 30 años, no tiene por qué
persona es independiente del efecto que obser- hacerte caso. Estas impurezas puedes verlas en
vamos en otra. Esta premisa puede no cumplirse un estudio experimental, pero en un estudio ob-
en el caso de una vacuna, porque si un individuo servacional no, por lo que es una incertidumbre
no se contagia, será más difícil que otro lo haga; adicional que conviene destacar.

-40-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Casino: Quiero reformular la pregunta de Gar- «¿con qué decisión viviremos mejor?». Sanders
cía Molina, que es clave: ¿cuándo puede hacer- Greenland, el gran epidemiólogo, zanjó la discu-
se una inferencia causal? Pongo un ejemplo: la sión en los años 1990 diciendo que el problema
relación entre el tabaco y el cáncer. Hace unos no radica en lo que no sabemos, sino en decidir
60 años se puso en marcha un célebre estudio qué es lo más sensato hacer. ¿Qué daño cau-
observacional: el de los médicos británicos, que saremos a la humanidad si alertamos de que el
se prestaron a participar distribuyéndose en dos tabaquismo mata y luego resulta que la causa
cohortes, una de fumadores y otra de no fuma- del cáncer es, por ejemplo, cierto contaminante
dores, para ver qué consecuencias tenía para su común en todas las fábricas? Que algunos deja-
salud. Recordemos que por aquel entonces in- rán de fumar y unas empresas dejarán de ganar
cluso algunos médicos aparecían fumando en los dinero. ¿Y qué daño causaremos si no ponemos
anuncios de cigarrillos. Fijaos cómo ha cambiado el anuncio y más tarde se confirma que el tabaco
la situación desde mediados del siglo xx, cuando es realmente la causa? Los epidemiólogos tienen
los facultativos se mostraban fumando, hasta el la respuesta: 60.000 muertes al año en España.
día de hoy en que se nos dice «Fumar mata» o
«Fumar produce cáncer de pulmón». Todo empe- Francescutti: Me gustaría profundizar en el
zó con un estudio observacional, a principios de asunto planteado por mi colega Esperanza Gar-
la década de 1950. En 1964, la Food and Drugs cía Molina, esto es, los criterios que debemos se-
Administration de Estados Unidos ya asociaba el guir los periodistas a la hora de interpretar datos
tabaquismo con un mayor riesgo de cáncer de biomédicos. Quiero referirme a la importancia del
pulmón. Con el tiempo y la acumulación de prue- tamaño de las muestras de los estudios observa-
bas científicas, se ha pasado de establecer una cionales, y para ello haré un paralelismo con los
asociación a establecer una relación causal. sondeos electorales. A los periodistas nos han
dicho que una muestra de entrevistados inferior
Cobo: Es magnífico tu ejemplo. Aquí se cumplen a 1000 personas no es representativa de la opi-
de manera impecable y perfecta los criterios fija- nión de toda la sociedad. ¿Podemos trasladar
dos por Bradford Hill: si se cumplen, la interpre- ese parámetro a los estudios observacionales
tación más plausible de la relación entre tabaco y clínicos? ¿Cuánta gente debe participar para
y cáncer de pulmón es la causalidad. La prueba fiarnos de sus resultados? ¿Es el tamaño de la
definitiva la tendríamos el día en que hiciéramos muestra el criterio decisivo, o debemos prestar
un diseño experimental asignando niños y ado- más atención a la fuerza de la asociación o cau-
lescentes a grupos de fumadores y no fumado- salidad identificada?
res. Pero eso, afortunadamente, no lo podemos
hacer; no podemos decir «te ha tocado el grupo Cobo: El tema que planteas exige una respuesta
fumador de los 13 a los 43 años». Si alguien me técnica. Para seguir en el plano de los sondeos,
pregunta si disponemos de evidencia suficiente remitámonos a la opinión de los catalanes sobre
para poner en las cajetillas de cigarrillos la leyen- el proceso soberanista. Imaginemos que en mi
da «Fumar mata», tendré que decir que no te- bolsillo derecho llevo la opinión de 5000 amigos
nemos el mismo nivel de evidencia que se exige míos, y en el izquierdo la de 100 catalanes esco-
para introducir un fármaco en el mercado, ya que gidos al azar por toda Cataluña. ¿Cuál preferís?
nos basamos en bastantes más presunciones. Obviamente la opinión de los 100 escogidos al
Dicho esto, añadiré que ha sido triste que haya- azar, porque más importante que la cantidad de
mos esperado 30 años para colocar dicha leyen- los datos es su calidad. La estadística mide el
da en las cajetillas, porque se tenía que haber he- azar; no puede medir cómo son mis amigos, pero
cho caso a Hill mucho antes y, en consecuencia, sí cuantificar hasta qué punto el azar ha influido en
haber puesto ese anuncio quizás en la década que sean de un color político u otro. La respuesta
de 1960. La pregunta que debemos formularnos está en el intervalo de confianza. El mérito de la
no es «¿qué sabemos sobre el tabaco?» sino estadística es el de precisar el intervalo de con-

-41-
Diálogo 2 Sobre los estudios observacionales y su tratamiento periodístico

fianza. Y eso autoriza a decir que las opiniones Cobo: Un matiz: cuando se describió el sida, ¿en
expresadas por estos 100 individuos nos mere- cuántos casos se basaron? En muy pocos. Si se
cen una confianza del 90%, pongamos por caso. trata de un estudio muy novedoso, unos pocos
Y si hubieran sido 2000 encuestados, la confianza casos podrán bastar para sacar conclusiones de
sería mucho mayor. Ciertamente, en las encues- interés; pero si quieres aportar algo nuevo sobre
tas hechas al azar intervienen otros factores: que un tema conocido, debes seguir las reglas que
todos los votantes respondan, que no mientan, apunta Alonso.
que no cambien de intención de voto en los días
siguientes… Pero si se cumplen esas premisas, Alonso: Es verdad. Tomemos el descubrimiento
la estadística sabe cuantificar el margen de error del valor terapéutico de la adrenalina en el shock
y el intervalo de confianza. Los encuestadores anafiláctico. El cambio que produjo en su trata-
honestos te dirán que hubo un 15% de entrevis- miento fue tan espectacular que no se necesita-
tados que no quisieron decir lo que votaban, y ron muchos ensayos para darlo por bueno.
entonces lo más honrado sería estimar hasta qué
punto esas “no respuestas” afectan sus conclu- Francescutti: Algo similar ocurrió cuando des-
siones. En el blog de la Sociedad Catalana de Es- cubrieron que un tratamiento antibiótico curaba
tadística se analiza el patinazo generalizado de las definitivamente la úlcera estomacal.
encuestas en las últimas elecciones autonómicas,
como también lo hubo en 2003. ¿Cómo interpre- Alonso: Sí, porque se produjo un efecto muy
tar estos fallos? Asumiendo que las encuestas no llamativo. De todos modos, mantengamos la
pueden predecir el cambio de voto en las dos o prudencia ante estudios con un intervalo de con-
tres semanas previas a las elecciones, un lapso fianza estrecho, en los que con muy pocos even-
en el que en Cataluña sucedieron muchas cosas tos y muy pocos pacientes puede observarse un
que podían cambiar el voto. Intuyo que esas en- efecto importante. Hay trabajos que hablan de
cuestas no son capaces de detectar los cambios la fragilidad del valor p en tales estudios, ya que
finales, pero si tomamos las encuestas a escala cambiando el desenlace (outcome) de uno o dos
global, lo que parece mentira es lo mucho que casos tales efectos desaparecen por completo,
aciertan preguntando a tan pocos. de modo que extremad la precaución.

Alonso: Aparte del intervalo de confianza, muy Francescutti: Quiero hacer una reflexión acer-
útil para determinar si los resultados son precisos ca de la pirámide de la evidencia que vimos esta
o no, existe una regla de la abuela: cuando los mañana. Cuando la explicabais caí en la cuenta
datos proceden de ensayos clínicos con menos de que en periodismo se suele invertir esa pirá-
de 100 eventos, la confianza que nos merecen mide: las noticias basadas en estudios in vitro
es baja o muy baja; cuando la muestra cuenta y con ratones, situadas en el nivel más bajo de
con cientos de eventos, nos inspira una confian- confianza, compiten por la primera plana con los
za moderada; y cuando disponemos de miles de estudios epidemiológicos, más fiables. Los me-
pacientes o eventos, una confianza alta. taanálisis prácticamente no son noticia, salvo en
revistas médicas o reportajes. Me parece lógico
García Molina: He visto publicados estu- que una publicación especializada destaque un
dios neu­rológicos llevados a cabo con resonan- estudio con células o ratones, pero me pregun-
cia mag­nética que sacan conclusiones con ape- to cuál es el justo lugar que debemos dar a sus
nas 10 pacientes. resultados cuando escribimos para un medio ge-
neralista.
Casino: Está claro que cuando nos están ha-
blando de unas pocas decenas de pacientes, Casino: Voy a devolver la pelota a los científi-
hay que extremar las cautelas y tener cuidado cos. Que los periodistas hablemos de estudios
con las conclusiones. en ratones es a menudo una consecuencia de

-42-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


la influencia de la maquinaria informativa de la dentro de bastantes años podría tener algún im-
que forman parte los centros de investigación, pacto en la salud humana.
las revistas de impacto, los comunicados de
prensa y los investigadores. No veo el proble- Alonso: Pero al hacerlo estás introduciendo rui-
ma sólo en los periodistas que se hacen eco do en la población con mensajes que se confun-
de esos estudios preliminares, sino también en den constantemente. No creo que sea el objetivo
los científicos que se prestan a salir en la radio de la prensa general desinformar a la población
y otros medios de comunicación para airear, por con mensajes contradictorios, por muy atracti-
ejemplo, los efectos beneficiosos del aceite de vos que sean.
oliva en animales, sobre todo cuando el oyente
escucha la parte final de sus declaraciones sin
Público: A la gente le interesa la noticia que le
saber si están hablando de ratones o personas.
ofrecemos en la medida en que le afectará en
En muchos casos, la llamada de atención de-
el futuro. Por eso la pregunta habitual al científi-
bería dirigirse a los investigadores que quieren
co que presenta un estudio in vitro es «¿cuándo
salir en los medios para promocionar su carrera
prevé que tendrá aplicación?». Y te suelen con-
profesional y se prestan a informar de temas de
testar «no te lo puedo decir».
salud a partir de estudios en ratones. En cuanto
a la pregunta de Francescutti, hoy, con el escaso
Casino: Quienes hacen investigación básica en
espacio disponible en los medios, un periodista
el ámbito de la salud son conscientes de que tie-
tiene que pensarlo dos veces antes de cubrir un
nen menos posibilidades de obtener repercusión
estudio de laboratorio. Francamente, no veo que
mediática. Y cuando el aparato de comunicación
estos trabajos justifiquen la mayoría de las veces
de sus centros envía a los medios un comunica-
una noticia destacada en un periódico general, o
do de prensa sobre su trabajo, los investigado-
en un telediario, por más que trate del Alzheimer
res ya han entrado en la rueda mediática y muy
o de cualquier enfermedad de gran prevalencia,
a menudo acaban saliendo en los medios. Pero
si no es debidamente contextualizada.
es preciso que digan a los periodistas «cuidado,
esto es una investigación de laboratorio y no es-
Cobo: Lo habéis resumido muy bien: es la para- tamos hablando de nada que tenga que ver, por
doja entre el estudio inicial, que es sugestivo, y el ahora, con la salud humana».
final, que es confirmatorio de lo que ya sabíamos.
Pero os devuelvo la pregunta: aunque el primer
Cobo: Hace unos años se produjo una novedad
viaje de Cristóbal Colón fuera sólo tentativo, aun-
magnífica. Un metaanálisis realizado por la Co-
que tan sólo lanzase una posibilidad, aunque no
laboración Cochrane concluyó que no existían
estuviera confirmado su descubrimiento, ¿no os
evidencias para aconsejar el reposo en caso de
hubiera gustado a todos dar la noticia de que
lumbalgia; por el contrario, era aconsejable una
Colón regresó de las Indias?
actividad moderada. Es de agradecer que al-
guien hiciera la revisión y que hoy, gracias a ella,
Alonso: Eso no fue un hallazgo con ratones: fue la lumbalgia dure menos. ¿Por qué la prensa no
un hallazgo espectacular, aunque Colón no en- se hizo eco de una noticia tan importante? Sos-
tendiera bien a dónde había llegado. No fue tan pecho que porque preferimos las noticias positi-
preliminar como dices. vas. Si el metaanálisis, en lugar de decir que no
hay que aconsejar el reposo para la lumbalgia,
Cobo: Coged lo positivo de la analogía con Co- hubiera dicho que el ejercicio moderado puede
lón: cuanto más inicial es un descubrimiento, mejorar la lumbalgia, hubiera ofrecido un resul-
más peligroso resulta dar la noticia. Lanzaos, tado positivo y quizás habría tenido más impacto
pero sed muy prudentes y decid enseguida que mediático. Por eso, lo que apuntó Valentín Fuster
se trata de un estudio con animales, y que sólo esta mañana me parece muy importante: debe-

-43-
Diálogo 2 Sobre los estudios observacionales y su tratamiento periodístico

mos ser positivos, y tanto más en el entorno en Casino: Si se ha hecho un estudio de salud muy
que nos movemos ahora. importante lo normal es que no se publique en Na-
ture, sino en alguna de las cinco grandes revistas
Público: Para mí la diferencia entre informar o de medicina. Casi con seguridad, estas revistas
no de un hallazgo en ciencia básica depende habrían rechazado el estudio del que yo hablaba.
mucho de la revista en que se publique. ¿Tengo
que fiarme de la publicación? Porque yo me guío Cobo: Cuando tenéis que coger la evidencia
por la publicación: si un artículo sale en Science existente y determinar hasta qué punto creer los
o Nature va a misa. resultados de un trabajo, os puede resultar muy
útil la declaración Consort de ensayos clínicos
Casino: Si los artículos vinieran con una clasifi- y estudios observaciones. Las grandes revistas
cación de confianza alta, media, baja y muy baja, médicas piden a los autores de los artículos que
las cosas serían más sencillas. digan en qué página o línea se está satisfacien-
do cada uno de los ítems de esa declaración.
Alonso: Esa confianza está implícita en que sean Es una posibilidad que tenéis. Con respecto a lo
publicados en Nature o Science. dicho sobre Nature, totalmente de acuerdo; esta
revista no sigue esas líneas de comprobación ni
Casino: Son dos jerarquías diferentes: la de la esas declaraciones, es de otro estilo y toca otros
revista, si es de mayor o menor impacto, y la je- temas. Otra cosa: atentos al cambio en los esti-
rarquía de confianza según la calidad del estudio. los de publicación. Existe una iniciativa que tras-
Y luego hay una tercera, que a menudo es la que lada el coste de publicación al investigador, ya
más importa para decidir si se informa o no: el que él paga por publicar y el lector tiene libre ac-
interés periodístico. ceso a los artículos. El modelo Plos, por ejemplo.
Otro cambio llamativo concierne a las críticas de
Alonso: Mi consejo a un periodista es que si los revisores y las respuestas de los autores, que
tienes un titular que te quema en las manos, ahora se publican en algunas webs. Esto permite
prudencia, porque un gran descubrimiento mé- a los periodistas conocer las críticas que los revi-
dico ocurre en contadas ocasiones. Las revis- sores han hecho al estudio.
tas científicas también viven de la publicidad y
necesitan titulares potentes. A veces las cinco Francescutti: Sin duda, estas enseñanzas pre-
grandes de medicina, The Lancet, New England sentan el mayor interés, aunque resultan difíciles
Journal of Medicine, British Medical Journal, de aplicar incluso por periodistas especializados.
JAMA y los Annals, pecan de lo mismo que al- Pero el problema mayor es que ya casi no que-
gunos periodistas y publican artículos fantásti- dan periodistas especializados en ciencia en las
cos sin examinarlos con el rigor necesario. Se redacciones; en los medios sólo hay “todoterre-
han publicado estudios interrumpidos antes de nos”, periodistas generalistas con menor capaci-
tiempo, sin criterios explicitados a priori para dad de discriminación en estos temas. En con-
evaluar los resultados, con pocos eventos y po- trapartida, prolifera la comunicación institucional
cos pacientes, en revistas de alto impacto, que de la ciencia, palpable en los press releases de
muchas veces han acabado contradiciéndose, los centros, instituciones y universidades que
incluida Nature. Como periodista tienes que te- bombardean a los escasos medios que quedan.
ner criterio propio, no puedes fiarte únicamente Y si llevar a la práctica esas enseñanzas en las
de las revistas. redacciones parece difícil, no digamos ya apli-
carlas en los gabinetes: veo muy difícil que sus
García Molina: A propósito de este punto, Casi- miembros vayan a enmendar la plana a los cien-
no señaló un estudio epidemiológico defectuoso tíficos de sus centros y a sus superiores, ambos
publicado en Nature, que no tiene gran tradición empeñados en dar la mayor repercusión a su in-
en esa disciplina. vestigación.

-44-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Casino: Sí, todo esto es un poco utópico… Así llo de dos productos que han llegado al merca-
es como deberíamos funcionar los periodistas, do, algo muy difícil para un producto farmacéu-
en el supuesto de que existiera un escenario tico. El dueño de la compañía no tenía ningún
adecuado para conducirnos mejor. interés en publicar los resultados de los ensayos
clínicos de sus fármacos. En aquella época no
Público: ¿Cuántos de los que estamos aquí ha-
había ningún apremio por publicarlos, pues lo
cemos periodismo?
que interesaba era que las agencias reguladoras
Casino: Probablemente muy pocos; la mayoría los aprobasen. Después de esa aprobación ya
se dedica a la comunicación. tiene interés publicar los resultados. Si volvemos
al ejemplo de los hipotensores, recordemos que
Público: Quería preguntaros sobre el sesgo que salen al mercado tras demostrar que bajan la
supone la financiación de la mayoría de los es- tensión. Más tarde, la FDA dice al fabricante «de-
tudios médicos por parte de la industria farma- muéstreme que su hipotensor también reduce el
céutica. ictus». «De acuerdo –le responde el laboratorio–
pero déjeme ponerlo en el mercado», y la FDA
Alonso: Hay muchos trabajos que comparan
le da la autorización. De esta manera se inician
resultados de estudios financiados por la indus-
los estudios de fase IV, ensayos que se realizan
tria con otros no financiados por ella, y detectan
después de la comercialización en los que se es-
un sesgo conocido: en términos estadísticos,
tudian muchos aspectos de un fármaco que ya
los estudios sobre fármacos financiados por la
está en el mercado y que el paciente tiene que
industria son más positivos que los demás. Mi
pagarse, con lo que la investigación le sale prác-
consejo: si un artículo está financiado por labo-
ticamente gratis al laboratorio. Para concluir esta
ratorios, examinadlo con más atención, e igual
sesión, deciros que si un estudio resulta crucial
manteneos atentos al sesgo intelectual del inves-
para conseguir que el fármaco llegue al mercado,
tigador, que quiere dar la vuelta a sus datos para
tomáoslo en serio; en cambio, si se trata de un
que sean noticiables y tengan más impacto.
estudio de un medicamento que ya está en el
Cobo: Soy de los pocos estadísticos que pue- mercado o de uso compasivo, miradlo con otros
den presumir de haber participado en el desarro- ojos.

-45-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Un riesgo que crece
del 1% al 2% puede
significar un aumento
del 1% o del 100%,
según se mire

González / Ventura

Talleres
Análisis de papers, comunicados de prensa
y artículos periodísticos
Esperanza García Molina

En la jornada de bioestadística para periodistas, o criterio de valoración?, ¿es adecuado el dise-


después de los diálogos se llevaron a cabo talle- ño del estudio?, ¿qué resultados ofrece?, ¿cuál
res prácticos para analizar informaciones científi- es su mensaje principal?, ¿cuál es su nivel de
cas con contenido estadístico, valorar su difusión confianza?, ¿es consecuente el press re­lease?,
en los medios de comunicación e identificar los ¿merece la pena informar?, ¿qué cautela habría
problemas que estos casos podrían plantear a que tener al informar? y ¿es correcto el titular pe-
los periodistas en el ejercicio de su profesión. riodístico?
Para trabajar sobre estas cuestiones, los parti- Los participantes se organizaron en grupos
cipantes en los talleres recibieron un dossier con de tres o cuatro personas con un representante
varios ejemplos, cada uno de ellos compuesto para responder a las cuestiones que se plantea-
por un artículo científico o paper, el comunicado ban en los talleres. Erik Cobo y Pablo Alonso fue-
de prensa redactado por la institución científica ron los dos expertos que dirigieron los talleres,
responsable de la investigación y artículos perio- junto al periodista Gonzalo Casino.
dísticos reales escritos sobre el estudio. Además, En este capítulo sobre los talleres prescindire-
en el dossier se planteaban una serie de cues- mos de publicar íntegramente los textos que se
tiones que los participantes debían resolver en utilizaron para no incurrir en violaciones de dere-
cada ejercicio. Las preguntas eran las siguientes: chos de reproducción de los artículos, tanto los
¿qué tipo de estudio es?, ¿cuál es el outcome periodísticos como los científicos. No obstante,

-47-
Talleres Análisis de papers, comunicados de prensa y artículos periodísticos

facilitamos las referencias bibliográficas suficien- cionó tomando en cuenta a los pacientes que
tes para encontrarlos. En el resumen de estos habían acudido a la consulta de un oftalmólogo
talleres se incluyen párrafos textuales, con las re- y se les pidió que cumplimentaran una encuesta,
ferencias a sus publicaciones, para poder seguir en la cual se reflejaban hechos que habían suce-
los ejemplos. dido con anterioridad. Erik Cobo aclaró que se-
Aunque el dossier incluía más ejemplos para leccionar a los participantes por la exposición no
trabajar, durante los talleres sólo se escogieron significa seleccionar sólo a los expuestos, sino
tres. Por falta de tiempo, únicamente en el prime- escoger un grupo de individuos y medir en ese
ro se completaron las 10 cuestiones planteadas; momento su grado de exposición.
en los otros dos, nos limitamos a analizar en de- Está claro, por tanto, que no se trata de un es-
talle el artículo científico, pero no su difusión en tudio de casos y controles. No se seleccionan los
los medios. casos y después se buscan los controles, sino
que se eligen pacientes, y de ellos unos tienen
miopía y otros no. Más tarde se pregunta si de
Primer ejemplo:
pequeños han estado expuestos a la luz durante
relación entre la miopía y la exposición
el sueño. Como no han sido seleccionados en
a la luz en niños menores de 2 años
función de su exposición ni de su resultado (mio-
El primer ejemplo analizado en los talleres se pe/sano), es una serie de casos. Las series de
basó en un artículo publicado en Nature en el año casos lo son independientemente de su tamaño:
1999 sobre miopía y medio ambiente, con el títu- pueden ser de dos o tres casos, o de muchos.
lo Myopia and ambient light at night.1 Aunque las dos variables se recogen en el mismo
Gonzalo Casino sugirió hacer primero una lec- momento del tiempo, una de ellas hace referen-
tura del artículo en diagonal, pensando en una cia al pasado, por lo que más investigadores lo
situación real de trabajo en la redacción, con po- clasificarían como longitudinal retrospectivo que
cas horas para valorar si hacerse eco o no de como transversal.
ese artículo y, en caso afirmativo, cómo hacerlo. ¿Cuál es el criterio de valoración en esta serie
Más tarde se respondieron las 10 preguntas para de casos o qué se está midiendo? La relación
valorar el paso del paper a la noticia. entre la miopía y la exposición a la luz. ¿Y qué se
El artículo trataba sobre un estudio en padres encuentra? Primero, que hay una asociación
de niños de 2 a 16 años de edad, pacientes de fuerte de la miopía con la exposición a la luz du-
una clínica oftalmológica pediátrica. Los padres rante el sueño. Además, que es dependiente de
completaron un cuestionario acerca del nivel de la dosis, una de las cosas que pueden aumentar
exposición a la luz que habían tenido sus hijos la credibilidad del estudio: cuanto mayor es la ex-
antes de cumplir 2 años. Concluía que la preva- posición a la luz, mayor es el riesgo de desarrollar
lencia de la miopía en la infancia tenía una fuerte miopía.
asociación estadística con la exposición a la luz ¿Es adecuado el diseño? Es un diseño poco
durante el sueño en los primeros 2 años de vida, fiable. En la pirámide que jerarquiza la calidad de
y que esta relación era dependiente de la dosis. los tipos de diseño está cerca de la base, y no
La primera cuestión planteada en el taller con- permite establecer causalidad. Su nivel de con-
sistía en delimitar de qué tipo de estudio se trata- fianza es muy bajo. Además, el estudio se ha
ba. Los participantes estaban de acuerdo en que hecho con una muestra de participantes obte-
no era un estudio de intervención, sino observa- nida de una clínica terciaria, que es una muestra
cional. ¿Pero de qué tipo? ¿Cohortes, series de difícilmente extrapolable a la población general.
casos, o casos y controles? Se recordó que el ¿Qué se echa de menos en la metodología?
criterio básico de un estudio de cohortes es que Que el estudio no se ajusta por la herencia fa-
la muestra esté seleccionada por la exposición. miliar de miopía, pues no se estudia en cada
Es un criterio clave que ayuda a distinguir el tipo caso si los padres son miopes o no. Además,
de estudio. En este caso, la muestra se selec- el estudio se basa en lo que han respondido los

-48-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


padres en un cuestionario sobre la exposición de perspectiva que se tiene en los datos. El espec-
sus hijos a luz hace muchos años; padres que, tro es más reducido y resulta más difícil encon-
además, han llevado a sus hijos a un oftalmó- trar relaciones, pero si se encuentran, la siguiente
logo. Una recogida de datos retrospectiva con pregunta debe ser si la relación encontrada es
un intervalo temporal en algunos casos de hasta aplicable a una ventana más amplia. Por otra
16 años es poco fiable. Gonzalo Casino señala parte, el análisis estadístico y el valor de p po-
que en este estudio interviene el sesgo de me- drían ser correctos, ya que no se distingue entre
moria. Una de las asistentes a la jornada añade relación y relación casual.
que se está preguntando a padres cuyos hijos A continuación se analiza la nota de prensa
tienen problemas de visión si les dejaban la luz que se preparó para difundir el estudio. En la
encendida de pequeños, y es fácil que cambien nota no se informa de que los casos han sido
sus recuerdos en busca de justificaciones para la seleccionados en una clínica. Un participante
miopía de sus hijos. en el taller cree preocupante que la nota, por un
En este punto, Erik Cobo interviene para se- lado, diga que no puede establecerse una rela-
ñalar que el sesgo de memoria puede ser ino- ción de causa-efecto entre la exposición a la luz
cente, en el sentido de añadir solamente más y la miopía, y sin embargo que por otro lado su-
variabilidad y ruido, o puede no ser inocente, giera que no es aconsejable exponer a los niños
«porque es posible que los padres de los niños a la luz mientras duermen. Cobo responde que
que han desarrollado miopía recuerden detalles si la nota dijera «los investigadores interpretan
de ese tipo con mayor facilidad, puesto que se que los niños deben dormir con poca luz» sería
fijaron en ellos». La clave para hacer un estudio impecable, porque es cierto que lo han interpre-
más fiable, añade Cobo, reside en que la recogi- tado así. Alonso añade que el titular de la nota
da de las dos piezas de información sea lo más de prensa es correcto: Near sightedness in chil-
independiente posible, que no pueda haber una dren linked to light exposure during sleep before
conexión entre ellas. Esto se consigue median- age 2. Linked, «relacionado» en inglés, es un tér-
te enmascaramiento. En un estudio de cohortes mino muy suave, pero no debería aconsejar un
prospectivo se recoge la información de las dos cambio de actitudes ante un estudio con tantos
partes de forma enmascarada. Cuando se reco- problemas de fiabilidad.
gen datos sobre la exposición nadie sabe lo que Seguidamente se pasó a analizar los artículos
pasará más tarde, y quienes toman los datos de periodísticos. El periódico español El País dedicó
la evolución no tienen delante los datos de expo- el 17 de mayo de 1999 un reportaje a este es-
sición inicial. tudio, con el título Los bebés no deben dormir
¿Por qué hay relación entre miopía y dosis? con luz, un titular que, a la vista del análisis ante-
Alonso comenta que puede ser causal o, por el rior, parece desafortunado. Alonso señala que la
contrario, deberse a que aquellos padres más fuente independiente escogida por la autora del
miopes expusieran a sus hijos a mayores inten- reportaje para contrastar la fiabilidad de los resul-
sidades de luz porque ellos mismos la necesita- tados, Eduard Estivill, es un médico especializa-
ban. Es otro factor de confusión. ¿Por qué se pu- do en temas de sueño, pero no oftalmológicos.
blicó este estudio en Nature, una de las revistas En este punto, Casino incide en la importancia
científicas de mayor índice de impacto? Alonso de consultar fuentes competentes en estadística.
responde que la revisión por pares de una revista En este caso, haría falta un experto que supiera
no es un salvoconducto que garantice la fiabili- indicar al periodista el principal punto flaco del
dad de un estudio. estudio: que no se ha controlado la herencia.
Entre el público, la periodista Ainhoa Iriberri Casino llama la atención sobre el artículo publi-
insiste en que el hecho de que la muestra se cado en el periódico británico The Guardian, con
haya recogido en una clínica resta validez al es- el título Babies left in the dark see way to a brighter
tudio. Cobo aclara que de esta manera se está future (13 de mayo de 1999), que contiene errores
reduciendo la ventana experimental, es decir, la importantes de interpretación. «Está escrito por

-49-
Talleres Análisis de papers, comunicados de prensa y artículos periodísticos

Tim Radford, considerado uno de los mejores pe- miopía, recordar que no se conocen los factores
riodistas científicos de los últimos años; una prue- que la provocan y plantear que este artículo ofre-
ba de que todos podemos meter la pata». Para ce una nueva hipótesis aún sin confirmar.
Casino, lo más interesante de los errores que se A favor de El País se recuerda que, más tar-
cometieron con esta noticia es observar cómo a de, publicó un segundo reportaje sobre una re-
la prensa se le fue de las manos la información visión posterior en Nature, diciendo que no se
sobre un estudio que presentaba muchas debili- habían podido demostrar las conclusiones del
dades. Alonso añade que hay que tener especial primer estudio y señalando sus limitaciones.
cuidado con noticias sobre mensajes muy nove-
dosos con diseños observacionales pobres.
Segundo ejemplo:
El artículo de The Guardian no contiene fuen-
las pelirrojas sufren más miedo
tes independientes del estudio, sólo cita a los pro-
al ir al dentista
pios autores. Es más, se atribuye declaraciones
propias del autor que no son tales, porque son El artículo de este segundo caso se publicó en
copia literal de la nota de prensa. Casino conti- diciembre de 2012 en la revista Journal of Endo-
núa poniendo como ejemplo de buena cobertura dontics, con el título Anesthetic efficacy of the in-
periodística el tratamiento que da el periódico es- ferior alveolar nerve block in red-haired women.2
tadounidense The New York Times a este artículo El objetivo del estudio, que en su resumen se
científico, al cual dedicó una noticia el 13 de mayo define como aleatorizado, era medir la posible
de 1999, a la vista del interés periodístico del relación entre la presencia del alelo de un gen
tema, pero en el penúltimo párrafo indicaba que (que tienen las personas pelirrojas) y la eficacia
el estudio era prematuro, incompleto y que no ha- de la anestesia para el nervio alveolar inferior.
bía tenido en cuenta un factor obvio como la he- Participaron en el estudio 62 mujeres pelirrojas
rencia. Es decir, se hace eco del estudio, pero lo y otras 62 con el pelo oscuro. Se les hizo res-
analiza con fuentes independientes, especialistas ponder un cuestionario para medir la ansiedad.
en oftalmología, que supieron leer el artículo con Después se les administró la anestesia dental y
perspectiva y ofrecer una visión crítica al periodis- se midió su efecto. No se encontraron diferen-
ta. En este sentido, Alonso opina que el perio­ cias en el efecto de la anestesia entre mujeres
dista puede obtener una ayuda más valiosa del pelirrojas y morenas. Sin embargo, las pelirrojas
especialista al que consulta si, en lugar de darle a manifestaron mayores niveles de ansiedad.
leer el paper sin más, le señala los puntos donde Este ejercicio se plantea, en primer lugar, con
sospecha que puede haber problemas. el objetivo de que los participantes en el taller
¿Los periodistas deberían haberse hecho eco sean capaces de averiguar el nivel de eviden-
del estudio o no? Casino opina que es cuestión cia del estudio. Cobo recuerda la pirámide de la
de perspectivas, pero lo que hizo el The New evidencia para analizar qué tipo de estudio es, y
York Times es perfecto. Además, el artículo se avisa de que tiene trampa. ¿Qué tipo de estudio
publicó sin firmar, lo cual es una lección de perio- es? Se trata de un estudio experimental. Es fácil
dismo. Un participante reflexiona que, si medios reconocerlo porque en el texto aparece la pala-
como El País y The Guardian, con suficientes re- bra «aleatorizado».
cursos, metieron la pata, ¿qué no pasará en me- ¿Cuál es el outcome? La medida entre 0 y
dios menores o sin especialistas en ciencia en 100 del nivel de ansiedad de las participantes en
las redacciones? Para Casino, «lo fundamental el estudio mediante una escala de ansiedad. ¿Es
es recordar que, en este caso, lo que falta es adecuado el diseño? En principio, si es aleatori-
un buen conocimiento del contexto del proble- zado, parece que sí. ¿Qué resultados ofrece?
ma, que no sabemos todavía cuáles son las Que las pelirrojas tienen más ansiedad al ir al
razones que provocan la miopía». Una manera dentista. ¿Pero en qué se sustenta esta afirma-
correcta de enfocar este estudio, según el perio- ción? Realmente sólo en los resultados del test
dista, es utilizarlo como percha para hablar de la previo al experimento. En el estudio intentan es-

-50-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


tablecer una relación entre la presencia de un gen se publicó en Eurekalert. Después de estas con-
concreto en las personas pelirrojas y una menor clusiones, no se siguió analizando el caso y se
efectividad de la anestesia, pero los resultados pasó al siguiente ejemplo.
de esta parte del ensayo indican que no existe
dicha relación. La anestesia les hace el mismo
Tercer ejemplo:
efecto que a las morenas. Por lo tanto, el único
¿son los efectos clínicos de la homeopatía
resultado que hallan es la respuesta ansiosa que
efectos placebo?
revela el test. Al leer el artículo se empieza a notar
que hay algo raro. El siguiente ejemplo es un artículo de revisión
Las conclusiones del artículo indican que el sobre la ineficacia de la homeopatía. Se publi-
pelo pelirrojo y la presencia de este gen están có en The Lancet en 2005 con el título Are the
ligados de manera significativa a un mayor nivel clinical effects of homoeopathy placebo effects?
de ansiedad. Se comparan los resultados de una Comparative study of placebo-controlled trials of
muestra en la cual la mitad de las mujeres son homoeopathy and allopathy.3
pelirrojas y la otra mitad no lo son; hasta ahí todo Los autores hicieron una revisión de ensayos
parece correcto, está equilibrado. Prosigue Cobo clínicos con tratamientos homeopáticos y fárma-
recordando qué significa la causalidad entre dos cos convencionales para estimar en qué medida
variables A y B: que al cambiar la variable A se podían estar afectados por sesgos. La búsqueda
consigue una modificación en la variable B. Pero, de estudios se realizó en 19 bases de datos, y la
si no se puede variar A, ¿para qué preguntarse si selección de ensayos en el Registro de Ensayos
la relación con B es causal? La pregunta clave Clínicos Controlados Cochrane, asumiendo que
en este caso es: ¿qué se ha aleatorizado en este aquellos que estuvieran realizados con doble cie-
estudio? No puede decidirse si una mujer será go y aleatorizados eran de calidad superior. Al
pelirroja o no, si tendrá o no un alelo. restringir el análisis a los estudios de alta calidad,
En realidad, los investigadores están haciendo se obtuvo una odds ratio de 0,88 con un interva-
un estudio de asociación, e introduciendo alea- lo de confianza de 0,65 a 1,19 para la homeopa-
torización en una variable secundaria, de adorno tía, y una odds ratio de 0,58 con un intervalo de
según Cobo; esta variable secundaria es el lugar confianza de 0,39 a 0,85 para la medicina con-
donde ponen la inyección de anestesia, en la vencional. La conclusión de este estudio es que
mandíbula derecha o en la izquierda. Se confun- hay una evidencia muy débil de los efectos espe-
de a los periodistas y a los editores de la revista cíficos de la homeopatía y una fuerte evidencia
haciendo creer que es un estudio aleatorizado, de los efectos de los fármacos convencionales.
del máximo nivel de evidencia, cuando las varia- Esto es compatible con la hipótesis de que los
bles de interés son observadas: el pelo pelirrojo, efectos de la homeopatía apenas se distinguen
la presencia de un alelo y el nivel de ansiedad. de los del placebo.
Cobo explica que normalmente pueden alea- El análisis de este caso en el taller fue muy
torizarse pocas variables dentro del mismo estu- útil para que los periodistas entendiéramos el
dio. Los estudios médicos aleatorizan una, que es significado de los conceptos de odds ratio y de
la variable sobre la cual se hace la intervención. intervalo de confianza. Cobo explicó que, entre
Pero el pelo pelirrojo es imposible de aleatorizar, las medidas del riesgo, la más sencilla es el ries-
porque no puede intervenirse en esta condición. go relativo. Se construye midiendo la proporción
Gonzalo Casino apunta otro detalle. El artículo se de personas que experimentan cierto suceso en
extiende al hablar de genética, cuando la publi- un grupo de estudio, la misma proporción en un
cación es una revista de endodoncia, en la que grupo de referencia, y después haciendo el co-
no escriben científicos sino endodoncistas. Es un ciente entre ambas.
estudio de baja calidad y nivel de evidencia, que Si, por ejemplo, se mide el efecto de un tra-
tuvo mucho impacto en los medios por ser lla- tamiento frente al placebo, y vale 0,88, esto sig-
mativo para el público y porque la nota de prensa nifica que el riesgo en los pacientes tratados dis-

-51-
Talleres Análisis de papers, comunicados de prensa y artículos periodísticos

minuye un 12% ([0,88 –1] x 100) respecto a los puede haber un riesgo de sesgo porque los en-
no tratados. Es decir, los pacientes sometidos a sayos no estén bien aleatorizados o controlados.
ese tratamiento tienen un 12% menos de riesgo No obstante, el análisis se hizo únicamente
de sufrir el suceso que los que toman placebo. para los estudios de alta calidad. La odds ratio
En el caso que se analiza, el intervalo de confian- en los estudios de homeopatía, con un valor de
za para las terapias homeopáticas es de 0,65 a 0,88, es no significativa, pues sólo representa
1,19. Comprende desde una reducción del ries- una mejoría del 12% respecto al placebo, explica
go del 35% ([0,65 –1] x 100) hasta un aumento Alonso. El intervalo de confianza, de 0,65 a 1,19,
del 19% ([1,19 –1] x 100), todo en términos rela- indica que la precisión es baja. Muestra tanto im-
tivos, no absolutos. portantes beneficios como perjuicios, por lo que
Continuamos con el ejercicio. ¿Qué tipo de estos estudios no son clínicamente relevantes.
estudio es? Es una revisión sistemática. Hay dos En este punto, Alonso aclara que cuando un in-
claves para reconocerlo. El estudio reúne lo que tervalo de confianza incluye el 1, esto quiere de-
hay publicado sobre un tema, es una búsque- cir que el tratamiento estudiado puede no tener
da exhaustiva. Además, evalúa la calidad de los ningún efecto positivo respecto al placebo.
estudios y para ello tiene en cuenta que los en- Cobo apunta que esto no quiere decir que
sayos sean a doble ciego (para evitar el sesgo ese tratamiento sea perjudicial, sino que el efec-
de realización) y que tengan la adecuada alea- to nulo es uno de los valores compatibles con
torización (para eliminar el sesgo de selección). los resultados observados para ese tratamiento;
Se asume que esos estudios tienen una meto- pero hay otros, unos positivos y otros negativos.
dología de mayor calidad y se escogen porque «Aquí aplica aquello de que ausencia de pruebas
los pacientes son dos grupos comparables, y ni no es prueba de ausencia», aclara Cobo. Alonso
pacientes ni médicos saben qué están tomando recalca que, para que pueda afirmarse que un
o prescribiendo. tratamiento reduce el riesgo, el intervalo de con-
¿Cuál es el criterio de valoración? La revisión fianza debe estar por debajo de 1. No obstante,
compara ensayos clínicos de medicina conven- aclara que, aun así, puede no ser clínicamente
cional de múltiples intervenciones frente a place- relevante por reducir muy poco el riesgo, resultar
bo, con todos los ensayos que encuentra de in- muy caro, tener efectos secundarios, etcétera. El
tervención homeopática frente a placebo. De los umbral varía en función de los efectos adversos y
homeopáticos hallaron más de 100 y buscaron de los inconvenientes.
otros tantos equivalentes de medicina conven- Seguimos analizando el intervalo de confianza
cional, que estudiaran las mismas enfermeda- en estudios equivalentes de alta calidad en me-
des y tratamientos parecidos, aunque evaluaran dicina convencional. Para estos casos, la odds
cosas diferentes. Luego metaanalizaron con un ratio es 0,58, lo que significa que los tratamientos
análisis estadístico conjunto todos los resulta- convencionales reducen el riesgo un 42% res-
dos de los estudios que comparaban homeo- pecto al placebo. El intervalo de confianza (0,39
patía frente a placebo, independientemente de a 0,85) está, en el peor de los casos, por debajo
lo que estuvieran comparando, y obtuvieron un de la unidad. La medicina convencional demues-
estimador global. Hicieron lo mismo con todos tra tener resultados positivos.
los estudios de tratamiento convencional frente a El intervalo de confianza cuantifica la magni-
placebo equivalentes a los de homeopatía, y así tud de la incertidumbre, añade Cobo, pero no
llegaron a tener dos estimadores. debe extraerse de él la idea de que el efecto es
Una de las conclusiones del artículo es que en diferente en distintos pacientes. Una de las pre-
ambos tipos de estudios, de homeopatía y de me- misas es que el efecto es el mismo en una misma
dicina convencional, los de baja calidad mostraron población. Asumiendo que el efecto es el mismo
un beneficio importante, mayor que los de alta ca- para todos los pacientes, el intervalo de confian-
lidad. Puede que, por intereses comerciales, sólo za indica cuáles son los valores plausibles para
se publiquen los casos positivos. Pero también este efecto común en una población.

-52-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Finalmente, se terminó este ejercicio con la 2. Droll B, Drum M, Nusstein J, Reader A, Beck M. An-
conclusión de que es una revisión sistemática esthetic efficacy of the inferior alveolar nerve block in
con un alto nivel de confianza. red-haired women. J Endod. 2012;38:1564-9.
3. Shang A, Huwiler-Müntener K, Nartey L, Jüni P, Dörig
S, Sterne JA, et al. Are the clinical effects of homoe-
Bibliografía
opathy placebo effects? Comparative study of pla-
1. Quinn GE, Shin CH, Maguire MG, Stone RA. Myopia cebo-controlled trials of homoeopathy and allopathy.
and ambient lighting at night. Nature. 1999;399:113-4. Lancet. 2005;366:726-32.

-53-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Las condiciones
no son causas útiles

Cobo / Ventura

problems with
media coverage and how to do better
Steven Woloshin and Lisa M. Schwartz

The two basic ingredients of good decision mak- in the New York Times (fig. 1). This ad does not
ing are facts and values. Facts refer to the avail- present facts, it presents fear. It says be afraid:
able choices and the likely outcomes of their you may feel healthy, but guess what, you may
choices. Values refer to how much people care have colon cancer. It says you can never feel safe
about the different outcomes and the associated because even when you seem well you may re-
tradeoffs (e.g., the potential benefits and harms, ally be sick. The ad is also highly exaggerated
costs and inconveniences of their choices). Peo-
ple can only make good decision when they have
the facts and some clarity about their values.
This simple model of decision making high-
lights a basic problem: without the facts, people
cannot possibly make good decisions. They may
make a lucky decision and have a good out-
come, but not an informed decision consistent
with their values.
When it comes to medical care, people see
lots of messages. Unfortunately, many do not
provide the facts. Consider this colon cancer
screening advertisement from Sloan Kettering
–a major cancer hospital in New York– which ran Figure 1.

-55-
Seeing through the hype: problems with media coverage and how to do better

Figure 2.

since most 50 year olds who feel great and have The Light of Life Foundation (a disease aware-
a healthy appetite do not have –and will not ness group founded by a thyroid cancer survi-
get– colon cancer. For example, on average, a vor) ran a series of ads to promote thyroid cancer
50-year-old man has a 3 out of 1,000 chance of screening (fig. 3).
being diagnosed with colon cancer in the next 10 The ad depicts Rachel, age 14, “the day be-
years and 1 out of 1,000 chance of dying from it. fore she was diagnosed with thyroid cancer”.
Or consider this direct-to-consumer adver-
tisement (fig. 2) promoting a drug for osteopo-
rosis –thinning of bones (only the US and New
Zealand permit direct to consumer advertising
of prescription drugs–  in the US, citizens are ex-
posed to over $4 billion of these ads each year,
ten times the FDA’s budget for evaluating new
drugs).
This ad looks like it presents facts –but it is
an illusion of facts. The “1 in 2” number greatly
exaggerates a woman’s risk of fracture. The “1 in
2” number includes both fractures that hurt (and
cause problems) and fractures that are small
(which can only be seen on x-rays and never
cause symptoms or problems). But most impor-
tantly, the vast majority of fractures from osteo-
porosis occur among women 75 and older –not
among women 50 to 75. The message in the fine
print reveals the true purpose of the ad: to make
women feel vulnerable and afraid. The print under
the numbers says: “You may be more vulnerable
than you think” (Fig. 2).
That a drug company might exaggerate risk
to sell a product is not so surprising. Seeing the
same tactic from a disease awareness group is. Figure 3.

-56-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Rachel says: “It would never happen to me. I’ve
got bigger things to worry about like homework,
friends and all the cute upper classmen”. And
the ad’s bottom line reads ”Confidence kills: Thy-
roid cancer doesn’t care how old you are. It can
happen to anyone. Including you or your child”.
We think this use of “facts” to generate fear in
young people and their parents is actually cruel.
A 15-year-old girl’s chance of getting thyroid can-
cer in the next 10 years is less than 1 out of 1,000
and the chance of dying from it about 1 out a mil-
lion. Because the disease is so rare, no profes-
sional medical organization recommends thyroid
cancer screening for young girls.
The prior three messages share a pattern:
using hype to generate extreme fear. But many
Figure 4.
messages go in the opposite direction. They use
hype to generate extreme hope.
In December 2003, the cover of the magazine, small and will never grow large enough to cause
U.S. News and World Report, declared “The end problems –let alone death. And a few people will
of heart disease” (which as of this writing in 2013 die from the surgery –not exactly a pardon.
remains the biggest killer in the United States). The problem is that messages exaggerating
Extreme hope also comes from leaders of our disease risk and treatment benefit are everywhere.
most esteemed organizations. During the U.S. The problem is that these messages cause harm.
National Institutes of Health budget hearings in They generate anxiety and undermine the public’s
2005, a senator asked Dr. Von Eschenbach, the sense of well-being and resilience. As a result,
director of the National Cancer Institute at the they may prompt too much exposure to medi-
time, “What is going to happen by 2015 as you cal care which may not help and can really hurt
project it?” The directors responded, “No one people. And repeated exposure to exaggeration
who hears the words ‘You have cancer’, will suf- may leave the public cynical: they may stop pay-
fer or die from the disease. We will prevent and ing attention to health messages altogether.
eliminate the outcome”.1 Unfortunately, despite It is easy to understand why there is so much
receiving their requested budget, the National exaggeration. Manufacturers (drug, technol-
Cancer Institute is, of course, nowhere near ogy) need to sell their products. Academic in-
eliminating suffering or death from cancer. stitutions need publicity to raise funds. Meeting
The most effective “message” strategy is to organizers need to attract scientists, advertisers
use fear and hope together: exaggerate a risk to and sponsors. Researchers need to show results
make people feel vulnerable and then exagger- to advance their careers. Media outlets compete
ate the benefit of what you have to offer (or sell) for stories, advertisers, and readers (or viewers).
to reduce that risk. The advertisement (fig. 4) for And journalists compete for the front page –or the
abdominal aneurysm surgery from Mount Sinai (a most e-mailed story. This is a recipe for exaggera-
major academic medical center in New York) il- tion because so many self-interests are served by
lustrates the power of this strategy. being associated with research perceived to be
The ad makes two statements. One gener- new, big and important.
ates fear: an aneurysm is a death sentence. The If the diagnosis is exaggeration, we think the
other generates hope: Mount Sinai can offer a prescription is healthy skepticism. We all need
pardon. But both statements are highly exagger- to push back and see through exaggeration to
ated. Most aneurysms that are found are very avoid being manipulated by messages that make

-57-
Seeing through the hype: problems with media coverage and how to do better

us too scared or too hopeful. This is especially of humans. Moving from animals to humans is a
important for journalists. The media’s power to slow and uncertain process.
amplify and disseminate messages makes jour- After finding similar problems in medical jour-
nalists a prime target for exaggeration. nal press releases, we interviewed press officers
at major medical journals to better understand
how releases are written. The interviews gave us
Journalists’ sources exaggerate
insight into why press releases can be so prob-
Exaggeration often begins with journalist’s sourc- lematic. None of the journals had data presenta-
es. Researchers do this when they suggest their tion standards for press releases. Nor did any
findings apply to more people than they really require a statement about study limitations.4
do. Or when they are too certain about inherent- Medical journals, academic medical centers
ly weak science and fail to acknowledge study and researchers –all important sources for jour-
limitations. One way this plays out is through nalists– contribute to the problems with health
researcher quotes, a feature seen in almost all news. We now look at how these problems play
press releases. In a systematic review of press out in what is actually reported in the media. We
releases issued by academic medical centers, focus specifically on reporting in two high-risk
we judged one-quarter of researcher quotes as zones for exaggeration: scientific meeting pre-
“exaggerated”.2 For example, in a press release sentations and disease mongering.
titled “Scientists inhibit cancer gene. Potential
therapy for up to 30% of human tumors”, the
Too much, too soon: media reporting
lead investigator, said, “the implication is that a
on scientific meetings
drug therapy could be developed to reduce tu-
mors caused by Ras without significant side ef- Reporters routinely cover scientific meetings.
fects”. The researcher greatly exaggerated the These meetings, sponsored by large professional
implications of this study since it only involved organizations, have two purposes: they are a fo-
skin cancer in mice (no human testing for efficacy rum for scientists to present work to colleagues
or safety had been done). and represent an engine for generating me­ dia
In the same systematic review, we document- coverage. In fact, the effort courting the media is
ed other problems with the press releases –the often greater than the effort in vetting the scienc-
most direct way that academic medical centers es. In 2002 (when we conducted a study of media
communicate with journalists.2 Over one-third of coverage of scientific meetings), the Society for
the press releases failed to quantify the main re- Neuroscience received 15,000 abstracts for pre-
sult. When results were quantified, over half used sentation and accepted 100% of them (the only
formats known to exaggerate the magnitude of criteria for acceptance was membership of one
findings (for example, giving a relative change of the authors).5 The only review conducted by
without providing the base rate). Despite the fact the Neuroscience organization was to determine
that all studies have limitations, few press releases which abstracts would be promoted to the media.
mentioned them. Scientific meeting research is typically pre-
Many press releases promoted animal or lab liminary, may have limited relevance to human
research and specifically claimed that these stud- health, and has generally undergone limited –if
ies were relevant to human health. Nearly all (98%) any– peer review (i.e., reviewers typically have
failed to caution about problems translating such access only to the abstract –not the full manu-
research to humans. The need for caution was script). Nevertheless, research presented at sci-
highlighted in a systematic review of “high profile” entific meetings is often big news.
animal studies.3 On average, it took 14 years to To gauge the quality of these reports, we did
translate the animal research into human testing. a content analysis of news stories after five major
And only one-third of animal studies translated scientific meetings (World AIDS, American So-
into successful interventions in randomized trials ciety of Clinical Oncology, Radiological Society

-58-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


of North America, American Heart Association sleep too much during the day, you have exces-
and the Society for Neuroscience).6 We identi- sive daytime sleepiness syndrome. If you have
fied 174 newspaper stories (34 on the front page) trouble paying attention, you have attention defi-
and 13 national radio or television stories in the cit disorder. But if you pay too much attention,
2 months after the meeting. These stories ap- you have obsessive-compulsive disorder. And
peared in 50 major news outlets, including eight if you have any blood sugar, blood pressure or
of the top ten circulation U.S. newspapers. The even any bones, you may have pre-diabetes,
bottom line was that there was lots of room for pre-hypertension or osteopenia.
improvement. Basic study facts were often miss- Diagnosis is expanding. We are turning ordi-
ing: one-third of the news stories failed to report nary experiences (such as transient sleep prob-
the study size; about half did not state the study lems, sadness) into disease and turning risk
design and 40% did not quantify the main result. factors into diseases themselves (such as high
Cautions about studies with obvious limitations cholesterol, a risk factor for the heart attack is
were also missing: all failed to caution about as- now a diagnosis itself with its own ICD9 code,
suming the results of animal or cell research ap- etc.). And in either case, lowering the cutoff nec-
ply to human health, 69% failed to caution that in essary for the diagnosis can expand an existing
uncontrolled studies you cannot know if the inter- disease.7 The late 1990’s the threshold for being
vention caused the finding and over half failed to “overweight” was changed from a body mass in-
caution about the instability of results from small dex ≥25 kg/m2 instead of ≥27 kg/m2.8
(less than 30 patient) studies. Expanding diagnosis reflects a fundamental
Remarkably, the most important caution about problem in medicine: how do we define sick-
scientific meeting research –that it is preliminary, ness? Most medical phenomena exist on a spec-
unpublished, not the final study results– was miss- trum. At one end, people are overtly sick. At the
ing from all but one news story. This caution mat- other end, people are perfectly well. A narrow
ters because preliminary work does not always definition of sickness –drawing the line closest
pan out. Result change and fatal flaws emerge. to “overtly sick”– labels the few people with the
These problems are reflected in the publication diagnosis. The advantage is that the definition fo-
fate of scientific meeting research which garnered cuses on the sickest people –those who stand
high profile media coverage. While half of this re- to benefit the most from treatment. The disad-
search is published in high-impact medical jour- vantage is that we miss some people who might
nals in the next 3 year, one quarter is published in benefit. Ideally, we would draw the line based
low-impact journals and another quarter is never on the benefits and harms to patients. In reality,
published.5 This finding was the same for meet- many forces –drug companies, device manufac-
ing research that covered on the front page of the turers and doctors– are pushing the line to cre-
newspaper. Dr. Richard Klausner, the former direc- ate broader and broader definitions of sickness.
tor of the National Cancer Institute, captured this Whether or not it helps patients, broadening dis-
phenomenon even better than the numbers: “I’m ease definitions serves other interests.
pretty well plugged in to what’s going on in re- Disease mongering is the effort to convince
search,” he remarked. “I hear on the news “Major people that they are “sick” and need a medical
breakthrough in cancer!” And I think, Gee, I haven’t treatment for this sickness. This means creating
heard anything major recently. Then I listen to the very broad definitions of disease and conduct-
broadcast and realize that I’ve never heard of this ing disease awareness campaigns to raise un-
breakthrough. And then I never hear of it again.” due concern about the prevalence and severity of
”disease” to capture the biggest market. Disease
mongering implies that this is being done for rea-
The media and disease mongering
sons other than the patient’s interest.
It is hard to avoid becoming sick. If you sleep The problem is that disease mongering can re-
too little at night, you have insomnia. But if you ally make people sick. The anxiety, sick role from

-59-
Seeing through the hype: problems with media coverage and how to do better

the diagnosis and side effects from treatment Treatment is reserved for those with moder-
can be worse than the disease. The primary cul- ate-severe symptoms judged by frequency.
prits are drug companies who conduct disease In 2003, GlaxoSmithKline sought FDA ap-
promotion campaigns, run direct-to-consumer proval of Requip for restless legs. FDA review
drug ads, fund disease advocacy groups, subsi- generally takes about one year. Toward the end
dize physician education (CME, etc.) and pay for of this period, GlaxoSmithKline began launching
clinical trials. But the facilitator is the news media. a press campaign, beginning with press releases
They are a highly visible source of health informa- from presentations at the American Academy of
tion for consumers (and physicians and policy- Neurology meeting and a press releases from
makers). Because the news is more credible than a company funded (and unpublished survey):
advertisements, it is met with less skepticism. To “New survey reveals common yet under recog-
avoid being co-opted into the process, journal- nized disorder –restless legs– is keeping America
ists need to know how to recognize the signs and awake at night”. But FDA refused to approve the
symptoms of disease mongering. drug because the submitted studies were too
short (12 weeks) raising questions about long
term safety. The drug was finally approved in
Case study: a drug in search of a new use
2005 after Glaxo submitted a “long-term” study
and how the media helped
of 36 weeks. With approval, the drug company
Years ago, GlaxoSmithKline developed a drug sought to “push restless legs syndrome into the
called Requip. It was a drug for Parkinson’s dis- consciousness of doctors and consumers alike”
ease, but not a very successful –a third line drug– and began a 27 million U.S. dollar direct-to-con-
and it was going off-patent. There were some re- sumer advertising campaign. Within a year, drug
ports that Requip could be used for an obscure sales increased from $97 to $146 million.
movement disorder called Ekbom’s syndrome To explore the role of the news media, we
(now known as restless legs syndrome). We are looked at coverage of Requip during the cam-
going to show how GlaxoSmithKline extended paign.9 We identified and rated the 33 news
Requip’s patent protection by turning this ob- stories that appeared in major newspapers.
scure disorder into –according to their direct to Two-thirds of news stories simply repeated the
consumer drug ads– a “recognized medical con- “nearly 1 in 10 U.S. adults” prevalence estimates
dition. One shared by nearly 1 in 10 U.S. adults”.9 asserted in the drug company ads (a more critical
The story actually began in the late 90’s, reading of the prevalence studies suggests that
when the International Restless Legs Foundation <3% might need treatment, although even this
(a group of mostly industry funded scientists) cre- number is likely to be an overestimate). Three-
ated the definition of restless legs syndrome.10 To quarters of news stories discussed the extreme
have the diagnosis, a patient must have each of physical and emotional aspects (typically with a
the four standard criteria: patient anecdote), yet none presented any anec-
dote of mild disease. Forty-five percent blamed
1) An urge to move the legs due to an unpleasant doctors for being unaware of the diagnosis (e.g.,
feeling in the legs. “relatively few doctors know about restless legs.
This is the most common disorder your doctor
2) Onset or worsening of symptoms when at rest has never heard of”) or suggested that patients
or not moving around frequently. were unaware they were sick. One quarter re-
ferred readers to checklists for self-diagnosis and
3) Partial or complete relief by movement (e.g., for, for more information, to the “not for profit”
walking) for as long as the movement continues. Restless Legs Foundation. While the Foundation
is “not for profit”, its annual report discloses that,
4) Symptoms which occur primarily at night and by far, the major funder is GlaxoSmithKline –the
which can interfere with sleep or rest. makers of Requip. Glaxo is the only gold medal

-60-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


donor listed (defined as a minimum of a quarter that “Requip has been associated with sedating
of a million dollars –Pfizer, who had another rest- effects, including somnolence and the possibil-
less legs drug in development was listed as a ity of falling asleep while engaged in activities of
bronze medal donor). No news report mentioned daily living”.
entanglement between Glaxo (or Pfizer) and the In summary, the media did aid and abet dis-
Foundation. None of the news stories mentioned ease mongering efforts. While restless legs syn-
the possibility that there might be too much di- drome is just one example, there is no reason to
agnosis. think other disease promotions would be covered
Did the media accurately portray the benefits any differently. Journalists can do better by being
and harms of Requip? Not exactly. Among the skeptical when new –or expanded– diseases are
15 stories that mentioned Requip specifically, being promoted to them. More specifically, they
45% only discussed the benefit of the drug with can (and should) question prevalence estimates,
an anecdote and 33% used “miracle” language present the full spectrum of disease, question
(for example, literally quoting a patient as saying the idea that more diagnosis is always better and
“[Requip] has been a miracle drug for me”). Only quantify the benefits and harms of the new treat-
one story quantified the benefit. The best esti- ment. To help them do so, it is helpful to consult
mate of the benefit of Requip comes from the 12- experts without financial or professional conflicts
week randomized trial that was part of the basis of interest (a list of “Industry-independent ex-
of FDA approval. For the primary outcome (av- perts” is available at: http://www.healthnewsre
erage improvement on the International Restless view.org/toolkit/independent-experts/).
legs symptom score), the Requip group improved
by 14 points vs. 10 point improvement in the Conclusion
placebo group, a net 4-point improvement on a
Problems with media coverage can have impor-
40-point scale. Is a change of this magnitude
tant consequences for the public. People may
a “miracle”? Understanding what the 4-point
become too enthusiastic about new and margin-
change means is a challenge. Would patients
ally effective interventions and too certain about
notice it (power calculations in approval trials as-
findings based on weak science. There are a
serted 3 and 6 points as meaningful changes)?
number of ways for journalists help readers get
The study also looked at whether clinicians rated
the facts. One way is to report numbers. When
patients as “very much” or “much” improved:
journalists quantify the chance of disease and the
73% of the Requip group improved compared to
benefits and harms of treatment, the public can
57% of the placebo group –so only 16% of pa-
appreciate the actual magnitude of the risks they
tients improved because of Requip.
face and decide whether the benefits of inter-
Media reporting of the harms of Requip was
ventions outweigh the harms. Journalists should
also poor: only about one quarter mentioned any
also routinely note important study limitations to
harm. But Requip has important side effects:
help inoculate the public against believing that
nausea (40% vs. 8% placebo), dizziness (11%
we know more than we do, and constrain un-
vs. 5%), somnolence (12% vs. 6%), and fatigue
realistic expectations. The tip sheets [see Apén-
(8% vs. 4%). Increased chance of somnolence
dice, p. 75] we have developed provide cautions
and fatigue undermine the rationale for the drug’s
specific to common study limitations. Journalists
use since much of the push for treating rest-
with a healthy skepticism will promote a healthier
less legs is how it is “keeping America awake at
public.
night”. How useful is a treatment that improves
restless legs symptoms for a minority of patients
if it leaves almost as many feeling more tired and References
more fatigued. For some patients, in fact, the 1. Goldberg K. Money would speed progress, NCI says,
problem of tiredness was so severe that FDA re- but backs off meeting 2015 goal by 2010. Cancer Let-
quired that Requip include a warning in the ad ter. 2005; Vol 31. Washington, DC:1.

-61-
Seeing through the hype: problems with media coverage and how to do better

2. Woloshin S, Schwartz L, Casella S, Kennedy A, Lar- third National Health and Nutrition Examination survey,
son R. Press releases by academic medical centers: 1988-1994. Eff Clin Pract. 1999;2:76-85.
not so academic? Ann Intern Med. 2009;150:613-8. 8. National Heart, Lung and Blood Institute. Clinical guide-
3. Hackam DG, Redelmeier DA. Translation of evidence lines on the identification, evaluation and treatment of
from animals to humans. JAMA. 2006;296:1731-2. overweight and obesity in adults. 1998. Available from:
4. Woloshin S, Schwartz L. Press releases: translating http://www.ncbi.nlm.nih.gov/books/NBK2003/
research into news. JAMA. 2002;287:2856-8. 9. Woloshin S, Schwartz L. Giving legs to restles legs: a
5. Schwartz L, Woloshin S, Baczek L. Media coverage case study of how the media helps make people sick.
of scientific meetings: too much, too soon? JAMA. PLoS Med. 2006;3:452-5.
2002;287:2859-63. 10. Allen R, Picchietti D, Hening W, Trenkwalder C, Wal-
6. Woloshin S, Schwartz L. Media reporting on research ters A, Montplaisi J. Restless legs syndrome: diagnos-
presented at scientific meetings: more caution need- tic criteria, special considerations, and epidemiology.
ed. Med J Aust. 2006;184:576-80. A report from the restless legs syndrome diagnosis
7. Schwartz L, Woloshin S. Changing disease definitions: and epidemiology workshop at the National Institutes
implications for disease prevalence. Analysis of the of Health. Sleep Medicine. 2003;4:101-19.

-62-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Los modelos de previsión
reducen la incertidumbre,
no la anulan

Elmore / Ventura

Seeing through the hype:


Garbage! When the news is not fit to print
Steven Woloshin and Lisa M. Schwartz

Sometimes the medical news may not be fit to “Raloxifene may decrease the risk
print: the research is so preliminary or so inher- of endometrial cancer
ently weak that reporting it would more likely mis- in post-menopausal women”
lead than inform the public. For example, stories Meeting abstract, American Society
about a new miracle diet, or cancer breakthrough of Clinical Oncology 1998 meeting
–stories which often arise out of abstracts pre-
sented at scientific meetings that have not under- When this abstract was presented at a plenary
gone peer review, or uncontrolled human studies. session at the 1998 ASCO meeting, several
Nevertheless, journalists often feel pressure to re- news outlets covered the story, including the Wall
port on such studies. Street Journal.1 The abstract reported on what
What should journalists do when the news is seemed to be a major advance: a relatively new
not fit to print? Ideally they would not report it. medication which behaved differently than others
But if they have to report it, they should always in its class which increased the risk of endome-
include strong cautions to alert readers to ques- trial (uterine cancer).
tions about the validity, meaning or generalizabil- The investigators presented results from a
ity of the research. In this essay, we will use real randomized trial of raloxifene, a selective estro-
examples to review cautions about research that gen receptor modulator, or placebo which in-
may sound exciting but is very preliminary or in- cluded 7704 postmenopausal women (mean age
herently weak. 66.5 years) with osteoporosis (based on hip or

-63-
Seeing through the hype: Garbage! When the news is not fit to print

spine bone density at least 2 standard deviations written into the study protocol, rather than ex-
below normal or a history of vertebral fractures). cluded after the data were analyzed (we have
The study was “designed to test the hypothesis not been able to ascertain which was the case
that women assigned to receive raloxifene will in this trial). Another theoretical concern about
have a lower risk of fractures than women as- this finding is whether the scrutiny was similar for
signed to placebo”. But the main result reported both the raloxifene and placebo groups. If not,
in the ASCO abstract was not about the primary the investigators will have introduced bias. For
outcome –osteoporosis– but about endometrial example, if researchers looked harder for endo-
cancer. Of course, endometrial cancer is not the metrial cancers in women in the raloxifene group
same as osteoporotic fractures. compared to the placebo group (and excluded
While it is perfectly legitimate for a study to re- any found) this would bias the study in favor of
port on multiple outcomes, these outcomes need the drug because preexisting cancers would still
to be specified in advance. Otherwise, surprise count against placebo. Fortunately, based on the
findings –which may reflect chance alone may protocol, the level of scrutiny was appeared to be
be over interpreted. That is, taken as strong evi- the same in both groups in this trial.
dence for a treatment effect rather than a hypoth- Assuming the exclusions were legitimate, the
esis generating finding which needs confirmation fact that removing two cases had such a dra-
in a subsequent trial. For example, if 20 random matic effect highlights a second concern: the
outcomes are assessed after a trial is completed, results are very unstable. The magnitude of the
1 will be statistically significant –have a p value risk reduction increased from 62% (relative risk
less than 0.05 – just by chance. While endome- = 0.38 ) to 87% (relative risk = 0.13) and the p-
trial cancer was a pre-specified study outcome, value changed from not statistically significant
the researchers’ hypothesis was the opposite: (p = 0.232) to statistically significant (p = 0.045).
they were concerned it might increase cancer, a This instability reflects the preliminary nature of
harm associated with raloxifene’s rival, the drug the report. The study was not over –only a frac-
tamoxifen. In fact, according to the trial protocol, tion of the final data was collected. While the re-
assessing the drug’s effect on endometrial cancer searchers did not report the number of cancers
was designated as a safety issue, not as a poten- found in either the raloxifene or placebo groups,
tial benefit.2 the number must have been very small. Waiting
Contrary to their hypothesis, they found that a little longer to accrue more data, a few more
raloxifene decreased endometrial cancer: since cases might flip the findings back.
this decrease in endometrial cancer was not a In fact, waiting for more data did reverse the
pre-specified hypothesis, the finding should be finding. When final study results were reported
considered a “surprise” and interpreted cautiously. in JAMA,3 raloxifene no longer had any effect on
How much did raloxifene decrease the risk of uterine cancer (Table 1).
endometrial cancer? According to the abstract, Not only were the findings different, the same
“compared with the rate in the placebo group, authors made a big change to their message. In
the overall relative risk of endometrial cancer is the scientific meeting abstract, they wrote that
0.38 (p = 0.232). If two cases diagnosed within the “Raloxifene may decrease the risk of endo-
one month of randomization are excluded, the metrial cancer in post-menopausal women”.
estimate of relative risk is 0.13 (p = 0.045)”. While In the JAMA article published 1 year later, they
one may question the legitimacy of excluding wrote “Raloxifene did not increase the risk of en-
data (particularly when doing so generates a de- dometrial cancer”. The JAMA message reflects
sirable finding), the rationale for exclusion may be their original hypothesis that endometrial cancer
reasonable –the drug is unlikely to have had such was a safety concern.
a rapid effect, so the two cancers were probably Here is how we would have rewritten the find-
present at the time of randomization. It would be ings presented at the scientific meeting: “There
reassuring to know that such exclusions were was a trend toward a lower rate of uterine cancer

-64-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Table 1.
Relative Risk
(Raloxifene vs Placebo) P-Value
1998 ASCO Meeting
All data 0.38 0.232
Exclude 2 cases* 0.13 0.045
1999 JAMA 0.80 0.67
*Cases which ocurred within 1 month of randomization.

but it may be due to chance and it is too early in is extremely difficult to learn much about how well
the study to say. This was not the main outcome the treatment works. It is possible that equivalent
being studied. We are not very confident in these patients who did not get the drug would have
results”. done worse (meaning Iressa helped). But it is
This example highlights the fundamental prob- also possible that the patients would have done
lem with early results –they turn out not to be true no better or even worse (meaning Iressa caused
(as in this case) or they may change substantially. harm). Here’s the first red flag for journalists and
When they report on scientific meeting presen- readers –“Because everyone took Iressa, it is ex-
tations, journalists should raise a red flag for tremely hard to know if Iressa had anything to do
their readers. Our suggestion for this cautionary with the outcome”.
note is “These preliminary findings may change Even if this study were a randomized trial, a
because the study has not been independently second fundamental problem exists: the primary
vetted through peer review and all the data are outcome was a surrogate measure –tumor shrink-
not yet in”. (Note: this caution and the ones that age (by half or more). The study found that 10%
follow are summarized in the tip sheet: How to of the 216 patients had tumor shrinkage.5 It is a
highlight study cautions. See Apéndice, p. 80.) big leap of faith to assume that tumor shrinkage
means less suffering or death from lung cancer.
There are three reasons why this is a leap of faith.
“Drug advances bring new hope
Tumor shrinkage may be followed by period rapid
to cancer battle –New treatments
growth. Or the tumor may shrink in an unimport-
block ‘switches’ that turn cells malignant”
ant area that does not affect a person’s health.
Wall Street Journal
Finally, spread in rest of body may be much more
Other major U.S newspapers echoed the excite- important than tumor shrinkage. So again, read-
ment of the Wall Street Journal headline: “Drug ers need a cautionary note: ”This study measured
shrinks lung tumors” Washington Post, “Major tumor shrinkage –an x-ray finding that patients do
step in cancer fight” Houston Chronicle, “Pill not directly experience. Be cautious about acting
shows significant results in battling advanced on these findings since changes in these kinds of
lung cancer” The Milwaukee Journal Sentinel. measures don’t reliably translate into people feel-
Lung cancer is a terrible disease, one for which ing better or living longer”.
we do not have very effective treatments, so a Despite these two fundamental limitations, the
real breakthrough would be wonderful news. Is study received a lot of enthusiastic press. This
this new drug really a breakthrough? initial press coverage illustrates the beginning of
To understand whether this enthusiasm is an unfortunately common cycle. The cycle begins
warranted involves looking at the science behind with great news –typically with breathless excite-
the headlines.4 The study followed 216 patients ment about a new technology. But terrible news
with advanced lung cancer who were all given quickly follows –when side effects start to emerge
the new treatment –Iressa. Unfortunately, there as more people take the drug. In the case of Ir-
was no control group. Without a control group, it essa, this happened with reports of drug-related

-65-
Seeing through the hype: Garbage! When the news is not fit to print

deaths in Japan where the drug was already ap- nal Iressa study (where all of the patients received
proved for the treatment of advanced small cell Iressa). The “new” study found that eight of the
lung cancer. Here is an excerpt from the Wall nine patients who responded to Iressa (experi-
Street Journal’s story titled “AstraZeneca drug enced tumor shrinkage) had a specific genetic
used to fight cancer is tied to 124 deaths”: “Side mutation while none of the seven patients who
effects from the cancer-fighting drug Iressa have had not responded to Iressa lacked the mutation.
resulted in 124 deaths in Japan, a government But since all patients with the mutation received
official here said, as a ministry panel set stricter Iressa, there is (as described above) no way to
guidelines for the drug’s use. .... Early studies know if the mutation predicted response to the
showed lung-cancer patients who hadn’t been drug. Unfortunately, subsequent work failed to
helped by other therapies recovered impressively confirm that the genetic mutation predicted re-
after taking Iressa [the impressive recovery refers sponse to this class of drugs.
to the study above where only 10% of patients Even worse, the phase III study (required by
had tumor shrinkage], but the large number of se- the FDA as part of the accelerated approval pro-
vere side effects prompted AstraZeneca to issue gram) did not find any survival benefit from Iressa.
a safety warning to Japanese doctors in October”. In this randomized trial of 1,700 lung cancer pa-
Despite the report of deaths in Japan, the tients, the Iressa group had a median survival of
U.S. Food and Drug Administration (FDA) ap- 5.6 months vs. 5.1 months in the placebo group.8
proved Iressa.6 In fact, this was their first acceler- The FDA then pulled the drug from the market,
ated approval –a new program to more rapidly only allowing it for compassionate use.9 Figure 1
approve drugs for dangerous diseases with lim- summarizes the Iressa and the news cycle.
ited treatment options– like lung cancer –based
on early studies. Accelerated approval is typically
“Major cancer breakthrough? New drug
conditional upon confirmation of the results in a
potential ‘holy grail’ for treatment
randomized trial post-approval. The Wall Street
of cancer”
Journal was extremely enthusiastic about this de-
CBS Healthwatch, The Early Show
cision. Their editorial board wrote: “A rare victory
at the FDA. When an FDA advisory panel con- Excessive hope about cancer drugs did not end
vened Tuesday to consider AstraZeneca’s appli- with Iressa story. A major breakthrough in 2009
cation for the cancer drug Iressa, it was expected started with a The New England Journal of Medi-
to send the company back for more data. But cine article about “Parp inhibitors” (drugs which
spurred on by powerful testimony from patients inhibit poly (ADP ribose) polymerase) in cancer
who would almost surely be dead without the patients who had BRCA mutations.10 It is hard to
drug, and over the apparent objections of hyper- exaggerate the exaggeration of the three major
cautious FDA staffers, the panel voted 11-3 to national television news networks.11 In addition to
recommend Iressa for accelerated approval”. the CBS story, NBC Nightly news reported “Now
Hope was even higher when another study we turn to what some are calling the most impor-
was published in The New England Journal of tant cancer treatment breakthrough in a decade”,
Medicine.7 This study received hyperbolic cov- and ABC news “New hope: cancer treatment”.
erage –particularly on the U.S. national news. To distinguish hope from hype, we need to
NBC national news ran a segment “Scientists understand the science behind the headlines.
announce major breakthrough in treatment of This study measured what happened to 19 pa-
lung cancer with Iressa”. The segment featured tients with BRCA1 or BRCA2 mutations with
the story of a young woman with children whose ovarian, breast or prostate cancer. After about 5
tumor melted away and quotes experts who say months of follow-up, 63% had either stable dis-
the drug will save thousands of lives. Surprisingly, ease (stable tumor markers) or response (defined
the The New England Journal of Medicine article as 30% or more tumor shrinkage on x-ray). This
was reporting on 16 of the patients from the origi- study was a phase I study –an uncontrolled study

-66-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Hope for new lung
cancer drug New Engl J Med
(exciting technology) Study published
Great news!

FDA panel votes to


approve drug
(and drug is approved)

2002 2003 2004 2005

Terrible news! Concern about drug- Phase III study shows


related deaths in Japan no survival benefit FDA pulls drug

Figure 1.

using a surrogate outcome– just like the Iressa good for your general health, but keeping up
study. Publication in The New England Journal with your girlfriends may also reduce your risk of
of Medicine seemed to trump the weakness of developing breast cancer. In a recent study, re-
the science (which many journalists recognized). searchers at the University of Chicago report that
In fact, some asserted that since The New Eng- lonely women may be at greater risk of breast
land Journal of Medicine typically does not pub- cancer. The theory? Stress and anxiety caused
lish this kind of uncontrolled study it must mean by social isolation may have the power to in-
that this study was very important. Sadly, once crease the growth of tumors in the breast.”
again, the randomized trial did not show a dif- Is it really possible that all you need to do is
ference in cancer death –and the drug company spend some time with your friends to reduce
has abandoned pursuing approval.
your risk of breast cancer? This magazine story
The Parp inhibitor story reinforces the lessons
is based on a study published in the prestigious
of Iressa –be extremely cautious about uncon-
journal, Proceedings of the National Academy of
trolled studies and surrogate outcomes. But it
Sciences.12
also holds another important lesson: recognize
The story, however, wildly extrapolates findings
pseudo-evidence. Publication in a medical jour-
from a study of 40 rats. Half the rats were ran-
nal –even The New England Journal of Medi-
domized to live alone from 1 month of birth until
cine– does not guarantee the findings are true (or
even important). We can all agree that giving false death (the other lived in groups of five-female rats).
hope to sick patients is a real disservice. Rats were just as likely to develop a breast tumor
regardless of isolation; however isolated rats de-
veloped more and larger tumors.
“Your friends may be as powerful Does this really mean that your friends are as
as anticancer drugs powerful as “anticancer drugs”? Inbred rats, ge-
in the fight against breast cancer” netically altered so they are predisposed to develop
Women’s Day (magazine), October 2010
breast cancer are not typical rats. And, of course,
“Do you get together with friends often? Here’s even typical rats are not like typical humans. Nor
an important reason to accept your pal’s book is total, lifelong isolation the same as refusing your
club invitation: An active social life is not only pal’s book club invitation or feeling lonely.

-67-
Seeing through the hype: Garbage! When the news is not fit to print

If we had to write about this study, here is what 2. Comparison of raloxifene hydrochloride and placebo
we would say: “News only a mutant rat could use in the treatment of postmenopausal women with
(maybe). This study of mutant rats forced to live osteoporosis (MORE) trial protocol NCT00670319.
in total lifelong isolation has no direct meaning Available at: http://clinicaltrials.gov/ct2/show/NCT-
on cancer risk for humans or even ordinary rats. 00670319www.clinicaltrials.gov
3. Cummings S, Eckert S, Krueger K. The effect of raloxi-
Don’t get stressed out by this study of stress.
fene on risk of breast cancer in postmenopausal wom-
And don’t feel like you have to change your social
en: results from the MORE randomized trial. JAMA.
behaviors. The level of social isolation in this rat
1999;281:2180-97.
study was far more extreme than any human be-
4. Wolosshin S, Schwartz L. What’s the rush? The dis-
ing could ever experience.” semination and adoption of preliminary research re-
While test-tube and animal studies can be sults. J Natl Cancer Inst. 2006;98:372-3.
fundamentally important, the problem is claiming 5. Pollack A. Drug’s approval hints at flexibility in FDA pro-
imminent relevance to human health. In a sys- cess. New York Times. May 6, 2003;C; Column 5: 1.
tematic review of “high profile” animal studies, 6. United States Food and Drug Administration. Questions
it took an average of 14 years to translate the and answers on Iressa (gefitinib). 2005. (Accessed Jan-
animal research into human testing.13 And only uary 28, 2006.) Available at: http://www.fda.gov/cder/
one-third of animal studies translated into suc- drug/infopage/iressa/iressaQ&A2005.htm
cessful interventions in randomized trials of hu- 7. Lynch T, Bell D, Sordella R. Activating mutations in the
mans. Moving from animals to humans is a slow epidermal growth factor receptor underlying respon-
siveness of non-small-cell lung cancer to gefitinib.
and uncertain process.
N Engl J Med. 2004;350:2129-39.
When reporting on such research, extrapolate
8. Pollack A. Lung-cancer drug shows unfavorable trial
with caution. Do not tell people what to worry
results. New York Times. December 20, 2004;C; Col-
about –or do– based on very preliminary animal or
umn 1: 2.
lab science. We recommend cautioning readers 9. Pollack A. FDA restricts access to cancer drug, citing
that “It takes many years to learn if the findings of ineffectiveness. New York Times. June 18, 2005; C;
animal [lab] studies apply to people. Many prom- Column 1: 2.
ising animal [lab] studies fail to pan out in people”. 10. Fong PC, Boss DS, Yap TA, Tutt A, Wu P, Mergui-
Sometimes the news is not fit to print. Con- Roelvink M, et al. Inhibition of poly(ADP-ribose)
sider asking your editor whether you can skip it. polymerase in tumors from BRCA mutation carriers.
If you have to report it, always include STRONG N Engl J Med. 2009;361:123-34.
cautions. These will help readers avoid over in- 11. Woloshin S, Schwartz L, Kramer B. Promoting healthy
terpreting the findings –and may even sway your skepticism in the news: helping journalists get it right.
editor against covering the study after all. J Natl Cancer Inst. 2009;101:1596-9.
12. Hermes G, Delgado B, Tretiakova M. Social isolation
dysregulates endocrine and behavioral stress while in-
References
creasing malignant burden of spontaneous mammary
1. Schwartz L, Woloshin S, Baczek L. Media coverage tumors. PNAS. 2009;106:22393-8.
of scientific meetings: too much, too soon? JAMA. 13. Hackam DG, Redelmeier DA. Translation of evidence
2002;287:2859-63. from animals to humans. JAMA. 2006;296:1731-2.

-68-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
El azar permite cuantificar
la precisión del muestreo

Cobo / Ventura

33 mensajes clave sobre bioestadística


para periodistas y comunicadores

Gonzalo Casino

1. Tipo de estudio 5. Fuentes


«Un estudio» es demasiado vago. Hay que Atención a las exageraciones de los interme-
informar de los detalles del estudio y de la diarios (comunicados de prensa). Conviene
confianza que merece. acudir a las fuentes originales (artículo cientí-
fico) y contrastar con fuentes independientes
2. Riesgo absoluto
y competentes en bioestadística.
El riesgo relativo es más aparatoso, pero no
hay que olvidarse del absoluto, que pone en 6. Contexto
perspectiva una amenaza –o un beneficio– Un estudio es una frase anecdótica en medio
para la salud. de una conversación. Lo que interesa es la
conversación completa.
3. Riesgos de la prevención
La prevención tiene también sus perjuicios y
Erik Cobo
sus excesos. En las estadísticas del cribado,
la supervivencia no es el reverso de la morta- 7. Variabilidad
lidad. La estadística aborda la variabilidad: su ob-
sesión es cuantificar la incertidumbre (otro
4. Divulgar
tema es si los usuarios entran...)
La estadística puede ser compleja, pero te-
nemos que hacerla sencilla. Hay que traducir 8. Predecir y modificar
la terminología y los números. No hay que confundir la predicción del futuro

-69-
33 mensajes clave sobre bioestadística para periodistas y comunicadores

con su modificación, que requiere relación 18. Menos confianza


causal. Según el sistema GRADE, la confianza en los
ensayos clínicos (inicialmente considerada
9. Reducción de la incertidumbre
como alta) puede disminuir cuando hay:
Rara vez una predicción anula toda duda;
• Riesgo de sesgo (aleatorización/cega-
por eso debe acompañarse de medidas de
miento/pérdidas).
reducción de la incertidumbre.
• Inconsistencia, imprecisión, evidencia in-
10. Estudio experimentales directa o sesgo de publicación.
La clave de un estudio experimental es la
19. Más confianza
asignación: sólo variables que dependen del
Según el sistema GRADE, la confianza en los
investigador pueden cambiarse y así estimar
estudios observacionales (de entrada baja)
sus efectos.
puede aumentar si hay:
11. Causas y efectos • Asociación importante o gradiente dosis-
Se empieza por buscar causas y se termina respuesta.
por estimar efectos. • Cambio radical de pronóstico o inmedia-
tez del efecto.
12. Ciencia y técnica
La pregunta de la ciencia es «qué sé» y la de
José Luis Peñalvo
la técnica es «qué hago». La primera des-
cansa en la evidencia, pero la segunda debe 20. Carga
contemplar también las consecuencias. La epidemiología utiliza medidas de “carga”
para caracterizar la enfermedad y proponer
13. La p y el intervalo de confianza
hipótesis causales. Estas hipótesis se estu-
Es más importante el intervalo de confianza
dian, en la mayoría de los casos, mediante
que el valor de p. Si un resultado no lleva un
comparación de grupos con las denomi-
intervalo de confianza relevante, mejor igno-
nadas medidas de riesgo y de asociación:
rarlo.
riesgo relativo (RR) y odds ratio (OR), que ex-
14. Objetivos sanitarios plican cuánto más riesgo tiene el grupo ex-
Cada objetivo sanitario (tratamiento, pronósti- puesto en comparación con el no expuesto.
co, diagnóstico) tiene un tipo de estudio ade-
21. Cohorte
cuado (ensayo clínico, cohorte, transversal).
Estudio observacional longitudinal y pros-
pectivo. Clasificación de la población según
Pablo Alonso
exposición y espera hasta suceso de interés.
15. Calidad Medida de asociación: riesgo relativo (RR).
La calidad es la confianza/certidumbre que
22. Casos y controles
tenemos en que los resultados obtenidos
Estudio observacional longitudinal y retros-
provenientes de la investigación sean ciertos.
pectivo. Clasificación de la población según
16. Revisiones sistemáticas sucesos y recuperación de información so-
Para contextualizar y conocer con mayor se- bre exposición. Medida de asociación: odds
guridad el efecto de las intervenciones son ratio (OR).
clave las revisiones sistemáticas (con o sin
23. Causalidad
metaanálisis).
Relación etiológica entre una exposición y la
17. Diseño aparición de un efecto. Modelo de Bradford-
Para conocer la calidad/confianza, el diseño Hill (1965), que propone los siguientes crite-
de los estudios es importante, pero no sufi- rios de causalidad: fuerza de la asociación,
ciente. consistencia, especificidad, temporalidad,

-70-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


gradiente biológico, plausibilidad biológica, Lisa Schwartz
coherencia, evidencia experimental y analo-
29. Scientific meeting research
gía.
These preliminary findings may change be-
24. Confusión cause the study has not been independently
Tercera variable que “confunde” total o par- vetted through peer review and all the data
cialmente la relación entre la exposición y el are not yet in.
efecto, y no forma parte del mecanismo cau-
30. No control group
sal. En los estudios observacionales se utiliza
Because everyone took drug, it is extremely
la estratificación o el ajuste de los modelos
hard to know if drug had anything to do with
(análisis multivariado) para mejorar la asocia-
the outcome.
ción.
31. Surrogate outcomes
Steven Woloshin This study measured [surrogate] –a lab test
[or x-ray] finding– that people do not directly
25. Sources exaggerate
experience. Be cautious about acting on the-
Medical journals, academic medical centers
se findings since changes in these measures
and researchers all contribute to the pro-
do not reliably translate into people feeling
blems with health news.
better or living longer.
26. Too much too soon
32. Recognize pseudo-evidence
News stories about scientific meeting pre-
Publication in a medical journal –even The
sentations often lack basic facts, numbers
New England Journal of Medicine– does not
and cautions.
guarantee the findings are true (or even im-
27. Recognize disease mongering campaigns portant).
Be skeptical when new –or expanded– dis­
33. Animal or lab study
eases are being promoted:
It takes many years to learn if the findings of
• Question prevalence estimates.
animal [lab] studies apply to people. Many
• Present the full spectrum of disease.
promising animal [lab] studies fail to pan out
• Question idea that more diagnosis is
in people. Extrapolate with caution! don’t tell
always better.
people what to worry about –or do– based
• Quantify the benefits and harms of the
on very preliminary animal or lab science.
new treatment.

28. If you take away nothing else...


• Use numbers!
• Highlight cautions!

-71-
La variabilidad, esa amiga de la vida

Cobo / Ventura
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Bibliografía

Bibliografía recomendada Otras fuentes


−− Alonso-Coello P, Rigau D, Solà I, Martinez García L. La −− Colaboración Cochrane (www.cochrane.org). Organiza-
formulación de recomendaciones en salud: el sistema ción sin ánimo de lucro que agrupa a miles de investi-
GRADE. Med Clin (Barc). 2013;140:366-73. gadores de 90 países para la realización de revisiones
−− Gigerenzer G, Gaissmaier W, Kurz-Milcke E, Schwartz sistemáticas de los estudios disponibles sobre las inter-
LM, Woloshin S. El significado de las estadísticas. Men- venciones en salud.
te y cerebro. 2011;50: 62-9. −− PubMed (http://www.ncbi.nlm.nih.gov/pubmed/). Bus-
−− Gisbert JP, Bonfill X. Cómo realizar, evaluar y utilizar cador de la base de datos Medline de la National Library
revisiones sistemáticas y metaanálisis. Gastroenterol of Medicine de Estados Unidos, que ofrece referencias
Hepatol. 2004;27:129-49. y resúmenes de las principales publicaciones de biome-
−− Guyatt GH, Oxman AD, Vist GE, Kunz R, Falck-Ytter Y, dicina de todo el mundo desde 1966.
Alonso-Coello P, et al. GRADE: an emerging consensus −− Red CASPE (http://redcaspe.org/drupal/?q=node/29).
on rating quality of evidence and strength of recommen- Herramientas para el análisis crítico de la literatura cien-
dations. BMJ. 2008;336:924-6. tífica.
−− Interpretando la literatura médica: ¿qué necesito saber? −− TripDatabase (http://www.tripdatabase.com). Metabus­
Parte I. Disponible en: http://www.osakidetza.euskadi. cador de ensayos clínicos, revisiones sistemáticas y
net/r85-pkcevi04/eu/contenidos/informacion/cevime_ otras investigaciones, que ofrece los resultados de la
infac/eu_miez/adjuntos/infac_v14_n7.pdf búsqueda categorizados.
−− Interpretando la literatura médica: ¿qué necesito saber?
Parte II. Disponible en: http://www.osakidetza.euskadi.
net/r85-ckpubl01/eu/contenidos/informacion/cevime_
infac/eu_miez/adjuntos/infac_v14_n8.pdf
−− Woloshin S, Schwartz LM, Welch HG, editores. Know
your chances. Understanding health statistics. Berkeley
(CA): University of California Press; 2008. Disponible en:
www.ncbi.nlm.nih.gov/pubmedhealth/n/ucalpkyc/pdf/

-73-
La ciencia acompaña sus afirmaciones
de medidas de incertidumbre

Ventura
Apéndice
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26
Numbers glossary

Steven Woloshin and Lisa Schwartz.


Center for Medicine and the Media, Dartmouth Institute for Health Policy and Clinical Practice.

-77-
Statistics glossary

Steven Woloshin and Lisa Schwartz.


Center for Medicine and the Media, Dartmouth Institute for Health Policy and Clinical Practice.

-78-
Bioestadística para periodistas y comunicadores

CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE Nº 26


Questions to guide your reporting

Steven Woloshin and Lisa Schwartz.


Center for Medicine and the Media, Dartmouth Institute for Health Policy and Clinical Practice.

-79-
How to highlight study cautions

Steven Woloshin and Lisa Schwartz.


Center for Medicine and the Media, Dartmouth Institute for Health Policy and Clinical Practice.

-80-
CUADERNOS DE LA FUNDACIÓN DR. ANTONIO ESTEVE

1. Guardiola E, Baños JE. Eponímia mèdica catalana. Quaderns de la Fundació Dr. Antoni Esteve, Nº 1.
Barcelona: Prous Science; 2003.
2. Debates sobre periodismo científico. A propósito de la secuenciación del genoma humano: interacción de
ciencia y periodismo. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 2. Barcelona: Prous Science; 2004.
3. Palomo L, Pastor R, coord. Terapias no farmacológicas en atención primaria. Cuadernos de la Fundación
Dr. Antonio Esteve, Nº 3. Barcelona: Prous Science; 2004.
4. Debates sobre periodismo científico. En torno a la cobertura científica del SARS. Cuadernos de la
Fundación Dr. Antonio Esteve, Nº 4. Barcelona: Prous Science; 2006.
5. Cantillon P, Hutchinson L, Wood D, coord. Aprendizaje y docencia en medicina. Traducción al español de
una serie publicada en el British Medical Journal. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 5.
Barcelona: Prous Science; 2006.
6. Bertomeu Sánchez JR, Nieto-Galán A, coord. Entre la ciencia y el crimen: Mateu Orfila y la toxicología en
el siglo xix. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 6. Barcelona: Prous Science; 2006.
7. De Semir V, Morales P, coord. Jornada sobre periodismo biomédico. Cuadernos de la Fundación Dr.
Antonio Esteve, Nº 7. Barcelona: Prous Science; 2006.
8. Blanch Ll, Gómez de la Cámara A, coord. Jornada sobre investigación en el ámbito clínico. Cuadernos de
la Fundación Dr. Antonio Esteve, Nº 8. Barcelona: Prous Science; 2006.
9. Mabrouki K, Bosch F, coord. Redacción científica en biomedicina: Lo que hay que saber. Cuadernos de la
Fundación Dr. Antonio Esteve, Nº 9. Barcelona: Prous Science; 2007.
10. Algorta J, Loza M, Luque A, coord. Reflexiones sobre la formación en investigación y desarrollo de
medicamentos. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 10. Barcelona: Prous Science; 2007.
11. La ciencia en los medios de comunicación. 25 años de contribuciones de Vladimir de Semir. Cuadernos
de la Fundación Dr. Antonio Esteve, Nº 11. Barcelona: Fundación Dr. Antonio Esteve; 2007.
12. Debates sobre periodismo científico. Expectativas y desencantos acerca de la clonación terapéutica.
Cuadernos de la Fundación Dr. Antonio Esteve, Nº 12. Barcelona: Fundación Dr. Antonio Esteve; 2007.
13. Gonzàlez-Duarte R, coord. Doce mujeres en la biomedicina del siglo xx. Cuadernos de la Fundación Dr.
Antonio Esteve, Nº 13. Barcelona: Fundación Dr. Antonio Esteve; 2007.
14. Mayor Serrano MB. Cómo elaborar folletos de salud destinados a los pacientes. Cuadernos de la
Fundación Dr. Antonio Esteve, Nº 14. Barcelona: Fundación Dr. Antonio Esteve; 2008.
15. Rosich L, Bosch F, coord. Redacció científica en biomedicina: El que cal saber-ne. Quaderns de la
Fundació Dr. Antoni Esteve, Nº 15. Barcelona: Fundació Dr. Antoni Esteve; 2008.
16. El enfermo como sujeto activo en la terapéutica. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 16.
Barcelona: Fundación Dr. Antonio Esteve; 2008.
17. Rico-Villademoros F, Alfaro V, coord. La redacción médica como profesión. Cuadernos de la Fundación
Dr. Antonio Esteve, Nº 17. Barcelona: Fundación Dr. Antonio Esteve; 2009.
18. Del Villar Ruiz de la Torre JA, Melo Herráiz E. Guía de plantas medicinales del Magreb. Establecimiento de
una conexión intercultural. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 18. Barcelona: Fundación
Dr. Antonio Esteve; 2009.
19. Gonzàlez-Duarte R, coord. Dotze dones en la biomedicina del segle xx. Quaderns de la Fundació Dr. Antoni
Esteve, Nº 19. Barcelona: Fundació Dr. Antoni Esteve; 2009.
20. Serés E, Rosich L, Bosch F, coord. Presentaciones orales en biomedicina. Aspectos a tener en cuenta para
mejorar la comunicación. Cuadernos de la Fundación Dr. Antonio Esteve, Nº 20. Barcelona: Fundación Dr.
Antonio Esteve; 2010.
21. Francescutti LP. La información científica en los telediarios españoles. Cuadernos de la Fundación Dr.
Antonio Esteve, Nº 21. Barcelona: Fundación Dr. Antonio Esteve; 2010.
22. Guardiola E, Baños JE. Eponímia mèdica catalana (II). Quaderns de la Fundació Dr. Antoni Esteve, Nº 22.
Barcelona: Fundació Dr. Antoni Esteve; 2011.
23. Mugüerza P. Manual de traducción inglés-español de protocolos de ensayos clínicos. Cuadernos de la
Fundación Dr. Antonio Esteve, Nº 23. Barcelona: Fundación Dr. Antonio Esteve; 2012.
24. Marušić A, Marcovitch H. Competing interests in biomedical publications. Main guidelines and selected
articles. Esteve Foundation Notebooks, Nº 24. Barcelona: Esteve Foundation; 2012.
25. De Semir V, Revuelta G, coord. El periodismo biomédico en la era 2.0. Cuadernos de la Fundación Dr.
Antonio Esteve, Nº 25. Barcelona: Fundación Dr. Antonio Esteve; 2012.

Para solicitar cuadernos ya publicados diríjanse por escrito a la Fundación Dr. Antonio Esteve, c/ Llobet i Vall-Llosera nº2, 08032 Barcelona,
o a través de la página web: www.esteve.org.

You might also like