Professional Documents
Culture Documents
FUNDAMENTOS DE ESTADSTICA
EN CIENCIAS DE LA SALUD
001-000 Fundamentos.indd 5
27/07/2010 13:08:27
ISBN978-84-490-2632-4
Dipsit legal: B. 34.483-2010
Printed in Spain
001-000 Fundamentos.indd 6
02/09/2010 12:24:21
ndice
1. Presentacin
1.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 La variabilidad es la base de la investigacin . . . . . . . . . . . . . . . . . . . .
1.3 El por qu de la necesidad del cambio de enfoque . . . . . . . . . . . . . . . .
1.4 El ejemplo prctico y las herramientas de estudio . . . . . . . . . . . . . . . .
1.5 Qu tipos de anlisis incluye este libro? . . . . . . . . . . . . . . . . . . . . . . .
Estadstica univariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Estadstica bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2. Medida de la variabilidad en una muestra . . . . . . . . . . . . . . . . . . . . .
2.1 Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Tipos de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Estadstica descriptiva de las variables continuas . . . . . . . . . . . . . . . .
Representacin grfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medidas de tendencia central: Origen de la medida de la variabilidad
La media como centro de gravedad de la informacin muestral . . . . .
La mediana o el centro de los valores . . . . . . . . . . . . . . . . . . . . . . . . . .
La moda como medida de lo ms frecuente . . . . . . . . . . . . . . . . . . . . .
Medidas de la dispersin: la unidad de la variabilidad . . . . . . . . . . . . .
Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Desviacin cuadrtica media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Varianza y desviacin estndar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Desviacin estndar, unidad de medida natural de la variabilidad
o dispersin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribucin de percentiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medidas de signo o tendencia de la dispersin . . . . . . . . . . . . . . . . . . .
Coeficiente de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coeficiente de sesgo: g3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Estadstica descriptiva de las variables cuantitativas categricas
o discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Representacin grfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Estadstica descriptiva de las variables categricas cualitativas . . . . .
Representacin grfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
14
17
19
20
20
23
27
27
31
33
33
33
34
36
37
39
40
41
41
41
42
43
44
45
45
46
47
50
50
52
53
001-000 Fundamentos.indd 7
27/07/2010 13:08:27
52
61
61
79
79
81
82
85
87
001-000 Fundamentos.indd 8
63
63
65
66
66
68
73
89
90
90
91
94
97
99
99
100
101
102
103
104
106
110
111
112
115
117
119
120
27/07/2010 13:08:27
ndice
001-000 Fundamentos.indd 9
122
124
124
127
128
128
130
133
136
138
140
141
143
144
145
146
149
155
155
156
158
163
165
166
171
173
176
177
178
179
179
183
185
187
188
191
195
199
200
203
203
27/07/2010 13:08:27
10
6.8.2 Contrastes de homogeneidad e independencia . . . . . . . . . . . . . .
6.8.2 Contrastes por razn de verosimilitudes . . . . . . . . . . . . . . . . . . .
Verosimilitud de una distribucin de frecuencias como realidad
observada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contrastes de conformidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Contrastes de independencia: la tabla de contingencia . . . . . . . . . . . .
Otros tipos de contrastes y estimacin de parmetros . . . . . . . . . . . . .
Anexo 6. Resolucin de los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
001-000 Fundamentos.indd 10
207
209
209
209
213
215
219
27/07/2010 13:08:27
1
Presentacin
1.1 Introduccin
En las ciencias biolgicas las propiedades observables y el resultado de los procesos
experimentales presentan una gran variabilidad, incluso cuando aparentemente los experimentos y las observaciones se llevan a cabo en las mismas condiciones de trabajo.
A diferencia de las propiedades fsicas clsicas, que se rigen por leyes demostradas, en las ciencias de la salud, en general, la repeticin de un experimento no lleva
necesariamente al mismo resultado.
As en la fsica clsica, cuyo desarrollo fue paralelo al matemtico y tambin gracias a este ltimo, el gran reto de los experimentadores era el de poder conocer con
precisin y exactitud la magnitud de las propiedades que estudiaban. En ese contexto,
un objeto, el resultado de un experimento, deba tener una magnitud cuantificable nica independientemente de cundo o dnde se efectuase la medicin, siempre que las
condiciones experimentales fuesen las mismas. Por ejemplo, un litro de agua pura a
cuatro grados centgrados debe pesar un kilogramo. Esa relacin se hace extensible a
cualquier litro de agua pura en esas condiciones.
El problema del experimentador es que, al efectuar la pesada de dicha cantidad de
agua, generalmente no se obtiene el peso exacto, sino que con frecuencia, tras mltiples pesadas, se obtiene una diversidad de cifras alrededor de 1 kg. Eran pues mediciones errneas y ese error era tanto mayor cuanto se alejaba del verdadero valor y a su
vez era slo imputable a la balanza con la que se pesaba.
Surgen pues dos conceptos muy utilizados a la hora de calibrar y caracterizar un
aparato o una tcnica de medida: la precisin y la exactitud.
Exactitud
Error (Variabilidad)
Precisin
Figura 1.1
Variabilidad en las mediciones fsicas.
001-000 Fundamentos.indd 11
27/07/2010 13:08:28
12
Si comparamos este rango de valores con el que se podra obtener con una balanza
ms sencilla, por ejemplo 0,9 y 1,1, diramos de esta ltima que tiene una precisin
ms pobre o menor precisin.
Existe sin embargo la posibilidad de que, al pesar el patrn de kilogramo, los resultados obtenidos fluctuaran entre 0,869 y 0,871, es decir de forma bastante precisa (1
mg), pero claramente ms alejados de la realidad que los dos casos anteriormente expuestos.
Ese aspecto es el que mide la exactitud, concepto que nos relaciona el promedio de
las medidas en comparacin con el verdadero valor del patrn medido. Es decir si el
promedio de las mediciones coincidiese con el verdadero valor del patrn utilizado, la
balanza, en este caso, sera totalmente exacta, aunque ninguna de las pesadas coincidiese con el verdadero valor.
Comentario:
Si tuviese que escoger entre un aparato de medida muy preciso o muy exacto, por
cul de los dos se decantara su eleccin?
Qu preferira, un termmetro que sistemticamente diera de lectura 4 grados
por encima de la verdadera pero muy preciso o un termmetro muy exacto pero con
una mala precisin?
En el primer caso, slo hay que restarle los 4 grados para saber la temperatura
del momento, dado que la lectura efectuada es muy precisa, necesitando por lo tanto slo una medicin. En el segundo supuesto, al tener una mala precisin, tendramos que efectuar un nmero determinado de mediciones para conocer el promedio
y as conocer la temperatura medida, debido a que el termmetro es muy exacto.
El manejo de estos errores ha dado paso a una serie de conceptos muy utilizados en
Estadstica, como los llamados generalmente error estndar y error estndar de la media, el intervalo de confianza, etc. Estos trminos, como veremos a lo largo de este libro, no tienen aplicacin estricta en el sentido etimolgico a la hora de analizar las
diferentes mediciones que pueden realizarse en un conjunto de individuos. As, no
existen individuos estndar ni mucho menos errneos aunque s, lgicamente, medidas
errneas pero no en el concepto de los experimentos fsicos, sino porque se midi la
propiedad de forma inadecuada.
En las ciencias experimentales observacionales, las que componen la mayor parte
de la experimentacin biolgica y de la salud en general, no existen tampoco ese tipo
de patrones de referencia. Como veremos ms adelante, los mrgenes de normalidad
fisiolgica se determinan siempre tras anlisis complejos en funcin de las pruebas que
se van acumulando en la literatura. Lgicamente, los aparatos de medida deben poseer
una exactitud como mnimo controlada y una precisin adecuada a lo que se pretende
medir, pero incluso un mismo individuo no sirve como patrn de s mismo en sus caractersticas, ya que stas varan y fluctan a lo largo del tiempo, incluso en perodos
muy cortos.
En esta situacin las variaciones que se observan al efectuar varias mediciones no
implican que los diferentes resultados sean valores errneos, sino que, a diferencia de
los parmetros o las constantes fsicas, las mediciones corresponden a la cuantificacin
001-000 Fundamentos.indd 12
27/07/2010 13:08:28
Presentacin
13
de fenmenos que fluctan de forma aleatoria, incontrolable y por lo tanto sin explicacin racional alguna.
Comentario:
A poco que el lector reflexione comprender que si la nica fuente de variacin
entre los valores de las mediciones, o entre los distintos valores de la variable observada, fuese exclusivamente la fluctuacin aleatoria, poco espacio quedara para investigar un fenmeno. Es lgico pensar que, si la variabilidad se debiese
exclusivamente al azar, con encontrar un modelo matemtico de probabilidad para
conocer esa fluctuacin no cabra otro estudio ms.
Una caracterstica, sin embargo, de los fenmenos biolgicos es que generalmente
las mediciones varan ms all de lo previsto por el azar, e incluso ms all de la variabilidad aleatoria ms la variabilidad debida al error o precisin de la medida. Las propiedades biolgicas de los seres vivos son el resultado de un conjunto de gran
dimensin de factores, por lo que al cambiar uno de esos factores podemos observar,
en general, cambios en la medicin, apareciendo por lo tanto una variabilidad que podemos llamar atribuible al factor.
Variabilidad
Error de medida
Aleatoria
Atribuible
Variabilidad observable
V. Atribuible > V. Aleatoria > Error de medida
(posible)
(permanente)
(controlable)
Objeto del estudio
Necesario conocerlas
Figura 1.2
Componentes de la variabilidad en medidas
biolgicas o en Ciencias de la Salud.
Esto se hace evidente si consideramos una propiedad que utilizaremos con frecuencia a lo largo del texto y es la tensin arterial sistlica.
Cul es la tensin arterial sistlica estndar de un individuo? Nadie sera capaz de
definir un concepto de este estilo, en todo caso, lo adecuado sera indicar la tensin
arterial ptima para no presentar riesgos de algn tipo de patologa. Por ejemplo, pruebas publicadas y consensos clnicos indican que sera recomendable tener una tensin
arterial sistlica TAS que no superase los 90 mm de Hg. Como todo consenso es cambiante, no es de extraar que esa cifra se convierta en 85 despus de diferentes pruebas
posteriores, mal llamadas en castellano evidencias debido a una inadecuada traduccin
del trmino en ingls evidence.
001-000 Fundamentos.indd 13
27/07/2010 13:08:28
14
001-000 Fundamentos.indd 14
27/07/2010 13:08:28
Presentacin
15
Men
POL-WAR
LTU-KAU
RUS-NOC
UNK-GLA
FIN-NKA
RUS-NO
RUS-MOC
CZE-CZE
YUG-NOS
RUS-MOI
BEL-CHA
FRA-LIL
POL-TAR
FIN-KUO
UNK-BEL
FIN-TUL
FRA-STR
GER-EGE
ITA-FRI
GER-BRE
BEL-GHE
USA-STA
DEN-GLO
GER-AUG
SWE-GOT
NEZ-AUC
ITA-BRI
AUS-NEW
CAN-HAL
SEI-VAF
ICE-ICE
SWENS
SWI-TIC
AUS-PER
FRA-TOU
SPA-CAT
CHN-BEL
Women
CHD
Stroke
Other CVD
Non CVD
500
1000
1500
2000
UNK-GLA
POL-WAR
LTU-KAU
USA-STA
DEN-GLO
BEL-CHA
RUS-NOC
YUG-NOS
CZE-CZE
UNK-BEL
RUS-MOC
BEL-GHE
GER-EGE
RUS-NOI
RUS-MOI
MEZ-AUC
POL-TAR
FRA-LIL
AUS-NEW
CHN-BEI
CAN-HAL
GER-BRE
FIN-NKA
SWE-GOT
FIN-KUO
ITA-FRI
CER-AUG
FIN-TUL
FRA-STR
ICE-ICE
AUS-PER
ITA-BRI
SWE-NSS
FRA-TOU
SPA-CAT
250
500
750
1000
Figura 1.3
Tasa de mortalidad por 100.000 habitantes en los pases participantes
del estudio MONICA.
En la grfica puede observarse una gran variabilidad de mortalidad entre las subpoblaciones de los centros colaboradores. Tanto en el caso de hombres como en el de
mujeres existen diferencias que se pueden resumir como que hay pases en los que la
mortalidad por todas las causas es tres veces mayor que en otros.
Lo mismo ocurre si se observa la mortalidad por enfermedades cardiovasculares,
en que las diferencias pueden ser cuatro y cinco veces entre dos pases.
Esta inmensa variabilidad, en el supuesto de que los mtodos de registro de mortalidad fuesen estrictamente comparables y no estuvisemos introduciendo errores de
medida, puede ser de tipo exclusivamente aleatorio?
Intuitivamente e incluso emocionalmente no podramos aceptar que la mortalidad
puede ser tres veces mayor comparando dos centros pertenecientes a la Unin Europea, por ejemplo. Sin embargo, cientficamente no podemos basarnos en intuiciones ni
emociones o deseos, sino que el proceso de anlisis debera seguir el siguiente es
quema:
Es conocida la distribucin terica de probabilidad de la mortalidad en circunstancias referibles en una poblacin tericamente homognea?
001-000 Fundamentos.indd 15
27/07/2010 13:08:29
16
En el caso de que as sea, y como veremos en captulos posteriores es una distribucin de Poisson, podemos medir o conocer qu variabilidad era de esperar si
la nica fuente de variacin fuese el azar, es decir una distribucin Poisson
pura?
Podemos medir la variabilidad observada? Es mayor que la calculada en el
paso anterior? En ese caso y en la certeza de que no existen problemas metodolgicos de determinacin y registro de la mortalidad, diramos que hay una fraccin de la variabilidad que podra ser atribuida a componentes estructurales que
diferencian a los centros o pases en los que se encuentran como su grado de
desarrollo, o bien a factores culturales, sociales, hbitos dietticos, extensin del
problema del tabaquismo, diferencias en estructuras de poblacin en edades,
escolaridad, y muchos ms.
En otras palabras, segn el esquema descrito en la Figura 1.2, existe una variabilidad atribuible.
Sin duda, no se trata tampoco de ignorar si el valor promedio de la mortalidad en el
estudio es alto y qu factores podran modificarse para que, en el global, la mortalidad
disminuyese. Sin embargo, en la mayora de los casos, un proyecto no experimental no
se centra tanto en los niveles promedio de las variables como qu parte de la variabilidad es atribuible a un factor y qu implicara su modificacin.
Automticamente, la intervencin que conduzca a una disminucin del problema
en las situaciones extremas irremediablemente conducir a una mejora en los valores
promedio siendo, con toda la seguridad, ms fcil de planificar que en una accin que
buscase la disminucin en todos los estratos de la poblacin.
As pues los objetivos fundamentales de la Bioestadstica podran enunciarse de
forma genrica como:
Desarrollar mtodos para el anlisis de la variabilidad observable y medirla adecuadamente.
Valorar si los cambios observados son atribuibles a la variabilidad natural o
aleatoria o bien a la presencia de factores externos que influyen lo suficiente para
hacer evidente una modificacin de la misma.
Estos dos enunciados implican que de forma ms concreta las acciones ms frecuentes en el campo del estudio de la variabilidad sean:
Elaborar una unidad de medida de la variabilidad: varianza y estimarla cuantitativamente.
Estimar entre qu mrgenes es de esperar que las medidas flucten de forma
aleatoria: estimacin por intervalo.
Crear criterios para determinar cundo una medida est ms all, lejos de lo esperado o an se encuentra cerca, frente a la variabilidad conocida: pruebas estadsticas.
Evidentemente, la conclusin es que los sucesos observables dejan de ser esperables en el sentido fsico, de la determinacin, y se convierten en sucesos probables.
001-000 Fundamentos.indd 16
27/07/2010 13:08:29
Presentacin
17
En la figura 1.4 se muestran los cuatro apartados que se desarrollarn en este libro
y que los lectores que ya tienen conocimientos estadsticos podrn reconocer como los
cuatro grandes apartados de cualquier curso de Bioestadstica, si bien bajo otra perspectiva.
Objetivos de la Bioestadstica
Medir la variabilidad de los sucesos biolgicos.
Definir cundo varios resultados estn lo suficientemente lejos
unos de los otros ms all de la variabilidad aleatoria.
Detectar las posibles fuentes de variabilidad atribuible.
Efectuar estos razonamientos en trminos de probabilidad.
Figura 1.4
Objetivos centrales de la Bioestadstica.
001-000 Fundamentos.indd 17
27/07/2010 13:08:29
18
todo acabar con la confusin que existe entre las distinciones necesarias en su poca
entre mtodos aproximados y mtodos exactos.
En general el enfoque clsico de esta materia ha tenido dos grandes condicionantes.
El primero el hecho de su origen. Como ya hemos dicho anteriormente, el primer
mbito de aplicacin de la Estadstica fue la medicin fsica y posteriormente cualquier
tipo de medicin, pero en general ligada a poder precisar la media o el promedio de una
variable o magnitud. Es decir, intentando estimar de alguna forma la exactitud de la medicin con la mxima precisin posible o por lo menos cuantificada. Incluso los grandes
estadsticos del siglo pasado, Pearson, Fisher, Gosset, Snedecor, Wilcoxon, y tantos
otros, se dedicaron preferentemente o bien al control de calidad o al diseo experimental,
sobre todo en el mbito agropecuario, rea en la que los resultados obviamente se centran
en los promedios de produccin obtenidos con la menor variabilidad posible.
En Ciencias de la Salud, se han aplicado histricamente esos criterios en el entorno
ms cercano al ensayo experimental, como es el ensayo clnico. Sin embargo, tambin
aqu, por desgracia, el formalismo es slo parecido y en realidad, como se podr ver en
algn ejemplo, existen grandes diferencias conceptuales entre los ensayos clnicos y
los diseos experimentales desarrollados por los citados autores.
Por otro lado, en el rea citada, una gran parte de los estudios no pretenden observar
el promedio resultante al efectuar una experiencia o al efectuar una observacin pre o
postintervencin en un colectivo de pacientes. A nadie le satisfara la idea de que le curasen en promedio, sino que lo que es de inters es cul es la probabilidad de curacin, cul
es la probabilidad de sobrevivir ms de un nmero de aos determinado despus de una
intervencin quirrgica oncolgica o despus de haber sufrido un infarto de miocardio.
Es decir, en la mayora de casos el inters del clnico se basa en la necesidad de
precisar la probabilidad de que ocurra un fenmeno o no, y eso en general se denomina
el valor pronstico de una accin. Este tipo de anlisis requiere de la resolucin y determinacin de funciones de probabilidad que no tienen nada que ver, en principio, con
la conocidsima pero poco comprendida distribucin normal o campana de Gauss.
Cul es el motivo de la persistencia en la utilizacin de la distribucin normal? La
respuesta reside en que la mayora de distribuciones de inters en Ciencias de la Salud,
como la multinomial, binomial, hipergeomtrica, Poisson y tantas otras, requieren el
clculo de permutaciones y por lo tanto de la determinacin de factoriales, es decir N!.
Es un proceso engorroso para efectuar manualmente o casi imposible sin los procesadores actuales por el tiempo requerido en cuanto N es un valor elevado.
Esto obligaba a recurrir a mtodos aproximados en los que los estadsticos matemticos mostraban siempre que para N tendiendo a infinito acaba ajustndose bien una
normal, y que luego finalmente se acababa diciendo que, a partir de un nmero ms
humilde de datos, generalmente 30, tambin se aplicaba.
Comentario:
Recuerde que el factorial de un nmero N se expresa como:
N*(N-1)(N-2)*. (N-k)* *3*2*1
Y que aparte de requerimientos de tiempo tiene problemas de magnitud. As
incluso con los primeros ordenadores de 8 bits, manejar factoriales de nmeros superiores a 20 era si no imposible, impensable por el tiempo necesario de clculo.
001-000 Fundamentos.indd 18
27/07/2010 13:08:29
Presentacin
19
001-000 Fundamentos.indd 19
27/07/2010 13:08:29
20
Por esa razn, los lectores tienen a su disposicin la base de datos ya etiquetada,
purgada de errores de transcripcin y con la definicin completa de qu valores cuantitativos se corresponden con valores perdidos o no medidos o que no podran medirse
porque la medicin no procede, como, por ejemplo, datos sobre la menstruacin en el
caso de hombres. No obstante, se sugiere al lector que efecte un control de calidad de
las variables con el fin de detectar posibles casos de falta de informacin y su posterior
recodificacin.
Puede accederse a dichas bases de forma gratuita en http://graal.uab.es en el apartado datos MONICA.
En la figura 1.5 se muestra un resumen de las variables que conforman la base de
datos utilizada en este libro:
11833 personas, entre 25 y 64 aos.
Efectuado en 30 pases de 1990 a 1997.
Informacin utilizada en este curso:
Edad y sexo.
Estado civil y nivel de estudios.
Datos de TAS y TAD, CHLT y HDL.
Datos antropomtricos.
Diagnsticos cardiovasculares.
Tabaquismo.
Figura 1.5
Contenido del archivo de datos MONICA utilizado.
Los ejemplos que se muestran a partir del prximo apartado estn resueltos en R,
de forma que su presentacin no se diferencie en la prctica con los resultados que se
obtendran si se hubiesen creado con SPSS, paquete estadstico habitual en gran nmero de libros de referencia.
Este libro no pretende convertirse en una gua de los programas citados y, por lo
tanto, al lector se le supone suficiente experiencia en al menos uno de los programas
para poder seguir con pleno rendimiento el libro. En caso contrario, le remitimos a
cualquiera de las obras que se citan en la bibliografa y que pueden considerarse una
introduccin suficiente para el manejo de ambas herramientas.
1.5 Qu tipos de anlisis incluye este libro?
En primer lugar una observacin y descripcin de la variabilidad, tanto para variables
de tipo cuantitativo continuo como variables de tipo nominal cualitativo o categricas
cuantitativas.
Estadstica univariada
Siguiendo el esquema de razonamiento del apartado anterior, de entrada se enunciar
el concepto de variabilidad para cualquier tipo de variable, as como la forma de des-
001-000 Fundamentos.indd 20
27/07/2010 13:08:29
Presentacin
21
1200
Histograma
600
800
= 26,2
= 4,6
= 11 470
= 363
200
400
Frecuencia
1000
media
desviacin tpica
n
NA (missings)
15
20
25
30 35
40
45
50
55
60
65
Figura 1.6
Descripcin de los valores de IMC, ndice msico corporal
(peso en Kg./talla2 en m).
500
200
300
= 142,8
= 29,4
= 5 909
= 210
100
Frecuencia
400
media
desviacin tpica
n
NA (missings)
70
90
110
130
150
170
190
210
230
250
Figura 1.7
Descripcin de la segunda medicin de la presin sistlica en mujeres.
001-000 Fundamentos.indd 21
27/07/2010 13:08:29
22
En la figura 1.6 podemos ver la descripcin grfica de la variabilidad del ndice msico corporal, IMC, de las mediciones de los ms de 11000 participantes en el estudio.
Aparentemente y en principio, se parecera a una campana de Gauss, lnea en continuo
superpuesta. Sin embargo, se observan diferencias: no se ajusta exactamente, es como si
en la grfica se hubiese podido estirar de la misma desde los valores altos, y por lo tanto
se desplaza un poco ms a la derecha de lo previsto, segn una campana de Gauss.
Sin embargo, como veremos en el siguiente captulo, es ms informativo resumir
la informacin que tienen los datos en una serie de parmetros que nos indican precisamente eso, si existen tendencias, si existe simetra, etc.
En cambio, en la figura 1.7 puede apreciarse claramente que la distribucin de
valores es ms compleja. Por mucho que nos esforcemos no existe una campana de
Gauss. En realidad casi sera ms aceptable decir que tenemos dos o ms campanas
superpuestas, aunque desplazadas. Es como si hubisemos mezclado datos de dos o
tres poblaciones diferentes, como mnimo. Vemos que la distribucin tiene varios valores mximos o picos, modas, y eso acostumbra a asociarse con la presencia de ms
de una poblacin.
Tambin podremos analizar la variabilidad de propiedades cualitativas o nominales, o llamadas de forma ms genrica, categricas.
80
Porcentaje
60
40
20
vo
do
Vi
u
di
So
lte
ro
rc
ia
do
tro
s
O
Se
pa
r
ad
o
in
s
to
Da
Ca
sa
do
su
en
fic
pa
r
ie
nt
ej
a
es
Estado civil
Figura 1.8
Distribucin de las opciones posibles de la variable estado civil.
En la figura 1.8 se muestra la variabilidad de la propiedad estado civil de los individuos que participan en la revisin estudiada.
Como puede observarse, la mayora de individuos estn casados o conviven en
pareja, siendo casi igual la proporcin de solteros que la de separados o divorciados.
La variabilidad en este caso estara descrita quizs por una distribucin multinomial.
001-000 Fundamentos.indd 22
27/07/2010 13:08:29
Presentacin
23
2000 2500
1500
0
500
1000
Frecuencia
3000
3500
25-34
35-44
45-54
55-64
Grupo de edad
Figura 1.9
Grupos de edades presentes en la muestra.
Una vez familiarizado el estudiante con los conceptos de variabilidad y las definiciones que complementan este concepto, en un segundo apartado se introducir al
alumno en la descripcin de la variabilidad de una propiedad en funcin de otra o factor. Se pretende con ello describir el primer abordaje al anlisis de las variabilidades
atribuibles a factores y no exclusivamente al azar.
Estadstica bivariada
En las dos figuras siguientes, 1.10 y 1.11, se muestra grficamente el concepto de anlisis bivariado. Consiste ste en la representacin, cuantificacin y comparacin de las
variabilidades observadas en una propiedad en funcin de la existencia de un factor
externo que puede introducir una variabilidad atribuible al factor y adicionable a la
propia de la variable bajo un concepto estrictamente aleatorio.
001-000 Fundamentos.indd 23
27/07/2010 13:08:30
24
Fuma cigarrillos?
ocasionalmente
si regularmente
no
Sexo
Mujer
Hombre
1000
2000
3000
4000
5000
Recuento
2500
Figura 1.10
Hbito tabquico descrito segn la variable sexo.
1500
1000
0
500
Recuento
2000
enseanza superior
FP
bachillerato
primaria
Hombre
Mujer
Sexo
Figura 1.11
Nivel educativo para hombres y mujeres.
Cualquiera de estos dos ejemplos, figuras 1.10 y 1.11, nos muestra la variabilidad
observada de dos propiedades categricas con ms de dos categoras, hbito tabquico
con tres y nivel educativo con cuatro.
La mera descripcin bivariada nos hace apreciar diferencias en las distribuciones
de las dos variables para hombres y mujeres; sin embargo en este nivel lo nico que
podemos plantearnos es si la variabilidad observada es slo atribuible al azar o no. Para
ello se llevarn a cabo anlisis para cuantificar las diferencias y plantear si stas difie-
001-000 Fundamentos.indd 24
27/07/2010 13:08:30