Professional Documents
Culture Documents
ndice.
Captulo 1: Introduccin ........................................................................................... 6
Captulo 2: Metodologa........................................................................................... 11
2.1 Los modelos de respuesta discreta .............................................................. 11
2.1.1 El modelo lineal ............................................................................... 12
2.1.1 El modelo logit ................................................................................. 13
2.1.1 El modelo probit ............................................................................... 14
2.2: Modelo de regresin logstica binaria .......................................................... 15
2.2.1: Formulacin e interpretacin ............................................................... 15
2.2.1.1: Formulacin del modelo .............................................................. 15
2.2.1.2: Interpretacin ............................................................................... 17
2.2.2 Estimacin ............................................................................................ 18
2.2.3 Contrastes sobre los parmetros.......................................................... 21
2.2.3.1: Contrastes ................................................................................... 21
2.2.3.2: Intervalos de confianza ................................................................ 22
2.2.4: Bondad de ajuste ................................................................................. 23
2.2.5: Seleccin de variables ......................................................................... 26
2.2.6: Validacin y diagnosis ......................................................................... 28
Captulo 3: Aplicacin en R...................................................................................... 31
3.1 Primeros pasos con R .................................................................................. 32
3.2 Estadstica descriptiva bsica con R ............................................................ 37
3.2.1 Variables categricas ............................................................................ 37
3.2.2 Variables cualitativas ordinales ............................................................. 41
3.2.3 Variables cuantitativas .......................................................................... 43
3
Captulo 1
Introduccin
En el presente trabajo se estudiarn modelos de respuesta discreta, su
formulacin, su ajuste y evaluacin con R y se aplicarn a un conjunto de datos reales.
En particular, nos centraremos en los modelos de regresin logstica binaria.
Los modelos de respuesta discreta son la herramienta estadstica apropiada
para modelizar el comportamiento de una variable dependiente (respuesta) de
naturaleza discreta a partir de un conjunto de variables independientes (predictoras),
que pueden ser tanto discretas como continuas. Estos modelos son un caso particular
de los Modelos Lineales Generalizados introducidos por Nelder y Wedderburn en
1972. Para un mayor conocimiento de stos, pueden consultarse obras como las de
McCullagh y Nelder1 o Agresti2.
Existen distintos tipos de modelos de respuesta discreta que dependen, entre
otros aspectos, del tipo de respuesta. En particular, si la variable dependiente es
dicotmica, estamos hablando de modelos de respuesta binaria, mientras que si
tiene ms de dos categoras de respuesta, estamos hablando de modelos de
respuesta mltiple. Ms an, si esas categoras tienen un orden natural, entonces
estamos hablando de modelos de respuesta ordenada. Segn la funcin utilizada
para la estimacin de la probabilidad, encontramos el modelo lineal, el modelo Logit
y el modelo Probit. Cuando las variables explicativas que se utilizan para estimar las
probabilidades asociadas a cada una de las posibles alternativas que presenta la
variable dependiente se refieren a atributos de las distintas alternativas, y no a
caractersticas especficas de los individuos, entonces hablamos de un modelo
condicional.
En el ejemplo que se estudiar en el ltimo captulo de esta memoria, la
variable respuesta es dicotmica, por lo que debera ajustarse un modelo de respuesta
binaria.
6
caractersticas
factores
asociados
al
dolor
crnico
en
discapacitados, as como la comorbilidad dolor crnico-ansiedad y dolor crnicodepresin. Las conclusiones del estudio estn encaminadas a mejorar el
tratamiento del dolor en estos pacientes mediante la exploracin sistemtica de
trastornos psiquitricos asociados.
bsicos,
incluyendo
figuras,
pasando
por
anlisis
10
Captulo 2
Metodologa
En el presente captulo se presentan de forma genrica los modelos de
respuesta discreta y, con rigor, la formulacin, interpretacin, ajuste, contraste de
bondad de ajuste, validacin y diagnosis de los modelos de regresin logstica binaria.
data analisys2. Estos libros son una lectura recomendada tanto para modelos de
respuesta mltiple como para modelos de respuesta discreta, en general.
Los modelos de respuesta binaria tienen una variable dependiente dicotmica
que llamaremos Y. Esta variable puede tomar dos valores, que podremos recodificar
en 0 y 1. Generalmente se asocia el valor 0 a la ausencia, al fracaso o a una
respuesta negativa en general, y el valor 1 a la presencia, el xito o una respuesta
afirmativa en general. Con la variable as codificada, se tiene que Y sigue una
distribucin de Bernouilli de parmetro p (0<p<1).
Puesto que contamos con una serie de variables independientes X
predictoras del comportamiento de Y, lo propio es considerar la distribucin de Y en
cada valor observado de X, Y(x). Se tiene que es tambin una Bernouilli de
esperanza p(x) y varianza p(x)[1-p(x)]. El objetivo final ser la construccin de un
modelo para Y(x) en funcin de los parmetros, x, y un error.
Para satisfacer esta necesidad, disponemos de los modelos lineales, los
modelos logit y probit, aunque los modelos lineales tienen ciertos problemas que
veremos a continuacin.
2.1.1: El modelo lineal
Supongamos que tenemos R variables independientes con N observaciones en
,,
variable para el individuo i-simo. El modelo de probabilidad lineal, que deriva del
, (
1, , ), (
1, , )
, (
1, , ), (
1, , )
12
Todos los problemas presentados hacen que estos modelos no sean tan
utilizados y, en su lugar, la comunidad cientfica tienda a hacer uso de los modelos no
lineales, que vienen a corregir dichos problemas. En el caso de los modelos no
lineales, lo que se busca es un modelo del tipo:
,(
1, , ), (
1, , )
Es decir:
1, , ), (
, (
1, , )
, (
1, , ), (
1, , )
O equivalentemente:
ln
, (
13
1, , ), (
1, , )
Este modelo no se sale del rango [0,1] como ocurra con el lineal. Adems, las
rectas Y=0 e Y=1 son asntotas horizontales y la tasa de cambio en p(x
en funcin de
F x
dt, x R
La expresin del modelo sigue siendo la misma, pero con esa eleccin
concreta de F:
, (
14
1, , ), (
1, , )
Este modelo tiene caractersticas similares a las del modelo logit, con la
particularidad de aproximarse a las asntotas horizontales (Y=0, Y=1) con mayor
rapidez. Es un modelo que tambin se usa con cierta frecuencia en el mbito de la
investigacin cientfica22-26 y, particularmente, es muy usado en toxicologa27-30. Para
un mayor conocimiento sobre estos modelos pueden consultarse las obras de Bliss31,
Finney32 o Steinbrecher y Shaw33.
ln
, (
1, , ), (
1, , )
,,
15
(si b>0) o decreciente (si b<0). Por tanto, con b>0 la probabilidad de respuesta tender
a 1 para
y a 0 para
, (
1, , ), (
1, , )
16
37
, que permite
del
1
1
Estando ambos conceptos relacionados a travs de la expresin:
1
1
17
,,
1|
el nmero de
18
ecuaciones de verosimilitud:
con el estimador MV de
0,
0, ,
los estimadores MV de
19
que
La convergencia de
es de orden 2 y
el criterio de parada suele ser cuando entre dos pasos consecutivos, el cambio en las
probabilidades o la log-verosimilitud es inferior a 10 , o el de los parmetros B inferior
40, 41
a 10
opciones son asumir que son 0, partir de la estimacin obtenida mediante mnimos
cuadrados ordinarios, o partir de los valores ms adecuados obtenidos mediante
anlisis discriminante sobre las variables explicativas, como proponen Hosmer y
Lemeshow19.
Por otra parte, se podra usar el mtodo de estimacin por mnimos cuadrados
ponderados para la estimacin de los parmetros. Este mtodo pondera cada
observacin por el inverso de su varianza, debido a la heterocedasticidad. Se trata de
un mtodo que conduce a la obtencin de estimadores asintticamente ptimos para
valores
dependencia de los valores iniciales y el hecho de ignorar los casos en los que
la proporcin
ln
y e el vector de errores
1
20
de la
distribucin.
El contraste condicional de razn de verosimilitudes es ms fiable en general
que el de Wald, siendo su uso ms recomendable, razn por la que la seleccin de
variables en el apartado 2.2.5 se plantea con este tipo de contrastes. En este contraste
se parte de un modelo M que se ajusta bien y se quiere contrastar si un subconjunto
de los parmetros , denotado
,,
hiptesis siguen siendo las mismas pero el estadstico, en esta ocasin, es la forma
cuadrtica:
1
donde
y X es tal que
nula, distribucin
MA.
2.2.3.2: Intervalos de confianza.
Basndonos en la distribucin normal asinttica de los estimadores MV,
podemos construir los siguientes intervalos de confianza a nivel 1
Para los parmetros: Para cada
:
,
), se tiene el
intervalo:
), se tiene el
intervalo:
z
se obtiene el intervalo:
22
1, ,
conocida como el
mencionadas:
El estadstico
de
bondad de ajuste a cada una de las distribuciones B(n , p ) que generan a los datos
muestrales bajo la hiptesis nula de que las probabilidades p verifiquen el modelo,
resultando ser:
(transformaciones logit
muestrales) y el nmero de parmetros independientes en el modelo, es decir, Q(R+1), de tal modo que se rechazar
a nivel de significacin
, o
n p , sean
mayores que cinco y todas mayores que uno. En caso contrario debe hacerse uso del
test de Hosmer y Lemeshow19. Para la construccin del estadstico, se agruparn las
variables explicativas en G grupos o clases (los autores recomiendan 10 grupos
basados en los deciles de las probabilidades estimadas). Sea n el nmero total de
observaciones en el g-simo grupo,
de dicho
que tiene distribucin asinttica chi-cuadrado con G-2 grados de libertad, por lo que
con sta compararemos para rechazar o aceptar la hiptesis nula.
Adems de los tests previamente descritos, podemos calcular distintas
medidas de bondad de ajuste global como la tasa de clasificaciones correctas, el
rea bajo la curva ROC o las medidas tipo
24
19
. El rango de
de la
lineal, aunque no son tan potentes19. Se pueden definir distintas medidas de este tipo,
pero muchas de ellas presentan inconvenientes como el hecho de decrecer al aadir
una variable explicativa al modelo o que llegue a tomar valores pequeos cuando el
ajuste es casi perfecto. Como medida
de
Cox y Snell:
1
donde V es el mximo de la verosimilitud bajo el modelo nulo y V el mximo de la
verosimilitud bajo el modelo ajustado con todos los parmetros. No obstante, el
25
27
o en el
. Basados en
1
con h
z .A
veces los residuos no ajustados son tratados como N(0,1) para obviar el paso del
ajuste. En ese caso se rechaza H si el valor absoluto del residuo es mayor que 2.
Basados en
estudentizados:
28
ln
ln
que pueden ajustarse igualmente para seguir una N(0,1), siendo la convergencia ms
rpida que en los residuos estandarizados:
1
El contraste de hiptesis es similar al anterior.
Existe una ltima opcin muy til cuando los tamaos
son pequeos. Se
Donde p
X
1
1 1
que 1 46.
Aparte de los procedimientos anteriores, en estos casos resulta muy til recurrir
tambin a mtodos grficos. Podemos representar grficamente los residuos frente a
los valores predichos por el modelo ajustado y observar si estn todos en una banda
horizontal alrededor del 0, o bien representar grficamente las observaciones frente a
los valores predichos y observar si se mantienen en una banda en torno a la recta Y=x,
como se sugiere en el libro de Aguilera34.
29
30
Captulo 3
Aplicacin en R
El presente captulo ofrece una descripcin detallada del software utilizado para
el anlisis estadstico propuesto. El software elegido para tal efecto es el paquete
estadstico R. Las razones de su eleccin son diversas: en primer lugar cabe destacar
su cantidad y calidad de tcnicas y funciones implementadas. Es reseable tambin su
manejabilidad, as como su versatilidad. Es fcilmente adaptable a una gran variedad
de tareas. Adems, es libre, accesible y tiene una mayor implantacin en la comunidad
cientfica, hasta el punto de considerarse un referente e incluso el estndar para el
anlisis de datos. En este trabajo se hace uso de la versin R 2.13.0 con la Interfaz
Grfica de Usuario R-Commander, que permite hacer uso del entorno estadstico R
de una forma mucho ms intuitiva, dotando a R de una interfaz mucho ms amigable
de cara al usuario.
Imagen 3.1: Consola de R (izquierda) e interfaz de R-Commander (derecha).
31
32
33
Tanto sta como el resto de sintaxis que veremos en este captulo se pueden
consultar en el centro de documentacin de R, al cual podemos acceder directamente
desde la consola de comandos escribiendo help(nombre-de-la-funcin). Para hacer
uso de este comando, lo esencial es introducir al principio del parntesis los datos del
modo deseado, bien sea a travs de listas o vectores creados previamente con
rdenes como c(), generando valores o usando cualquier otra funcin cuya salida
sea un conjunto de datos. Si se desea convertir alguna variable en factor, debe
indicarse stringsAsFactors=TRUE. Recordemos que un factor es un tipo especial
de vector que est formado por distintos niveles de la variable en cuestin, como en el
caso de las variables cualitativas. El resto son argumentos que permiten indicar los
nombres de las filas o hacer comprobaciones de consistencia.
Una vez que tenemos creada nuestra base de datos, puede almacenarse y
volver a cargarse en cualquier otro momento.
Pero en la realidad, lo habitual es tener una base de datos en algn formato
electrnico previo, de modo que no tengamos que generar los datos nosotros mismos,
sino tan solo importarlos. R ofrece posibilidades tambin para esos casos. En
particular, R es capaz de importar sin problema bases de datos que estn en formato
34
35
Donde:
var es la variable a recodificar (vector numrico, vector de cadena o factor).
recodes son las instrucciones propias de la recodificacin. Si queremos
recodificar un valor aislado, sencillamente se escribir el valor antiguo, se
pondr = y se igualar al valor nuevo asignado. Si queremos recodificar
varios valores a un mismo valor nuevo, podemos usar la notacin de vector,
por ejemplo c(1,2,5)=9, lo que har que todos los valores que antes eran 1, 2 o
5, ahora valgan 9. Si adems los valores que queremos recodificar en un nico
valor nuevo estn seguidos, podemos usar la notacin : para indicar un rango
de valores, por ejemplo, 5:10=Aprobado. Y si queremos recodificar el resto de
valores que faltan por recodificar, podemos indicarlo mediante else, que hace
referencia a todo lo que queda por especificar.
as.factor.result es un valor lgico que indica si se devuelve un factor.
as.numeric.result es un valor lgico que hace que los resultados se
consideren numricos.
levels es un argumento opcional para especificar el orden de los niveles del
factor devuelto.
Con todo lo anterior, ya sabemos lo bsico y estamos en condiciones de usar R
con una base de datos para comenzar a realizar anlisis sobre los mismos, como
veremos en los siguientes apartados.
36
> .Table<-table(Datos$V1)
> 100*.Table/sum(.Table)
37
Es posible que queramos calcular tambin los intervalos de confianza para las
proporciones
calculadas,
realizar
un
contraste
de
hiptesis.
La
orden
Donde:
x puede ser el vector con el recuento de xitos o una matriz con el recuento
de xitos y fracasos.
n es el vector de recuento de intentos, salvo que ya estuviese incluido en el
argumento anterior.
p es un vector de probabilidades de los sucesos, por lo que oscilar entre 0 y
1 y su longitud coincidir con la de x.
alternative es una cadena de caracteres con la hiptesis alternativa, que
puede ser "two.sided" (dos colas), "greater" (mayor que) or "less" (menor que).
Basta con dar la inicial. Se usa con la hiptesis nula de que una proporcin es
igual a un valor dado, o dos proporciones son iguales. En ningn otro caso.
conf.level es el nivel de confianza del intervalo de confianza, expresado entre
0 y 1. Se usa en los mismos casos que el argumento anterior.
correct es un valor lgico que indica si debe usarse correccin por
continuidad de Yates48.
Entre los objetos que devuelve esta funcin, los ms importantes son:
statistic: devuelve el valor del estadstico chi-cuadrado de Pearson.
parameter: devuelve los grados de libertad de la distribucin chi-cuadrado
aproximada.
p.value: devuelve el p-valor del test.
conf.int: devuelve un intervalo de confianza para el parmetro poblacional si
hay un grupo, o para la diferencia de proporciones si hay dos grupos y no se
especifica el valor de p.
38
> moda=function(x){names(sort(table(x),decreasing=T))[1]}
39
pie(x, labels = names(x), edges = 200, radius = 0.8, clockwise = FALSE, init.angle =
if(clockwise) 90 else 0, density = NULL, angle = 45, col = NULL, border = NULL, lty =
NULL, main = NULL, ...)
>
pie(table(Datos$ANDAR_FUERA),
edges=200,
radius=0.7,
labels=levels(Datos$ANDAR_FUERA),
density=30,
angle=45,
main="ANDAR_FUERA",
col=rainbow_hcl(length(levels(Datos$ANDAR_FUERA))))
40
numricos,
seleccionar
la
variable
> RIR<-as.numeric((Q3-Q1)/Q2)
41
42
R-Commander,
podemos
entrar
en
Estadsticos->Resmenes-
43
Los principales argumentos ya han sido explicados con anterioridad en otras funciones
grficas. El argumento freq es un valor lgico que indica si el histograma debe
44
Hist(Datos$ALTURA_RECOD,
scale="percent",
breaks="Sturges",
col="red",
45
> exp(mean(log(V1)))
El diagrama de dispersin es accesible desde R-Commander en Grficas>Diagramas de dispersin y tiene una serie de opciones interesantes desde ese
mismo men. En particular se pueden aadir etiquetas, identificar observacin, pasar
los datos a escala logartmica, elegir el tamao de los textos, as como de los puntos,
aadir lnea de mnimos cuadrados, etctera. A diferencia de para otros tipos de
grficos, las opciones ofrecidas por R-commander para la generacin de diagramas de
dispersin son bastante completas y por esta razn se ofrece, a ttulo ilustrativo, una
imagen que muestra dichas opciones aunque, como siempre, ser la correspondiente
orden en R la que se explique con ms detalle.
46
scatterplot(x,y,
reg.line=lm,
smooth=TRUE,
boxplots=if
spread=!by.groups,
(by.groups)
""
else
"xy",
span=.5,
loess.threshold=5,
xlab=deparse(substitute(x)),
lty.smooth=lty,
lty.spread=2,
labels,
id.method="mahal",
xlim=NULL,
ylim=NULL,
cex=par("cex"),
cex.axis=par("cex.axis"),
47
>
scatterplot(ALTURA_RECOD~PESO_RECOD,
reg.line=lm,
smooth=TRUE,
48
Por ltimo, cabe destacar que no son stas las nicas opciones que ofrece R a
la hora de realizar un anlisis descriptivo unidimensional, pero s las ms comunes y
las que vamos a necesitar en este trabajo.
49
50
Para dibujar los grficos de mosaico contamos con la funcin mosaicplot, que
no ser explicada porque no es necesaria para la realizacin del presente trabajo. El
lector interesado puede consultar su sintaxis escribiendo help(mosaicplot) en la
consola de R.
51
52
53
summary(Modelo)
Donde puede verse en primer lugar la orden usada para el ajuste del modelo
(call), incluyendo la formulacin del mismo. A continuacin se nos muestran los
valores mnimo, mximo y los cuartiles (incluida mediana) de los residuos de la
devianza (Deviance Residuals), que nos sern tiles a la hora de validar el modelo
(vase apartado 2.4.6). Seguidamente aparecen los coeficientes del modelo. Por filas
encontramos todas las variables incluidas y la constante (Intercept). Por columnas
encontramos, en primer lugar, los valores estimados de los parmetros (Estimate),
luego el error estndar de cada estimacin (Std. Error), seguido del valor del
estadstico del test de Wald (z value) y su significacin (Pr(>| |)) junto con un
cdigo de puntos y asteriscos que facilitan el visionado rpido de la significacin de
cada parmetro. Estas dos ltimas columnas sern usadas en el apartado 3.4.2 para
realizar los contrastes sobre los parmetros del modelo. Por ltimo, tenemos el valor
de la devianza del modelo nulo (Null deviance) y del nuevo modelo ajustado
(Residual deviance), junto con los respectivos grados de libertad (degrees of
freedom) de sus distribuciones asintticas, el criterio de informacin de Akaike (AIC)
(menos dos veces la log-verosimilitud maximizada mas dos veces el nmero de
coeficientes) y el nmero de iteraciones.
55
devuelve
los
valores
medios
ajustados,
mediante
la
coef(summary(Modelo))
56
exp(coef(summary(Modelo)))
Donde:
En object debemos poner el modelo que hemos ajustado y para el cul
queremos calcular intervalos de confianza.
param es un vector que indica a qu parmetros se les debe calcular un
intervalo de confianza. Es opcional y si no se especifica se calculan para todos
los parmetros.
level es el nivel de confianza (por defecto, 95%).
De tal forma que podemos obtener los intervalos de confianza para las a travs de
esa orden directa y usando la funcin matemtica exp obtener los intervalos
correspondientes a las OR, en virtud de lo visto en teora en el apartado 2.2.3.2, donde
se especifica que un intervalo de confianza para la exponencial viene dado a partir de
las exponenciales de los extremos de un intervalo de confianza para .
57
58
tcc<-function(corte,yajus,y)
{
verpos<-table(yajus>corte & y==1)[2]
falpos<-table(yajus>corte & y==0)[2]
falneg<-table(yajus<corte & y==1)[2]
verneg<-table(yajus<corte & y==0)[2]
tasa<-(verpos+verneg)/(verpos+falpos+falneg+verneg)*100
tasa
}
Donde:
corte es el punto de corte para clasificar a los individuos en positivos y
negativos.
yajus es el vector de valores ajustados por el modelo.
y es el vector de valores de la variable dependiente.
Para el clculo del rea bajo la curva ROC, Laura Thompson propone en su
manual50 una medida equivalente a travs de la funcin lrm, del paquete Design.
Dicha funcin admite como argumento la frmula del modelo que ya hemos ajustado
con glm y los datos a partir de los cuales se ajusta. Con ello se ajustar el mismo
modelo que ya tenamos, pero con la ventaja de que entre sus salidas de encuentra
una medida llamada C, que es un indicador de la correlacin entre la respuesta
predicha por el modelo ajustado y la respuesta real. Es la probabilidad de
concordancia entre las predicciones y los resultados, siendo una medida equivalente al
rea bajo la curva ROC. La sintaxis es:
lrm(formula, data)
Donde:
formula es la frmula del modelo final al que hemos llegado.
data es el conjunto de datos (data.frame).
59
anova(Modelos, test="Chisq")
En la imagen anterior vemos que se han contrastado dos modelos: el del paso
previo (Modelo_1), que slo incluye la variable edad, y el nuevo (Modelo_2) que
incluye, adems de la edad, una nueva variable: el sexo. La salida de este anlisis es
una tabla que tiene en sus filas cada uno de los modelos contrastados (2 en este caso)
y en sus columnas encontramos, en primer lugar, Resid.Df que son los grados de
libertad de la distribucin asinttica de la devianza. A continuacin Resid.Dev, que es
el valor de la devianza, seguido de Df, que muestra la variacin de los grados de
libertad. Luego aparece la columna Deviance, que muestra la variacin de la
devianza en el nuevo modelo respecto al anterior. Valores positivos en esta columna
60
cdigo de puntos y estrellas que permite hacerse una idea sobre la significacin en un
solo vistazo.
En este apartado de seleccin de variables tambin puede hacerse uso de la
funcin recode, explicada al final del apartado 3.1, en los casos en los que sea
necesario recodificar alguna variable antes de introducirla en el modelo, o si se quieren
crear manualmente las variables dummies, otorgndole valor 1 a la categora deseada
y 0 al resto, a travs de la recodificacin. Un ejemplo de esto sera el siguiente:
supongamos que tenemos la variable nivel de estudios (NIV_ESTUD_GRUPOS) con
cuatro
categoras
codificadas
numricamente
(0=Sin
estudios,
1=Estudios
61
Donde Modelo es el nombre del modelo con el que estamos trabajando. Si procede,
se usar la orden subset para seleccionar solamente las distancias cooks de los
casos cuyos residuos resultaron significativos.
Otra opcin a la hora de abordar el problema de los residuos significativos es
identificar los casos, eliminarlos y volver a ajustar el modelo sin ellos, para comprobar
si las covariables siguen siendo las mismas y el ajuste es ms fino. Si ese fuera el
caso, podramos ajustar el modelo sin esos casos del siguiente modo:
res<-abs(residuals(Modelo))
Modelo_Final=glm(formula, family=binomial(logit), data, subset=res<2)
summary(Modelo_Final)
Donde:
abs es la funcin que calcula el valor absoluto.
residuals() es la salida devuelta por la funcin glm con los residuos de la
devianza del modelo que figure dentro del parntesis.
Modelo es el nombre otorgado al modelo que hayamos calculado y del que
queramos extraer los casos.
La funcin glm tiene los argumentos ya explicados, con la particularidad de
que en esta ocasin se hace uso del argumento subset, indicndole que solo
realice el ajuste con aquellos datos que verifiquen la condicin res<2, es
decir, que los residuos fuesen menores que 2 en valor absoluto.
Con todas las rdenes vistas en los apartados anteriores y aplicando el
procedimiento visto en el captulo 2, podremos ajustar nuestro modelo de regresin
logstica binaria, tal y como se ver en el prximo captulo.
62
63
Captulo 4
Aplicacin a datos reales
Para ilustrar la metodologa descrita en el trabajo, se propone su aplicacin a
un caso real. Como ya se mencion en la introduccin, se utilizarn los datos
procedentes de la EDAD-2008, llevada a cabo por el INE entre noviembre de 2007 y
febrero de 2008, con el objetivo de conocer la prevalencia, caractersticas y factores
asociados al dolor crnico en discapacitados, as como la relacin dolor crnicoansiedad y dolor crnico-depresin en estos pacientes.
53
sanitarios.
La discapacidad es tambin un problema frecuente. Segn la EDAD-20084, la
prevalencia de discapacidad para el conjunto de la poblacin espaola era del 8,97%.
Ambos procesos (dolor crnico y discapacidad) pueden estar asociados. Sin
embargo la relacin causal entre ambos no ha sido demostrada, ni si esta relacin es
bidireccional5-7,
54
64
Algunos estudios sitan en torno al 50% la prevalencia de dolor crnico en adultos con
discapacidad7 y se ha especulado acerca de que las personas con discapacidad
podran tener mayor riesgo de padecer dolor crnico que las personas que no tienen
estas limitaciones. Distintos factores como la edad, el sexo y otras variables sociales
se han identificado como posibles condicionantes tanto de la forma de enfermar como
de la manera en que los pacientes se enfrentan a las consecuencias de la
enfermedad55, 56. Sin embargo, el papel que juegan estos factores en la relacin entre
el dolor crnico y la discapacidad no ha sido suficientemente estudiado57, ni
adecuadamente tratada la visin del dolor desde la perspectiva de los pacientes con
discapacidad.
La comorbilidad entre dolor crnico y alteraciones mentales, especialmente
ansiedad o depresin, se ha descrito de manera constante en distintos estudios. Sin
embargo, la naturaleza que esta asociacin conjunta tiene sobre la discapacidad no ha
sido suficientemente aclarada en estudios previos58. Pinto-Meza y cols. han sugerido
que, aunque tanto las enfermedades de causa fsica como las de causa mental se han
relacionado con la presencia de discapacidad, la comorbilidad entre ambas es mas
discapacitante que la presencia de cada una de ellas por separado59.
Por otra parte, otros factores como los trastornos del sueo han sido tambin
relacionados con el dolor crnico60 y se ha visto que aquellos individuos que tenan el
sueo alterado por el dolor estaban significativamente ms discapacitados que
aquellos que no61.
Por ello, se propuso realizar este estudio con el principal objetivo de conocer la
prevalencia, caractersticas y factores asociados al dolor crnico en discapacitados,
as como la comorbilidad dolor crnico-ansiedad y dolor crnico-depresin.
65
56
como por ejemplo: sexo, edad, nivel de estudios, tamao del municipio de residencia,
presencia de ansiedad crnica, presencia de depresin crnica y nmero de horas de
sueo al da, considerando que una persona alcanza el nivel normal de sueo si
duerme 8 horas al da, basndonos en la literatura previa que sita este valor
fluctuando entre las 7 y 8 horas diarias63, 64.
En la tabla 4.1, que se muestra a continuacin, podemos ver una descripcin
de las variables consideradas, incluyendo su nombre en la base de datos, las
unidades en que se miden las cuantitativas y los distintos valores o categoras en el
caso de variables cualitativas.
Tabla 4.1: Descripcin de las variables consideradas.
Nombre de la
variable
Nombre en la
base de datos
Descripcin de la variable
Tipo de variable
Sexo
SEXO
Categrica
Edad
EDAD
Continua
Nivel de
estudios
NIV_ESTUD_
GRUPOS
Categrica
Tamao del
municipio
TMUNI
Horas de
sueo al da
H_SUEO_
2BLOQUES
Ansiedad
crnica
Depresin
crnica
ANSI_CRO
DEPRE_CRO
Categrica
Categrica
(Recodificada de una
continua, medida en
horas)
Categrica
Categrica
66
Codificacin en
la base de datos
1
6
0
1
2
3
1
2
3
4
5
< 8 horas
8 horas
S
No
S
No
1
0
1
0
Los datos de todas estas variables recogidos para cada uno de los individuos
de la encuesta estn disponibles, libre y gratuitamente, en la pgina web del INE65, en
formato de microdatos en un archivo de texto. A partir de ese archivo de microdatos se
cre la base de datos en formato SPSS y, para la realizacin de este trabajo, dicha
base fue importada en R siguiendo las instrucciones descritas en el captulo 3. sta y
el resto de rdenes y comandos de R utilizados para obtener los resultados sern
obviados en este captulo y figurarn en un anexo al final del trabajo.
Tras el anlisis descriptivo de los datos, se ajustar un modelo de regresin
logstica binaria para la presencia de DCD. Dicha variable ser la variable respuesta
del modelo, mientras que las variables predictoras sern, a priori, el resto de variables
mencionadas, aunque probablemente no todas figurarn en el modelo final ajustado.
En el caso de las variables categricas, se introducirn en el modelo sus
correspondientes variables de diseo, que estaban recogidas en la base de datos bajo
el nombre genrico de NOMBRE_LETRA1_LETRA2, donde NOMBRE es el
nombre de la variable original, LETRA1 indica la posicin de la categora
correspondiente a esa dummie en concreto sin contar con la categora de referencia y
LETRA2 indica el total de categoras de esa variable (sin la de referencia). Por
ejemplo, NIV_ESTUD_GRUPOS_B_C es la variable de diseo correspondiente a la
segunda categora tras la de referencia de la variable nivel de estudios, es decir, la
dummie que vale 1 cuando el individuo tiene estudios secundarios y 0 en caso
contrario. La C indica que hay 3 categoras adems de la de referencia. Las categoras
de referencia de cada variable sern especificas en la tabla resumen del modelo.
Finalmente, se considerar tambin la posibilidad de existencia de ciertas
interacciones entre algunas variables, como el sexo con la presencia de ansiedad o
depresin crnicas.
4.3: Resultados
4.3.1: Anlisis descriptivo.
A continuacin se realiza un anlisis descriptivo de las variables consideradas,
en el que podr verse la distribucin tanto de la poblacin total como del subconjunto
de la poblacin que padece DCD y el subconjunto de los que no padecen DCD.
Para las variables categricas se ofrecer la distribucin en porcentajes y las
modas, con diagramas de sectores en el apartado grfico y diagramas de barras para
las variables tamao del municipio y nivel de estudios. Para describir la variable
67
),
68
Podemos observar que las marcas no se solapan y que, por tanto, las
medianas en cada grupo son significativamente distintas. Esto nos indica, en
particular, que hay diferencias en las edades de los individuos segn se padezca o no
dolor crnico. El grupo poblacional que est ms envejecido es el que padece DCD,
mientras que el grupo poblacional que no padece DCD es ms joven que el resto.
Cabe destacar que la poblacin objeto de estudio est, en general, bastante
envejecida, como se resalta en estos grficos de cajas. Recordemos que este estudio
se realiz en poblacin discapacitada.
Antes de analizar la variable tamao del municipio, hemos de tener en cuenta
que no puede entenderse como variable aleatoria igual que las dems, ya que de
69
alguna forma est determinada por el diseo muestral. A pesar de ello, se ofrece una
descripcin de esta variable y los resultados del test chi-cuadrado que descarta la
relacin entre sta y la presencia de dolor crnico.
Se observa que el grueso de la poblacin est principalmente distribuida entre
capitales y grandes municipios (38.97% en poblacin global; 38.59% en poblacin con
DCD; 39.84% en poblacin sin DCD) o bien ya en municipios muy pequeos (31.31%
en poblacin global; 31.88% en poblacin con DCD; 30.28% en poblacin sin DCD),
siendo bastante menos frecuentes las categoras intermedias, como puede verse en
las salidas tabulares de R:
Imagen 4.5: Distribucin de los grupos poblacionales por tamao del municipio.
En poblacin global:
70
En la imagen 4.7 se muestran los resultados del test chi-cuadrado que, con un
valor p=0.2877, confirma la ausencia de relacin entre esta variable y la presencia de
dolor crnico diagnosticado.
Imagen 4.7: Test chi-cuadrado para el estudio de la relacin entre el tamao del
municipio de residencia y la presencia de dolor crnico.
Sobre el nivel de estudios destaca una gran mayora en los tres grupos con
estudios primarios (66.56% en poblacin global; 69.31% en poblacin con DCD;
61.54% en poblacin sin DCD) y el bajo porcentaje de personas con estudios
superiores (5.68% en poblacin global; 4.46% en poblacin con DCD; 7.89% en
poblacin sin DCD). La distribucin completa podemos verla en la imagen 4.8
Imagen 4.8:
En poblacin global:
Figura 4.9: Diagrama de barras para la distribucin de la poblacin global (verde), con
DCD (rojo) y sin DCD (azul) por nivel de estudios.
Imagen 4.10: Test chi-cuadrado para el estudio de la relacin entre el nivel de estudios
y la presencia de dolor crnico.
72
Figura 4.11: Distribucin de la poblacin global y con DCD por horas de sueo al da.
Imagen 4.12: Test chi-cuadrado para el estudio de la relacin entre las horas de sueo
al da y la presencia de dolor crnico.
73
Por ltimo se han realizado tablas de contingencia entre las variables que
indican la presencia de depresin o ansiedad crnicas y la variable sexo, ya que en la
literatura encontramos que a menudo estn relacionadas66-69. Incluso autores como
Keogan et al.70 han determinado que la relacin entre depresin y discapacidad (tanto
fsica como mental) es ms fuerte en mujeres que en hombres.
Mediante la opcin de tablas de contingencia de doble entrada, se ha obtenido
que un 11.2% de los varones de la poblacin global tienen ansiedad crnica y en las
mujeres el porcentaje sube hasta el 18.3%. Los porcentajes de depresin crnica son
un 14.8% de varones y un 24.9% de mujeres. Restringindonos al grupo que padece
DCD, los porcentajes suben ligeramente (unos 2 puntos), pero manteniendo la
proporcin por sexos. En poblacin sin DCD los porcentajes son inferiores pero aun
74
manteniendo proporcin por sexos. En todos los casos el test chi-cuadrado fue
significativo, con p-valores del orden de 10
10
en poblacin sin DCD. Podemos ver los resultados completos de estos anlisis
en la imagen 4.15.
Imagen 4.15: Tablas de contingencia con porcentajes por sexo y test chi-cuadrado
entre las variables sexo-ansiedad crnica y sexo-depresin crnica para cada uno de
los grupos poblacionales.
En poblacin global:
75
IC 95%
56.3%
(55.67;57.00)
Sexo
IC 95%
Varn
40.5%
(39.45;41.56)
Mujer
66.4%
(65.57;67.19)
Grupos de edad
IC 95%
6-17
6.8%
(4.86;9.45)
18-44
21.5%
(19.97;23.16)
45-64
52.2%
(50.85;53.52)
65
67.0%
(66.19;67.81)
an
cuando
se
consideran
otras
variables
que
podran
estar
edad, por lo que decidimos que debe entrar en el modelo la variable edad en primer
lugar.
Paso 2:
Para el segundo paso partimos del modelo con la variable edad y ajustamos
nuevos modelos para cada una de las variables restantes. Los resultados del test RV
son:
Imagen 4.19: Test de razn de verosimilitudes para el paso 2.
78
el modelo es, por tanto, el sexo. En este paso an no procede estudiar el modelo
resultante si se eliminara una variable.
Paso 3:
Siguiendo el mismo procedimiento, se obtiene:
Imagen 4.20: Test de razn de verosimilitudes para el paso 3.
79
Imagen 4.23: Test de razn de verosimilitudes para el modelo del paso 4 si se eliminan
variables.
Paso 5:
Partiendo del modelo con edad, sexo, horas de sueo y ansiedad crnica,
ajustamos modelos para cada una de las restantes variables y realizamos el test de
RV.
Imagen 4.24: Test de razn de verosimilitudes para el paso 5.
La variable del modelo 4 es la que debe entrar por reducir la devianza en 50.
Dicha variable es la depresin crnica. Veamos qu ocurre si a ese modelo se le
extraen las variables anteriores:
Imagen 4.25: Test de razn de verosimilitudes para el modelo del paso 5 si se eliminan
variables.
80
Paso 8:
En este paso se probaron las interacciones sexo*ansiedad crnica y
sexo*depresin crnica sugeridas por la literatura pero no fueron incluidas porque no
hubo significacin en el test de RV. Se muestran los resultados del test en la imagen
4.29:
Imagen 4.29: Test de razn de verosimilitudes para el paso 8.
Paso 9:
Finalmente, comparamos el modelo propuesto con el modelo saturado:
81
y 10
secundarios no llegara a serlo (aunque su p-valor est relativamente cerca del lmite
aceptable) y estudios primarios est muy lejos de ser significativa. Por tanto,
concluimos que todas las variables continuas y al menos una categora de cada
variable categrica son significativas, es decir, sus coeficientes son significativamente
distintos de 0, sus OR son significativamente distintas de 1 y los intervalos de
confianza para las mismas no contienen al 1 (como se ver seguidamente). Las
categoras que estn en el modelo sin ser significativas lo estn por formar parte de
una variable que tiene alguna categora significativa.
Dentro de la librera MASS encontramos la funcin confint para el clculo de
intervalos de confianza, en este caso, para los parmetros de nuestro modelo. Los
intervalos de confianza para los parmetros del modelo ajustado pueden verse en
la imagen 4.32.
Imagen 4.32: Intervalos de confianza para los parmetros del modelo.
Con todo, el modelo final queda resumido en la tabla 4.35, donde se han
incluido los coeficientes , las exponenciales de dichos coeficientes (OR), un
intervalo de confianza para las OR al 95% y el p-valor correspondiente a cada variable
o categora obtenido a travs del test de Wald.
83
B
2.300
0.036
0.173
0.480
0.467
0.361
0.039
0.131
0.283
OR
0.100
1.037
1.189
0.619
1.595
1.435
0.962
0.877
0.754
IC95%OR pvalor
(0.081;0.124) <0.001
(1.034;1.039) <0.001
(1.172;1.206) <0.001
(0.577;0.664) <0.001
(1.419;1.794) <0.001
(1.295;1.589) <0.001
(0.856;1.078) 0.503
(0.763;1.008) 0.064
(0.632;0.898) 0.002
*Categoradereferencia
84
n p ) sean mayores
que cinco y todas mayores que uno, por lo que no podr asumirse la distribucin chicuadrado. Los resultados de dicho test pueden verse en la imagen 4.35
Imagen 4.35: Resultados del test de Hosmer y Lemeshow para el ajuste global.
85
muestran en la imagen 4.37 y la conclusin es que 0.5 sigue siendo el mejor punto de
corte, que da lugar a una tasa de clasificaciones correctas del 70.44%.
Imagen 4.36: Tasas de clasificaciones correctas para distintos puntos de corte.
Calcularemos el valor del rea bajo la curva ROC a travs de una medida
equivalente, tal y como se explic en el apartado 3.4.3. Una vez conocida la frmula
del modelo definitivo, ajustamos el mismo a travs de la funcin lrm y solicitamos el
resumen que puede verse en la imagen 4.37:
Imagen 4.37: Resumen del ajuste del modelo definitivo usando lrm.
86
por tanto podemos aceptar el exceso detectado en los residuos y dar por validado
nuestro modelo.
Imagen 4.39: Clculo de las distancias de Cook.
4.4: Conclusiones.
Como conclusin, podemos afirmar que la prevalencia de dolor crnico es
elevada en pacientes con discapacidad y a menudo coexiste con la depresin, la
ansiedad y los trastornos del sueo. Es necesario plantearse la necesidad de evaluar y
tratar el dolor de manera rutinaria, as como los trastornos psiquitricos y del sueo en
estos pacientes. Otros factores asociados a la presencia de dolor crnico son la edad,
el sexo y el nivel de estudios.
No podemos pasar por alto una limitacin importante como es el hecho de
haber utilizado datos secundarios obtenidos por el INE con otra finalidad. Por esta
razn, la definicin de DCD utilizada en el estudio no incluye algunas enfermedades
causantes de dolor crnico como la fibromialgia, debiendo conformarnos con la
informacin de la que se dispona.
Extendiendo las conclusiones al resto del trabajo, podemos afirmar que los
modelos de regresin logstica binaria son muy tiles en epidemiologa, como se ha
puesto de manifiesto. El ajuste de un buen modelo puede llevarnos a conclusiones
importantes que han de ser tenidas en cuenta de cara a mejorar en el futuro.
87
88
Anexo: Sentencias de R.
En el captulo 4 se han omitido las sentencias de R que han generado los
resultados mostrados. Dichas sentencias estn recogidas en este anexo.
#Cargamos R-Commander:
library(Rcmdr)
#Cargamos el paquete colorspace:
local({pkg <- select.list(sort(.packages(all.available = TRUE)),graphics=TRUE)
+ if(nchar(pkg)) library(pkg, character.only=TRUE)})
#Hacer click en el paquete "colorspace" cuando salga el cuadro de eleccin de paquetes.
#Cargamos las bases de datos de los 3 grupos poblacionales:
DatosGlobales <read.spss("C:/Documents and Settings/Administrador/Escritorio/Dropbox/Trabajo fin de mster/Primeras correcciones (verano)/Base de
discapacidad 2008.sav",
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
DatosDCD <read.spss("C:/Documents and Settings/Administrador/Escritorio/Dropbox/Trabajo fin de mster/Primeras correcciones (verano)/Base
DCD.sav",
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
DatosNoDCD <read.spss("C:/Documents and Settings/Administrador/Escritorio/Dropbox/T_Fin de mster/Trabajo version noviembre/No DCD.sav",
use.value.labels=TRUE, max.value.labels=Inf, to.data.frame=TRUE)
####Variable sexo:
#Poblacin global:
.Table <- table(DatosGlobales$SEXO)
.Table # counts for SEXO
round(100*.Table/sum(.Table), 2) # percentages for SEXO
remove(.Table)
#Poblacin con DCD:
.Table <- table(DatosDCD$SEXO)
.Table # counts for SEXO
round(100*.Table/sum(.Table), 2) # percentages for SEXO
remove(.Table)
#Poblacin sin DCD:
.Table <- table(DatosNoDCD$SEXO)
.Table # counts for SEXO
round(100*.Table/sum(.Table), 2) # percentages for SEXO
remove(.Table)
#Diagramas de sectores: (Figura 4.2)
par(mfrow=c(1,3))
pie(table(DatosGlobales$SEXO), labels=c("VARN (36.1%)","MUJER (63.9%)"), main="Sexo. Poblacin global.", radius=1,
col=rainbow_hcl(2))
pie(table(DatosDCD$SEXO), labels=c("VARN (27.4%)","MUJER (72.6%)"), main="Sexo. Poblacin con DCD.", radius=1,
col=rainbow_hcl(2))
pie(table(DatosNoDCD$SEXO), labels=c("VARN (51.99%)","MUJER (48.01%)"), main="Sexo. Poblacin sin DCD.", radius=1,
col=rainbow_hcl(2))
#Prueba chi-cuadrado: (Imagen 4.3)
.Table <- xtabs(~SEXO+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
####Variable edad:
#Poblacin global:
numSummary(DatosGlobales[,"EDAD"], statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
#Poblacin con DCD:
numSummary(DatosDCD[,"EDAD"], statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
#Poblacin sin DCD:
numSummary(DatosNoDCD[,"EDAD"], statistics=c("mean", "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))
#Diagramas de cajas para la edad. (Figura 4.4)
par(mfrow=c(1,3))
boxplot(DatosGlobales$EDAD, ylab="EDAD", varwidth=TRUE, notch=TRUE, main="Edad. Poblacin global.")
boxplot(DatosDCD$EDAD, ylab="EDAD", varwidth=TRUE, notch=TRUE, main="Edad. Poblacin con DCD.")
boxplot(DatosNoDCD$EDAD, ylab="EDAD", varwidth=TRUE, notch=TRUE, main="Edad. Poblacin sin DCD.")
####Variable tamao del municipio:
#Poblacin global: (Imagen 4.5)
.Table <- table(DatosGlobales$TMUNI)
.Table # counts for TMUNI
round(100*.Table/sum(.Table), 2) # percentages for TMUNI
remove(.Table)
#Poblacin con DCD: (Imagen 4.5)
.Table <- table(DatosDCD$TMUNI)
.Table # counts for TMUNI
round(100*.Table/sum(.Table), 2) # percentages for TMUNI
89
remove(.Table)
#Poblacin sin DCD: (Imagen 4.5)
.Table <- table(DatosNoDCD$TMUNI)
.Table # counts for TMUNI
round(100*.Table/sum(.Table), 2) # percentages for TMUNI
remove(.Table)
#Diagrama de barras: (Figura 4.6)
names=c("1","2","3","4","5")
par(mfrow=c(1,1))
barplot(table(DatosGlobales$TMUNI), names.arg=FALSE, col="green")
barplot(table(DatosDCD$TMUNI), names.arg=names, xlab="Tamao del municipio", ylab="Frecuencia", col="red", main="Distribucin de
la poblacin por tamao del municipio", sub="1: Cap. de prov. y municipios >100.000 hab.; 2: De 50.000 a 100.000 hab.; 3: De 20.000 a
50.000 hab.; 4: De 10.000 a 20.000 hab.; 5: <10.000 hab.", add=TRUE)
barplot(table(DatosNoDCD$TMUNI), names.arg=names, xlab="Tamao del municipio", ylab="Frecuencia", col="blue",
main="Distribucin de la poblacin por tamao del municipio", sub="1: Cap. de prov. y municipios >100.000 hab.; 2: De 50.000 a
100.000 hab.; 3: De 20.000 a 50.000 hab.; 4: De 10.000 a 20.000 hab.; 5: <10.000 hab.", add=TRUE)
#Prueba chi-cuadrado: (Imagen 4.7)
.Table <- xtabs(~TMUNI+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
####Variable nivel de estudios:
#Poblacin global: (Imagen 4.8)
.Table <- table(DatosGlobales$NIV_ESTUD_GRUPOS)
.Table # counts for NIV_ESTUD_GRUPOS
round(100*.Table/sum(.Table), 2) # percentages for NIV_ESTUD_GRUPOS
remove(.Table)
#Poblacin con DCD: (Imagen 4.8)
.Table <- table(DatosDCD$NIV_ESTUD_GRUPOS)
.Table # counts for NIV_ESTUD_GRUPOS
round(100*.Table/sum(.Table), 2) # percentages for NIV_ESTUD_GRUPOS
remove(.Table)
#Poblacin sin DCD: (Imagen 4.8)
.Table <- table(DatosNoDCD$NIV_ESTUD_GRUPOS)
.Table # counts for NIV_ESTUD_GRUPOS
round(100*.Table/sum(.Table), 2) # percentages for NIV_ESTUD_GRUPOS
remove(.Table)
#Diagrama de barras: (Figura 4.9)
names=c("1","2","3","4")
par(mfrow=c(1,1))
barplot(table(DatosGlobales$NIV_ESTUD_GRUPOS), names.arg=FALSE, col="green")
barplot(table(DatosDCD$NIV_ESTUD_GRUPOS), names.arg=names, xlab="Nivel de estudios", ylab="Frecuencia", col="red",
main="Distribucin de la poblacin por nivel de estudios", sub="1: Sin estudios; 2: Estudios primarios; 3: Estudios secundarios; 4:
Estudios superiores", add=TRUE)
barplot(table(DatosNoDCD$NIV_ESTUD_GRUPOS), names.arg=names, xlab="Nivel de estudios", ylab="Frecuencia", col="blue",
main="Distribucin de la poblacin por nivel de estudios", sub="1: Sin estudios; 2: Estudios primarios; 3: Estudios secundarios; 4:
Estudios superiores", add=TRUE)
#Prueba chi-cuadrado: (Imagen 4.10)
.Table <- xtabs(~NIV_ESTUD_GRUPOS+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
####Variable horas de sueo
#Poblacin global:
.Table <- table(DatosGlobales$H_SUEO_2BLOQUES)
.Table # counts for H_SUEO_2BLOQUES
round(100*.Table/sum(.Table), 2) # percentages for H_SUEO_2BLOQUES
remove(.Table)
#Poblacin con DCD:
.Table <- table(DatosDCD$H_SUEO_2BLOQUES)
.Table # counts for H_SUEO_2BLOQUES
round(100*.Table/sum(.Table), 2) # percentages for H_SUEO_2BLOQUES
remove(.Table)
#Poblacin sin DCD:
.Table <- table(DatosNoDCD$H_SUEO_2BLOQUES)
.Table # counts for H_SUEO_2BLOQUES
round(100*.Table/sum(.Table), 2) # percentages for H_SUEO_2BLOQUES
remove(.Table)
#Diagramas de sectores: (Figura 4.11)
par(mfrow=c(1,3))
pie(table(DatosGlobales$H_SUEO_2BLOQUES), labels=c("De 0-7 h. (46.25%)","8 o ms h. (53.75%)"), main="Poblacin global.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosDCD$H_SUEO_2BLOQUES), labels=c("De 0-7 h. (50.34%)","8 o ms h. (49.66%)"), main="Poblacin con DCD.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosNoDCD$H_SUEO_2BLOQUES), labels=c("De 0-7 h. (38.8%)","8 o ms h. (61.2%)"), main="Poblacin sin DCD.",
radius=1, col=rainbow_hcl(2))
#Prueba chi-cuadrado: (Imagen 4.12)
.Table <- xtabs(~H_SUEO_2BLOQUES+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
####Trastornos psiquitricos:
#Ansiedad crnica en poblacin global:
.Table <- table(DatosGlobales$ANSI_CRO)
.Table # counts for ANSI_CRO
round(100*.Table/sum(.Table), 2) # percentages for ANSI_CRO
90
remove(.Table)
#Ansiedad crnica en poblacin con DCD:
.Table <- table(DatosDCD$ANSI_CRO)
.Table # counts for ANSI_CRO
round(100*.Table/sum(.Table), 2) # percentages for ANSI_CRO
remove(.Table)
#Ansiedad crnica en poblacin sin DCD:
.Table <- table(DatosNoDCD$ANSI_CRO)
.Table # counts for ANSI_CRO
round(100*.Table/sum(.Table), 2) # percentages for ANSI_CRO
remove(.Table)
#Depresin crnica en poblacin global
.Table <- table(DatosGlobales$DEPRE_CRO)
.Table # counts for DEPRE_CRO
round(100*.Table/sum(.Table), 2) # percentages for DEPRE_CRO
remove(.Table)
#Depresin crnica en poblacin con DCD:
.Table <- table(DatosDCD$DEPRE_CRO)
.Table # counts for DEPRE_CRO
round(100*.Table/sum(.Table), 2) # percentages for DEPRE_CRO
remove(Table)
#Depresin crnica en poblacin sin DCD:
.Table <- table(DatosNoDCD$DEPRE_CRO)
.Table # counts for DEPRE_CRO
round(100*.Table/sum(.Table), 2) # percentages for DEPRE_CRO
remove(Table)
#Diagramas de sectores: (Figura 4.13)
par(mfrow=c(2,3))
pie(table(DatosGlobales$ANSI_CRO), labels=c("No (84.26%)","S (15.74%)"), main="Tiene ansiedad crnica. Poblacin global.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosDCD$ANSI_CRO), labels=c("No (81.98%)","S (18.02%)"), main="Tiene ansiedad crnica. Poblacin con DCD.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosNoDCD$ANSI_CRO), labels=c("No (88.41%)","S (11.59%)"), main="Tiene ansiedad crnica. Poblacin sin DCD.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosGlobales$DEPRE_CRO), labels=c("No (78.7%)","S (21.3%)"), main="Tiene depresin crnica. Poblacin global.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosDCD$DEPRE_CRO), labels=c("No (75.91%)","S (24.09%)"), main="Tiene depresin crnica. Poblacin con DCD.",
radius=1, col=rainbow_hcl(2))
pie(table(DatosNoDCD$DEPRE_CRO), labels=c("No (84%)","S (16%)"), main="Tiene depresin crnica. Poblacin sin DCD.", radius=1,
col=rainbow_hcl(2))
#Pruebas chi-cuadrado: (Imagen 4.14)
.Table <- xtabs(~ANSI_CRO+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
.Table <- xtabs(~DEPRE_CRO+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
chisq.test(.Table, correct=FALSE)
#Tabla de contingencia Sexo-Ansiedad crnica en poblacin global. (Imagen 4.15)
.Table <- xtabs(~SEXO+ANSI_CRO, data=DatosGlobales)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
remove(.Test)
remove(.Table)
#Tabla de contingencia Sexo-Depresin crnica en poblacin global. (Imagen 4.15)
.Table <- xtabs(~SEXO+DEPRE_CRO, data=DatosGlobales)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
remove(.Test)
remove(.Table)
#Tabla de contingencia Sexo-Ansiedad crnica en poblacin con DCD. (Imagen 4.15)
.Table <- xtabs(~SEXO+ANSI_CRO, data=DatosDCD)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
remove(.Test)
remove(.Table)
#Tabla de contingencia Sexo-Depresin crnica en poblacin con DCD. (Imagen 4.15)
.Table <- xtabs(~SEXO+DEPRE_CRO, data=DatosDCD)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
remove(.Test)
remove(.Table)
#Tabla de contingencia Sexo-Ansiedad crnica en poblacin sin DCD. (Imagen 4.15)
.Table <- xtabs(~SEXO+ANSI_CRO, data=DatosNoDCD)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
91
remove(.Test)
remove(.Table)
#Tabla de contingencia Sexo-Depresin crnica en poblacin sin DCD. (Imagen 4.15)
.Table <- xtabs(~SEXO+DEPRE_CRO, data=DatosNoDCD)
.Table
rowPercents(.Table) # Row Percentages
.Test <- chisq.test(.Table, correct=FALSE)
.Test
remove(.Test)
remove(.Table)
#Clculo de la prevalencia de DCD en poblacin discapacitada:
.Table <- table(DatosGlobales$DIAG_SUMA_RECOD)
.Table # counts for DIAG_SUMA_RECOD
round(100*.Table/sum(.Table), 2) # percentages for DIAG_SUMA_RECOD
remove(.Table)
#Diagrama de sectores para la prevalencia de DCD en poblacin discapacitada. (Figura 4.16)
nombres<-c("No (43.66%)", "S (56.34%)")
pie(table(DatosGlobales$DIAG_SUMA_RECOD), labels=nombres, main="Prevalencia de DCD", radius=1,
col=rainbow_hcl(length(levels(DatosGlobales$DIAG_SUMA_RECOD))))
#Prevalencia de DCD por sexo y edad. (Tabla 4.17)
.Table <- xtabs(~SEXO+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
rowPercents(.Table) # Row Percentages
remove(.Table)
.Table <- xtabs(~GRUPOS_EDAD+DIAG_SUMA_RECOD, data=DatosGlobales)
.Table
rowPercents(.Table) # Row Percentages
remove(.Table)
#Intervalos de confianza. (Tabla 4.17)
#Clculo de un intervalo de confianza para la prevalencia de DCD global.
prop.test(12159, 21583, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en varones.
prop.test(3394, 8380, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en mujeres.
prop.test(8765, 13203, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en personas de 6 a 17 aos.
prop.test(35, 513, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en personas de 18 a 44 aos.
prop.test(561, 2607, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en personas de 45 a 64 aos.
prop.test(2844, 5450, conf.level = 0.95)
#Clculo de un intervalo de confianza para la prevalencia de DCD en personas de 65 o ms aos.
prop.test(8719, 13013, conf.level = 0.95)
##########################################################
#Ajuste del modelo para DCD
##########################################################
#Paso 1. Ajuste del modelo para cada variable.
#Modelo sin variables:
Modelo_0<-glm(formula = DIAG_SUMA_RECOD ~ NULL, family = binomial(logit), data = DatosGlobales)
summary(Modelo_0)
#Modelos con cada variable:
Modelo_1_1<-glm(formula = DIAG_SUMA_RECOD ~ SEXO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_1_1)
Modelo_1_2<-glm(formula = DIAG_SUMA_RECOD ~ EDAD, family = binomial(logit), data = DatosGlobales)
summary(Modelo_1_2)
Modelo_1_3<-glm(formula = DIAG_SUMA_RECOD ~
NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_GRUPOS_C_C, family = binomial(logit), data =
DatosGlobales)
summary(Modelo_1_3)
Modelo_1_4<-glm(formula = DIAG_SUMA_RECOD ~ TMUNI_A_D+TMUNI_B_D+TMUNI_C_D+TMUNI_D_D, family = binomial(logit),
data = DatosGlobales)
summary(Modelo_1_4)
Modelo_1_5<-glm(formula = DIAG_SUMA_RECOD ~ H_SUEO_2BLOQUES, family = binomial(logit), data = DatosGlobales)
summary(Modelo_1_5)
Modelo_1_6<-glm(formula = DIAG_SUMA_RECOD ~ ANSI_CRO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_1_6)
Modelo_1_7<-glm(formula = DIAG_SUMA_RECOD ~ DEPRE_CRO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_1_7)
#Test RV. (Imagen 4.18)
anova(Modelo_0, Modelo_1_1, Modelo_1_2, Modelo_1_3, Modelo_1_4, Modelo_1_5, Modelo_1_6, Modelo_1_7, test="Chisq")
#Nos quedamos con el modelo que incluye constante+edad:
Modelo_1=Modelo_1_2
#Paso 2. Ha entrado la edad. Ajuste del modelo con cada una de las restantes variables.
Modelo_2_1<-glm(formula = DIAG_SUMA_RECOD ~ EDAD+SEXO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_2_1)
Modelo_2_2<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_GRUPOS_C_C, family = binomial(logit), data =
DatosGlobales)
summary(Modelo_2_2)
92
93
#Nos quedamos con el modelo que incluye constante+sexo+edad+horas de sueo+ansiedad crnica+depresin crnica:
Modelo_5=Modelo_5_3
#Modelo si se elimina la edad:
Modelo_5_sin_1<-glm(formula = DIAG_SUMA_RECOD ~ SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO, family =
binomial(logit), data = DatosGlobales)
summary(Modelo_5_sin_1)
#Modelo si se elimina el sexo:
Modelo_5_sin_2<-glm(formula = DIAG_SUMA_RECOD ~ EDAD+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO, family =
binomial(logit), data = DatosGlobales)
summary(Modelo_5_sin_2)
#Modelo si se eliminan las horas de sueo:
Modelo_5_sin_3<-glm(formula = DIAG_SUMA_RECOD ~ EDAD+SEXO+ANSI_CRO+DEPRE_CRO, family = binomial(logit), data =
DatosGlobales)
summary(Modelo_5_sin_3)
#Test RV. (Imagen 4.25)
anova(Modelo_5, Modelo_5_sin_1, Modelo_5_sin_2, Modelo_5_sin_3, test="Chisq")
#No debe salir ninguna variable.
#Paso 6. Han entrado la edad, el sexo, las horas de sueo, la ansiedad crnica y la depresin crnica. Ajuste de los nuevos modelos.
Modelo_6_1<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C, family = binomial(logit), data = DatosGlobales)
summary(Modelo_6_1)
Modelo_6_2<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+TMUNI_A_D+TMUNI_B_D+TMUNI_C_D+TMUNI_D_D, family =
binomial(logit), data = DatosGlobales)
summary(Modelo_6_2)
#Test RV. (Imagen 4.26)
anova(Modelo_5, Modelo_6_1, Modelo_6_2, test="Chisq")
#Entra en bloque el nivel de estudios. Nos quedamos con el modelo que incluye constante+sexo+edad+horas de sueo+ansiedad
crnica+depresin crnica+nivel de estudios:
Modelo_6=Modelo_6_1
#Modelo si se elimina la edad:
Modelo_6_sin_1<-glm(formula = DIAG_SUMA_RECOD ~
SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_
GRUPOS_C_C, family = binomial(logit), data = DatosGlobales)
summary(Modelo_6_sin_1)
#Modelo si se elimina el sexo:
Modelo_6_sin_2<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_GRUPOS_C_C, family =
binomial(logit), data = DatosGlobales)
summary(Modelo_6_sin_2)
#Modelo si se eliminan las horas de sueo:
Modelo_6_sin_3<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_GRUPOS_C_C, family = binomial(logit), data =
DatosGlobales)
summary(Modelo_6_sin_3)
#Modelo si se elimina la ansiedad:
Modelo_6_sin_4<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+DEPRE_CRO+NIV_ESTUD_GRUPOS_B_C+NIV_ESTUD_GRUPOS_C_C, family =
binomial(logit), data = DatosGlobales)
summary(Modelo_6_sin_4)
#Test RV. (Imagen 4.27)
anova(Modelo_6, Modelo_6_sin_1, Modelo_6_sin_2, Modelo_6_sin_3, Modelo_6_sin_4, test="Chisq")
#No debe salir ninguna variable.
#Paso 7. Han entrado la edad, el sexo, las horas de sueo, la ansiedad crnica, la depresin crnica y el nivel de estudios en bloque.
Modelo_7_1<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C+TMUNI_A_D+TMUNI_B_D+TMUNI_C_D+TMUNI_D_D, family = binomial(logit), data = DatosGlobales)
summary(Modelo_7_1)
#Test RV: (Imagen 4.28)
anova(Modelo_6, Modelo_7_1, test="Chisq")
#El tamao del municipio NO debe entrar en el modelo.
Modelo_7=Modelo_6
#Paso 8. Se prueban las interacciones sexo*ansiedad crnica y sexo*depresin crnica sugeridas por la literatura.
Modelo_8_1<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C+SEXO*ANSI_CRO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_8_1)
Modelo_8_2<-glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C+SEXO*DEPRE_CRO, family = binomial(logit), data = DatosGlobales)
summary(Modelo_8_2)
#Test RV. (Imagen 4.29)
anova(Modelo_7, Modelo_8_1, Modelo_8_2, test="Chisq")
Modelo_8=Modelo_7
#Paso 9. Contraste con el modelo saturado. (Imagen 4.30)
Modelo=glm(formula = DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C, family = binomial(logit), data = DatosGlobales)
Modelo_Saturado<-glm(formula = DIAG_SUMA_RECOD ~
EDAD*SEXO*H_SUEO_2BLOQUES*ANSI_CRO*DEPRE_CRO*NIV_ESTUD_GRUPOS_A_C*NIV_ESTUD_GRUPOS_B_C*NIV_EST
UD_GRUPOS_C_C, family = binomial(logit), data = DatosGlobales)
94
anova(Modelo,Modelo_Saturado,test="Chisq")
#MODELO FINAL PARA LA PRESENCIA DE DCD. (Imagen 4.31)
Modelo=Modelo_8
summary(Modelo)
###############################
#APARTADO 4.3.3.2: Parmetros del modelo.
#Intervalos de confianza mediante RV para las b. (Imagen 4.32)
library(MASS)
Int_Conf_95_b<-confint(Modelo_8)
#Intervalos para las OR. (Imagen 4.33)
Int_Conf_95_OR<-exp(Int_Conf_95_b)
#Clculo de OR (Tabla 4.34)
exp(coef(summary(Modelo)))
###############################
Apartado 4.3.3.3: Bondad de ajuste.
#Se define la funcin que realiza el test de Hosmer y Lemeshow
hosmerlem <function (y, yhat, g = 10)
{ cutyhat <- cut(yhat, breaks = quantile(yhat, probs = seq(0,
1, 1/g)), include.lowest = T)
obs <- xtabs(cbind(1 - y, y) ~ cutyhat)
expect <- xtabs(cbind(1 - yhat, yhat) ~ cutyhat)
chisq <- sum((obs - expect)^2/expect)
P <- 1 - pchisq(chisq, g - 2)
c("X^2" = chisq, Df = g - 2, "P(>Chi)" = P)
}
#Test de H-L. (Imagen 4.35)
y<-DatosGlobales$DIAG_SUMA_RECOD
yhat<-predict(Modelo_8, type="response", se=T)
hosmerlem(y, yhat$fit, 10)
#Se define la funcin que calcula la tasa de clasificaciones correctas
yajus=fitted.values(Modelo)
y<-DatosGlobales$DIAG_SUMA_RECOD
tcc<-function(corte,yajus,y)
{ verpos<-table(yajus>corte & y==1)[2]
falpos<-table(yajus>corte & y==0)[2]
falneg<-table(yajus<corte & y==1)[2]
verneg<-table(yajus<corte & y==0)[2]
tasa<-(verpos+verneg)/(verpos+falpos+falneg+verneg)*100
tasa
}
#Se calcula la tasa para distintos puntos de corte: (Imagen 4.36)
tcc(0.1,yajus,y)
tcc(0.2,yajus,y)
tcc(0.3,yajus,y)
tcc(0.4,yajus,y)
tcc(0.5,yajus,y)
tcc(0.6,yajus,y)
tcc(0.7,yajus,y)
tcc(0.8,yajus,y)
tcc(0.9,yajus,y)
#Alrededor de 0.5 estn los mejores resultados. Intentamos afinar ms: (Imagen 4.36)
tcc(0.45,yajus,y)
tcc(0.46,yajus,y)
tcc(0.47,yajus,y)
tcc(0.48,yajus,y)
tcc(0.49,yajus,y)
tcc(0.5,yajus,y)
tcc(0.51,yajus,y)
tcc(0.52,yajus,y)
tcc(0.53,yajus,y)
tcc(0.54,yajus,y)
tcc(0.55,yajus,y)
#El mejor punto de corte es 0.5
#Area bajo la curva ROC. (Imagen 4.37)
#Cargar librera "Design"
a<-lrm(DIAG_SUMA_RECOD ~
EDAD+SEXO+H_SUEO_2BLOQUES+ANSI_CRO+DEPRE_CRO+NIV_ESTUD_GRUPOS_A_C+NIV_ESTUD_GRUPOS_B_C+NIV_E
STUD_GRUPOS_C_C, data = DatosGlobales)
a
###############################
#Apartado 4.3.3.4: Validacin y diagnsis.
#Identificar residuos mayores que 2. (Imagen 4.38)
res<-abs(residuals(Modelo))
table(res>2)
#Calculamos las distancias de Cook. (Imagen 4.39)
cook<-cooks.distance(Modelo)
max(cook)
95
96
Bibliografa.
1. McCullagh P, Nelder J. Generalized linear models. 2nd ed. Chapman and Hall/CRC; 1983.
ISBN:0412317605 / 978-0412317606.
2. Agresti A. Categorical data analisys. 2 ed. Wiley-Interscience; 2002. ISBN:0471360937, 978-0471360933.
3. Pgina web oficial del proyecto R. [Internet]Institute for Statistics and Mathematics of the WU Wien.; c2011
[cited 2011 09/10]. Available from: http://www.r-project.org/.
4. Instituto Nacional de Estadstica (INE). Encuesta de discapacidad, autonoma personal y situaciones de
dependencia. INE 2008 2008;1.
5. Alschuler KN, Theisen-Goodvich ME, Haig AJ, Geisser ME. A comparison of the relationship between
depression, perceived disability, and physical performance in persons with chronic pain. Eur J Pain 2008
8;12(6):757-64.
6. Arnstein P, Caudill M, Mandle CL, Norris A, Beasley R. Self efficacy as a mediator of the relationship
between pain intensity, disability and depression in chronic pain patients. Pain 1999 4/1;80(3):483-91.
7. Astin M, Lawton D, Hirst M. The prevalence of pain in a disabled population. Soc Sci Med 1996
6;42(11):1457-64.
8. Selvin S. Statistical analysis of epidemiological data. 2 ed. Oxford University Press, USA; 1996.
ISBN:0195097602, 978-0195097603.
9. Agresti A. Multivariate analysis: Discrete variables (overview). In: Editors-in-Chief: Neil J. Smelser, Paul B.
Baltes, editors. International encyclopedia of the social & behavioral sciences. Oxford: Pergamon; 2001.
10. Lober DJ, Green DP. NIMBY or NIABY: A logit model of opposition to solid-waste-disposal facility siting. J
Environ Manage 1994 1;40(1):33-50.
11. T. Florian J. Categorical data analysis: Away from ANOVAs (transformation or not) and towards logit mixed
models. Journal of Memory and Language 2008 11;59(4):434-46.
12. Naoya S. Non-linear logit models for high-frequency data analysis. Physica A: Statistical Mechanics and its
Applications 2005 9/1;355(1):183-9.
13. Pai C, Saleh W. Modelling motorcyclist injury severity by various crash types at T-junctions in the UK. Saf
Sci 2008 10;46(8):1234-47.
14. Sarma S, Simpson W. A panel multinomial logit analysis of elderly living arrangements: Evidence from
aging in manitoba longitudinal data, canada. Soc Sci Med 2007 12;65(12):2539-52.
15. Janssens GK, van Dam PA, van Goethem MLA, Buytaert P. A logit model to evaluate the performance of
diagnosis of solid palpable breast tumours. European Journal of Obstetrics & Gynecology and
Reproductive Biology 1990 2;34(1-2):157-65.
16. Byung-Ryang K. A logit analysis of hospital choice behavior in chollabukdo province of korea. Soc Sci Med
1990;30(10):1119-29.
17. Taylor SM, Frank J, White NF, Myers J. Modelling the incidence of childhood diarrhea. Soc Sci Med
1986;23(10):995-1002.
18. Failde I, Ramos I, Fernandez-Palacin F, Gonzalez-Pinto A. Women, mental health and health-related
quality of life in coronary patients. Women Health 2006;43(2):35-49.
19. Hosmer DW, Lemeshow S. Applied logistic regression. 2, ilustrada ed. John Wiley and Sons; 1989.
ISBN:0471356328, 9780471356325.
20. Kleinbaum DG, Klein M, Pryor ER. Logistic regression. A self-learning text. 3 ed. New York: Springer;
1994. ISBN:1441917411, 9781441917416.
21. Silva Aycaguer L, Barroso Utra I. Regresin logstica. 1 ed. La Muralla.; 2004. ISBN:847133738X.
97
22. Vlchez JA, Montiel H, Casal J, Arnaldos J. Analytical expressions for the calculation of damage
percentage using the probit methodology. J Loss Prev Process Ind 2001;14(3):193-7.
23. Alsakka R, ap Gwilym O. A random effects ordered probit model for rating migrations. Finance Research
Letters 2010 9;7(3):140-7.
24. Lemp JD, Kockelman KM, Unnikrishnan A. Analysis of large truck crash severity using heteroskedastic
ordered probit models. Accident Analysis & Prevention 2011 1;43(1):370-80.
25. Chen G, Hamori S. Bivariate probit analysis of differences between male and female formal employment in
urban china. Journal of Asian Economics 2010 10;21(5):494-501.
26. Nkamleu GB, Adesina AA. Determinants of chemical input use in peri-urban lowland systems: Bivariate
probit analysis in cameroon. Agricultural Systems 2000 2;63(2):111-21.
27. Simon S. Comparison of probit expressions for the prediction of lethality due to toxic exposure. J Loss Prev
Process Ind 1995;8(4):197-204.
28. Millie DF, Mark Hersh C. Statistical characterizations of the atrazine-induced photosynthetic inhibition of
cyclotella meneghiniana (bacillariophyta). Aquatic Toxicology 1987 7;10(4):239-49.
29. Hong W, Meier PG, Deininger RA. Estimation of a single probit line from multiple toxicity test data. Aquatic
Toxicology 1988 3;12(3):193-202.
30. R.F. G. The use of probit expressions in the assessment of acute population impact of toxic releases. J
Loss Prev Process Ind 1991 1;4(1):49-57.
31. Bliss CI. The method of probits. Science 79 (2037); 1934. DOI:10.1126/science.79.2037.38.
32. Finney DJ. Probit analysis. 3 ed. Cambridge University Press, Cambridge, UK.; 1971. ISBN:052108041X.
33. Steinbrecher G, Shaw WT. Quantile mechanics. European Journal of Applied Mathematics 19 (2); 2008.
DOI:10.1017/S0956792508007341.
34. Aguilera A. Modelos de respuesta discreta: Asignatura modelizacin y prediccin estocsticas. 1 ed.
Aguilera; 2002.
35. Suits D. Use of dummies variables in regression equations. Journal of the American Statistical Association
1957;52 (280):548-51.
36. Schoenfeld D. Analysis of categorical data: Logistic model. statistics in medical research. New York: Mike
V, Staley KE 1982:433-54.
37. Silva L. Excursin a la regresin logstica en ciencias de la salud. Madrid: Daz Santos 1994:3-11.
38. Albert A, Anderson J. On the existence of maximum likelihood estimates in logistic regression models.
Biometrika 1984;71:1-10.
39. Christmann A, Rousseeuw P. Measuring overlap in logistic regression. Comput Stat Data Anal 2001;37:6575.
40. Tjalling J. Historical development of the newton-raphson method. 1995;SIAM Review 37 (4):531-51.
41. Venables W, Ripley B. Modern applied statistics with S. 4th ed. New York: Springer; 2002. ISBN:0-38795457-0, 2002.
42. Caballero F. Modelos de regresin logstica. Sociedad Andaluza De Enfermedades Infecciosas [Internet].
[revised 2010 22/12/10;Available from http://saei.org/hemero/epidemiol/nota4.html.
43. De Irala-Estvez J, Martnez-Gonzlez M. Variables modificadoras de efecto. Barcelona: Editorial Ariel
S.A.; 2004.
44. De Irala J, Martnez-Gonzlez M, Guilln-Grima F. Qu es una variable de confusin? Med Clin (Barc)
2001;117:377-85.
45. Molinero L. Asociacin de variables cualitativas nominales y ordinales. Asociacin De La Sociedad
Espaola
De
Hipertensin
[Internet].
[revisado
2004]
Available
from
http://www.seh-
lelha.org/asociacion.htm.
98
46. Cook R, Weisberg S. Residuals and influence in regression. 8th ed. London: Chapman and Hall, New York;
1982. DOI:10.1002/bimj.4710270110.
47. Arriaza Gmez AJ, Fernndez Palacn F, Lpez Snchez MA, Muoz Mrquez M, Prez Plaza S, Snchez
Navas A. Estadstica bsica con R y R-commander. 1 ed. Cdiz: Servicio de Publicaciones de la
Universidad de Cdiz; 2008. ISBN:978-84-9828-186-6.
48. Yates F. Contingency tables involving small numbers and the chi-square test. Journal of the Royal
Statistical Society;Ser. B, Supp.:217-35.
49. John M. Chambers. Graphical methods for data analysis. 1st ed. Universidad de Michigan: Wadsworth
International Group; 1983. ISBN:053498052X, 9780534980528.
50. Thompson L. S-PLUS (and R) manual to accompany Agrestis categorical data analysis. 2 ed. John Wiley
and Sons; 2007.
51. Breivik H, Collett B, Ventafridda V, Cohen R, Gallacher D. Survey of chronic pain in europe: Prevalence,
impact on daily life, and treatment. Eur J Pain 2006 May;10(4):287-333.
52. Bastida JL, Oliva J. Los costes sociales del dolor. II Reunin Nacional Dolor y Sociedad. El Dolor y la
Dependencia 2009:p.161-70.
53. Mantyselka P, Kumpusalo E, Ahonen R, Kumpusalo A, Kauhanen J, Viinamaki H, Halonen P, Takala J.
Pain as a reason to visit the doctor: A study in finnish primary health care. Pain 2001 Jan;89(2-3):175-80.
54. Leveille SG, Bean J, Ngo L, McMullen W, Guralnik JM. The pathway from musculoskeletal pain to mobility
difficulty in older disabled women. Pain 2007 3;128(1-2):69-77.
55. Valderrama-Gama E, Damian J, Ruigomez A, Martin-Moreno JM. Chronic disease, functional status, and
self-ascribed causes of disabilities among noninstitutionalized older people in spain. J Gerontol A Biol Sci
Med Sci 2002 Nov;57(11):M716-21.
56. Escobar Bravo MA, Puga D, Martin M. Protective effects of social networks on disability among older adults
in madrid and barcelona, spain, in 2005]. Rev Esp Salud Publica 2008 Nov-Dec;82(6):637-51.
57. Ehde DM, Jensen MP, Engel JM, Turner JA, Hoffman AJ, Cardenas DD. Chronic pain secondary to
disability: A review. Clin J Pain 2003 Jan-Feb;19(1):3-17.
58. Scott KM, Von Korff M, Alonso J, Angermeyer MC, Bromet E, Fayyad J, de Girolamo G, Demyttenaere K,
Gasquet I, Gureje O, et al. Mental-physical co-morbidity and its relationship with disability: Results from the
world mental health surveys. Psychol Med 2009 Jan;39(1):33-43.
59. Pinto-Meza A, Fernandez A, Fullana MA, Haro JM, Palao D, Luciano JV, Serrano-Blanco A. Impact of
mental disorders and chronic physical conditions in health-related quality of life among primary care
patients: Results from an epidemiological study. Qual Life Res 2009 Oct;18(8):1011-8.
60. Ohayon MM. Relationship between chronic painful physical condition and insomnia. J Psychiatr Res 2005
3;39(2):151-9.
61. Frank AO, De Souza LH, Frank CA. Neck pain and disability: A cross-sectional survey of the demographic
and clinical characteristics of neck pain seen in a rheumatology clinic. Int J Clin Pract 2005 Feb;59(2):17382.
62. Encuesta sobre Discapacidad, Autonoma personal y Situaciones de Dependencia (EDAD). Metodologa.
[Internet]Madrid:
Instituto
Nacional
de
Estadstica
(INE).
Available
from:
http://www.ine.es/metodologia/t15/t1530418.pdf.
63. Nihayah M, Ismarulyusda I, Syarif HL, Zakiah MSN, Baharudin O, Fadzil MH. Sleeping hours and
academic achievements: A study among biomedical science students. Procedia - Social and Behavioral
Sciences 2011;18:617-21.
64. Kachikis AB, Breitkopf CR. Predictors of sleep characteristics among women in southeast texas. Womens
Health Issues 2011 Aug 27.
99
65. Pgina web oficial del Instituto Nacional de Estadstica [Internet]Madrid; c2011 [cited 2011 09/08].
Available from: http://www.ine.es/.
66. Mueser KT, Pratt SI, Bartels SJ, Forester B, Wolfe R, Cather C. Neurocognition and social skill in older
persons with schizophrenia and major mood disorders: An analysis of gender and diagnosis effects. J
Neurolinguistics 2010 May;23(3):297-317.
67. Xu Y, Schneier F, Heimberg RG, Princisvalle K, Liebowitz MR, Wang S, Blanco C. Gender differences in
social anxiety disorder: Results from the national epidemiologic sample on alcohol and related conditions.
J Anxiety Disord 2011 Aug 17.
68. Molendijk ML, Bus BA, Spinhoven P, Penninx BW, Prickaerts J, Oude Voshaar RC, Elzinga BM. Gender
specific associations of serum levels of brain-derived neurotrophic factor in anxiety. World J Biol Psychiatry
2011 Sep 5.
69. Monteggia LM, Luikart B, Barrot M, Theobold D, Malkovska I, Nef S, Parada LF, Nestler EJ. Brain-derived
neurotrophic factor conditional knockouts show gender differences in depression-related behaviors. Biol
Psychiatry 2007 Jan 15;61(2):187-97.
70. Keogh E, McCracken LM, Eccleston C. Gender moderates the association between depression and
disability in chronic pain patients. Eur J Pain 2006 Jul;10(5):413-22.
71. Simpson EH. The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society
1951;B 13:238-41.
72. Aguilera AM. Modelizacin de tablas de contingencia multidimensionales. 1 ed. Madrid: La muralla; 2006.
ISBN:9788471337603.
73. Tu Y-. Statistical paradoxes. In: Editors-in-Chief: Penelope Peterson A2Eva Baker and Barry McGawA2
Editors-in-Chief: Penelope Peterson,Eva Baker, Barry McGaw, editors. International encyclopedia of
education (third edition). Oxford: Elsevier; 2010.
74. Douglas L. H. Simpson's paradox and the analysis of memory retrieval. Psychol Rev 1980 7;87(4):398-410.
75. Dardanoni V, Modica S, Pennisi A. The simpson paradox of school grading in italy. Research in Economics
2009 6;63(2):91-4.
76. C.Ineke N. The potential for simpson's paradox in drug utilization studies. Ann Epidemiol 1997 10;7(7):51721.
77. Smith K, O'Day J. Simpson's paradox: An example using accident data from the state of texas. Accident
Analysis & Prevention 1982 4;14(2):131-3.
78. Catal E, Reig E, Arts M, Aliaga L, Lpez JS, Seg JL. Prevalence of pain in the spanish population:
Telephone survey in 5000 homes. Eur J Pain 2002 4;6(2):133-40.
79. Stubbs D, Krebs E, Bair M, Damush T, Wu J, Sutherland J, Kroenke K. Sex differences in pain and painrelated disability among primary care patients with chronic musculoskeletal pain. Pain Med 2010
Feb;11(2):232-9.
100
101