You are on page 1of 22

TESIS I

z
Anlisis multivariable

UNIVERSIDAD NACIONAL HERMILIO VALDIZAN

FACULTAD DE MEDICINA HUMANA

E. A. P. MEDICINA HUMANA

TESIS I

ANALISIS MULTIVARIABLE

DOCENTE: Dr. DAMASO MATTA, Bernardo

INTEGRANTES:
1. MASGO SOLANO, Antenor
2. RAMOS BERMDEZ, Gerson
3. RAMOS VELSQUEZ, Fredy A.
4. RODRGUEZ SANTILLN, Carlos M.
5. ROMN SANTAMARIA, Angie E.
6. RUBIO GRADOS, Dumer G.
7. SALAZAR BORJA, Juan Carlos
8. SNCHEZ BETETA, Marco A.
9. SARMIENTO PONCIANO, Katty
10.TARAZONA LUNA, Gaby C.
11.TOLENTINO HINOJOSA, Lennin J.
12.TRINIDAD GUZMN, Heiddy J.
13.ZRATE CASACHAHUA, Yojhaida

HUANUCO-PERU

2015

0
TESIS I
Anlisis multivariable

DEDICATORIA

El presente trabajo est dedicado a


nuestros padres, pilares solidos que
nos sostienen, brindndonos su amor y
apoyo incondicional en este camino
que decidimos recorrer.

Asimismo a nuestros docentes por ser


nuestros guas y orientadores

1
TESIS I
Anlisis multivariable

NDICE

GENERALIDADES. 3

USOS COMUNES DEL ANALISIS MULTIVARIABLE 6

METODOS DE ANALISIS MULTIVARIBLE.......................7

- Regresin lineal mltiple.7


- Regresin logstica..9
- Regresin de Cox11
INCORPORACION DE VARIABLES INDEPENDIENTES EN EL ANALISIS
MULTIVARIABLE... 14

INCLUSION Y EXCLUSION DE LAS VARIABLES INDEPENDIENTES Y


MULTICOLINEALIDAD......18

BIBLIOGRAFA.21

2
TESIS I
Anlisis multivariable

ANALISIS MULTIVARIABLE

1. GENERALIDADES
En los diseos experimentales tpicos se busca una posible relacin causal entre
la variable independiente y el desenlace por medio de la asignacin aleatoria de
una intervencin. La asignacin aleatoria le permite al investigador organizar la
poblacin de estudio en grupos que compartirn de manera similar variables
independientes, que pueden o no afectar a la variable dependiente del estudio. En
los estudios observacionales, o no experimentales, no es posible hacer una
asignacin aleatoria de la muestra, por lo que se hace necesario contar con un
mecanismo adicional que permita el control de las variables de confusin o
covariables con respecto a sus efectos en la variable dependiente.

Es en este punto donde el anlisis multivariable juega un papel fundamental


actuando como mecanismo de control mediante el anlisis simultneo de las
variables independientes; de este modo se logra una mayor economa en el
anlisis de los datos y se tiene el potencial para hacer predicciones y obtener una
mayor consistencia en la inferencia estadstica.

Para comprender mejor cmo funciona el anlisis multivariable utilizaremos el


siguiente ejemplo. En 1995, Hasdai y colaboradores hicieron un estudio para
conocer los efectos producidos por el hbito de fumar en pacientes sometidos a
revascularizacin coronaria percutnea. Para ello, siguieron una cohorte de 5.437
pacientes que fueron agrupados en no fumadores, exfumadores (quienes dejaron
de fumar al menos 6 meses antes de la intervencin), exfumadores recientes
(quienes dejaron de fumar inmediatamente luego de la intervencin) y fumadores
persistentes. El desenlace principal para el que se buscaba medir la asociacin
era el riesgo de muerte por cualquier causa.

En la tabla 1 se muestran los resultados obtenidos en el anlisis univariado de la


investigacin.

3
TESIS I
Anlisis multivariable

Los resultados del anlisis univariado indican que el riesgo relativo de morir por
cualquier causa despus de haberse sometido a una revascularizacin coronaria
percutnea es menor en los fumadores persistentes y en los exfumadores
recientes que en los no fumadores. Cmo puede ser esto posible luego de que
muchos estudios han demostrado la asociacin entre el hbito de fumar y una alta
mortalidad? La respuesta a este interrogante se puede encontrar en la tabla 2.

4
TESIS I
Anlisis multivariable

Observando detalladamente la tabla 2, encontramos varias diferencias


significativas en las caractersticas clnicas y angiogrficas de los cuatro grupos al
empezar el estudio. En comparacin con los fumadores persistentes y los
exfumadores recientes, los no fumadores eran mayores, haban tenido anginas
por perodos ms largos, la EAC (enfermedad arterial coronaria) era de mayor
extensin, tenan una mayor frecuencia de ciruga de revascularizacin previa y
menor frecuencia de revascularizacin completa. Adems, las principales
condiciones coexistentes tales como la hipertensin arterial y la diabetes mellitus
fueron casi dos veces ms comunes en los no fumadores que en los exfumadores
recientes y los persistentes. Teniendo todas estas caractersticas en cuenta, no es
raro encontrar que los dos ltimos grupos tengan un menor riesgo relativo de morir
por cualquier causa que los no fumadores y los exfumadores.

Al ver que las caractersticas basales de los cuatro grupos eran diferentes entre s
y que estas diferencias podan tener no solo la evidente relacin con el factor de
riesgo sino tambin afectar al desenlace de inters, los investigadores utilizaron el
anlisis multivariable para ajustar por todas aquellas variables independientes que
actuaban como variables de confusin en el estudio: edad, sexo, ciruga de
revascularizacin previa, infarto agudo de miocardio, insuficiencia cardaca
congestiva, historia de diabetes, historia de hipertensin, enfermedad de mltiples
vasos, historia familiar de enfermedad coronaria y nmeros de vasos dilatados. El
resultado se observa en la tabla 3.

Luego del ajuste, la asociacin entre el hbito de fumar y el riesgo relativo de


muerte por cualquier causa cambi rotundamente. El anlisis multivariable

5
TESIS I
Anlisis multivariable

permiti hacer un ajuste simultneo, sin necesidad de estratificar la poblacin de


estudio, de todas las caractersticas que actuaban como variables de confusin.

2. USOS COMUNES DEL ANLISIS MULTIVARIABLE


La investigacin clnica utiliza los modelos de anlisis multivariable con ms
frecuencia en los estudios observacionales acerca de la etiologa y el pronstico
de una enfermedad, y ocasionalmente en los estudios de diagnstico o de
intervencin. Dependiendo del tipo de diseo seleccionado y de la pregunta de
investigacin que se busca responder, el anlisis multivariable presenta ventajas y
limitaciones con respecto al anlisis de los datos.

En los estudios etiolgicos no experimentales, el anlisis multivariable permite


fortalecer el argumento de la causalidad entre un factor de riesgo y un desenlace
especfico mediante la exclusin de las variables de confusin. Sin embargo,
presenta una limitacin para este ajuste ya que no pueden considerar las variables
no medidas o las variables desconocidas.

En el contexto de una entidad clnica ya establecida, algunas de las preguntas


ms difciles que enfrentan los mdicos diariamente son las relacionadas con la
gravedad de la enfermedad y el riesgo de un desenlace desfavorable en el tiempo.
A pesar de la dificultad para predecir la respuesta exacta para una sola persona, el
anlisis multivariable puede proporcionar informacin confiable acerca del
pronstico en grupos de pacientes con un conjunto particular de factores
conocidos. En este tipo de estudios, el anlisis multivariable ayuda a demostrar
que la supervivencia o el curso clnico de un grupo de individuos con una misma
enfermedad pueden variar dependiendo de las caractersticas iniciales de la
poblacin de estudio y ajustando por cada una de esas caractersticas que
influyen en el desenlace. En los estudios de diagnstico, por otra parte, el anlisis
multivariable busca definir la mejor combinacin entre signos, sntomas u otras
caractersticas del paciente y el diagnstico de inters, sin importar la relacin
causal que pueda existir entre todos estos factores.

Cuando se habla de estudios de intervencin se piensa principalmente en la


asignacin aleatoria, y es esta la que permite hacer el ajuste de las variables no
medidas que el anlisis multivariable no puede ajustar. Sin embargo, en algunas
preguntas de intervencin no es posible hacer la asignacin aleatoria por
limitaciones logsticas, problemas ticos o por diversas razones.

6
TESIS I
Anlisis multivariable

En estos casos el anlisis multivariable puede realizar, aunque con ciertas


restricciones, el ajuste de las caractersticas basales de los grupos para lograr una
aproximacin estadstica razonable a la estimacin del efecto de la intervencin.

3. METODOS DE ANALISIS MULTIVARIABLE

La clase de variable dependiente o de desenlace es lo que dicta, con el


cumplimiento de ciertos requerimientos o supuestos estadsticos, el tipo de
anlisis multivariable indicado en cada pregunta o problema de investigacin. Los
principales mtodos de anlisis multivariable utilizados en la investigacin clnica
son la regresin lineal mltiple, la regresin logstica con sus adaptaciones y la
regresin proporcional de Cox.

A. Regresin lineal mltiple:

El concepto de regresin hace referencia a la ley experimental o frmula


matemtica que traduce la relacin entre variables correlacionadas. Cuando se
quiere poner una variable en funcin de otra o de otras se acude al bien conocido
recurso de la regresin lineal. Esta, como su nombre lo indica, determina la mejor
lnea para la prediccin de la variable de resultado basada en los valores de una o
ms variables independientes. El primer caso, solo una variable independiente,
corresponde a la regresin lineal simple; mientras que la regresin lineal mltiple
expresa el efecto de ms de una variable independiente. En este modelo la
variable de resultado es continua o de intervalo, en la que todos los valores
representan magnitudes y la distancia entre los nmeros de su escala es igual. La
presin arterial, el peso y la temperatura son ejemplos de este tipo de variable, ya
que un cambio en una unidad en cualquier punto de la escala es igual a un
milmetro de mercurio, un kilogramo o un grado centgrado, respectivamente.

En la regresin lineal asumimos que existe una relacin en forma de lnea recta
entre la variable dependiente, que se encuentra convencionalmente en el eje de la
Y, y la variable independiente representada en el eje de la X. Cuando la variable
independiente aumenta o disminuye, la media o el valor esperado de la variable de
desenlace aumenta o disminuye, respectivamente, de una manera lineal.
Analicemos el siguiente ejemplo:

En 2013 Akande y colaboradores publicaron una investigacin en la que buscaban


encontrar la asociacin entre la resistencia a la insulina y la hipertensin esencial.
Tomaron una muestra de 70 pacientes de los cuales 35 eran normotensos y 35
presentaban hipertensin esencial. Ningn paciente tena historia de diabetes,

7
TESIS I
Anlisis multivariable

intolerancia a la glucosa o resistencia a la insulina. A todos se les midi la presin


arterial y se les tom una muestra de sangre para medir insulina y glucosa
plasmticas en ayunas, con el fin de evaluar la resistencia a la insulina mediante el
mtodo HOMA-IR (homeostasis model assessment-insulin resistance). Adems,
se tomaron medidas antropomtricas como peso, estatura, ndice de masa
corporal (IMC) y circunferencia de la cadera. Los resultados se muestran en la
tabla 4.

Se observa que el HOMA-IR fue mayor en los pacientes hipertensos que en los
normontensos. Sin embargo, aunque algunos parmetros muy relacionados con la
hipertensin y la resistencia a la insulina como el IMC y la circunferencia de
cadera varan poco entre ambos grupos, la edad muestra diferencias
estadsticamente significativas en esa misma comparacin. Por lo tanto, es
necesario establecer con mayor certeza la forma en la que estos parmetros
pueden modificar el resultado del HOMA-IR. Para esto, los investigadores
decidieron utilizar el mtodo de regresin lineal mltiple con los valores de HOMA-
IR como variable dependiente o de resultado, y la edad, el IMC, la circunferencia
de cadera y la presencia de HTA como variables independientes. Los resultados
del ajuste se encuentran en la tabla 5.

8
TESIS I
Anlisis multivariable

Luego del ajuste, los factores asociados con la resistencia a la insulina medida por
HOMA-IR son la hipertensin arterial y el IMC. En pacientes con diagnstico de
hipertensin esencial se espera, en promedio y luego de ajustar por edad, IMC y
circunferencia de cadera, un valor mayor en el HOMA-IR de 0,736 (IC 95% =
0,038; 1,434) con respecto a los sujetos normotensos.

Ntese que esta diferencia es muy similar al valor de 0,7 de la diferencia de


medias de la tabla 4. Adicionalmente, luego de ajustar por edad, diagnstico de
hipertensin y circunferencia de cadera, se observa que por cada unidad que
aumente el IMC aumenta en 0,15 (IC 95% = 0,52; 0,177) el HOMA-IR.

B. REGRESIN LOGSTICA MLTIPLE

Para evaluar qu tan bien se ajusta el modelo de regresin logstica a los datos se
utiliza una prueba estadstica de verosimilitud (en ingls: likelihood ratio test), que
determina si las variables independientes se asocian con el desenlace de inters
ms de lo que podra esperarse solo por azar. Cuando esta prueba muestra que la
proporcin de sujetos con el desenlace se puede explicar por la forma como se
combinan las variables independientes del modelo, su resultado se acompaa de
un nmero alto en la distribucin de Chi y por tanto de un menor valor de la p
correspondiente. Un valor de p < 0,05, al igual que en la regresin lineal, rechaza
la hiptesis nula de que no existe asociacin entre las variables independientes y
el resultado.

En la regresin logstica el significado de los coeficientes es diferente al que


encontramos en la regresin lineal ya que en estos casos lo que se modela es el
logaritmo del odds (logit), como explicamos en el nmero anterior de esta serie.
Un coeficiente positivo quiere decir que a medida que aumenta la variable
independiente aumenta el logit, y un coeficiente negativo indica que a medida que
aumenta la variable independiente el logit disminuye. El paquete estadstico arroja
un OR (Odds Ratio) para cada variable independiente, luego de ajustar de manera
simultnea por todos los factores presentes en el modelo, que es igual al
antilogaritmo del coeficiente (Odds ratio = e coeficiente) e indica qu tanto aumenta
(OR > 1) o disminuye (OR < 1) el riesgo de ocurrencia del desenlace por cada
cambio en una unidad en la variable independiente.
Al igual que en la regresin lineal, es posible determinar el significado estadstico
de cada coeficiente de la regresin logstica por medio del valor de p que se
obtiene con la prueba de Wald, tambin rechazando la hiptesis nula de no
asociacin con un valor p<0,05. Sin embargo, es preferible y mucho ms

9
TESIS I
Anlisis multivariable

ilustrativo interpretar los OR con base en la precisin que se observa con los
intervalos de confianza del 95% (IC 95%).

Carreno y colaboradores hicieron una investigacin para evaluar la incidencia y


los factores de riesgo para desarrollar insuficiencia renal aguda (IRA) en pacientes
en tratamiento con vancomicina. La poblacin de estudio se dividi en tres
categoras segn la edad: adultos jvenes (de 18 a 64 aos), adultos mayores (de
65 a 79 aos) y ancianos (80 aos o ms). Se utiliz la regresin logstica para
cuantificar el efecto simultneo de las siguientes variables en el riesgo de
ocurrencia de IRA: grupo de edad, infeccin del tracto respiratorio inferior,
duracin de la terapia en das y presencia de al menos dos factores de riesgo
conocidos para nefrotoxicidad. Los resultados se muestran en la tabla 3.

Los resultados obtenidos en la regresin logstica sugieren que los grupos de


mayor edad, comparados con los jvenes, pareceran tener menos riesgo de IRA
con el uso de vancomicina. Sin embargo, esta aparente disminucin del riesgo no
es estadsticamente confiable como indican los lmites del intervalo de confianza y
los valores de p respectivos. Por otra parte, tener una infeccin del tracto
respiratorio inferior, comparada con otros tipos de infeccin como indicaciones
para el uso de vancomicina, incrementa en ms de 5 veces el riesgo de desarrollar
IRA, independientemente del grupo de edad, la duracin del tratamiento y la
presencia o ausencia de factores de riesgo para nefrotoxicidad. Este aumento del
riesgo puede variar entre 2,15 y 12,4, pero es constante en su comportamiento por
encima del 1. Del mismo modo, cada da de tratamiento aumenta un 12% el riesgo
de IRA en cualquier grupo de edad, en cualquier infeccin de base y en presencia

10
TESIS I
Anlisis multivariable

o ausencia de otra nefrotoxicidad, con una variacin del aumento de riesgo entre
3% y 22%.

C. REGRESIN DE COX (MODELO DE RIESGOS PROPORCIONALES)

Es otro tipo de mtodo de anlisis multivariado que se usa especficamente en los


estudios de supervivencia.

ESTUDIOS DE SUPERVIVENCIA.
El estudio de procesos de supervivencia juega un papel muy importante en
medicina. Comparar entre la supervivencia observada en dos grupos de
pacientes puede llevar a validar un determinado tratamiento o, alternativamente, a
identificar un factor de riesgo importante. Intentan evaluar la supervivencia en una
determinada situacin. Se debe usar una metodologa adecuada en cada caso
debido a las caractersticas particulares que estos estudios presentan.

La situacin ms comn corresponde a un estudio en el cual la supervivencia del


paciente se estudia a partir de un determinado instante de tiempo en el que se
interviene sobre dicho paciente (administracin de un tratamiento, intervencin
quirrgica, etc.).

El estudio de procesos de supervivencia implica el seguimiento de los individuos a


lo largo del tiempo, pudindose producir una serie de situaciones que complican la
caracterizacin de los mismos. As, tendremos 2 tipos de situaciones:

Cuando podemos observar de manera exacta el tiempo de aparicin del


suceso de inters (Muerte, Aparicin de complicaciones post-operatorias,
Rechazo de un rgano transplantado, etc.). DATOS NO-CENSURADOS.
Por otra parte, es habitual que algunos de los pacientes se pierdan a lo
largo del seguimiento. (paciente transplantado deje de acudir a la consulta
por cambio de domicilio, perdindose su rastro a efectos de observar el
suceso de inters). DATOS CENSURADOS.

Se pueden esquematizar estas situaciones en el siguiente grfico:

11
TESIS I
Anlisis multivariable

El mtodo ms
utilizado para saber el efecto
de una variable independiente sobre la supervivencia, o sobre la probabilidad de
estar libre de la ocurrencia de un evento, en una poblacin despus de un tiempo
determinado es el de Kaplan-Meier. Tambin es posible, mediante una
comparacin por medio de la prueba de Log-Rank, establecer si existen
diferencias estadsticamente significativas entre distribuciones de supervivencia.

Estimador de Kaplan- Meier.

En el anlisis de la supervivencia, el estimador de KaplanMeier es un estimador


no paramtrico de la funcin de supervivencia.

Este estimador tiene en cuenta la censura. Adems el estimador admite una


representacin grfica por medio de una funcin escalonada.

Sin embargo, el mtodo de Kaplan-Meier no permite valorar simultneamente ms


de una variable independiente y tampoco permite estimar la magnitud del efecto
que pueda tener una variable en el riesgo de ocurrencia de un evento en el
tiempo. Es aqu donde la regresin de Cox juega un papel fundamental como
modelo de anlisis multivariable en los estudios de supervivencia.

ANLISIS MULTIVARIABLE DE LOS ESTUDIOS DE SUPERVIVENCIA.


La regresin de Cox

La regresin de Cox valora el efecto de distintas variables independientes sobre la


funcin de supervivencia a lo largo de todo el perodo de observacin de los
pacientes, sea cual sea el punto temporal que se elija para la comparacin.

12
TESIS I
Anlisis multivariable

Adems, la principal ventaja de este tipo de anlisis es que permite incorporar al


estudio individuos con distintos tiempos de seguimiento, porque es posible obtener
informacin relevante de aquellos sujetos que durante el tiempo de seguimiento
definido no presentaron el desenlace de inters.

Al igual que en la regresin logstica, en la regresin de Cox tambin es necesaria


una funcin matemtica que transforme el desenlace y permita entender la
relacin entre las variables por medio de un modelo similar al de la lnea recta.

En este caso, el tiempo hasta el evento es transformado en una funcin


denominada el Hazard, que puede simplificarse en trminos prcticos como una
medida del riesgo instantneo de ocurrencia de dicho evento.

Por lo tanto, el efecto de las variables independientes se presenta como un


Hazard Relativo (HR), y expresa la magnitud en la que una variable aumenta o
disminuye el riesgo de ocurrencia de un desenlace en el tiempo.

Un HR igual a 1 quiere decir que no hay ningn cambio en el tiempo transcurrido


hasta un evento a pesar de observar cambios en la variable independiente. Un HR
mayor de 1 indica que cuando la variable independiente est presente aumenta o
acelera el riesgo de tener un evento en un tiempo determinado; y cuando el HR
es menor de 1 la presencia o el aumento de dicha variable independiente
disminuye o frena el riesgo de aparicin del desenlace.

La regresin de Cox permite establecer cul o cules factores se asocian con un


aumento o disminucin de la velocidad con que se presenta el desenlace de
inters

A continuacin se muestra un ejemplo de uso de la regresin de Cox

Un estudio que exploraba el papel de los niveles de albmina srica en la


prediccin de la mortalidad y la incidencia de eventos cardiovasculares en
pacientes con falla renal crnica (FRC) sometidos a terapia de resincronizacin
carda(TRC).

13
TESIS I
Anlisis multivariable

La media de seguimiento para estos pacientes fue de 2,6 2,06 aos y la muestra
fue dividida en dos grupos: pacientes con niveles de albmina normales y
pacientes con hipoalbuminemia. Con el mtodo de Kaplan-Meier se observ que
los pacientes con albmina normal tenan menor mortalidad y menor frecuencia de
eventos cardiovasculares que aquellos con hipoalbuminemia. El anlisis uni y
multivariable para mortalidad con la regresin de Cox se muestra en la tabla 7.

En el anlisis univariable nicamente los valores de albmina y de pptido


natriurtico atrial (PNA, en trasformacin logartmica) se asocian con el riesgo de
muerte. Luego del anlisis multivariable con estos dos factores, se observa que la
albuminemia es la nica variable asociada con mortalidad. En pacientes con FRC
sometidos a TRC tener valores normales de albmina en suero, en comparacin
con la presencia de hipoalbuminemia, se comporta como un factor protector al
disminuir el riesgo instantneo de muerte en un 68%. Esta disminucin est
presente al ajustar por, o independientemente de, los valores de PNA.

4. INCORPORACIN DE LAS VARIABLES INDEPENDIENTES EN


EL ANLISIS MULTIVARIABLE

Estas variables pueden ser clasificadas como cualitativas (dicotmicas,


politmicas) o cuantitativas (discretas, continuas), as tambin como variables
nominales, ordinales, de intervalo, o de razn.

Las variables independientes dicotmicas tienen una ventaja con respecto a otros
14
TESIS I
Anlisis multivariable

tipos de variables como las ordinales, las nominales y de intervalo, ya que pueden
ser analizadas con cualquier mtodo estadstico sin necesidad de ninguna
transformacin ms all de la simple recodificacin como 1 (presencia de la
variable) o 0 (ausencia de la misma). Con los otros tipos de variables, en cambio,
es necesario efectuar transformaciones especficas para poder analizarlas. Las
variables nominales representan atributos no numricos que no admiten un tipo de
orden, por lo que al recibir cdigos numricos para efectos de nomenclatura, estos
no tienen ningn significado. Por ejemplo, cuando vemos el estado civil de una
persona como soltero, casado, viudo o divorciado, cada una de esas alternativas
para la variable recibe un cdigo numrico como soltero = 1, casado = 2, viudo =
3, divorciado = 4. Estos nmeros, no obstan- te, no reflejan ninguna magnitud y en
cualquier anlisis multivariable el pasar de una categora a otra, de 1 a 2 por
ejemplo, no tendra ningn significado. Para que las variables nominales
independientes puedan tener un valor real y ser analizadas, deben convertirse en
mltiples variables dicotmicas por medio de un proceso que en ingls se ha
llamado dummying. Si tomamos el ejemplo anterior y suponemos que cada una de
las opciones de estado civil es una variable dicotmica, estas recibiran el valor de
1 para indicar que el individuo est en esa categora y 0 si no lo est. Las nuevas
variables dicotmicas quedaran casado (1 = s, 0 = no), viudo (1 =
s,0=no),divorciado(1=s,0=no) y soltero (1=s,0 = no). Dado que realmente se
estn representando cuatro categoras excluyentes de una misma variable, este
proceso de transformacin siempre genera por defecto el valor de la ltima
variable. Es decir, si un sujeto est codificado como no casado, no viudo y no
divorciado (con valor de 0 en las primeras tres variables) la nica opcin que le
queda es ser soltero, es decir cdigo de 1 en la ltima variable. Por lo anterior, en
este proceso de dummying, el investigador siempre decide cul de las opciones de
la variable se convertir en la categora de referencia contra la cual se comparan
todas las otras alternativas; y a este conjunto de categoras se le llama variable
dummy o indicadora. Todas las anteriores consideraciones aplican por igual para
las variables ordinales, con la diferencia que en estas s hay un orden jerrquico
entre las diversas opciones de la variable y de este modo la categora de
referencia est seleccionada de manera natural.

15
TESIS I
Anlisis multivariable

Ejemplo: Crane y colaboradores hicieron una investigacin para buscar la


asociacin entre los altos niveles de glucosa en pacientes diabticos y no
diabticos y el riesgo de desarrollar demencia En la tabla se muestran dos
ejemplos de variables nominales de ese estudio:

Tanto la raza como el fumar son variables nominales que tomaron un valor
dicotmico para ser comparadas entre diabticos y no diabticos. De 232
diabticos, 190 estn codificados como 1 en raza blanca y 0 en negros, asiticos y
otros; 28 estn como 1 en raza negra y 0 en blancos, asiticos y otros; 9 aparecen
como 1 en asiticos y 0 en blanco, negro y otros; y el 0 de las tres categoras
anteriores obliga a tener un valor de 1 en la raza otro que corresponde a 5
sujetos. Las mismas consideraciones, con sus respectivos nmeros, aplican para
la raza en no diabticos y el fumar en diabetes y no diabetes.

No hay un esquema nico de cmo agrupar las variables nominales ni de la


categora de referencia que se debe seleccionar para comparar. La mejor forma de
hacerlo depender :

La pregunta de investigacin.
La frecuencia y distribucin de las variables.
Las Categoras de las variables.
La misma asociacin estimada o sospechada entre las variables
independientes y la variable de desenlace.

En este ejemplo que acabamos de mencionar, la raza blanca por ser la de mayor
poblacin o el fumar por ser un conocido factor de riesgo podran ser tomados
como categoras de referencia y asignarles un valor de cero para las

16
TESIS I
Anlisis multivariable

comparaciones finales.

En cuanto a las variables continuas o de intervalo, el modelo multivariable asume


que cada cambio de una unidad, en cualquier punto de la escala de la variable
independiente, tiene un cambio de igual magnitud en la variable de resultado del
modelo (asuncin de linealidad). Por ejemplo, si la variable independiente es edad,
un aumento de la edad de 1 ao genera igual cambio si es de 30 a 31 o de 80 a
81 aos. Por supuesto, la medida de este cambio ser diferente dependiendo de
la variable de resultado y por tanto del mtodo de anlisis multivariable que se
use: lineal, logstica o Cox.

En la regresin lineal este supuesto de linealidad se aprecia fcilmente en un


diagrama de dispersin que grafica en el plano cartesiano la variable
independiente como el eje de las x y la variable dependiente como el eje de las
y

Pero en caso de la
regresin logstica y la
regresin de Cox, por la
transformacin que
necesitan sus respectivas
variables de resultado, no
es posible hacer un
diagrama de dispersin
convencional.

Una
aproximacin para poder

evaluar
si una variable de intervalo se ajusta a la hiptesis de linealidad en estos casos es
categorizarla en mltiples variables dicotmicas que contengan las mismas
unidades en la escala de la variable. Por ejemplo, si tomamos como variable
independiente la edad, entonces la agruparamos de 10 en 10 as: 20-29, 30-39,
40-49, 50-59 aos, y le daramos el valor de 1 o 0 a cada individuo de la muestra,
dependiendo de si pertenece (1) o no (0) al grupo correspondiente. Luego de este
proceso, las nuevas variables deben entrar a un anlisis multivariable en donde
reciben un coeficiente estimado de acuerdo con su respectivo efecto de
incremento o disminucin de la variable de resultado. Este coeficiente podra

17
TESIS I
Anlisis multivariable

graficarse en el eje de las y correspondiente con el punto medio de cada grupo


marcado en el eje de las x y verificar si el resultado se asemeja a la lnea recta
que se esperara en un diagrama de dispersin.

Ocasionalmente, estos modelos grficos pueden sugerir que la variable


independiente continua se relaciona con el desenlace, pero no de manera lineal
sino de alguna otra forma como exponencial, logartmica, curvilnea o con un
efecto umbral. En estos casos, existen tres mtodos que permiten la modificacin
e inclusin de estas variables al modelo de anlisis multivariable:

Las transformaciones matemticas, la ms usada de las cuales es la


transformacin logartmica;
Los splines, que son polinomiales o funciones que al sumar trminos
algebraicos pueden conectar los segmentos de una lnea irregular; y
finalmente,
La conversin en mltiples variables dicotmicas o creacin de variables
indicadoras como se explic previamente.

Infortunadamente, estos tres mtodos pueden presentar inconvenientes como la


dificultad en la interpretacin de sus resultados, los distintos clculos matemticos
que requiere su elaboracin y la escogencia de puntos de corte arbitrarios en el
caso de las variables dummy.

5. INCLUSIN Y EXCLUSIN DE LAS VARIABLES


INDEPENDIENTES

Para incluir las variables independientes en el anlisis multivariable que busca


resolver una pregunta de etiologa o causalidad, se deben tener en cuenta todos
los aspectos relacionados con la pregunta de investigacin y cualquier variable
que potencialmente pueda afectar la relacin entre la exposicin y el desenlace.
Estas variables, llamadas de confusin, distorsionan la medida de asociacin entre
la exposicin y el desenlace dando como resultado la observacin de un efecto
que en realidad no existe, la exageracin o la atenuacin de una asociacin real.
Para incluir este tipo de variables se recomienda escoger aquellas que ya han sido
teorizadas o se mostraron como una variable de confusin en investigaciones
anteriores.

Tambin se pueden incluir variables que empricamente, es decir, en el mismo


anlisis de los resultados actuales, se definan como factores de confusin con
base en detectar su asociacin con el factor de riesgo/exposicin y tambin con el

18
TESIS I
Anlisis multivariable

desenlace. Algunos investigadores incluyen, a pesar de ser una estrategia


bastante discutible, cualquier variable que presente una asociacin con el
desenlace y tenga una p < 0,20-0,25, independientemente de si se ha demostrado
con anterioridad cualquier asociacin con dicha variable.

Es importante excluir las variables que definitivamente no estn en la va causal


que se est analizando, las variables redundantes (ver adelante multicolinealidad)
y las variables denominadas intervinientes. Estas ltimas son las que se
encuentran en la va causal del desenlace, pero son desencadenadas o causadas
por el mismo factor de riesgo en estudio. Si en el anlisis multivariable se ajusta
por una variable interviniente, el factor de riesgo en estudio perdera valor en la
asociacin con el desenlace. Por ejemplo, el consumo moderado de alcohol est
asociado con una menor incidencia de enfermedad coronaria. En este caso, la
variable independiente alcohol disminuye el riesgo de enfermedad coronaria
debido al aumento que produce el consumo moderado del mismo en el colesterol
HDL. Sin embargo, si se ajusta por la variable HDL el alcohol perdera valor en la
asociacin, ya que el aumento del HDL es la causa fundamental de la disminucin
del riesgo cardiovascular.

MULTICOLINEALIDAD

La multicolinealidad se produce cuando dos o ms variables independientes son


tan estrechamente relacionadas una con la otra, que el modelo puede no ser
capaz de evaluar de forma fiable la contribucin independiente de cada una de
ellas. La multicolinealidad implica la existencia de una relacin lineal perfecta o
exacta entre algunas de las variables independientes de un modelo de regresin.
Si se incluyen dos o ms variables multicolineales en un modelo de regresin los
coeficientes respectivos no sern confiables, ya que tendrn grandes distorsiones
en la direccin del efecto y mayores errores estndar, lo que le impedir al lector
juzgar la precisin de los resultados. El diagnstico final de la multicolinealidad
requiere la realizacin de una medida denominada factor de inflacin de la
varianza (VIF), la cual mide qu tanto del coeficiente de regresin de una variable
es determinado por las otras variables independientes del modelo. Cuando se
encuentra la multicolinealidad es posible tomar alguna de las siguientes opciones:
omitir la variable que es tericamente menos importante, la que presenta ms
valores faltantes o de alguna manera es menos satisfactoria para el anlisis, o
crear nuevas combinaciones de variables con diversas categoras o con escalas
ms elaboradas.

19
TESIS I
Anlisis multivariable

BIBLIOGRAFA:

1. Garcs D, Jaimes Barragn F. Ronda clnica y epidemiolgica. Introduccin


al anlisis multivariable (parte I). IATREIA Vol 27(3): 355-363, julio-
septiembre 2014

20
TESIS I
Anlisis multivariable

2. Garcs D, Jaimes Barragn F. Ronda clnica y epidemiolgica. Introduccin


al anlisis multivariable (parte II). IATREIA Vol 28(1): 87-96, enero-marzo
2015

3. Erik Cobo. Anlisis multivariante en investigacin biomdica: criterios para


la inclusin de variables. Med Clin (Barc) 2002;119(6):230-237.

21

You might also like