Imputacion Por Regresion

Ventajas y desventajas:
Las ventajas de imputar son que logramos obtener un conjunto de datos completo sin datos
faltantes, se puede reducir el sesgo debido a la no respuesta y la imputacin opera sobre los
datos, de forma que los resultados obtenidos por los diferentes anlisis son mutuamente
consistentes.
Por otra parte, la imputacin tambin tiene desventajas ya que hay que tener en cuenta que el
futuro anlisis no distingue entre las imputaciones y los datos reales. Adems los valores
imputados pueden ser buenas estimaciones pero no son datos reales y no podemos asegurar
una mejora en el sesgo respecto del sistema de datos incompletos. Al fin y al cabo la
imputacin es un procedimiento de generar datos. Si el mtodo de imputacin no es el
adecuado, posiblemente aumente el sesgo y sobreestime la varianza, obteniendo datos
imputados inconsistentes produciendo una base de datos no confiables, llevando a la
interpretacin errnea de los resultados por parte de los usuarios.
IMPUTACIN POR REGRESIN

Es un mtodo propuesto por primera vez por Buck (1960), la idea bsica de esta metodologa
es utilizar la informacin de las variables con informacin completa para reemplazar las
faltantes, empleando modelos de regresin para imputar la informacin.
Los valores faltantes se sustituyen por valores predictivos obtenidos a partir de una regresin
entre un conjunto de variables predicto
ras X y un conjunto de variables explicativas Y.
Si bien es cierto que esta metodologa result ser mejor que la imputacin por medias,
ocasiona resultados inversos a sta, mientras que el anterior mtodo atena las correlaciones
entre variables; el mtodo de imputacin por regresin obtiene correlaciones altas casi
perfecta en el caso de correlacionar los valores predictivos y el subconjunto imputado
pronosticado, es decir sobrestima las correlaciones aun cuando la data es considerada MCAR.
Otra de las desventajas que posee este mtodo es que los valores imputados se ajustarn
directamente en la recta de regresin produciendo con esto poca variabilidad y por tanto
atenuando la varianza o covarianza.
DIFERENTES TIPOS DE TCNICAS DE IMPUTACIN

Varios estudios (Goicoechea, 2002; Platek 1986; y Government Statistical Service 1996),
indican que las tcnicas de imputacin se pueden clasificar de la siguiente manera:
Tcnicas determinsticas: cuando al repetir la imputacin en varias unidades bajo las
mismas condiciones, producir las mismas respuestas.
a) Imputacin de la media o modo: se llena el vaco del dato faltante de cada

variable con la media de los registros no faltantes en caso de variables
cuantitativas, o con la moda en caso de variables cualitativas. Tiene como
desventaja la modificacin de la distribucin de la variable hacindose ms estrecha
ya que reduce su varianza, adems, no conserva la relacin entre variables y se
debe asumir una MAR. Su ventaja es la facilidad de la aplicacin del mtodo.
b) Imputacin de media de clases: las respuestas de cada variable son
agrupadas en clases disjuntas con diferentes medias, y a cada registro faltante se le
imputar con la media respectiva de su grupo. Tiene las mismas desventajas que el
caso anterior, pero en menor proporcin por estar agrupadas. Igualmente es de fcil
aplicacin.
c) Imputacin por regresin: se ajusta un modelo lineal que describa a y,
variable a imputar, para un conjunto X de variables auxiliares que se deben
disponer. Resuelve el problema de la distorsin de la distribucin de la variable a
imputar, pero puede crear inconsistencias dentro de la base de datos, pues podra
obtenerse valores imposibles, ya que el valor y es obtenido de variables
auxiliares.
d) Emparejamiento media: se lleva a cabo el mtodo (e) donde el valor de y
(estimado) es comparado con casos completos, y el caso ms cercano
correspondiente provee el valor imputado y.
e) Imputacin por el vecino ms cercano: se identifica la distancia entre la

variable a imputar y, y cada una de las unidades restantes (x o variables auxiliares)
mediante alguna medida de distancia, entonces se determina la unidad ms cercana
a y, usando el valor de esta unidad cercana para imputar el faltante.
f) Algoritmo EM (Expectation Maximization): basada en la funcin de mxima
verosimilitud, permite obtener estimaciones mximo verosmiles (MV) de los
parmetros cuando hay datos incompletos
con unas estructuras
determinadas. Resuelve de forma iterativa el clculo del estimador mximo
verosmil mediante dos pasos en cada iteracin (Little y Rubin, 1987). Este algoritmo
tiene la ventaja de que puede resolver un amplio rango de problemas, incluyendo
problemas no usuales que surgen de la prdida o data incompleta, como lo es la
estimacin de los componentes de la varianza.
g) Redes Neuronales: son sistemas de informacin procesados, que reconocen
patrones de los datos sin algn valor perdido para aplicarlo a la data a imputar. Estas
redes son ms usadas para variables cualitativas que cuantitativas, siendo ms
adecuadas cuando la distribucin es no lineal. No es aconsejable cuando hay
registros atpicos que distorsionan la red. Son costosos y requieren de capacitacin
del analista as como de software adecuado.
h) Modelos de series de tiempo: se asume que la data perdida ocurre de tal forma,
y en tal sistema, que el problema se reduce a una situacin, en la cual, hay una
serie de tiempo, donde una(s) serie(s) de observaciones estn perdidas,
haciendo ptimo el uso de interrelaciones entre sucesivas observaciones en cada
serie de tiempo, mediante el uso de un modelo adecuado para estas series.
Imputacin mediante regresin

Consideremos una variable Xi que presenta nper valores perdidos y ni = n
nper valores observados. Supongamos que las k-1 restantes variables Xj,
con j i, no presentan valores perdidos. Con este mtodo se estima la
regresin de la variable Xi sobre las variables Xj, j i, a partir de los ni
casos completos y se imputa cada valor perdido con la prediccin dada
por la ecuacin de regresin estimada. Esto es, si para el caso l el valor xli
no se observa, entonces se imputa mediante:
Donde
Xi sobre
, j i , representan los coeficientes de la regresin de
Xj, j i , basada en las ni observaciones completas. Frente a la

imputacin mediante la media, este mtodo incorpora la informacin que
sobre Xi contienen el resto de variables.
PASOS PARA LLEVAR A CABO UN PROCESO DE IMPUTACION

Segn Goicoechea (2002) los pasos que se llevan a cabo para realizar imputacin son:
Paso 1: una vez que se dispone de un archivo con datos faltantes, se recopila y valida toda la
informacin auxiliar disponible que pueda ser de ayuda para la imputacin.
Paso 2: se estudia el patrn de prdida de respuesta.
Posteriormente se observa si hay un gran nmero de registros que simultneamente tienen

no respuesta en un conjunto de variables.
Paso 3: se seleccionan varios mtodos de imputacin posibles y se contrastan los resultados.
Paso 4: se calculan las varianzas para los distintos mtodos de imputacin seleccionados
con el objetivo de obtener estimaciones con el mnimo sesgo y la mejor precisin.
Paso 5: se concluye a partir de los resultados obtenidos

Imputacion Por Regresion

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Imputacion Por Regresion

Uploaded by

Copyright:

Available Formats

Ventajas y desventajas:

IMPUTACIN POR REGRESIN

DIFERENTES TIPOS DE TCNICAS DE IMPUTACIN

a) Imputacin de la media o modo: se llena el vaco del dato faltante de cada

e) Imputacin por el vecino ms cercano: se identifica la distancia entre la

Imputacin mediante regresin

, j i , representan los coeficientes de la regresin de

Xj, j i , basada en las ni observaciones completas. Frente a la

PASOS PARA LLEVAR A CABO UN PROCESO DE IMPUTACION

Posteriormente se observa si hay un gran nmero de registros que simultneamente tienen

You might also like