Imputación de Datos

TALLER DE APLICACIONES
IMPUTACIN DE DATOS
Antecedentes
Un problema comn en la mayora de encuestas es la aparicin de datos faltantes
producto de la no respuesta vinculada, por ejemplo, a la aplicacin de un mtodo de
recoleccin de datos errneo o a una baja disponibilidad de respuesta por parte de los
encuestados (Muoz y lvarez, 2009).
Por otra parte, cuando los usuarios de estos datos detectan registros sin informacin
missing values o reconocen la existencia de observaciones aberrantes outliers
frecuentemente los pasan por alto ya que no existe conciencia de las implicaciones
estadsticas que conlleva trabajar con datos faltantes. No obstante, con o sin datos
omitidos el objetivo del anlisis estadstico es generar inferencia (Medina y Galvn, 2007).
En este escenario, la imputacin de datos aparece como la solucin ms comn para
solucionar el problema de datos faltantes cuando los valores perdidos son estimados,
agregados, redondeados o truncados.
Imputacin de datos
Imputar, en trminos simples, significa estimar y llenar con un valor factible un valor
perdido en un conjunto de datos. La imputacin, es parte del proceso que abarca desde la
edicin de datos hasta la realizacin de otras acciones con el fin de transformar en bruto
en un conjunto listo para el anlisis y la tabulacin de datos.
Una de las razones para imputar los valores perdidos en lugar de dejar espacios vacos
es obtener una base de datos completa con el objeto de mejorar la calidad de la
informacin. Sin embargo, un problema importante al momento de imputar es el preservar
la distribucin estadstica de la base de datos especialmente cuando estas tienen una
gran dimensin (De Waal, et al., 2011). Esto debido a que el uso de la imputacin puede
provocar problemas de subestimacin de la varianza cuando la proporcin de datos
faltantes es considerable (Rao y Sao, 1992).
Por tanto, antes de realizar el proceso de imputacin, es necesario analizar la distribucin
de los datos faltantes. El primer caso corresponde a un proceso de datos omitidos que se
genera de manera aleatoria (MAR por sus siglas en ingls) en el cual la distribucin de los
valores observados no depende del patrn de comportamiento de los registros sin
informacin. El segundo, corresponde al llamado proceso completamente aleatorio
(MCAR por sus siglas en ingls) y que ocurre cuando la omisin no depende de los datos
observados. Finalmente, la distribucin que no sigue un patrn aleatorio (MNAR por sus
siglas en ingls) se produce si, existe dependencia entre los datos completos y los
faltantes (Waal, et al., 2011).
Procedimientos tradicionales de imputacin
La evidencia terica apunta hacia que, antes de utilizar un proceso de imputacin de
datos, es necesario analizar las distribuciones de frecuencia de las variables as como las
medidas de tendencia central, de dispersin, asimetra y kurtosis.
Para esto se utilizan tres procesos: i) anlisis con datos completos el cual consiste en
trabajar nicamente con las observaciones que disponen de informacin completa para
todas las variables; ii) anlisis con datos disponibles el cual trata de eliminar las
observaciones que no tienen datos y los clculos se realizan con diferentes tamaos de
muestra lo que limita la comparacin de resultados; y, iii) reponderacin que se aplica
cuando en una subclase se detecta la ausencia de informacin y se utilizan los
ponderadores de las unidades que si respondieron para ajustar los factores de expansin
de manera que la submuestra observada genere estimaciones para la subclase de inters
(Medina y Galvn, 2007).
Tcnicas de Imputacin
Imputacin Simple o Convencional
La imputacin simple o convencional consiste en cualquier mtodo que substituya un
valor estimado por un valor perdido con el objeto de generar una base de datos completa.
Dentro de las tcnicas de imputacin simple, las ms conocidas son (Medina y Galvn,
2007; Waal, et al., 2011; Allison, 2012)
1. Imputacin regresin lineal simple: es un modelo construido con variables
auxiliares o dicotmicas que permite eliminar las observaciones con datos
incompletos ajustando una ecuacin de regresin para predecir los valores de y
(estimado) que sern utilizados para sustituir los valores que faltan.
2. Reemplazo con medias
2.1 Imputacin por el mtodo de medias no condicionadas: se sustituye los
valores perdidos utilizando promedios bajo el supuesto de que, en una
distribucin de probabilidad normal, el promedio de los datos es un buen
estimador de las observaciones omitidas. Debido a sus limitaciones tericas
es un mtodo de imputacin no recomendado.
2.2 Imputacin por medias condicionadas para datos agrupados: consiste en
formar categoras a partir de covariables correlacionadas con la variable de
inters e imputar los datos faltantes con observaciones provenientes de la
submuestra que posea caractersticas comunes. A menudo, el uso de esta
metodologa conduce a estimaciones sesgadas de los parmetros.
3. Imputacin con variables ficticias: Esta metodologa consiste en crear una

variable indicador para identificar las observaciones con datos faltantes. Ejemplo:
Suponga que la variable estimada (y) es la condicin de ocupacin (1 si no se
conoce la condicin de ocupacin del entrevistado y 0 si la persona manifiesta
estar ocupada), entonces a las personas con datos faltantes se les asigna la
media de la variable condicin de ocupacin.
4. Imputacin mediante una distribucin no condicionada o hot deck: es una
herramienta que busca preservar la distribucin de probabilidad de las variables
con datos incompletos a travs de una imputacin no paramtrica. Consiste en
llenar los registros vacos (receptores) con informacin de campos con datos
completos (donantes) reemplazando los datos faltantes con una seleccin
aleatoria de valores observados lo cual no introduce sesgos en la varianza del
estimador.
5. Estimacin por Mxima Verosimilitud: asumiendo que los datos faltantes
siguen un patrn aleatorio (MAR por sus siglas en ingls) se demuestra que la
distribucin marginal de los registros observados se encuentra asociada a una
funcin de verosimilitud para un parmetro desconocido , bajo el supuesto de
que el modelo es adecuado para el conjunto de datos completo.
Imputacin Mltiple
El mtodo de imputacin mltiple fue desarrollado por Rubin (1987) y busca imputar cada
valor a partir de un nmero (m>1) de simulaciones que se ubica entre 3 y 10. La
metodologa consta de varias etapas y, en cada simulacin, se analiza la matriz de datos
completos utilizando mtodos estadsticos convencionales con el objetivo de generar
estimadores robustos, su error estndar e intervalos de confianza (Medina y Galvn,
2007).
Para aplicar la imputacin mltiple se deben cumplir varios supuestos: i) el patrn de
datos faltantes es aleatorio, ii) se requiere que, en el modelo utilizado (estadstico o
economtrico, exista correlacin alta entre la variable a imputar y el vector de covariables
que se utilizar para modelar los datos que se utilizarn como sustitutos; y, iii) el modelo
de anlisis debe guardar relacin con el que se utiliz para efectuar el procedimiento de
imputacin.
Otra forma de agrupar los mtodos de imputacin es la siguiente (Allison, 2012):
Mtodos de imputacin determinstica: son aquellos que producen las mismas
respuestas cuando se repite la imputacin en varias unidades bajo las mismas
condiciones.
Mtodos de imputacin estocsticos aleatorios: son aquellos que producen resultados
diferentes cuando se repite el mtodo de imputacin bajo las mismas condiciones para
una unidad.
Referencias
3
Allison, P. (2012). Modern Methods for Missing Data. Statistical Horizons LLC.
Consultado
el
16
de
abril
de
2015.
Disponible
en:
https://www.amstat.org/sections/srms/webinarfiles/ModernMethodWebinarMay2012
.pdf
De Waal, T. Pannekoek, J. and Scholtus, S. (2011). Handbook of Statistical Data
Editing and Imputation. John Wiley and Sons, New Jersey.
Medina, F. Galvn, M. (2007). Imputacin de Datos: Teora y Prctica. Comisin
Econmica para Amrica Latina y El Caribe - Serie Estudios Estadsticos y
Prospectivos. (54).
Muoz, J. lvarez, E, (2009). Mtodos de imputacin para el tratamiento de datos
faltantes mediante R/Splus. Revista de Mtodos Cuantitativos para la Economa y
la Empresa. (7), 3-30.

Imputación de Datos

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Imputación de Datos

Uploaded by

Copyright:

Available Formats

TALLER DE APLICACIONES

3. Imputacin con variables ficticias: Esta metodologa consiste en crear una

You might also like