Professional Documents
Culture Documents
Las ventajas de imputar son que logramos obtener un conjunto de datos completo sin datos
faltantes, se puede reducir el sesgo debido a la no respuesta y la imputacin opera sobre los
datos, de forma que los resultados obtenidos por los diferentes anlisis son mutuamente
consistentes.
Por otra parte, la imputacin tambin tiene desventajas ya que hay que tener en cuenta que el
futuro anlisis no distingue entre las imputaciones y los datos reales. Adems los valores
imputados pueden ser buenas estimaciones pero no son datos reales y no podemos asegurar
una mejora en el sesgo respecto del sistema de datos incompletos. Al fin y al cabo la
imputacin es un procedimiento de generar datos. Si el mtodo de imputacin no es el
adecuado, posiblemente aumente el sesgo y sobreestime la varianza, obteniendo datos
imputados inconsistentes produciendo una base de datos no confiables, llevando a la
interpretacin errnea de los resultados por parte de los usuarios.
Los valores faltantes se sustituyen por valores predictivos obtenidos a partir de una regresin
entre un conjunto de variables predicto
ras X y un conjunto de variables explicativas Y.
Si bien es cierto que esta metodologa result ser mejor que la imputacin por medias,
ocasiona resultados inversos a sta, mientras que el anterior mtodo atena las correlaciones
entre variables; el mtodo de imputacin por regresin obtiene correlaciones altas casi
perfecta en el caso de correlacionar los valores predictivos y el subconjunto imputado
pronosticado, es decir sobrestima las correlaciones aun cuando la data es considerada MCAR.
Otra de las desventajas que posee este mtodo es que los valores imputados se ajustarn
directamente en la recta de regresin produciendo con esto poca variabilidad y por tanto
atenuando la varianza o covarianza.
h) Modelos de series de tiempo: se asume que la data perdida ocurre de tal forma,
y en tal sistema, que el problema se reduce a una situacin, en la cual, hay una
serie de tiempo, donde una(s) serie(s) de observaciones estn perdidas,
haciendo ptimo el uso de interrelaciones entre sucesivas observaciones en cada
serie de tiempo, mediante el uso de un modelo adecuado para estas series.
Donde
Xi sobre