Professional Documents
Culture Documents
CICLO DE PONENCIAS
1
COMPARACIN DE TCNICAS DE
IMPUTACIN PARA DATOS
CUANTITATIVOS.
Prof. Lelly Mara Useche Castro
2
PLANTEAMIENTO DEL PROBLEMA
Espacios en blanco. falta de respuesta.
Inconvenientes que se
no lo s Valores o frases incongruentes
presentan en el momento
con la pregunta planteada.
de la recoleccin.
Imputacin
3
PLANTEAMIENTO DEL PROBLEMA
Reproducir el dato original.
No todas las metodologas son adecuadas
para todos los tipos de datos, ni para
todos los problemas; tales como
alteraciones de la distribucin de los datos
(una vez imputados), alteracin en la
relacin de las variables, sesgo en las
estimaciones e inflacin de la varianza.
4
PLANTEAMIENTO DEL PROBLEMA
Para exponer la metodologa se lleva a
cabo esta investigacin la cual tiene como
objetivo desarrollar una comparacin de
tcnicas de imputacin para datos
cuantitativos lo cual se us una sub-base
de datos del Censo de Poblacin y
Vivienda 2001 de Venezuela
correspondiente a la poblacin femenina.
5
ESTRATEGIAS METODOLGICAS
La estrategia ptima ser aquella tcnica
de imputacin que proporcione el menor
cambio en los datos originales, es decir,
un compromiso entre sesgo mnimo,
varianza mnima y la mayor aproximacin
del microdato imputado al valor verdadero.
La evaluacin ser por medio de
simulacin.
6
ESTRATEGIAS METODOLGICAS
BDO (Base de datos original)
7
ESTRATEGIAS METODOLGICAS
1
Imputacin Imputacin
Imputacin Imputacin Imputacin
Hot deck mediante
con la Media Hot deck por Seleccin
con Componentes
secuencial aleatoria
clasificacin principales
Se calcula la
Mediante un ACP
media Se clasifican los
Se ordenan los con las
absoluta de los Registros con variables completas Se selecciona
Registros con
registros respecto a se visualizan un donante de
respecto a una
Presentes en variables aux. el Los planos factoriales manera aleatoria
Variable aux. el
variables donante ser el y se selecciona (sin
donante ser el
a imputar valor del registro donantes por c/registro Reemplazamiento)
valor del registro Anterior se colapsan
Usndose con dato ausente,
anterior de ser necesario.
como donante. el ms cercano.
2 8
ESTRATEGIAS METODOLGICAS
2
Fin
9
JUSTIFICACIN Y PROCEDIMIENTOS DE LAS
TCNICAS DE IMPUTACIN
SELECCIONADAS
Imputacin con la Media
Es la ms conocida y comnmente usada
Es fcil de ejecutar.
Es una de las opciones que ofrecen la
mayora de los software estadsticos de
anlisis de datos
10
Imputacin Hot Deck Secuencial
Comnmente aplicada, luego de la imputacin
con la media.
Es de gran uso en la imputacin de la data censal
por ser un proceso simple y rpido de aplicar,
Asigna un valor real/posible a la no respuesta.
Permite el uso de una variable auxiliar
correlacionada a la ausente sta podra semejar el
registro donante al imputable y de esta manera se
mantendra la relacin entre variables y el sesgo
podra ser menor.
11
Imputacin Hot Deck con Clasificacin
Por la misma razn de usar el mtodo Hot Deck
Secuencial pero al aadir el uso de ms
variables auxiliares para clasificar los registros.
Permite obtener donantes con caractersticas
similares y luego poder comparar que ventajas
se han obtenido al introducirle al proceso sta
clasificacin.
12
Imputacin por Componentes Principales
14
DESARROLLO EMPRICO DE LAS TCNICAS
DE IMPUTACIN PROPUESTAS.
Variables de estudio
VARIABLES
Edo= Estado
Muni= Municipios 2001
Cog= Cdigo
v1= Tasa de fecundidad general
v2= Proporcin Urbana*
v3= Proporcin Rural
v4= Promedio educativo*
v5= Unidas + casadas
v6= Proporcin correspondiente a las mujeres del total de salarios
v7= Promedio de hijos por mujer (mayor de 12 aos)
v8= Tasa de mortalidad infantil 1999
v9= % de la poblacin empleada en actividades no agrcolas*
v10= Categora Urbana-Rural
v11= % de hogares no pobres (NBI)
v12= % de hogares pobres (NBI)
v13= % de la poblacin femenina econmicamente inactiva*
v14= % de la poblacin femenina econmicamente activa
desocupada
v15= % de la poblacin femenina econmicamente activa
ocupada
v16= % de la poblacin femenina econmicamente activa
v17= Aos de matrimonio (femenino)* 15
COMPARACIONES ENTRE LAS TCNICAS
DE IMPUTACIN
Comparacin de las relaciones entre
variables mediante correlaciones.
En lneas generales, ninguna tcnica
mantiene igual la relacin entre todas las
variables, ya que tienden a disminuir sus
correlaciones.
La tcnica que ms preserv la relacin
entre las variables fue por Componentes
Principales y Hot Deck con clasificacin.
16
Comparacin de las relaciones de las variables
mediante matrices de varianza y covarianza
17
Comparacin de las relaciones de las
variables mediante matrices de varianza y
covarianza
18
Comparando con un valor terico para k=2, p=5
variables y = 268 obtenemos los siguientes
resultados:
Tabla 23. Valores obtenidos y valores tericos.
Comparacin Valores Valores
Calculado Tericos
T2: BDC-MEDIA: o= t2 7.5416 0
T3:BDC-SECUEN: o=t3 20.826 0
T4:BDC-JERARQ: o= t4 2.9027 0
T5:BDC-ACP: o=t5 1.1298 0
T6:BDC-SELEC ALEA: o= t6 27.6472 0
19
Se rechaza Ho:o=tx, donde o es la matriz de
varianzas y covarianzas de la base de datos
completa y tx es la matriz de varianzas y
covarianzas de la base de datos con la tcnica de
imputacin seleccionada.
20
Comparacin de medias
Ho: bdc= t1=t2=t3=t4=t5.
Variable P-valor
Proporcin Urbano. 0,558
Promedio educativo 0,046*
Porcentaje de la poblacin dedicada a 0,839
actividades no agrcolas
Porcentaje de la poblacin femenina 0,796
econmicamente inactiva
Aos de matrimonio 0,653
21
Comparacin de medias
22
Comparaciones a nivel de microdato por
variable
Probar la hiptesis:
Ho: bdc= 1=2=3=4=5
Variable P-valor
Proporcin Urbano. 0,7053229
Promedio educativo 0,05544503
Porcentaje de la poblacin dedicada a actividades no agrcolas 0,88937792
Porcentaje de la poblacin femenina econmicamente inactiva 0,80871521
Aos de matrimonio 0,79744806
23
Comparacin conjunta de las variables.
24
Comparacin conjunta de las variables.
25
Figura 35. Primer plano factorial. Base de datos imputacin con la media.
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 0,684413 0,684413 0,68929 0,681294 0,68423 0,678056
Anova P-valor 0,558 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 0,0782 0,0704 0,0807 0,0766 0,0757 0,0753
Sesgo xxxxxx -0,06 0,1 0 -0,002 -0,074
Proporcin Urbano
Anova P-valor 0,7053229 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Curtosis -0,07 0,141477 -0,059 -0,13 -0,036 -0,074
Asimetra -0,85 -0,85 -0,89 -0,81 -0,85 -0,81
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Dis minuye Dis minuye
26
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 6,01580 6,03959 6,07227 6,03234 6,01840 6,00981
Anova P-valor 0,046 *No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 1,26479 1,19824 1,28737 1,28913 1,26757 1,26399
Promedio Sesgo xxxxxxx 0,29 0,69 0,20 0,03 -0,07
Educativo Anova P-valor 0,05544503 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Asimetra 0,594664 0,5935 0,510869 0,571467 0,581463 0,598473
Curtosis 0,421966 0,6959 0,253089 0,345364 0,415762 0,445169
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye
27
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 66,5806 66,4888 67,0416 66,8303 66,7029 66,817
Anova P-valor 0,839 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Porcentaje de la Varianza 537,313 498,642 523,743 524,997 528,838 530,569
poblacin empleada Sesgo xxxxxxx -1,7634 8,85714 4,80 2,35 4,54214
en actividades no Anova P-valor 0,88937792 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
agrcola Medidas de Apuntamiento:
Asimetra -0,21 -0,21 -0,23 -0,22 -0,25 -0,19
Curtosis -1,11203 -0,96 -1,0481 -1,07245 -1,00301 -1,09749
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye
28
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 0,720297 0,720447 0,719628 0,71855 0,720595 0,720669
Anova P-valor 0,796 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Porcentaje de la Varianza 0,00573 0,0053 0,00559 0,0057 0,00582 0,00588
poblacin femenina Sesgo xxxxxxx 0,00175 -0,00783 -0,0204 0,003478 0,003475
econmicamente Anova P-valor 0,80871521 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
inactiva Medidas de Apuntamiento:
Asimetra -0,53 -0,58 -0,52 -0,53 -0,52 -0,56
Curtosis 0,0852 0,362 0,0755 0,0283 -0,044 0,0293
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye
29
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 5,79413 5,80373 5,79494 5,8155 5,81595 5,80401
Anova P-valor 0,653 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 0,675512 0,640497 0,679369 0,68444 0,672451 0,705849
Aos de Sesgo xxxxxxx 0,15 0,01 0,32 0,33 0,15
matrimonio Anova P-valor 0,79744806 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Asimetra 0,503717 0,562286 0,525374 0,537737 0,528457 0,526994
Curtosis 1,1878 1,50858 1,16276 1,11901 1,20387 1,05492
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye
30
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIAB LES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Me di da de Posicin:
Me dia 5,79413 Medicin Conjunta de las Variables
5,80373 5,79494 Imputadas 5,8155 5,81595 5,80401
Anova P-val or 0,653 No se rechaza Ho : bdc= 1 =2 = 3 =4 =5
xxxxxxx 7.5416 Me20.826
di da de Dis persin: 2.9027 1.1298 27.6472
Distribucin conjunta
Vari anz a 0,675512 0,640497 0,679369 0,68444 0,672451 0,705849
Aos de Sesgo Valor
xxxxxxx terico0,15
cero (0). Se rechaza; Ho:o=tx. No se preserva
0,01 0,32 la matriz de varianzas
0,33 y covarianzas.
0,15
matri monio Anova P-val or 0,79744806 No se rechaza Ho : bdc= s1 = s2 = s3 = s4 = s5
Relaciones entre variables mediante Me di das de Apuntamiento:
xxxxxxx Se altera Se altera Se altera
ACP Asimetra 0,503717 0,562286 0,525374 0,537737 0,528457 0,526994
Curtosis 1,1878 1,50858 1,16276 1,11901 1,20387 1,05492
Me di das de Relacin
Correlaci ones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye
31
CONCLUSIONES
En cuanto a la conservacin de la media
se mantienen para todas las variables a
excepcin de la variable Promedio
educativo con la tcnica de imputacin
Hot Deck secuencial .
Todas las tcnicas conservan las
distribuciones marginales a excepcin de
imputacin con la media, como haba de
esperarse ya que tericamente tiende a
estrecharse la distribucin.
32
CONCLUSIONES
Ninguna tcnica conserva la relacin entre las
variables, ya que tiende a disminuir el valor de
sus correlaciones, es decir una subestimacin
de la correlacin, esta conclusin se obtiene
tanto de un anlisis univariante como
multivariante.
La tcnica de imputacin que ms preserv la
relacin entre variables fue imputacin por
componentes principales seguido de Hot Deck
por clasificacin, esto corrobora la teora ya que
son las tcnicas que hacen uso de mas
variables auxiliares para obtener grupos
homogneos y por tanto mas parecidos entre
donante y ausente, haciendo ms precisa la
estimacin.
33
CONCLUSIONES
En cuanto a la comparacin a nivel del
microdato, haciendo un estudio univariante no
se observan sesgos significativos entre las
tcnicas de imputacin estudiadas, a excepcin
de la variable promedio educativo.
34
CONCLUSIONES
Haciendo uso de tcnicas multivariantes como
los componentes principales para estudiar la
conservacin de las variables y de los individuos
(parroquias) de manera simultnea, es decir, las
distribuciones conjuntas se aprecia aunque no
de manera inferencial que se conservan dichas
distribuciones a excepcin de la variable
promedio educativo, como se haba
presentado cuando se estudio los sesgos y la
conservacin de la media.
35
CONCLUSIONES
Tomando en cuenta los resultados obtenidos en
cuanto a las distribuciones marginales y
conjuntas, relacin entre variables, conservacin
de los valores agregados y sesgo, as como el
software tiempo y dificultad de aplicacin, las
tcnicas de imputacin son recomendadas en el
siguiente orden;
Hot Deck con clasificacin.
Por componentes principales.
Hot Deck secuencial.
Por seleccin aleatoria.
Con la Media. 36
CONCLUSIONES
Si lo que se necesita es obtener valores
agregados similares a los originales sin
importar lo dems, se puede utilizar
cualquier tcnica a excepcin de la Media.
Si se desea conservar adems las
distribuciones marginales se recomienda
usar cualquier tcnica Hot Deck.
Si se quiere es preservar el valor a nivel
del microdato, el que ms lo preserva es
imputacin por componentes principales
37
CONCLUSIONES
Por anlisis de componentes principales y
Hot Deck con clasificacin fueron las
tcnicas que ms preservaron la relacin
entre variables y distribuciones conjuntas,
de igual forma la que menos preserv fue
imputacin con la Media.
La variable Promedio educativo fue la
que present mayor alteracin cuando se
aplica imputacin.
38
GRACIAS!
39