You are on page 1of 39

JORNADAS CIENTFICO

TCNICAS UNESUR 2009

CICLO DE PONENCIAS

1
COMPARACIN DE TCNICAS DE
IMPUTACIN PARA DATOS
CUANTITATIVOS.
Prof. Lelly Mara Useche Castro

2
PLANTEAMIENTO DEL PROBLEMA
Espacios en blanco. falta de respuesta.

Inconvenientes que se
no lo s Valores o frases incongruentes
presentan en el momento
con la pregunta planteada.
de la recoleccin.

La pregunta o medida lleva consigo


Mediciones muy
ciertos compromisos que prefieren
difciles de obtener.
mantenerse sin responder.

Imputacin

3
PLANTEAMIENTO DEL PROBLEMA
Reproducir el dato original.
No todas las metodologas son adecuadas
para todos los tipos de datos, ni para
todos los problemas; tales como
alteraciones de la distribucin de los datos
(una vez imputados), alteracin en la
relacin de las variables, sesgo en las
estimaciones e inflacin de la varianza.

4
PLANTEAMIENTO DEL PROBLEMA
Para exponer la metodologa se lleva a
cabo esta investigacin la cual tiene como
objetivo desarrollar una comparacin de
tcnicas de imputacin para datos
cuantitativos lo cual se us una sub-base
de datos del Censo de Poblacin y
Vivienda 2001 de Venezuela
correspondiente a la poblacin femenina.

5
ESTRATEGIAS METODOLGICAS
La estrategia ptima ser aquella tcnica
de imputacin que proporcione el menor
cambio en los datos originales, es decir,
un compromiso entre sesgo mnimo,
varianza mnima y la mayor aproximacin
del microdato imputado al valor verdadero.
La evaluacin ser por medio de
simulacin.

6
ESTRATEGIAS METODOLGICAS
BDO (Base de datos original)

Seleccin de variables que tengan al menos un dato faltante

Se estudia el patrn de prdida de respuesta de la Base

Se elimina de la base los registros que posean al menos un dato perdido


obtenindose una base de datos completa (BDC)

Basndose en el patrn de prdida obtenido en la BDO


se aplican prdidas artificiales de aproximadamente el 20% de los datos.

7
ESTRATEGIAS METODOLGICAS
1

Seleccin de los mtodos de imputacin posibles a compararse

Imputacin Imputacin
Imputacin Imputacin Imputacin
Hot deck mediante
con la Media Hot deck por Seleccin
con Componentes
secuencial aleatoria
clasificacin principales
Se calcula la
Mediante un ACP
media Se clasifican los
Se ordenan los con las
absoluta de los Registros con variables completas Se selecciona
Registros con
registros respecto a se visualizan un donante de
respecto a una
Presentes en variables aux. el Los planos factoriales manera aleatoria
Variable aux. el
variables donante ser el y se selecciona (sin
donante ser el
a imputar valor del registro donantes por c/registro Reemplazamiento)
valor del registro Anterior se colapsan
Usndose con dato ausente,
anterior de ser necesario.
como donante. el ms cercano.

2 8
ESTRATEGIAS METODOLGICAS
2

Se calcula para la BDC y las bases de datos imputadas (BDI)


para cada variable en cuestin las matrices de varianzas, covarianzas
y correlaciones, as como los vectores de media, distribuciones de frecuencias
Marginales y conjuntas y matrices de sesgo.

Se comparan o se contrastan los valores obtenidos entre las diferentes


tcnicas de imputacin.

Se selecciona la tcnica de imputacin que se considere ms conveniente


Es decir, sesgo y varianza mnima, mayor conservacin de la relacin entre
Variables, preservacin de las distribuciones marginales y conjuntas.

Fin
9
JUSTIFICACIN Y PROCEDIMIENTOS DE LAS
TCNICAS DE IMPUTACIN
SELECCIONADAS
Imputacin con la Media
Es la ms conocida y comnmente usada
Es fcil de ejecutar.
Es una de las opciones que ofrecen la
mayora de los software estadsticos de
anlisis de datos

10
Imputacin Hot Deck Secuencial
Comnmente aplicada, luego de la imputacin
con la media.
Es de gran uso en la imputacin de la data censal
por ser un proceso simple y rpido de aplicar,
Asigna un valor real/posible a la no respuesta.
Permite el uso de una variable auxiliar
correlacionada a la ausente sta podra semejar el
registro donante al imputable y de esta manera se
mantendra la relacin entre variables y el sesgo
podra ser menor.

11
Imputacin Hot Deck con Clasificacin
Por la misma razn de usar el mtodo Hot Deck
Secuencial pero al aadir el uso de ms
variables auxiliares para clasificar los registros.
Permite obtener donantes con caractersticas
similares y luego poder comparar que ventajas
se han obtenido al introducirle al proceso sta
clasificacin.

12
Imputacin por Componentes Principales

Requiere de conocimiento estadstico


Aprovechamiento de toda la informacin
de la base de datos.
Permite estudiar simultneamente las
relaciones entre todas las variables
involucradas para seleccionar el registro
donante que ms se asemeje a los
registros que presentan ausencia de
alguna variable.
13
Imputacin por Seleccin Aleatoria
Rapidez del mtodo
Seleccin sin reemplazamiento, lo que
permite que la distribucin de la data
imputada se asemeje a los respondientes.
Permite escoger registros a lo largo de
toda la base de datos.

14
DESARROLLO EMPRICO DE LAS TCNICAS
DE IMPUTACIN PROPUESTAS.
Variables de estudio
VARIABLES
Edo= Estado
Muni= Municipios 2001
Cog= Cdigo
v1= Tasa de fecundidad general
v2= Proporcin Urbana*
v3= Proporcin Rural
v4= Promedio educativo*
v5= Unidas + casadas
v6= Proporcin correspondiente a las mujeres del total de salarios
v7= Promedio de hijos por mujer (mayor de 12 aos)
v8= Tasa de mortalidad infantil 1999
v9= % de la poblacin empleada en actividades no agrcolas*
v10= Categora Urbana-Rural
v11= % de hogares no pobres (NBI)
v12= % de hogares pobres (NBI)
v13= % de la poblacin femenina econmicamente inactiva*
v14= % de la poblacin femenina econmicamente activa
desocupada
v15= % de la poblacin femenina econmicamente activa
ocupada
v16= % de la poblacin femenina econmicamente activa
v17= Aos de matrimonio (femenino)* 15
COMPARACIONES ENTRE LAS TCNICAS
DE IMPUTACIN
Comparacin de las relaciones entre
variables mediante correlaciones.
En lneas generales, ninguna tcnica
mantiene igual la relacin entre todas las
variables, ya que tienden a disminuir sus
correlaciones.
La tcnica que ms preserv la relacin
entre las variables fue por Componentes
Principales y Hot Deck con clasificacin.
16
Comparacin de las relaciones de las variables
mediante matrices de varianza y covarianza

Hiptesis de igualdad de matrices de varianza y


covarianza;
Ho:o=tx
Donde;
o es la matriz de varianzas y covarianzas de la
base de datos completa
tx es la matriz de varianzas y covarianzas de la
base de datos con la tcnica de imputacin
seleccionada.

17
Comparacin de las relaciones de las
variables mediante matrices de varianza y
covarianza

Calculando el siguiente estadstico:

Donde k es el nmero de matrices a comparar,


son los grados de libertad (n-1).

18
Comparando con un valor terico para k=2, p=5
variables y = 268 obtenemos los siguientes
resultados:
Tabla 23. Valores obtenidos y valores tericos.
Comparacin Valores Valores
Calculado Tericos
T2: BDC-MEDIA: o= t2 7.5416 0
T3:BDC-SECUEN: o=t3 20.826 0
T4:BDC-JERARQ: o= t4 2.9027 0
T5:BDC-ACP: o=t5 1.1298 0
T6:BDC-SELEC ALEA: o= t6 27.6472 0

19
Se rechaza Ho:o=tx, donde o es la matriz de
varianzas y covarianzas de la base de datos
completa y tx es la matriz de varianzas y
covarianzas de la base de datos con la tcnica de
imputacin seleccionada.

Es decir, que ninguna tcnica preserva la relacin


entre las variables de manera simultnea.

20
Comparacin de medias
Ho: bdc= t1=t2=t3=t4=t5.
Variable P-valor
Proporcin Urbano. 0,558
Promedio educativo 0,046*
Porcentaje de la poblacin dedicada a 0,839
actividades no agrcolas
Porcentaje de la poblacin femenina 0,796
econmicamente inactiva
Aos de matrimonio 0,653

No hay diferencias significativas entre las medias.

21
Comparacin de medias

En resumen a excepcin de la variable


promedio educativo, las medias son
conservadas cuando se aplica cualquier
tcnica de imputacin en estudio, ya que
no son significativamente diferentes a la
media de la base de datos completa.

22
Comparaciones a nivel de microdato por
variable
Probar la hiptesis:
Ho: bdc= 1=2=3=4=5
Variable P-valor
Proporcin Urbano. 0,7053229
Promedio educativo 0,05544503
Porcentaje de la poblacin dedicada a actividades no agrcolas 0,88937792
Porcentaje de la poblacin femenina econmicamente inactiva 0,80871521
Aos de matrimonio 0,79744806

No se rechaza la hiptesis de igualdad de sesgos.

23
Comparacin conjunta de las variables.

Todos los planos factoriales obtenidos


explican ms del 50% de variabilidad de los
datos.
Visualmente se puede apreciar la
conservacin de la nube de puntos
(parroquias) para las diferentes bases de
datos imputadas.

24
Comparacin conjunta de las variables.

Figura 34. Primer plano factorial. Base de datos completa.

25
Figura 35. Primer plano factorial. Base de datos imputacin con la media.
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 0,684413 0,684413 0,68929 0,681294 0,68423 0,678056
Anova P-valor 0,558 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 0,0782 0,0704 0,0807 0,0766 0,0757 0,0753
Sesgo xxxxxx -0,06 0,1 0 -0,002 -0,074
Proporcin Urbano
Anova P-valor 0,7053229 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Curtosis -0,07 0,141477 -0,059 -0,13 -0,036 -0,074
Asimetra -0,85 -0,85 -0,89 -0,81 -0,85 -0,81
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Dis minuye Dis minuye

26
RESUMEN DE RESULTADOS
OBTENIDOS

IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 6,01580 6,03959 6,07227 6,03234 6,01840 6,00981
Anova P-valor 0,046 *No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 1,26479 1,19824 1,28737 1,28913 1,26757 1,26399
Promedio Sesgo xxxxxxx 0,29 0,69 0,20 0,03 -0,07
Educativo Anova P-valor 0,05544503 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Asimetra 0,594664 0,5935 0,510869 0,571467 0,581463 0,598473
Curtosis 0,421966 0,6959 0,253089 0,345364 0,415762 0,445169
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye

27
RESUMEN DE RESULTADOS
OBTENIDOS

IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 66,5806 66,4888 67,0416 66,8303 66,7029 66,817
Anova P-valor 0,839 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Porcentaje de la Varianza 537,313 498,642 523,743 524,997 528,838 530,569
poblacin empleada Sesgo xxxxxxx -1,7634 8,85714 4,80 2,35 4,54214
en actividades no Anova P-valor 0,88937792 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
agrcola Medidas de Apuntamiento:
Asimetra -0,21 -0,21 -0,23 -0,22 -0,25 -0,19
Curtosis -1,11203 -0,96 -1,0481 -1,07245 -1,00301 -1,09749
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye

28
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 0,720297 0,720447 0,719628 0,71855 0,720595 0,720669
Anova P-valor 0,796 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Porcentaje de la Varianza 0,00573 0,0053 0,00559 0,0057 0,00582 0,00588
poblacin femenina Sesgo xxxxxxx 0,00175 -0,00783 -0,0204 0,003478 0,003475
econmicamente Anova P-valor 0,80871521 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
inactiva Medidas de Apuntamiento:
Asimetra -0,53 -0,58 -0,52 -0,53 -0,52 -0,56
Curtosis 0,0852 0,362 0,0755 0,0283 -0,044 0,0293
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye

29
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIABLES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Medida de Posicin:
Media 5,79413 5,80373 5,79494 5,8155 5,81595 5,80401
Anova P-valor 0,653 No se rechaza Ho: bdc= 1=2= 3=4=5
Medida de Dis persin:
Varianza 0,675512 0,640497 0,679369 0,68444 0,672451 0,705849
Aos de Sesgo xxxxxxx 0,15 0,01 0,32 0,33 0,15
matrimonio Anova P-valor 0,79744806 No se rechaza Ho: bdc= s1= s2= s3= s4= s5
Medidas de Apuntamiento:
Asimetra 0,503717 0,562286 0,525374 0,537737 0,528457 0,526994
Curtosis 1,1878 1,50858 1,16276 1,11901 1,20387 1,05492
Medidas de Relacin
Correlaciones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye

30
RESUMEN DE RESULTADOS
OBTENIDOS
IMPUTACION IMPUTACION
IMPUTACION IMPUTACION IMPUTACION
CON POR
VARIAB LES MEDICION BDC CON LA HOT DECK HOT DECK CON
COMPONENTES SELECCIN
MEDIA SECUENCIAL CLAS IFICACION
PRINCIPALES ALEATORIA
Me di da de Posicin:
Me dia 5,79413 Medicin Conjunta de las Variables
5,80373 5,79494 Imputadas 5,8155 5,81595 5,80401
Anova P-val or 0,653 No se rechaza Ho : bdc= 1 =2 = 3 =4 =5
xxxxxxx 7.5416 Me20.826
di da de Dis persin: 2.9027 1.1298 27.6472
Distribucin conjunta
Vari anz a 0,675512 0,640497 0,679369 0,68444 0,672451 0,705849
Aos de Sesgo Valor
xxxxxxx terico0,15
cero (0). Se rechaza; Ho:o=tx. No se preserva
0,01 0,32 la matriz de varianzas
0,33 y covarianzas.
0,15
matri monio Anova P-val or 0,79744806 No se rechaza Ho : bdc= s1 = s2 = s3 = s4 = s5
Relaciones entre variables mediante Me di das de Apuntamiento:
xxxxxxx Se altera Se altera Se altera
ACP Asimetra 0,503717 0,562286 0,525374 0,537737 0,528457 0,526994
Curtosis 1,1878 1,50858 1,16276 1,11901 1,20387 1,05492
Me di das de Relacin
Correlaci ones xxxxxx Dis minuye Dis minuye Variaciones Variaciones Dis minuye

31
CONCLUSIONES
En cuanto a la conservacin de la media
se mantienen para todas las variables a
excepcin de la variable Promedio
educativo con la tcnica de imputacin
Hot Deck secuencial .
Todas las tcnicas conservan las
distribuciones marginales a excepcin de
imputacin con la media, como haba de
esperarse ya que tericamente tiende a
estrecharse la distribucin.
32
CONCLUSIONES
Ninguna tcnica conserva la relacin entre las
variables, ya que tiende a disminuir el valor de
sus correlaciones, es decir una subestimacin
de la correlacin, esta conclusin se obtiene
tanto de un anlisis univariante como
multivariante.
La tcnica de imputacin que ms preserv la
relacin entre variables fue imputacin por
componentes principales seguido de Hot Deck
por clasificacin, esto corrobora la teora ya que
son las tcnicas que hacen uso de mas
variables auxiliares para obtener grupos
homogneos y por tanto mas parecidos entre
donante y ausente, haciendo ms precisa la
estimacin.
33
CONCLUSIONES
En cuanto a la comparacin a nivel del
microdato, haciendo un estudio univariante no
se observan sesgos significativos entre las
tcnicas de imputacin estudiadas, a excepcin
de la variable promedio educativo.

34
CONCLUSIONES
Haciendo uso de tcnicas multivariantes como
los componentes principales para estudiar la
conservacin de las variables y de los individuos
(parroquias) de manera simultnea, es decir, las
distribuciones conjuntas se aprecia aunque no
de manera inferencial que se conservan dichas
distribuciones a excepcin de la variable
promedio educativo, como se haba
presentado cuando se estudio los sesgos y la
conservacin de la media.

35
CONCLUSIONES
Tomando en cuenta los resultados obtenidos en
cuanto a las distribuciones marginales y
conjuntas, relacin entre variables, conservacin
de los valores agregados y sesgo, as como el
software tiempo y dificultad de aplicacin, las
tcnicas de imputacin son recomendadas en el
siguiente orden;
Hot Deck con clasificacin.
Por componentes principales.
Hot Deck secuencial.
Por seleccin aleatoria.
Con la Media. 36
CONCLUSIONES
Si lo que se necesita es obtener valores
agregados similares a los originales sin
importar lo dems, se puede utilizar
cualquier tcnica a excepcin de la Media.
Si se desea conservar adems las
distribuciones marginales se recomienda
usar cualquier tcnica Hot Deck.
Si se quiere es preservar el valor a nivel
del microdato, el que ms lo preserva es
imputacin por componentes principales

37
CONCLUSIONES
Por anlisis de componentes principales y
Hot Deck con clasificacin fueron las
tcnicas que ms preservaron la relacin
entre variables y distribuciones conjuntas,
de igual forma la que menos preserv fue
imputacin con la Media.
La variable Promedio educativo fue la
que present mayor alteracin cuando se
aplica imputacin.
38
GRACIAS!

39

You might also like