You are on page 1of 11

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Badler, Clara E. Alsina, Sara M. 1 Puigsubir, Cristina B. 1 Vitelleschi, Mara S.1 Instituto de Investigaciones Tericas y Aplicadas de la Escuela de Estadstica (IITAE)

TRATAMIENTO DE BASES DE DATOS CON INFORMACIN FALTANTE SEGN ANLISIS DE LAS PRDIDAS CON SPSS

INTRODUCCIN El anlisis estadstico de bases de datos provenientes de experimentos y de estudios observacionales resulta afectado cuando se presenta falta de informacin. La precisin de los resultados est condicionada a la proporcin de unidades con prdidas en una o ms variables y a las caractersticas del mecanismo que las produce. Actualmente, este problema es considerado fundamental para la inferencia dada su presencia permanente, hecho que contina motivando la aparicin de diferentes tratamientos para su solucin. Como la eleccin de los mismos debe realizarse teniendo en cuenta el comportamiento de las prdidas, el tipo de variables afectadas y el procedimiento de anlisis que se desea aplicar, resulta de utilidad la simulacin de situaciones que abarquen los distintos mecanismos. Los programas de anlisis estadstico no siempre contemplan la posibilidad de aplicar los procedimientos estadsticos incorporando las unidades con prdidas, sino que suprimen los casos incompletos, afectando el anlisis. Algunos presentan rutinas para realizar un tratamiento a la informacin incompleta previo a la aplicacin de mtodos estadsticos clsicos. En este trabajo se presenta un mdulo para el anlisis de bases de datos con informacin faltante del software SPSS, programa ampliamente utilizado por usuarios de distintas disciplinas, con una aplicacin a datos de la onda mayo 2003 de la Encuesta Permanente de Hogares (EPH) correspondiente al Aglomerado Gran Rosario, en el que se simulan prdidas en algunas variables.

MATERIAL * Datos bsicos: Las variables en estudio pertenecen a la onda mayo 2003 de la EPH, Aglomerado Gran Rosario y corresponden a individuos que en dicha encuesta declararon tener ingreso no nulo: Monto ingresos totales (P47T)

Docente-investigador e Investigador del Consejo de Investigaciones de la Universidad Nacional de Rosario.

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Aos cumplidos (H12) Cantidad de ocupaciones (P12) Estado ocupacional (ESTADO) Sexo (H13) Tipo de establecimiento (P18B) Asistencia escolar (P55) Se trabaja con el logaritmo neperiano de la variable Monto ingresos totales para intentar corregir la asimetra que presenta su distribucin (lnP47T). * Soporte informtico: Se utiliza el mdulo Anlisis de Datos Perdidos del programa SPSS (v 9.0) y el programa Statistical Analysis System (SAS) (v. 8.1) MTODOS
Simulacin

Se simulan prdidas en una variable cuantitativa y en otra cualitativa, segn dos mecanismos de prdida: perdidos completamente al azar y perdidos no al azar.
Mecanismos de prdida

El proceso que produce o conduce a la prdida de informacin en un relevamiento o experimento es denominado mecanismo de prdida. Es importante el acercamiento al conocimiento del mismo ya que cualquier anlisis de datos depende de los supuestos sobre el mecanismo de prdida, el cual debe ser explicitado. La informacin incompleta en una variable puede presentarse en forma aleatoria, ligada a valores correspondientes a otra variable relacionada con la que presenta prdidas o en categoras de valores de la propia variable, determinando en este ltimo caso que los valores no observados sean diferentes a los observados. Dichos mecanismos de prdida a partir de las caractersticas de la probabilidad de respuesta se pueden clasificar: Los datos estn perdidos completamente al azar (MCAR): si la probabilidad de respuesta es independiente de las variables observadas y de las no observadas completamente. El mecanismo de prdida es ignorable tanto para inferencias basadas en muestreo como en mxima verosimilitud. Los datos estn perdidos al azar (MAR): si la probabilidad de respuesta es independiente de las variables no observadas completamente y no de las observadas. El mecanismo de prdida es ignorable para inferencias basadas en mxima verosimilitud. Los datos no estn perdidos al azar (MNAR): si la probabilidad de respuesta no es independiente de las variables no observadas completamente y posiblemente, tambin, de las observadas El mecanismo de prdida es no ignorable. de: Un acercamiento a la identificacin del mecanismo de prdida puede lograrse a partir Un anlisis descriptivo univariado y multivariado de las variables completas y parcialmente observadas.

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

El uso del test de Little para evaluar el supuesto MCAR.

Anlisis de Datos Incompletos con SPSS Este programa dispone de un mdulo especfico para el anlisis y el tratamiento de la informacin incompleta, que ejecuta tres funciones: Describe esquemas de prdida. Imputa los datos faltantes con valores estimados a travs del mtodo de regresin y el algoritmo EM. Permite disponer de las bases completas. Estima algunos parmetros a partir de la aplicacin de casos completos, casos disponibles, regresin y algoritmo EM.
Casos completos

Este procedimiento consiste en usar solamente las unidades que tienen informacin completa en todas las variables. Es simple y permite comparar estadsticas univariadas pero presenta la limitacin que si los valores perdidos de una variable son los ms altos y los ms bajos, se distorsionan las distribuciones marginales de todas las variables y son sesgadas las estimaciones de los parmetros.
Casos disponibles

Dicho mtodo consiste en incluir todos los casos que son observados en cada variable. Se presenta el problema que el tamao de muestra vara de variable a variable de acuerdo al esquema de datos perdidos. Por lo tanto, los promedios y las variancias se calculan para los casos disponibles en cada variable y para las covariancias y correlaciones en base a todos los casos que no presenten datos faltantes para el par de variables implicado.
Regresin

En este mtodo los valores faltantes son estimados por regresin lineal mltiple, debindose especificar las variables predictoras y la dependiente a considerar en el proceso; presenta opciones para las estimaciones con componentes aleatorias.Cada valor estimado por regresin es:
Re xij = xij si xij no es perdido Re xij = xij estimado por regresion, si xij es perdido

Se puede disponer de la base de datos con los valores imputados por este mtodo.
Algoritmo EM

Es un proceso iterativo que consiste en un paso E y un paso M y que permite encontrar los estimadores mximo verosmiles de los parmetros de inters. Consiste en: reemplazar los valores perdidos por los valores estimados; estimar los parmetros; re-estimar los valores perdidos asumiendo que son correctas las nuevas estimacio-

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

nes de los parmetros; re-estimar los parmetros y as sucesivamente seguir iterando hasta la convergencia. En el paso E se calcula la esperanza condicional de los datos faltantes dados los datos observados y la estimacin de los parmetros, luego estas esperanzas sustituyen a los datos faltantes. El paso M realiza la estimacin mximo-verosmil del parmetro de inters como si no existieran datos faltantes. Este algoritmo converge confiablemente, su convergencia puede ser lenta cuando existe una gran proporcin de datos faltantes. Para su aplicacin requiere el cumplimiento del supuesto MAR. El programa SPSS presenta tres opciones para especificar el supuesto de la distribucin de la variable con falta de informacin; por defecto se supone que tiene un comportamiento normal. Se puede disponer de la base de datos con los valores imputados por este mtodo.
Cuadros de resultados del mdulo

La aplicacin del mdulo Anlisis de Datos Perdidos permite obtener los siguientes cuadros, con variaciones segn las opciones especificadas en cada uno: Estadsticas Univariadas: de cada variable solicitada se obtiene el tamao muestral, promedio y desvos de variables cuantitativas, valores extremos, valores faltantes. Permite un primer anlisis descriptivo, una apreciacin de la magnitud de las prdidas y la posible consideracin de los valores extremos como informacin confusa. Esquema de prdida con todos los individuos de la base o slo aquellos con prdidas: permite apreciar la ubicacin de las prdidas segn individuos y variables y la presencia de grupos de individuos o variables afectadas. Patrones tabulados: se especifica la cantidad de individuos en los que al menos una variable no fue observada agrupndolos segn las mismas; el nmero de individuos sin prdidas, el nmero de individuos que se obtiene si la/s variable/s detallada/s que presenta/n prdida son eliminadas; los promedios de las variables cuantitativas en cada uno de los casos detallados y las frecuencias de las variables categricas solicitadas.Permite analizar cmo incide en los promedios y en las categoras el uso de slo casos completos o el ir agregando individuos con prdidas en una o ms variables. Porcentaje de discordancia en las variables indicadoras: SPSS crea internamente una variable indicadora de prdidas. En funcin de la misma, en una matriz en cuyas filas y columnas se representan las mismas variables, en la diagonal principal se observa el porcentaje de prdida de cada variable individual y fuera de la misma el porcentaje de individuos en los que se presenta la prdida en una u otra variable pero no en ambas. Pruebas t con variancias separadas: una forma de chequear si los valores faltantes de una variable son perdidos completamente al azar es a travs de un test t-Student para dos muestras. Se compara para cada variable cuantitativa sin prdida, los promedios de los grupos definidos por la variable indicadora (presente o perdido). Se detalla el valor de la estadstica t, los grados de libertad, la cantidad de datos con valores perdidos y observados y los promedios de ambos grupos. De esta manera se obtiene una forma de acercamiento al mecanismo de prdida MCAR. Tablas de contingencia de la variable indicadora frente a las variables categri4

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

cas: para cada variable categrica se obtiene una tabla en la que, para cada una de sus categoras se especifica la frecuencia y el % de valores no faltantes y faltantes. Se trabaja sobre el total de individuos sin prdida en la variable que presenta prdidas. Estadsticas segn lista (casos completos): proporciona el promedio, desvo, covariancias y correlaciones de las variables cuantitativas sobre los individuos sin prdidas en cada una. Estadsticas segn pareja (casos disponibles): proporciona la cantidad de individuos para cada par de variables, promedio, desvo, covariancias y correlaciones de las variables cuantitativas cuando est presente la otra variable. Permite visualizar la frecuencia en que los pares de variables faltan en forma conjunta y la incidencia en los promedios y desvos de una variable cuando son suprimidos los individuos incompletamente observados. Estadsticas estimadas por EM: se obtienen las estimaciones del promedio, covariancias y correlaciones a partir de la aplicacin del algoritmo EM segn la especificacin realizada sobre el supuesto de distribucin de la variable afectada y el nmero mximo de iteraciones, y los resultados de la prueba de Little para evaluar el supuesto MCAR. Estadsticas estimadas por regresin: se obtienen las estimaciones del promedio, covariancias y correlaciones utilizando regresin lineal mltiple segn la opcin realizada para el ajuste de la estimacin mediante la incorporacin de una componte aleatoria. Se puede establecer el nmero mximo de variables predictoras. Resumen de las medias y desvos tpicos estimados: brinda las estimaciones de los promedios y desvos estndar de las variables solicitadas a partir de los mtodos aplicados; las opciones cubre casos completos (segn lista), casos disponibles (todos los valores), EM y regresin.

RESULTADOS Se presentan algunos resultados siguiendo una secuencia de anlisis similar al adoptado por un usuario que debe aplicar un anlisis estadstico a partir de una base de datos con informacin faltante y obtener una estimacin del ingreso promedio de los individuos que declaran ingreso no nulo. Las prdidas han sido generadas en las variables Monto ingresos totales y Estado ocupacional en un porcentaje aproximado al 25% de los individuos, a partir de dos mecanismos de prdida: MCAR (se generan las prdidas en ambas variables con una semilla aleatoria fijando el porcentaje requerido de prdida); MNAR (se generan prdidas en forma aleatoria en los valores altos de la variable Monto ingresos totales y en la categora ocupados de la variable Estado ocupacional). La rutina de anlisis se reitera en cada una de las bases as obtenidas, con el propsito de observar la incidencia de los distintos mecanismos en la estructura de los datos y en las estimaciones.
Base de datos con prdidas generadas segn mecanismo MCAR

A travs de la construccin del histograma para la variable LNP47T de la base de datos con prdidas generadas segn el mecanismo MCAR y de la original, se observa que la primera constituye una submuestra aleatoria de la original.

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Grfico 1: Histograma de la variable LNP47T en las bases con prdidas MCAR y en la original MCAR
100 90 80 70 60 50 40 30 20 10 0 2,75 3,25 3,75 4,25 4,75 5,25 5,75 6,25 6,75 7,25 7,75 Desv. tp. = ,77 Media = 5,72 N = 455,00
0
25 2, 75 2, 25 3, 75 3, 25 4, 75 4, 25 5, 75 5, 25 6, 75 6, 25 7,

DATOS ORIGINALES
100

80

60

40

20

Desv. tp. = ,76 Media = 5,72 N = 609,00


75 7,

LNP47T

LNP47T

En el Cuadro 1 se observa que los tamaos muestrales correspondientes a cada variable varan segn la cantidad de individuos afectados por las prdidas en cada una de ellas: 608 individuos integran la base, 455 registran valores en lnP47T y 456 en ESTADO, sobre ellos son calculadas las estadsticas. La cantidad de valores perdidos afectan en un 25,2% y en 25%, respectivamente, a las variables lnP47T y ESTADO: Cuadro 1
Estadsticos univariados Desviacin tp. ,7666 ,5232 18,7107 Perdidos Recuento Porcentaje 153 25,2 0 ,0 0 ,0 0 ,0 152 25,0 0 ,0 0 ,0 N de extremos Bajos Altos 5 3 0 4 0 0
a

LNP47T P12 H12 H13 ESTADO P18B P55

N 455 608 608 608 456 608 608

Media 5,7208 ,7747 46,1776

a. Nmero de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).

En el Cuadro 2 se puede observar, por ejemplo, que el promedio de edad es ms alto para el conjunto de individuos con prdida en ambas variables (31 individuos) y ms bajo para el conjunto con prdidas slo en la variable LNP47T (122 individuos), ambas comparadas con el promedio a partir de los casos completos (334 individuos). Resulta de utilidad la consideracin de la columna b del Cuadro 2, en la que se especifica el nmero de casos completos si las variables con prdidas en ese patrn (marcadas con X) no se considera: son 334 individuos los que presentan informacin completa en todas las variables, si se incorporan los que presentan faltas slo en la variable ESTADO, suman 455 y as sucesivamente:

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Cuadro 2

A partir de la consideracin de los grupos formados por los valores de la variable indicadora (creada por el programa), asociada a los individuos con y sin prdidas en la variable LNP47T y en la variable ESTADO, no se rechaza la igualdad de los promedios de la edad en ambos grupos para las dos variables, constituyendo un primer acercamiento a la determinacin de un mecanismo de prdida MCAR (Cuadro 3): Cuadro 3
a Pruebas T con varianzas separadas

LNP47T

t gl n presente n perdido Media(Presentes) Media(Perdidos) t gl n presente n perdido Media(Presentes) Media(Perdidos)

, , 455 0 5,7208 , -1,2 233,4 334 121 5,6952 5,7914

,6 245,6 455 153 ,7824 ,7516 ,1 260,5 456 152 ,7763 ,7697

,0 254,0 455 153 46,1604 46,2288 -,5 269,4 456 152 45,9737 46,7895

Al aplicar el de test de Little no se rechaza la hiptesis que el mecanismo de prdida en

ESTADO

LNP47T

Para cada variable cuantitativa, los pares de grupos estn formados por variables indicador (presente, perdido). a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.

H12

P12

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

ambas variables es MCAR ( 2=.0506, gl=2 p>0.05). Se obtiene la estimacin del promedio del monto del ingreso total y los respectivos desvos a partir de la aplicacin de casos completos (segn lista), casos disponibles (todos los valores), regresin y algoritmo EM (Cuadro 4): Cuadro 4
Resumen de las medias estimadas LNP47T H12 46,1604 46,1776 46,1776 46,1892
18,5605 18,7107 18,7107 18,4778 H12

Segn lista Todos los valores EM Regresin

5,7208 5,7208 5,7169 5,7356

,7824 ,7747 ,7747 ,7830

Resumen de las desviaciones tpicas estimadas LNP47T P12 ,5130 ,5232 ,5232 ,5139

Segn lista Todos los valores EM Regresin

,7666 ,7666 ,7702 ,7551

Comparando los valores de las estimaciones a partir de los cuatro mtodos no se observan diferencias notables. Este hecho llevara a pensar que los individuos con prdidas no presentaran caractersticas muy diferentes a los completamente observados.
Base de datos con prdidas generadas segn mecanismo MNAR

A travs de la construccin del histograma para la variable LNP47T de la base de datos con prdidas generadas segn el mecanismo MNAR y de la original, se observa que la primera no constituye una submuestra aleatoria de la original.

P12

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Grfico 2: Histograma de la variable LNP47T en las bases con prdidas MNAR y en la original MNAR
100
100

DATOS ORIGINALES

80

80

60

60

40

40

20

Desv. tp. = ,69 Media = 5,48 N = 453,00


75 7, 25 7, 75 6, 25 6, 75 5, 25 5, 75 4, 25 4, 75 3, 25 3, 75 2, 25 2,

20

Desv. tp. = ,76 Media = 5,72 N = 609,00


25 2, 75 2, 25 3, 75 3, 25 4, 75 4, 25 5, 75 5, 25 6, 75 6, 25 7, 75 7,

LNP47T

LNP47T

En la base con prdidas generadas con el mecanismo MNAR el porcentaje de individuos con falta de informacin en LNP47T es de 25,5 % y de 25 % en ESTADO, con 453 y 456 individuos respectivamente. El promedio de edad es ms bajo para el conjunto de individuos con prdida en ambas variables (67 individuos) y ms alto para el conjunto con prdidas slo en la variable LNP47T (88 individuos), ambas comparadas con el promedio a partir de los casos completos (368 individuos). Ello debera ser tenido en cuenta al utilizar las distintas variables en los modelos de imputacin (Cuadro 5): Cuadro 5
Patrones tabulados

H12

ESTADO

LNP47T

P18B

P12

Patrones perdidos H12 H13 P12 P55

Completo si...

ESTADO 1,00 2,00 3,00 ,00

P18B 1,00

P55 3,00 9,00 1,00 2,00

H13 3,00 1,00

2,00

Nmero de casos 368 85 67 88

X X

X X

368 453 608 456

45,8278 ,7351 236 39,3412 1,0235 0 41,4179 1,1194 0 51,6023 ,7159 57

17 115 132 0 0 0 0 0 0 1 30 31

64 170 21 63 12 55 7 49

1 1 0 1

1 0 0 0

24 331 5 77 2 65 3 85

13 181 187 3 38 47 0 44 23 0 58 30

Los patrones con menos del 1% casos (6 o menos) no se muestran. a. Las variables se ordenan segn los patrones perdidos. b. Nmero de casos completos si las variables perdidas en ese patrn (marcado con X) no se utilizan. c. Medias en cada patrn nico d. Distribucin de frecuencia en cada patrn nico

Al aplicar el test de Little condujo al rechazo de la hiptesis que el mecanismo de prdida en ambas variables es MCAR ( 2=18,165; gl=2 p<0.05). Se obtiene la estimacin del promedio del monto del ingreso total y los respectivos desvos a partir de la aplicacin de casos completos (segn lista), casos disponibles (todos los valores), regresin y algoritmo EM (Cuadro 6):

2,00

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

Cuadro 6
Resumen de las medias estimadas LNP47T H12 P12 ,7351 ,7747 ,7747 ,7807

Segn lista Todos los valores EM Regresin

5,4802 5,4802 5,5026 5,4571

45,8278 46,1776 46,1776 44,8030

Resumen de las desviaciones tpicas estimadas LNP47T H12 P12 ,5071 ,5232 ,5232 ,4808

Segn lista Todos los valores EM Regresin

,6909 ,6909 ,6932 ,6585

19,5703 18,7107 18,7107 18,9189

Comparando los valores de las estimaciones a partir de los cuatro mtodos se observan diferencias, con un desvo mayor para el mtodo EM.

DISCUSIN El uso del programa SPSS constituye una herramienta eficiente en la eleccin y aplicacin de un tratamiento para la informacin faltante, presente en bases de datos resultantes de proyectos multivariados planeados para analizar fenmenos reales de las distintas disciplinas tcnicas y cientficas. Dado que dicha eleccin est condicionada a la caracterstica del mecanismo que produjo la prdida, a la proporcin de las unidades que las contienen y a los objetivos que se plantean, el SPSS posee, en el mdulo correspondiente, los elementos que permiten lograrla. La simulacin realizada en este trabajo posibilit visualizar estas caractersticas bajo la ptica de dos diferentes escenarios. REFERENCIAS BIBLIOGRFICAS Badler,C.; Alsina,S.; Beltrn,C.;Puigsubir, C.; Vitelleschi, M..(2000). Simulacin de prdida de informacin generada por distintos mecanismos en datos provenientes de la Encuesta Permanente de Hogares, para la evaluacin del supuesto MCAR. Cuadernos del IITAE N 7. Escuela de Estadstica. Fac. Ciencias Econmicas y Estadstica. UNR. Badler, C.; Alsina, S.; Puigsubir, C.; Vitelleschi, M. S. (2002). Imputacin con SAS para estimaciones a partir de bases de datos con informacin faltante. 10

Novenas Jornadas "Investigaciones en la Facultad" de Ciencias Econmicas y Estadstica, noviembre de 2004

www.fcecon/unr.edu.ar/scyt/jor/jor2002. Abril 2003. Little , R.; Rubin, D. (1987) Statistical Analysis with Missing Data. J. Wiley & Sons. Little, R. J. (1988). A Test of Missing Completely at Random for Multivariate Data with Missing Values. Journal of the Royal Statistical Society. Vol. 83, N 404. SPSS (1997) SPSS Missing Values Anlisis TM 7.5. SPSS Inc. SSPS; http://www.spss.com, julio 2003

11

You might also like