You are on page 1of 70

Autor:

Mg. Luis Bendezú Medina

Instituto Nacional de Estadística e Informática


Av. General Garzón N° 658, Jesús María, Lima 11 PERÚ
Teléfonos: (511) 433-8398 431-1340 Fax: 433-3591
Web: www.inei.gob.pe
Mayo, 2015

Impreso en los talleres gráficos de:


Oficina de impresiones del Instituto Nacional de Estadística e Informática

Tiraje : 100 Ejemplares

Hecho el Depósito Legal en la Biblioteca Nacional del Perú : 2015-06699

Las opiniones y conclusiones de esta investigación son de exclusiva responsabilidad del autor, por
lo que el INEI no se solidariza necesariamente con ellas.
Presentación

El Instituto Nacional de Estadística e Informática (INEI), pone a disposición de la


comunidad nacional, autoridades, instituciones públicas y privadas, y usuarios en general,
el documento “ASEGURANDO LA CALIDAD DE DATOS EN ENCUESTAS PANEL:
TRATAMIENTO DE LA ATRICIÓN Y DATOS PERDIDOS”.

Las encuestas longitudinales nos permiten medir el cambio de manera más rigurosa y
así comprender mejor los fenómenos sociales, en el Perú una de las pocas excepciones
es la Encuesta Nacional de Hogares (ENAHO).

El objetivo general de la investigación es contribuir a la mejora en la metodología de


calidad de datos de la encuesta panel. Para ello, se proponen metodologías orientadas
a controlar y reducir los siguientes problemas; en primer lugar, la atrición, definida ésta
como la no respuesta, en las olas posteriores a la primera. Para ello se plantea
una estrategia de seguimiento a través de determinadas reglas, En segundo lugar, el
tratamiento de la atrición; es posible que, pese a haber diseñado reglas de seguimiento
apropiadas, esto no sea suficiente como para poder eliminar la no respuesta. Para ello,
se propone realizar ajustes estadísticos.

Esta investigación ha sido seleccionada en el concurso nacional de investigaciones que


realiza cada año el Instituto Nacional de Estadística e Informática - INEI, a través de su
órgano desconcentrado el Centro de Investigación y Desarrollo (CIDE).

Lima, mayo 2015

Instituto Nacional de Estadística e Informática


ASEGURANDO LA CALIDAD DE DATOS EN ENCUESTAS PANEL

Resumen:

El presente documento realiza una breve revisión de la experiencia internacional sobre el tratamiento
de la información en encuestas de tipo panel. Más específicamente, aborda la problemática de la
atrición y su tratamiento mediante estrategias ex ante y ex post. En el primer caso, se sugieren
reglas de seguimiento más estrictas, mientras que en el segundo, se propone ajustar los factores
de expansión mediante modelos de regresión. Este último tipo de ajustes es aplicado a la base
panel ENAHO 2007-2011. Los resultados muestran que la modificación de factores de expansión
permite mitigar los efectos de la atrición sobre la representatividad de la muestra. No obstante, es
preferible prevenir este problema antes de que se produzca.

Abstract:

The following paper makes a brief review of the international experience regarding data treatment
in panel surveys. More specifically, it focuses on attrition and its treatment using ex ante and ex
post measures. In the first case, more strict following rules are suggested, while in the second case,
the adjustment of probability weights using regression techniques is proposed. Those adjustments
are carried on the ENAHO panel survey, covering years 2007 to 2011. Results show that modifying
probability weights contributes to mitigate attrition effects on the original sample. However, in a
majority of cases, it will be better to prevent this problem before it appears.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 5


TABLA DE CONTENIDO

Presentación.......................................................................................................................................... 3
Resumen................................................................................................................................................ 5

1. Introducción..................................................................................................................................... 9
2. Revisión de la Literatura.................................................................................................................11
2.1. Problemática de los Datos Perdidos....................................................................................11
2.2. Formas de Tratamiento....................................................................................................... 12
2.3. Atrición y Calidad de Datos................................................................................................. 12
2.4. Tratamiento de la Atrición.................................................................................................... 15
2.4.1. Tratamiento Ex – Ante: Reglas de Seguimiento..................................................... 15
2.4.2. Tratamiento Ex – Post: Ajustes Estadísticos.......................................................... 20
3. Hechos Estilizados: Calidad de Datos en el Panel ENAHO.......................................................... 21
3.1. Descripción de la Base Panel 2007-2011........................................................................... 21
3.2. Reglas de Seguimiento....................................................................................................... 24
4. Metodología para Tratamiento Estadístico de la Atrición.............................................................. 25
4.1. Análisis Bivariado................................................................................................................ 25
4.2. Análisis Multivariado........................................................................................................... 41
4.3. Construcción de Factores Longitudinales........................................................................... 48
5. Análisis de los Resultados............................................................................................................... 49
6. Conclusiones y Recomendaciones............................................................................................... 51
7. Bibliografía..................................................................................................................................... 52

Anexo 1: Definición de la Población Longitudinal en el Panel............................................................... 53


Anexo 2: Códigos para determinar la atrición en el Panel ENAHO....................................................... 56

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 7


1. INTRODUCCIÓN

Las encuestas que emplean información longitudinal son relativamente escasas en el Perú.
Una de las pocas excepciones es la Encuesta Nacional de Hogares (ENAHO), que como parte de
su muestreo anual, incluye una submuestra panel. No obstante, esta muestra tiene dos principales
limitaciones que disminuyen de manera importante su potencial para poder ser empleada. La
primera limitación se encuentra relacionada con la limitada duración de las muestras panel
(4 años)1 hacen que dinámicas de cambios en ingreso o el efecto de ciertos programas sociales
en salud y educación (que suelen ser de mayor duración) no puedan ser evaluadas correctamente.

Por otro lado, si la duración de la muestra panel se amplía, es posible que la ausencia de reglas
de seguimiento explícitas haga que la calidad de la muestra original se deteriore rápidamente, con
lo cual ésta perdería rápidamente su representatividad2. Si a esta situación se les suma el hecho de
que la construcción de factores de expansión podría no incluir un ajuste por no respuesta basado
en ciertas características de la población, se estarían introduciendo algunos sesgos.

En tal sentido, es necesario evaluar y proponer estrategias de seguimiento a los miembros


originales de la muestra panel, de tal modo que puedan capturarse los cambios en la estructura
de los hogares y, únicamente en el caso de que estas fallen, se tengan que incorporar factores de
expansión que tomen en cuenta el carácter longitudinal de los datos. En paralelo, será necesario
definir reglas de imputación que permitan mantener la consistencia de los datos en el tiempo.

El presente documento trata de reflejar esta estructura. En particular, luego de presentar los
objetivos de la investigación, se pasará a mencionar el problema general de los datos perdidos,
para luego concentrarse en el caso particular de la atrición, haciendo particular énfasis en sus
consecuencias. Posteriormente, se mencionarán las estrategias orientadas a la mitigación de este
problema, distinguiendo entre las que se pueden realizar con anterioridad al trabajo de campo (ex
– ante), como los ajustes estadísticos que corresponderán luego de haberse realizado el trabajo
de campo (ex – post). Como parte de la segunda entrega de este documento, se realizará una
aplicación al Panel ENAHO 2007-2010.

1 Como la encuesta Panel ENAHO 2007-2010.


2 Por ejemplo, la muestra original del 2007 que ascendía a aproximadamente 7000 hogares disminuye a 1129 hogares
comparables hacia el final del estudio.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 9


En resumen, el objetivo general de la investigación será el contribuir a la mejora en la metodología
de calidad de datos de la encuesta panel. Para ello, se propondrán metodologías orientadas a
controlar y reducir los siguientes problemas:

a) Estrategia de seguimiento: es preferible intentar contar con reglas de seguimiento diseñadas


con el fin de evitar el problema de atrición. Estas reglas deberán estar conceptualizadas
de forma tal que se reduzca la no respuesta en un grado tal que no afecte a la calidad de
los estimadores.

b) Tratamiento de la atrición: es posible que, pese a haber diseñado reglas de seguimiento


apropiadas, esto no sea suficiente como para poder eliminar la no respuesta. Por
consiguiente, deberán realizarse ajustes estadísticos.

10 • Instituto Nacional de Estadística e Informática


2. Revisión de la Literatura

2.1 Problemática de los Datos Perdidos

En estadística, un dato perdido es aquel que involucra una observación para un individuo, o
un conjunto de individuos que no tiene un valor asignado. Dependiendo de sus causas y la extensión
del problema, las conclusiones del análisis estadístico pueden ser severos. En el caso de encuestas
de hogares, una de las principales razones de la existencia de datos perdidos es la existencia de
no respuesta. Específicamente, las unidades informantes (familias, individuos o empresas) optan
por no responder una pregunta, sección del cuestionario o incluso el cuestionario en su totalidad.
Como es conocido, en la existencia de encuestas de hogares, existe información sensible que
algunos individuos son reacios a responder (ingresos, tenencia de bienes, etc.).

En el caso de encuestas longitudinales, pueden identificarse dos fuentes de no respuesta. La


primera de ellas puede ser debido a una decisión voluntaria del entrevistado de omitir información
relacionada a ciertas preguntas, mientras que la segunda podría deberse a una mala estrategia
de seguimiento de parte de la entidad encargada de recopilar y procesar la información, que hace
que toda la encuesta deje de ser respondida en períodos subsiguientes.

Tanto en el caso de encuestas de corte transversal como panel, los tipos de información
perdida pueden clasificarse en tres. El primero de ellos, de pérdida completamente aleatoria (MCAR
por sus siglas en inglés), se refiere al caso en el que los eventos que llevaron a la pérdida de datos
son independientes tanto de las variables observables y no observables, y que son completamente
atribuibles al azar. Cuando los datos perdidos son MCAR, el impacto de este problema es inexistente,
ya que no se producirá sesgo alguno debido a que la subpoblación con información completa y la
que falta serán de características iguales.

En un caso en el que la información está perdida de forma aleatoria (MAR o missing at


random en inglés), el mecanismo de pérdida de la información está relacionado con una o más
variables observables. Por ejemplo, en el caso de una encuesta panel, aquellos individuos que no
responden en años subsiguientes son aquellos más jóvenes o familias que residen en viviendas
alquiladas. Por último, la pérdida no aleatoria (missing not at random o MNAR en inglés) se da
cuando la información perdida se da de manera deliberada. Por ejemplo, en ciertas encuestas
es costumbre que las preguntas relacionadas con empleo solo sean respondidas por aquellos
individuos mayores de 14 años.

Un aspecto de particular relevancia al momento de definir cuál representa una observación


perdida y cuál no pasa por definir la representatividad del panel, sobre la cual aplicar las reglas
de seguimiento o los ajustes estadísticos. En principio, un panel podría ser representativo de la

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 11


población del país como un todo o adoptar otra forma de representatividad (por ejemplo, únicamente
a individuos adultos). Si bien este no es el objetivo de este trabajo, el Anexo 1 presenta una discusión
sobre qué criterios se pueden emplear para definir qué individuos debería conformar un panel3.

2.2 Formas de Tratamiento

Los datos perdidos, particularmente si son MAR, hacen que las muestras que han
sido originalmente diseñadas para representar a una determinada población, pierdan esta
representatividad y, por consiguiente, lleven a inferencias erróneas. En tal sentido, es importante
tratar de reducir al mínimo la pérdida de datos generada por un mal diseño del cuestionario o reglas
de seguimiento inadecuadas. Si, pese a estos esfuerzos, se produce aun este problema (lo que
ocurre con relativa frecuencia), es recomendable recurrir a técnicas estadísticas que permitan,
utilizando la información disponible, inferir el comportamiento de la población.

2.3 Atrición y Calidad de Datos

Como todas las encuestas, las encuestas longitudinales se ven afectadas por la no respuesta
de unidades (unit nonresponse). Sin embargo, lo que diferencia los patrones de no respuesta de una
encuesta longitudinal en comparación con las de corte transversal es que el evento de no respuesta
no se da en una única ocasión, sino que también se acumula a lo largo del tiempo conforme se
producen nuevas olas del panel. Además, estas encuestas también sufren del problema de rastrear
a los miembros de la muestra que cambian de residencia y de determinar estrategias para mitigar
la fatiga del informante que necesariamente se encuentra asociada a la participación en repetidas
ocasiones (Watson y Wooden, 2009).

Como consecuencia, la experiencia en encuestas panel alrededor del mundo muestra, incluso
luego de unas pocas olas, que una parte relativamente importante de la muestra inicial deja de
participar en el mismo. Al respecto, Watson y Wooden (2009) mencionan los siguientes patrones
de atrición en las siguientes encuestas panel:

• El PSID perdió un 25% de su muestra original en 8 olas, entre 1968 y 1975.


• El Panel Socioeconómico Alemán (GSOEP), perdió el 34% de su muestra original entre
1984 y 1991.
• El Panel Comunitario Europeo tuvo tasas de atrición variables entre países entre 1994
y el 2001 (desde 18% en Portugal hasta 43% en Irlanda).

3 Consideramos necesario presentar esta discusión debido a que en la literatura también se considera este problema
como parte del concepto más general de reglas de seguimiento. No obstante, para fines del presente trabajo se empleará
una definición de regla de seguimiento más relacionada con los mecanismos orientados a garantizar una reducción
en la tasa de no respuesta una vez que se haya definido a qué individuos encuestar en cada ola del panel.

12 • Instituto Nacional de Estadística e Informática


En general, las evidencia muestra que, conforme más complejo sea el diseño muestral de
la encuesta, más elevada será la tasa de no respuesta. Adicionalmente, también existiría evidencia
que este problema se ha acentuado a lo largo de los años. Específicamente, las cohortes más
recientes muestran tasas de atrición más altas en las primeras olas en comparación con las cohortes
de mayor antigüedad.

Una tasa elevada de atrición implica una serie de dificultades para el análisis de encuestas
longitudinales. Dependiendo de la gravedad del mismo, la atrición puede desde reducir los niveles
de precisión de los estimadores a afectar la viabilidad y continuidad del panel, particularmente si
la muestra inicial es relativamente pequeña. Dado que en la mayoría de casos, la atrición no es
aleatoria sino que está relacionada con determinadas características, esto puede afectar a los
estimadores poblacionales (Lynn, 2007).

Por lo tanto, el diseño de la encuesta previo al trabajo de campo debe maximizar la retención
en las olas sucesivas y, en el caso se produzca un porcentaje de atrición (lo cual es inevitable),
se pueda recoger la mayor cantidad de información posible de los no respondientes a fin de lograr
ubicarlos (Watson y Wooden, 2009). Para poder lograr ambos objetivos, es necesario conocer la
naturaleza de la atrición en este tipo de encuestas.

2.3.1 Factores que Afectan la No Respuesta

De acuerdo a Lepkowski y Couper (2002), el proceso de respuesta puede dividirse en tres


etapas secuenciales: la localización del individuo a ser encuestado, el contacto con el individuo y el
inicio de la entrevista. En esta sección, únicamente se tratará en profundidad este primer aspecto,
dejando los otros para futuras investigaciones.

La localización de los individuos puede verse afectada por la movilidad residencial. Diversos
estudios han mostrado que las variaciones en la dirección del encuestado impactan negativamente
en la probabilidad de contacto en olas subsiguientes. Condicional al evento de cambio de domicilio,
la existencia de reglas de seguimiento apropiadas permiten mitigar el problema de no respuesta.
Específicamente, todas las encuestas longitudinales incluyen preguntas orientadas a localizar al
encuestado. Entre las principales variables recopiladas destacan las siguientes:

• Números de teléfono del domicilio, móvil y del trabajo.


• Dirección de correo electrónico.
• Detalles de contacto de familiares y amigos.

Incluso variables como el nombre de la persona deben estar bien recogidas para facilitar
el contacto en futuras versiones.

Es lógico suponer que las variables no solucionan en su totalidad este problema. Por
consiguiente, una estrategia de rastreo deberá considerar búsquedas en fuentes alternativas,
como las siguientes:

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 13


• Directorios telefónicos.
• Registros electorales.
• Averiguaciones con vecinos.
• Búsqueda en redes sociales.

2.3.2 Características del Informante y No Respuesta

En diversas encuestas de panel, las características del informante juegan un papel


determinante al momento de predecir las tasas de no respuesta. El conocer estas características
e identificar a aquellos hogares es importante por dos razones:

• En primer lugar, se puede recoger la información de los no respondientes en la ola t+1


en la ola t, lo cual permite hacer inferencias sobre las características de aquel grupo.
• En segundo lugar, las diferencias en la probabilidad de atrición entre grupos permiten
identificar potenciales fuentes de sesgo que pueden ser corregidas mediante ajustes en
los factores de expansión utilizados.

Al respecto, Watson y Wooden (2009), mencionan algunas variables que están relacionadas
con la probabilidad de no respuesta en olas posteriores en una encuesta panel:

• Sexo: las tasas de no respuesta son más elevadas en hombres que en mujeres. Una
posible razón detrás de esto sería el hecho que las mujeres permanecen más en casa.
Sin embargo, incluso condicional al contacto, las mujeres tienen tasas más elevadas de
respuesta.
• Edad: los individuos más jóvenes tienen tasas más bajas de respuesta, mientras que
en individuos de mayor edad la evidencia no es tan clara.
• Estado civil: los individuos solteros tienen una mayor probabilidad de no respuesta,
debido a que presentarían una mayor movilidad residencial.
• Tamaño y composición del hogar: hogares conformados por un solo miembro tienen
mayor probabilidad de atrición. En otros hogares, aquellos con una mayor composición
de menores tendrían una mayor tasa de respuesta, aunque el mecanismo no es tan
claro.
• Educación: individuos con mayor educación son más propensos a colaborar en olas
posteriores del panel, en tanto dan una valoración positiva a la investigación.
• Régimen de propiedad de la vivienda: aquellos hogares que no son dueños de su vivienda
tienen una mayor probabilidad de perderse en olas subsiguientes.
• Ingreso: usualmente, las tasas de no respuesta son mayores en las colas de la distribución
de ingreso. Algunos estudios muestran que este efecto es menor en la cola derecha
(mayores ingresos), pero que en general dicho efecto es reducido.
• Condición laboral: Intuitivamente, un individuo empleado sería más difícil de contactar en
comparación con uno desempleado. Sin embargo, la evidencia en países desarrollados
es mixta.

14 • Instituto Nacional de Estadística e Informática


• Ubicación de la vivienda: Existen diferencias en las tasas de respuesta a lo largo del
territorio. Específicamente, las tasas de no respuesta son más altas en zonas urbanas
en comparación con zonas rurales.

Al respecto, en la sección 6 de este documento se verificará la relación de estas variables


con la atrición en el caso peruano.

2.4 Tratamiento de la Atrición

La revisión de la literatura existente muestra que la atrición, en tanto representa un problema


potencial importante, puede ser tratada mediante dos métodos. El primero de ellos tiene naturaleza
preventiva y se relaciona con la existencia de reglas de seguimiento, mientras que el segundo se basa
en ajustes estadísticos una vez que se ha finalizado la etapa de relevo de información en terreno.

2.4.1 Tratamiento Ex – Ante: Reglas de Seguimiento

Uno de los problemas del muestreo de paneles es que puede resultar complejo establecer
una regla de seguimiento de los hogares del levantamiento anterior. Esto se debe, entre otras
razones, a que las famlilias pueden cambiar de domicilio y, por consiguiente, la sola identificación
de la dirección es insuficiente para establecer si el hogar en dicho domicilio fue el mismo que se
entrevistó en la encuesta anterior.

Al respecto, Lepkowski y Couper (2002) diseñaron un modelo en el que se presentaban tres


etapas del proceso de encuestaje: rastreo de la ubicación, contacto y entrevista.

Estos autores definen un problema de rastreo como aquel generado por un cambio de
dirección, número telefónico, correo electrónico o cualquier otra información que permita ubicar
al individuo. Dichos cambios son generados por alguna dinámica en el comportamiento de los
hogares, que justamente es el objetivo de medición de una encuesta longitudinal. En tal sentido,
al no tener información de este grupo, puede estar dejándose de recoger información de un grupo
que tendría características distintas al que no sufrió de atrición. Las consecuencias de la atrición
están relativamente bien documentadas, pero lo que no suele mencionarse es que la reducción de
la atrición, implica un incremento importante en costos.

En el caso de países desarrollados, la inversión en esfuerzos de localización ha hecho


que las tasas de rastreo exitoso por encima del 90%. Sin embargo, es posible que los recursos
necesarios para alcanzar dichas tasas no se encuentren disponibles en países en desarrollo. Es
posible, incluso en estos casos, lograr tasas aceptables de rastreo si se establecen determinados
protocolos de seguimiento.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 15


Conceptualmente, el problema de rastreo se puede dividir en dos componentes. El primero
de ellos, mide la probabilidad de cambiar de ubicación; mientras que el segundo problema, es
dependiente del primero y se relaciona con la probabilidad de ubicar al individuo condicional a
que ha cambiado de ubicación. Ambos eventos dependerán de una serie de factores, resumidos
en el Gráfico 1.

Gráfico 1: Desempleo y crecimiento económico en los países de la OECD

Factores Individuales Diseño de la Encuesta


Estilo de vida. Reglas de seguimiento.
Grupo de edad / cohorte. Esfuerzo de seguimiento.
Circunstancias familiares. Tiempo entre olas.
Situación de empleo. Información de contacto.
Tenencia de vivienda.
Circunstancias de
la Mudanza

Propensión a Mudarse Propensión a ser Ubicado

Factores "macro": Factores Estructurales:


Movilidad general. Registros poblacionales.
Urbanización. Portabilidad telefónica.
Acceso a registros
administrativos.

Fuente: OECD Statistics.


Elaboración propia.

Probabilidad de Mudanza

La probabilidad de mudanza dependerá de las características particulares de cada sociedad.


Existen factores macro que pueden afectar a la movilidad, como el grado de urbanización,
permanencia de direcciones o edificios, entre otros.

Adicionalmente, se pueden identificar factores inherentes a cada familia o grupos de


individuos. La movilidad puede generarse como producto de determinadas circunstancias o
características:

• Individuos más jóvenes o menos calificados suelen moverse más.


• Cambios de empleo, de estado civil, en la estructura familiar (nacimientos, muertes).

El tipo de mudanza (dentro de la ciudad o región o fuera de ella) influenciará en la probabilidad


de rastreo posterior, ya que en un caso se mantienen casi intactas sus conexiones sociales.

16 • Instituto Nacional de Estadística e Informática


Probabilidad de ser Localizado

Distintos tipos de personas tendrán probabilidades distintas de ser rastreados, y tanto la


razón como las circunstancias de la mudanza afectarán la probabilidad de ser encontrado en olas
posteriores, como por ejemplo un cambio de apellido luego del matrimonio o un cambio de empleo.
Incluso en algunas circunstancias, ciertos eventos pueden hacer que el individuo valore más su
privacidad y deje de aparecer en algunos registros públicos (directorio telefónico). Por otro lado,
los lazos con la comunidad afectan esta probabilidad: individuos más aislados serán más difíciles
de rastrear que aquellos con lazos fuertes dentro de la comunidad.

A nivel de la sociedad, existen algunos mecanismos que pueden servir para el rastreo de
personas, tales como el registro civil, en donde teóricamente un individuo debe actualizar sus
datos del lugar de residencia. Sin embargo, la efectividad de este método dependerá del grado de
cumplimiento de dicha medida.

Otros factores que influyen están relacionados con el diseño de la encuesta, tal como la
distancia entre olas: a mayor distancia, menor probabilidad de ubicar al encuestado. El tipo de
encuesta también influye: se puede recoger más información conducente a una ubicación del
encuestado si el proceso se realiza cara a cara. Pasa algo similar con la población de estudio. Por
ejemplo, en el caso de poblaciones con alta movilidad, como trabajadores agrícolas temporales, la
probabilidad de tener mecanismos exitosos de seguimiento es bastante reducida.

El diseño del instrumento también puede facilitar información que ayude al seguimiento. La
inclusión de preguntas de contacto ayudará a facilitar este objetivo. La idea es tratar de anticiparse
al movimiento (seguimiento prospectivo), en comparación con otras medidas que se realizan una
vez que se ha terminado el trabajo de campo (seguimiento reactivo).

Deben también analizarse las ventajas de un rastreo centralizado versus el realizado por el
encuestador. En principio, el primer tipo de rastreo sería menos costoso, pero dependerá en gran
medida de la existencia de información pública disponible y de calidad.

La literatura muestra un conjunto de reglas de seguimiento, pero su efectividad se ha mostrado


más por experiencia (prueba – error) que por estudios empíricos previos. No obstante, los autores
mencionan que los métodos prospectivos serían más costo-eficientes que los retrospectivos.

Experiencia Internacional en Reglas de Seguimiento

En el caso latinoamericano, se cuenta con experiencia en reglas de seguimiento en el


caso del Panel CASEN y en la Encuesta Financiera a Hogares en Chile. Para el primer caso, la
estrategia consistió en introducir, dentro de la primera ola, preguntas de personas a quienes se
podrían contactar en el caso no se pudiera ubicar al hogar encuestado.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 17


Por otra parte, la experiencia en reglas de seguimiento en la Encuesta Financiera a Hogares
en Chile es la siguiente: al llegar el encuestador a un hogar de la muestra panel seleccionada,
preguntó si en el hogar vivía o había vivido una persona adulta identificada por un nombre de pila
recolectado en el levantamiento anterior, y con ciertas características de edad, género y educación. Si
esto era así, entonces se asumía que el hogar correspondía al panel y se procedía con la entrevista.
En caso contrario, se solicitaba información que pudiera permitir localizar el nuevo domicilio del
adulto que se buscaba.

Una vez completado el levantamiento de la encuesta, se procedió a realizar una verificación


adicional a partir de las bases de datos de la EFH 2007 y la actual, para establecer que los hogares
del panel efectivamente correspondieran al mismo de la anterior encuesta. En particular, se validó
al hogar como un integrante del panel si en aquel hogar existía al menos un miembro adulto para
el cual coincidía el género, educación y edad (ajustada por el paso del tiempo) con lo reportado
en la encuesta 4,1%.

Este mecanismo es empleado por otros institutos de estadística, como en el caso de España
(Bover,2008) o internacionales (Rose, 2000 ; Lynn, 2012).

18 • Instituto Nacional de Estadística e Informática


Cuadro 1: Estrategias de Seguimiento empleadas en Encuestas Panel

Técnicas Proactivas:
• Solicitar a los entrevistados a que provean actualizaciones en sus direcciones; estos
pedidos pueden realizarse al momento de la encuesta, por correo postal o electrónico.
Para ello, es necesario proveer múltiples opciones para que el entrevistado realice
dicha actualización (teléfono, correo postal, página web). Pequeños incentivos
(económicos o no) pueden incrementar la tasa de respuesta.
• Obtener dirección o números telefónicos de una o dos personas de contacto al momento
de la entrevista.
• Recopilar información que pueda sugerir esfuerzos posteriores de rastreo (Ej: planes
de mudanza, información de contacto para segunda vivienda). Proveer incentivos para
incrementar el cumplimiento.
• Mantener contacto con el entrevistado entre olas (vía correos electrónicos, tarjetas
para ocasiones especiales, entre otros). Si el correo “rebota”, esto indicará necesidad
de desplegar esfuerzos de rastreo.

Rastreo en Campo (Contacto Cara a Cara):


• Obtener nueva dirección a partir de los ocupantes actuales de la vivienda o los vecinos
en la dirección antigua del encuestado.
• Dejar algún tipo de comunicación a los ocupantes actuales para que sea redirigida
al encuestado si son reacios a proveer datos de contacto.
• Enviar una comunicación directa al entrevistado solicitando la nueva dirección y
número telefónico.

Rastreo en Campo (Contacto Telefónico):


• Intentar todos los números telefónicos provistos por el encuestado (móviles, teléfono
de residencia primaria, etc.).
• Efectuar llamadas a quienes el encuestado haya designado como personas de
contacto. En este grupo también debe garantizarse que los números estén también
actualizados.
• Verificar cambios en números de teléfono con la empresa operadora.
• Enviar una comunicación directa al entrevistado solicitando la nueva dirección y
número telefónico.

Rastreo Centralizado:
• Realizar búsqueda en bases públicas para los encuestados, su cónyuge u otros
miembros de la familia o parientes.
• Búsquedas en internet (Google, redes sociales) por el nombre del encuestado y su
ciudad de referencia, particularmente útil en el caso de nombres poco usuales.
• Verificación de registros administrativos (RENIEC, SUNAT, SUNARP).

Fuente: Couper, M. y M. Ofstedal (2006).


Elaboración: Propia

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 19


2.4.2 Tratamiento Ex – Post: Ajustes Estadísticos

No obstante, incluso en aquellos casos en los que las reglas de seguimiento están bien
especificadas es posible que tengan que realizarse ajustes. Al respecto, los procedimientos de
ajuste estadístico pasan por la construcción de pesos. En un contexto de corte transversal, la
construcción de estos componentes pasa por tres etapas (Bendezú et al., 2007):

- Construcción de pesos.
- Ajuste por no respuesta.
- Post estratificación.

En el caso de encuestas longitudinales, las características particulares de estas encuestas


incrementan de manera importante el número de subpoblaciones a las que deban calcularse
pesos. Asimismo, las diversas opciones para abordar el problema de atrición y la diversidad de
posibilidades de incorporación al análisis de miembros temporales de la muestra, hacen que el
cálculo de factores de expansión deba hacerse con especial detalle. La práctica sugiere que el
cálculo de factores se realice en dos etapas. Más específicamente, la primera de ellas debería
construir pesos en la primera ola siguiendo metodologías para corte transversal (Lavallée, 1995),
mientras que para las olas subsiguientes, tendría que considerarse la naturaleza longitudinal. Kalton
y Brick (2000) sugieren cuatro métodos para realizar dicho ajuste: weighting classes, árboles de
decisión, regresiones logísticas y generalized raking. En la práctica, se realizará el análisis mediante
regresiones logísticas, ya que es el más empleado en este tipo de problemas.

Bajo la atrición, se asume que el patrón de no respuesta es selectivo en personas que


fueron encuestadas en olas anteriores. Al respecto, es conocido que las estimaciones basadas en
la información disponible estarán sesgadas, ya que la atrición dependerá de la variable dependiente.
La redistribución de pesos mencionada en secciones anteriores tendería a exacerbar el problema, ya
que el efecto de la atrición se redistribuiría entre los nuevos miembros a ser seguidos dependiendo
de las reglas establecidas para este fin.

Siguiendo a Rendtel y Harms (2002), considérese una muestra longitudinal s^t. En la ola
ola t. El problema de la atrición se refiere a que se desea calcular estimadores poblacionales para
una variable y, es decir:

El segundo término de la suma representa a aquellos individuos que no respondieron la ola


t y que se encuentran en la muestra longitudinal. Bajo atrición, este término no es observable y
no puede ser calculado. En tal sentido, el ignorar ese término llevaría a estimadores sesgados, a
menos que se realice algún supuesto sobre cómo obtener un estimador del mismo.

20 • Instituto Nacional de Estadística e Informática


3. Hechos Estilizados: Calidad de Datos en el Panel ENAHO

En esta sección, se aplicarán los conceptos discutidos anteriormente en el documento,


aplicándolos al caso particular de la encuesta panel ENAHO 2007-2011. En una primera sección,
se describirá la base de datos, haciendo especial énfasis en la estructura del panel y las mejoras
metodológicas implementadas en esta segunda etapa de la encuesta4. En la segunda parte, se
discutirán brevemente las reglas de seguimiento de la encuesta, sobre la base de la información
pública disponible. Por último, la tercera parte realizará un análisis estadístico de las principales
características de los hogares que influirían en la atrición, tanto desde una perspectiva bivariada
como multivariada.

3.1. Descripción de la Base Panel 2007-2011

En la encuesta ENAHO 2007, se designó a un porcentaje de la muestra como muestra


panel. Según los documentos metodológicos de años posteriores, el diseño del panel presentó
tres mejoras metodológicas: se renovó la muestra, además de la realización de la actualización
del marco muestral, reemplazándose el proveniente del precenso 1999/2000 y actualizándose en
función al marco de muestreo generado a partir del Censo 2005. Por último, se modificó el diseño
del componente panel de la encuesta.

Debe tomarse en cuenta que en el anterior panel ENAHO, llevado a cabo en el período
2002 al 2006, se trabajó con una muestra panel fija con 0% de rotación. Sin embargo, la atrición
de la muestra tuvo efectos adversos sobre el tamaño muestral. Específicamente, ésta se inició en
el año 2002 con un tamaño muestral de 6123 viviendas, y para finales del 2006 disminuyó a 4338
viviendas (se redujo 29,2%).

Sobre la base de esta experiencia, el año 2007, conjuntamente con el cambio del marco, se
pasó a una muestra panel con rotación aproximada del 20% de la muestra. Los objetivos de este
nuevo diseño serían dos. El primero de ellos era el asegurar la representatividad en el panel de la
variable incidencia de la pobreza total a nivel nacional. El segundo estaba más relacionado con la
atrición de la muestra, evitando que la misma no se distorsione por efecto de la atrición.

Desde el punto de vista operativo, ambos objetivos se lograron llevando a cabo las siguientes
estrategias:

• Rotar una fracción de la muestra panel cada año, un quinto de la muestra.


• Acotar en cinco años el período de vida para una submuestra panel.
• La muestra no panel se diseñó como panel de conglomerados, en donde cada año se
eligen diferentes submuestras de viviendas en cada conglomerado.

4 Debe tomarse en cuenta que la primera encuesta panel de la ENAHO fue realizada entre los años 2006 al 2010.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 21


De acuerdo con los manuales metodológicos, una ventaja adicional del panel rotativo es que
co-existen, en un momento dado, varias muestras panel. Específicamente, ello implicaría que se
podrá contar con otro panel de cinco años luego de la extinción del primer panel y así sucesivamente.

En tal sentido, las mejoras metodológicas del panel 2007-2011 deberían reducir en gran
medida la atrición. En esta sección, se analizará si en efecto el cambio en el diseño muestral
contribuyó a una reducción en los porcentajes de atrición. Paralelamente, al pasar de un panel sin
rotación a uno con 20% de rotación cada año, se tendría un conjunto de pesos de panel más amplio
que el que se tendría con un panel en el cual no existe rotación. Específicamente, el conjunto de
pesos sería similar al que se observa en el Gráfico 2.

El cuadro muestra, que con el pasar de los años, se tendrán cada vez más muestras a
ser seguidas a lo largo del tiempo. Así, la muestra que en el año 2007 comenzó con una (M1),
terminará, para el año 2011, con cinco muestras (M1 a M5). Desde el punto de vista de los pesos
longitudinales, cada submuestra de este panel debería tener su propio conjunto de pesos, lo
cual elevaría el número de pesos de 4 (en un panel con 0% de rotación) a más de 10 pesos.
Adicionalmente, esto implica que las regresiones empleadas para medir la probabilidad de atrición
se incrementarán de similar forma.

Gráfico 2: Esquema de Panel Rotativo y Pesos

2007 2008 2009 2010 2011

M1

M1

M1 M5

M1

M1 M4 M4

M3 M3 M3

M2 M2 M2 M2

Fuente: Elaboración propia.

22 • Instituto Nacional de Estadística e Informática


Cabe señalar que este esquema, tal como mencionan los manuales metodológicos del INEI,
permite reducir de forma importante la atrición siempre y cuando se diseñen apropiadamente reglas
de seguimiento y se identifique de forma correcta a los hogares en todas las olas.

No obstante, incluso luego de estas variantes metodológicas, la tasa de atrición se mantiene


alrededor de 10% por año, lo cual en principio mostraría que las estrategias o reglas de seguimiento
a hogares discutidas en las secciones anteriores podrían mejorarse.

Por otro lado, para fines del análisis de la atrición y las características de los hogares que
contribuyen a dicho fenómeno, es preciso empezar de una muestra de partida, la que en este caso
sería la muestra panel del año 2007. Sin embargo, en dicha encuesta no se puede identificar de
manera correcta a los miembros originales de la muestra. Solo en la encuesta del 2008 es que se
puede identificar parcialmente a aquellos hogares que fueron encuestados el 2007 y no sufrieron
de atrición. En tal sentido, cualquier análisis que se realice a continuación se referirá al panel que
comienza en el año 2008.

Un segundo aspecto metodológico es que la base de datos panel que se encuentra en la


página del INEI no permite identificar de manera correcta a los hogares que formaron parte de la
muestra de refresco en cada año de los que provenían de años anteriores, por lo que se construyó
la muestra panel a partir de la información de corte transversal de cada una de las encuestas.

Así, se tiene que en el año 2008 la muestra panel seleccionada era de 7767 hogares. De este
total, el 11,6% o 904 hogares, se perderían para el siguiente año. Pasa algo similar con la dinámica
entre los años 2009 y 2010. En el 2009, la muestra bajo selección de panel fue de 7730 hogares,
de los cuales 987 (12,8%) no pasarían al siguiente año. En el 2010, se diseñó nuevamente una
muestra de 7751 hogares, de los cuales no llegarían al 2011 420 hogares (5,4%). En tal sentido,
la atrición es relativamente importante, en particular en los dos primeros años del panel, ya que en
el período 2010-11, la muestra se reduce notoriamente. Finalmente, la tasa de atrición de aquellos
hogares que permanecieron en el panel los años 2008 y 2009 y se perdieron el 2010 fue de 10,3%,
mientras que la tasa de atrición de aquellos hogares que permanecieron en el panel los años 2009,
2010 y se perdieron el 2011 fue de 6,03%. Si se considera la atrición en todo el panel, es decir, a
los hogares que formaron parte del panel desde el 2008 al 2010 y se perdieron el 2011, esta tasa
disminuye al 8,1%.

En consecuencia, se pueden observar patrones de atrición relativamente consistentes con


lo observado en la literatura, en el sentido que la atrición sería más fuerte en los primeros años del
panel para luego reducirse de forma importante. Otro aspecto a señalar es que, en efecto, el nuevo
diseño metodológico habría contribuido a reducir la prevalencia de atrición en el tiempo, aunque
el costo de ello hubiera sido incrementar ligeramente la complejidad de la encuesta al tener que
trabajar con un set más amplio de pesos longitudinales.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 23


3.2 Reglas de Seguimiento

El análisis mostrado en la sección 6,1 no muestra las razones bajo las cuales se llegó a perder
un hogar. La muestra panel construida permite mostrar, al menos de forma parcial, las razones por
las cuales un hogar dejó de ser encuestado5.

Por ejemplo, entre los años 2008 y 2009, se tiene que de la muestra original de 7730
hogares encuestados el 2009, 4887 hogares (63,2%) provenían del año anterior. De este total, el
18,5% (904 hogares) no respondió la encuesta de manera total o parcial. De ellos, 144 hogares
no respondieron la encuesta ya sea por estar ausentes, encontrarse desocupada la vivienda o por
otros motivos, mientras que 134 hogares rechazaron contestar la encuesta. El Cuadro 2 muestra
los resultados para el resto de años.

Cuadro 2: Razones de No Respuesta – Muestra Panel

2008-09 2009-10 2010-11


Número Porcentaje Número Porcentaje Número Porcentaje

Total 4 887 4 990 1 618


Completa 3 983 81,5% 4 003 80,2% 1 198 74,0%
Incompleta 626 12,8% 663 13,3% 235 14,5%
Rechazo 134 2,7% 164 3,3% 79 4,9%
Ausente 39 0,8% 35 0,7% 29 1,8%
Vivienda Desocupada 52 1,1% 60 1,2% 33 2,0%
Otro 53 1,1% 65 1,3% 44 2,7%

Nota: La fila “Total” corresponde a aquellos hogares que fueron encuestados en los dos años del encabezado. No considera a los
refrescos de la muestra en cada año.
Fuente: Panel ENAHO
Elaboración: Propia

Los resultados también son consistentes con la evidencia teórica. Un porcentaje relativamente
estable (entre 12 y 15% cada año) correspondería a la no respuesta en ciertos ítems (ítem
nonresponse). El resto puede dividirse en rechazo y problemas de seguimiento. Por ejemplo, entre
los años 2009 y 2010, el 3,3% de los hogares (164 en total) rechazó llenar la encuesta, mientras
que 160 hogares (3,2%) tuvieron problemas de seguimiento. En tal sentido, las estrategias de
seguimiento e incentivos a brindar deberían ser distintos en cada caso. Específicamente, los patrones
de encuestas incompletas y rechazo podrían solucionarse mediante incentivos pecuniarios o no
pecuniarios que generen una mayor utilidad a los individuos o jefes de hogar para que respondan
la encuesta.

5 Se menciona que los motivos son parciales en tanto solo se tiene el resultado de la encuesta para aquellos casos en los
que un hogar encuestado en el año t pudo ser observado en el año t+1. No se tiene información para aquellos hogares
que fueron dejados de encuestar por la naturaleza del panel rotativo. Sin embargo, en tanto los refrescos de la muestra.

24 • Instituto Nacional de Estadística e Informática


Por otro lado, la no respuesta originada causada por el no contacto del hogar debido a la
movilidad residencial es todavía reducida en comparación con lo observado en otros países. Sin
embargo, este porcentaje podría reducirse de forma importante con modificaciones sencillas al
cuestionario como la recolección de datos de contacto de vecinos o familiares que pudieran ayudar
al encuestador a localizar a los hogares que no hayan sido encontrados en su vivienda.

En ambos casos, deberá examinarse el costo – beneficio de poder ubicar al hogar o de


diseñar un esquema de incentivos para minimizar la no respuesta. Sin embargo, consideramos que
estas soluciones podrían representar una mejora metodológica importante que, sumado al hecho
de contar con un panel rotativo, contribuirá a contar con una mejor calidad de datos.

4. Metodología para Tratamiento Estadístico de la Atrición

Tal como se señaló en la sección introductoria, en este apartado se abordará el problema


de la atrición mediante dos metodologías. La primera consistirá en un análisis bivariado, mientras
que en la segunda metodología, se estimará un modelo en el que se medirá la probabilidad de
atrición en cada momento. Específicamente, se analizarán los motivos de la atrición para cada una
de las siguientes combinaciones:

- Atrición entre olas 2008 y 2009.


- Atrición entre olas 2009 y 2010.
- Atrición entre olas 2010 y 2011.
- Atrición en individuos observados en 2008 y 2009, pero no observados en 2010.
- Atrición en individuos observados en 2009 y 2010, pero no observados en 2011.
- Atrición en individuos observados en 2008, 2009 y 2010, pero no observados en 2011.

4.1. Análisis Bivariado

El análisis bivariado consistirá en una comparación de medias entre aquellos hogares que
hayan sufrido de atrición con los que no, comparando una serie de variables que reflejan ciertas
características de los miembros del hogar o de sus integrantes. Se concluirá que determinada
característica es significativa para explicar la atrición si la diferencia de medias es estadísticamente
significativa.

Por ejemplo, en el Cuadro 3 se muestra la diferencia en medias para aquellos hogares que
fueron seleccionados como muestra panel en el año 2008 y no llegaron a formar parte de la muestra
en el 2009. Puede verse que en promedio, aquellos hogares que sufrieron de atrición fueron, en
promedio, aquellos con un mayor porcentaje de jefes de hogar de sexo masculino y con una mayor
preponderancia de integrantes del hogar de entre 0 y 18 años de edad. Esta última característica
es consistente con la evidencia internacional, que muestra que aquellos hogares más jóvenes son
más propensos a presentar atrición.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 25


Desde el punto de vista del estado civil, la evidencia internacional muestra que los hogares
con jefes de hogares separados o solteros eran los más propensos a evidenciar la existencia de
atrición. No obstante, en este caso existe evidencia que permitiría concluir que en el caso peruano
existiría una relación inversa entre dichas características y la atrición. Sin embargo, en el caso de
los hogares que dejaron de ser observados en el 2009, se aprecia un mayor porcentaje de jefes
de hogar casados, siendo esta diferencia estadísticamente significativa.

Al analizar el nivel educativo del jefe de hogar, no se aprecia un patrón claro. Los resultados
del Cuadro 3 muestran que los hogares con jefes de hogar que terminaron la primaria tendrían una
mayor probabilidad de atrición que el resto, mientras que, de los hogares que sufrieron atrición, se
tendría un menor porcentaje de hogares con jefe de hogar sin educación. Nuevamente, los resultados
no serían consistentes con la evidencia internacional, que mostraba una relación directa entre el
nivel educativo y la presencia de atrición. Donde sí se aprecia una diferencia entre los hogares
que no sufrieron atrición y los que sí son en el número de perceptores de ingresos: en promedio,
los hogares con atrición tienen un mayor número de perceptores de ingresos.

26 • Instituto Nacional de Estadística e Informática


Cuadro 3: Prueba de Medias – Atrición 2008 – 2009 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t
Porcentaje de jefes de hogar hombres 0,7635 0,8594 -0,0959 -5,4646 ***
Porcentaje de hombres en el hogar 0,4670 0,4737 -0,0067 -0,6626
Edad del jefe de hogar 49,2962 50,1901 -0,8939 -1,371 *
Edad promedio del hogar 33,4820 32,4629 1,0191 1,4575 *
Edad mediana del hogar 31,8054 30,6070 1,1984 1,5298 *
Porcentaje de miembros del hogar entre 0 y 18 años 0,2962 0,3165 -0,0203 -2,0395 **
Porcentaje de miembros del hogar entre 18 y 24 años 0,0933 0,0918 0,0015 0,2349
Porcentaje de miembros del hogar entre 25 y 35 años 0,1432 0,1509 -0,0077 -0,9064
Porcentaje de miembros del hogar entre 35 y 45 años 0,1167 0,1056 0,0111 1,4681 *
Porcentaje de miembros del hogar entre 45 y 65 años 0,1711 0,1775 -0,0064 -0,6419
Porcentaje de miembros del hogar de más de 65 0,1795 0,1576 0,0218 1,8176 **
1 Porcentaje de hogares convivientes 0,2794 0,3099 -0,0305 -1,6189 *
2 Porcentaje de hogares casados 0,4222 0,5399 -0,1178 -5,6811 ***
3 Porcentaje de hogares viudos 0,1129 0,0607 0,0522 4,0148 ***
4 Porcentaje de hogares divorciados 0,0072 - 0,0072 2,1347 **
5 Porcentaje de hogares separados 0,1115 0,0527 0,0588 4,5572 ***
6 Porcentaje de hogares solteros 0,0668 0,0367 0,0301 2,9314 ***
Nivel Educativo:
1 Sin Nivel 0,0776 0,0479 0,0297 2,6902 ***
2 Educación Inicial 0,0003 0,0016 -0,0013 -1,4546 *
3 Primaria Incompleta 0,2225 0,2300 -0,0075 -0,4299
4 Primaria completa 0,1710 0,2013 -0,0303 -1,9093 **
5 Secundaria incompleta 0,1292 0,1294 -0,0002 -0,0153
6 Secundaria completa 0,2021 0,2045 -0,0024 -0,1396
7 Sup. No univ. Incompleta 0,0259 0,0208 0,0051 0,7731
8 Sup. No univ. completa 0,0633 0,0559 0,0074 0,7276
9 Sup. univ. Incompleta 0,0328 0,0304 0,0024 0,3258
10 Sup. univ. completa 0,0620 0,0639 -0,0019 -0,1856
11 Post grado 0,0133 0,0144 -0,0010 0,0048
Número de perceptores de ingresos 2,0826 2,3435 -0,2609 -5,5291 ***
Acceso a servicios:
Combustible cocina: electricidad (%) 0,0302 0,0256 0,0046 0,6512
Combustible cocina: GLP (%) 0,5272 0,5655 -0,0383 -1,8289 **
Combustible cocina: gas natural (%) 0,0014 0,0016 -0,0002 -0,0947
Combustible cocina: kerosene (%) 0,0339 0,0256 0,0083 1,1108
Combustible cocina: carbón (%) 0,0831 0,0703 0,0128 1,1102
Combustible cocina: leña (%) 0,4691 0,4473 0,0218 1,0416
Acceso teléfono fijo (%) 0,2193 0,2843 -0,0651 -3,7182 ***
Acceso teléfono móvil (%) 0,5267 0,5591 -0,0324 -1,5462 *
Acceso TV paga (%) 0,1292 0,1581 -0,0290 -2,0442 **
Acceso internet (%) 0,0476 0,0719 -0,0243 -2,6697 ***
Sin acceso TICs (%) 0,4177 0,3866 0,0311 1,5049 *
Vivienda inadecuada (%) 0,1161 0,0831 0,0330 2,4889 ***
Vivienda con hacinamiento (%) 0,0925 0,0990 -0,0065 -0,5368
Vivienda sin servicios higiénicos (%) 0,2117 0,1741 0,0376 2,209 **
Vivienda sin niños que asisten a la escuela (%)
Hogares con alta dependencia económica (%) 0,0096 0,0080 0,0017 0,4062
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 27


Cuadro 4: Prueba de Medias – Atrición 2008 – 2009 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t
Ubicación geográfica:
Costa Norte 0,1320 0,1372 -0,0052 -0,4296
Costa Centro 0,0753 0,0454 0,0300 3,2829 ***
Costa Sur 0,0554 0,0819 -0,0265 -3,1929 ***
Siera Norte 0,0621 0,0586 0,0034 0,4045
Sierra Centro 0,1880 0,1593 0,0287 2,0889 **
Sierra Sur 0,1460 0,1648 -0,0188 -1,4973 *
Selva 0,2156 0,1748 0,0409 2,8327 ***
Lima Metropolitana 0,1256 0,1781 -0,0525 -4,3922 ***
Tipo de vivienda:
casa independiente 0,8755 0,8844 -0,0089 -0,645
departamento en edificio 0,0256 0,0273 -0,0017 -0,254
vivienda en quinta 0,0086 0,0096 -0,0010 -0,2675
Vivienda en casa de vecindad 0,0528 0,0449 0,0079 0,8444
choza o cabaña 0,0268 0,0257 0,0011 0,1576
vivienda improvisada 0,1576 0,0080 0,0011 0,266
Local no destinado para habitación humana 0,0013 - 0,0013 0,9076
otro 0,0003 - 0,0003 0,4536
Situación de la vivienda
alquilada 0,0837 0,0527 0,0310 2,7111 ***
propia, totalmente pagada 0,7054 0,7716 -0,0662 -3,4863 ***
propia, por invasión 0,0405 0,0479 -0,0074 -0,8933
propia, comprándola a plazos 0,0069 0,0048 0,0021 0,6177
cedida por el centro de trabajo 0,0088 0,0048 0,0040 1,0524
cedida por otro hogar o institución 0,1534 0,1166 0,0368 2,4583 ***
otra forma 0,0013 0,0016 -0,0003 -0,0003
Abastecimiento de agua:
red pública, dentro de la vivienda 0,5412 0,5911 -0,0498 -2,3884 ***
red pública, fuera de la vivienda pero dentro del edificio 0,0787 0,0815 -0,0028 -0,2436
pilón de uso público 0,0263 0,0256 0,0008 0,1172
camión - cisterna u otro similar 0,0177 0,0096 0,0081 1,4948 *
pozo 0,0535 0,0447 0,0088 0,9356
río, acequia, manantial o similar 0,2312 0,2188 0,0123 0,6978
otra 0,0514 0,0514 0,0227 2,4953 ***
Servicio higiénico:
red pública dentro de la vivienda 0,4334 0,4920 -0,0586 -2,8175 ***
red pública dentro de la vivienda pero fuera del edificio 0,0622 0,0623 -0,0001 -0,013
Pozo séptico 0,1475 0,1474 0,0005 0,034
Pozo ciego o negro - letrina 0,1452 0,1246 0,0206 1,4034 *
Río, acequia o canal 0,0243 0,0160 0,0083 1,304
No tiene 0,1875 0,1581 0,0293 1,802 *
Situación de pobreza
Pobre extremo 0,1280 0,1374 -0,0093 -0,6653
Pobre no extremo 0,2434 0,2476 -0,0042 -0,235
No pobre 0,6286 0,6150 0,0136 0,6697
Ingresos
Ingreso monetario (bruto) 16 305 19 395 -3 090 -3,3865 ***
Gasto monetario (bruto) 15 351 18 222 -2 872 -3,361 ***
Fuente: Estimaciones propias.

28 • Instituto Nacional de Estadística e Informática


Es justamente en esta variable, que está fuertemente correlacionada con los ingresos,
la que contribuirá a formular una hipótesis adicional con respecto a los patrones de atrición.
Al igual que en diversos estudios de caso internacionales, existe una relación positiva entre la
probabilidad de atrición y el nivel de ingresos. Cuando se analiza la tenencia de servicios públicos
de telecomunicaciones, por ejemplo, se puede apreciar que aquellos hogares con atrición tienen
una mayor probabilidad de contar con un teléfono fijo o móvil, lo cual también ayudaría con las
estrategias de seguimiento. En particular, si aquellos hogares que se pierden al siguiente año
son los que tienen mayor facilidad para ser contactados, es más sencillo definir una regla de
seguimiento simplemente preguntándole sus números de contacto, tanto al jefe de hogar como a
los integrantes del mismo. Como se verá en los siguientes cuadros, este será uno de los pocos
patrones recurrentes de atrición en el caso de la ENAHO.

Desde el punto de vista de la zona en la que se encuentra ubicado el hogar, existirán también
pocas regularidades. De acuerdo a la hipótesis de trabajo, en la que un mayor ingreso conlleva una
mayor tasa de atrición, es Lima Metropolitana la zona con una mayor atrición. Adicionalmente, los
hogares situados en la costa central y la selva se caracterizan por tener menores tasas de atrición.

Cuando se analiza el tipo de vivienda, no existen diferencias importantes entre los hogares
que sufren de atrición y los que no. Donde si se aprecia una diferencia, es en la situación de la
vivienda, aunque con una dirección que no es la mencionada en la literatura. En particular, la
experiencia internacional muestra que aquellos hogares residentes en viviendas alquiladas o
cedidas por terceros tendían a sufrir de un mayor porcentaje de atrición, cosa que no ocurre en el
caso peruano. Los siguientes cuadros mostrarán también que este es uno de los pocos patrones
recurrentes de atrición en los diversos años cubiertos por el panel.

Por último, son las últimas dos filas del Cuadro 4 las que terminan de confirmar la hipótesis
de trabajo establecida previamente: son los hogares de mayor ingreso y gasto aquellos con una
mayor probabilidad de atrición.

En resumen, los patrones de atrición apuntarían a hogares cuya composición es más joven,
de mayores ingresos, localizados principalmente en Lima Metropolitana y que tienen un mayor
acceso a tecnologías de la información. Esta última característica puede servir para diseñar reglas
de seguimiento que podrían minimizar el rechazo. Por otro lado, desde el punto de vista de las
compensaciones o incentivos a la respuesta, dado que estamos hablando de hogares con mayores
ingresos, deberían analizarse seriamente la posibilidad de diseñar un esquema de incentivos no
pecuniarios.

Por ejemplo, en el caso del panel australiano o alemán, se envían folletos en los que se
muestra la utilidad de la información recopilada para el diseño de políticas económicas o sociales.
Este tipo de instrumentos contribuiría a una mayor tasa de respuesta si se combina con el hecho
de contar con una población en riesgo de atrición más educada. Lamentablemente, este es un
patrón que no se observa de forma regular a lo largo del panel.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 29


El análisis de los cuadros 5 y 6 muestra que se repiten buena parte de los patrones de
atrición en los años 2008 y 2009. Es decir, la atrición es más preponderante en hogares jóvenes,
de mayores ingresos y con mayor acceso a tecnologías de la información. Además, es notoria la
mayor tasa de atrición en los hogares situados en Lima Metropolitana. Una característica nueva
en estos años es que los hogares cuyo jefe de hogar posee mayor educación también poseen una
tasa de atrición más elevada.

No obstante, cuando se analiza el patrón de atrición entre los años 2010 y 2011 en los Cuadros
7 y 8, el hecho de que un hogar sea más joven en promedio pierde algo de significancia, aunque se
mantiene el hecho de que un mayor ingreso, acceso a servicios de telecomunicaciones y residencia
en Lima Metropolitana serían factores relacionados positivamente con la probabilidad de atrición.

Al incrementar la ventana temporal, es decir, analizando los patrones de atrición en los años
2011 para aquellos hogares que permanecieron en el panel para el período 2008-2010, se puede
seguir apreciando el mismo perfil de atrición que en los análisis de más corto plazo.

En resumen, el análisis de comparación de medias otorga un panorama de atrición que es


relativamente estable en el tiempo: un hogar situado en Lima Metropolitana y con mayores ingresos
tendrá una mayor probabilidad de atrición. Llama también la atención que otros patrones como la
edad, el estado civil o el residir en viviendas que no son de propiedad del hogar no sean del todo
significativas para explicar la atrición a lo largo del tiempo o, si la explican, sea de manera contraria
a lo observado. Esto podría estar diciendo que el efecto del ingreso es bastante más fuerte que
el del resto de categorías. Cuando se analice el rol de las distintas categorías desde un punto de
vista mutivariado podrán determinarse con mayor precisión la importancia relativa de cada uno de
los factores al momento de explicar el evento de atrición.

30 • Instituto Nacional de Estadística e Informática


Cuadro 5: Prueba de Medias – Atrición 2009 – 2010 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Porcentaje de jefes de hogar hombres 0,7626 0,8220 -0,0594 -3,4522 ***


Porcentaje de hombres en el hogar 0,4550 0,4591 -0,0041 -0,4188
Edad del jefe de hogar 50,1991 50,4434 -0,2443 -0,3825
Edad promedio del hogar 34,5591 32,5634 1,9957 2,8525 ***
Edad mediana del hogar 33,0906 30,6463 30,6463 3,1231 ***
Porcentaje de miembros del hogar entre 0 y 18 años 0,2806 0,2906 -0,0100 -1,0546
Porcentaje de miembros del hogar entre 18 y 24 años 0,0854 0,1020 -0,0166 -2,7206 ***
Porcentaje de miembros del hogar entre 25 y 35 años 0,1370 0,1489 -0,0118 -1,4490 *
Porcentaje de miembros del hogar entre 35 y 45 años 0,1113 0,1144 -0,0030 -0,4224
Porcentaje de miembros del hogar entre 45 y 65 años 0,1705 0,1708 -0,0003 -0,0273
Porcentaje de miembros del hogar de más de 65 0,2151 0,1734 0,0417 3,3880 ***
1 Porcentaje de hogares convivientes 0,2804 0,3002 -0,0198 -1,0756
2 Porcentaje de hogares casados 0,4131 0,5023 -0,0892 -4,4286 ***
3 Porcentaje de hogares viudos 0,1172 0,0724 0,0448 3,4684 ***
4 Porcentaje de hogares divorciados 0,0077 0,0060 0,0016 0,4625
5 Porcentaje de hogares separados 0,1132 0,0769 0,0363 2,8435 ***
6 Porcentaje de hogares solteros 0,0685 0,0422 0,0263 2,5914 ***
Nivel Educativo:
1 Sin Nivel 0,0814 0,0392 0,0422 3,8729 ***
2 Educación Inicial 0,0003 - 0,0003 0,4602
3 Primaria Incompleta 0,2312 0,2097 0,0216 1,2573
4 Primaria completa 0,1729 0,1644 0,0085 0,5541
5 Secundaria incompleta 0,1268 0,1508 -0,0240 -1,7551 *
6 Secundaria completa 0,1991 0,2157 -0,0165 -1,0116
7 Sup. No univ. Incompleta 0,0270 0,0271 -0,0002 -0,0243
8 Sup. No univ. completa 0,0642 0,0618 0,0024 0,2358
9 Sup. univ. Incompleta 0,0310 0,0362 -0,0052 -0,7317
10 Sup. univ. completa 0,0541 0,0799 0,0799 -2,7351 ***
11 Post grado 0,0118 0,0151 -0,0033 -0,7304
Número de perceptores de ingresos 2,1118 2,3997 -0,2879 -6,0895 ***
Acceso a servicios:
Combustible cocina: electricidad (%) 0,0278 0,0603 -0,0325 -4,6122 ***
Combustible cocina: GLP (%) 0,5379 0,6229 -0,0850 -4,1852 ***
Combustible cocina: gas natural (%) 0,0005 - 0,0005 0,5636
Combustible cocina: kerosene (%) 0,0201 0,0166 0,0035 0,6201
Combustible cocina: carbón (%) 0,0827 0,0784 0,0043 0,3810
Combustible cocina: leña (%) 0,4661 0,3997 0,0664 3,2629 ***
Acceso teléfono fijo (%) 0,2052 0,3228 -0,1176 -7,0162 ***
Acceso teléfono móvil (%) 0,5906 0,6576 -0,0670 -3,3471 ***
Acceso TV paga (%) 0,1447 0,2066 -0,0620 -4,2480 ***
Acceso internet (%) 0,0552 0,0995 -0,0443 -4,5924 ***
Sin acceso TICs (%) 0,3577 0,2851 0,0726 3,7278 ***
Vivienda inadecuada (%) 0,1091 0,0841 0,0250 1,9906 **
Vivienda con hacinamiento (%) 0,0905 0,1081 -0,0176 -1,4946 *
Vivienda sin servicios higiénicos (%) 0,1996 0,1538 0,0457 2,8268 ***
Vivienda sin niños que asisten a la escuela (%)
Hogares con alta dependencia económica (%) 0,0093 0,0045 0,0047 1,2410 *

Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 31


Cuadro 6: Prueba de Medias – Atrición 2009 – 2010 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t
Ubicación geográfica:
Costa Norte 0,1385 0,1206 0,0179 1,5352
Costa Centro 0,0734 0,0578 0,0157 1,7844 *
Costa Sur 0,0586 0,0557 0,0029 0,3577
Siera Norte 0,0629 0,0628 0,0001 0,0077
Sierra Centro 0,1898 0,1429 0,0470 3,5605 ***
Sierra Sur 0,1467 0,1459 0,0008 0,0642
Selva 0,2182 0,1581 0,0601 4,3305 ***
Lima Metropolitana 0,1120 0,2563 -0,1444 -12,7084 ***
Tipo de vivienda: -
casa independiente 0,8834 0,8695 0,0139 1,0527
departamento en edificio 0,0267 0,0395 -0,0128 -1,8964 *
vivienda en quinta 0,0106 0,0152 -0,0045 -1,0598
Vivienda en casa de vecindad 0,0492 0,0607 -0,0115 -1,2810
choza o cabaña 0,0249 0,0137 0,0112 1,7930 *
vivienda improvisada 0,0049 0,0015 0,0034 1,2243
Local no destinado para habitación humana 0,0002 - 0,0002 0,3282
otro 0,0002 - 0,0002 0,3282
Situación de la vivienda -
alquilada 0,0857 0,0980 -0,0123 -1,0688
propia, totalmente pagada 0,7003 0,6878 0,0125 0,6683
propia, por invasión 0,0463 0,0558 -0,0095 -1,0970
propia, comprándola a plazos 0,0042 0,0121 -0,0079 -2,7740 ***
cedida por el centro de trabajo 0,0110 0,0030 0,0080 1,9450 *
cedida por otro hogar o institución 0,1515 0,1433 0,0082 0,5636
otra forma 0,0010 - 0,0010 0,7972
Abastecimiento de agua:
red pública, dentro de la vivienda 0,5657 0,6244 -0,0587 -2,9072 ***
red pública, fuera de la vivienda pero dentro del edificio 0,0726 0,0860 -0,0133 -1,2468
pilón de uso público 0,0211 0,0226 -0,0015 -0,2630
camión - cisterna u otro similar 0,0134 0,0075 0,0059 1,2762
pozo 0,0490 0,0498 -0,0008 -0,0856
río, acequia, manantial o similar 0,2320 0,1900 0,0420 2,4492 **
otra 0,0461 0,0196 0,0265 3,1836 ***
Servicio higiénico:
red pública dentro de la vivienda 0,4370 0,5324 -0,0954 -4,7068 ***
red pública dentro de la vivienda pero fuera del edificio 0,0620 0,0694 -0,0074 -0,7506
Pozo séptico 0,1534 0,1342 0,0192 1,3110
Pozo ciego o negro - letrina 0,1480 0,1101 0,0379 2,6417 ***
Río, acequia o canal 0,0236 0,0256 -0,0020 -0,3227
No tiene 0,1760 0,1282 0,0477 3,1042 ***
Situación de pobreza
Pobre extremo 0,1253 0,0935 0,0318 2,3791 **
Pobre no extremo 0,2307 0,2504 -0,0197 -1,1392
No pobre 0,6439 0,6561 -0,0122 -0,6226
Ingresos
Ingreso monetario (bruto) 16 634 23 233 -6 599 -9,3524 ***
Gasto monetario (bruto) 16 232 21 838 -5 606 -9,5810 ***
Fuente: Estimaciones propias.

32 • Instituto Nacional de Estadística e Informática


Cuadro 7: Prueba de Medias – Atrición 2010 – 2011 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Porcentaje de jefes de hogar hombres 0,7615 0,8170 -0,0555 -1,9679 **


Porcentaje de hombres en el hogar 0,4522 0,4332 0,0190 1,1825
Edad del jefe de hogar 50,5411 50,1830 0,3581 0,3425
Edad promedio del hogar 34,9864 33,1999 1,7865 1,5573
Edad mediana del hogar 33,5156 31,8383 1,6773 1,3102
Porcentaje de miembros del hogar entre 0 y 18 años 0,2715 0,2655 0,0060 0,3908
Porcentaje de miembros del hogar entre 18 y 24 años 0,0856 0,0919 -0,0063 -0,6167
Porcentaje de miembros del hogar entre 25 y 35 años 0,1314 0,1445 -0,0131 -1,0146
Porcentaje de miembros del hogar entre 35 y 45 años 0,1096 0,1366 -0,0270 -2,2759 **
Porcentaje de miembros del hogar entre 45 y 65 años 0,1771 0,1543 0,0228 1,4239
Porcentaje de miembros del hogar de más de 65 0,2248 0,2072 0,0175 0,8613
1 Porcentaje de hogares convivientes 0,2756 0,3404 -0,0649 -2,1819 **
2 Porcentaje de hogares casados 0,4109 0,4383 -0,0274 -0,8382
3 Porcentaje de hogares viudos 0,1199 0,0766 0,0433 2,0174 **
4 Porcentaje de hogares divorciados 0,0070 0,0043 0,0027 0,4974
5 Porcentaje de hogares separados 0,1183 0,0936 0,0247 1,1563
6 Porcentaje de hogares solteros 0,0684 0,0468 0,0215 1,2928
Nivel Educativo: -
1 Sin Nivel 0,0813 0,0213 0,0600 3,3486 ***
2 Educación Inicial - - - .
3 Primaria Incompleta 0,2215 0,2085 0,0130 0,4707
4 Primaria completa 0,1729 0,1787 -0,0059 -0,2331
5 Secundaria incompleta 0,1316 0,1319 -0,0004 -0,0162
6 Secundaria completa 0,1950 0,2468 -0,0518 -1,9612 **
7 Sup. No univ. Incompleta 0,0266 0,0340 -0,0075 -0,6951
8 Sup. No univ. completa 0,0714 0,0809 -0,0095 -0,5519
9 Sup. univ. Incompleta 0,0293 0,0340 -0,0047 -0,4207
10 Sup. univ. completa 0,0551 0,0596 -0,0044 -0,2921
11 Post grado 0,0153 0,0043 0,0111 1,3757
Número de perceptores de ingresos 2,1686 2,3745 -0,2059 -2,6464 ***
Acceso a servicios: -
Combustible cocina: electricidad (%) 0,0333 0,0596 -0,0263 -2,1816 **
Combustible cocina: GLP (%) 0,5754 0,6979 -0,1225 -3,7400 ***
Combustible cocina: gas natural (%) 0,0008 - 0,0008 0,4226
Combustible cocina: kerosene (%) 0,0125 0,0255 -0,0131 -1,7451 *
Combustible cocina: carbón (%) 0,0883 0,1234 -0,0351 -1,8551 *
Combustible cocina: leña (%) 0,4373 0,3404 0,0969 2,9469 **
Acceso teléfono fijo (%) 0,1908 0,2936 -0,1028 -3,9181 ***
Acceso teléfono móvil (%) 0,6632 0,7277 -0,0644 -2,0574 **
Acceso TV paga (%) 0,1750 0,2596 -0,0846 -3,3335 ***
Acceso internet (%) 0,0772 0,1064 -0,0292 -1,6394
Sin acceso TICs (%) 0,2953 0,2085 0,0868 2,8759 ***
Vivienda inadecuada (%) 0,1086 0,0511 0,0575 2,8099 ***
Vivienda con hacinamiento (%) 0,0846 0,0596 0,0250 1,3615
Vivienda sin servicios higiénicos (%) 0,1893 0,1404 0,0488 1,8851 *
Vivienda sin niños que asisten a la escuela (%) 0,0112 0,0085 0,0027 0,3917
Hogares con alta dependencia económica (%) 0,0071 - 0,0071 1,2998
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 33


Cuadro 8: Prueba de Medias – Atrición 2010 – 2011 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Ubicación geográfica: -
Costa Norte 0,1348 0,1310 0,0038 0,2229
Costa Centro 0,0749 0,0619 0,0130 0,9873
Costa Sur 0,0632 0,0524 0,0108 0,8867
Siera Norte 0,0666 0,0333 0,0332 2,6922 ***
Sierra Centro 0,1757 0,1238 0,0519 2,7356 ***
Sierra Sur 0,1457 0,1548 -0,0091 -0,5122
Selva 0,2210 0,1500 0,0710 3,4334 ***
Lima Metropolitana 0,1183 0,2929 -0,1746 -10,4978 ***
Tipo de vivienda: -
casa independiente 0,8561 0,8060 0,0501 2,1246 **
departamento en edificio 0,0294 0,0690 -0,0395 -3,4268 ***
vivienda en quinta 0,0093 0,0302 -0,0209 -3,1393 ***
Vivienda en casa de vecindad 0,0616 0,0603 0,0013 0,0811
choza o cabaña 0,0364 0,0345 0,0019 0,1533
vivienda improvisada 0,0056 - 0,0056 1,1404
Local no destinado para habitación humana 0,0008 - 0,0008 0,4240
otro 0,0008 - 0,0008 0,4240
Situación de la vivienda -
alquilada 0,0823 0,0809 0,0015 0,0812
propia, totalmente pagada 0,7029 0,7489 -0,0461 -1,5208
propia, por invasión 0,0459 0,0426 0,0033 0,2395
propia, comprándola a plazos 0,0061 0,0085 -0,0024 -0,4686
cedida por el centro de trabajo 0,0122 - 0,0122 1,7000 *
cedida por otro hogar o institución 0,1501 0,1191 0,0309 1,3085
otra forma 0,0006 - 0,0006 0,3779
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5800 0,6979 -0,1179 -3,6059 ***
red pública, fuera de la vivienda pero dentro del edificio 0,0784 0,0766 0,0018 0,1002
pilón de uso público 0,0219 0,0383 -0,0164 -1,6704 *
camión - cisterna u otro similar 0,0160 0,0170 -0,0011 -0,1286
pozo 0,0447 0,0170 0,0276 2,0367 **
río, acequia, manantial o similar 0,2192 0,1319 0,0873 3,1959 ***
otra 0,0400 0,0213 0,0187 1,4476
Servicio higiénico: -
red pública dentro de la vivienda 0,4419 0,5745 -0,1326 -4,0212 ***
red pública dentro de la vivienda pero fuera del edificio 0,0749 0,0766 -0,0017 -0,0976
Pozo séptico 0,1657 0,1319 0,0338 1,3737
Pozo ciego o negro - letrina 0,1282 0,0766 0,0516 2,3400 **
Río, acequia o canal 0,0204 0,0170 0,0033 0,3566
No tiene 0,1689 0,1234 0,0455 1,8369
Situación de pobreza -
Pobre extremo 0,0881 0,0681 0,0200 1,0677
Pobre no extremo 0,2265 0,2043 0,0222 0,8012
No pobre 0,6854 0,7277 -0,0423 -1,3725
Ingresos -
Ingreso monetario (bruto) 18 776 23 817 -5 041 -2,8312 ***
Gasto monetario (bruto) 17 391 22 364 -4 972 -5,3306 ***
Fuente: Estimaciones propias.

34 • Instituto Nacional de Estadística e Informática


Cuadro 9: Prueba de Medias – Atrición 2008, 2009 – 2010 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Porcentaje de jefes de hogar hombres 0,7620 0,8342 -0,0722 -3,2190 ***


Porcentaje de hombres en el hogar 0,4479 0,4614 -0,0135 -1,0730
Edad del jefe de hogar 50,3017 51,2642 -0,9626 -1,1697
Edad promedio del hogar 34,3715 32,6604 1,7111 1,8849 *
Edad mediana del hogar 32,7502 30,4896 2,2605 2,2202 **
Porcentaje de miembros del hogar entre 0 y 18 años 0,2831 0,2834 -0,0003 -0,0229
Porcentaje de miembros del hogar entre 18 y 24 años 0,0853 0,1058 -0,0205 -2,6580 ***
Porcentaje de miembros del hogar entre 25 y 35 años 0,1315 0,1473 -0,0158 -1,5507
Porcentaje de miembros del hogar entre 35 y 45 años 0,1126 0,1183 -0,0056 -0,6079
Porcentaje de miembros del hogar entre 45 y 65 años 0,1632 0,1638 -0,0006 -0,0465
Porcentaje de miembros del hogar de más de 65 0,2242 0,1815 0,0427 2,6716 ***
1 Porcentaje de hogares convivientes 0,2853 0,3057 -0,0204 -0,8462
2 Porcentaje de hogares casados 0,4149 0,5052 -0,0903 -3,4421 ***
3 Porcentaje de hogares viudos 0,1163 0,0570 0,0593 3,5483 ***
4 Porcentaje de hogares divorciados 0,0064 0,0104 -0,0040 -0,9131
5 Porcentaje de hogares separados 0,1130 0,0829 0,0301 1,8033 *
6 Porcentaje de hogares solteros 0,0642 0,0389 0,0253 1,9736 **
Nivel Educativo: -
1 Sin Nivel 0,0824 0,0440 0,0384 2,6733 ***
2 Educación Inicial 0,0005 - 0,0005 0,4276
3 Primaria Incompleta 0,2387 0,2098 0,0288 1,2771
4 Primaria completa 0,1752 0,1477 0,0276 1,3706
5 Secundaria incompleta 0,1260 0,1658 -0,0398 -2,2329 **
6 Secundaria completa 0,1987 0,2202 -0,0215 -1,0114
7 Sup. No univ. Incompleta 0,0246 0,0259 -0,0013 -0,1549
8 Sup. No univ. completa 0,0583 0,0622 -0,0039 -0,3142
9 Sup. univ. Incompleta 0,0313 0,0363 -0,0050 -0,5381
10 Sup. univ. completa 0,0533 0,0725 -0,0193 -1,5903
11 Post grado 0,0111 0,0155 -0,0044 -0,7786
Número de perceptores de ingresos 2,1288 2,4689 -0,3401 -5,5402 ***
Acceso a servicios:
Combustible cocina: electricidad (%) 0,0239 0,0570 -0,0331 -3,8652 ***
Combustible cocina: GLP (%) 0,5316 0,6373 -0,1057 -3,9945 ***
Combustible cocina: gas natural (%) 0,0005 - 0,0005 0,4276
Combustible cocina: kerosene (%) 0,0204 0,0130 0,0074 1,0018
Combustible cocina: carbón (%) 0,0805 0,0751 0,0054 0,3729
Combustible cocina: leña (%) 0,4828 0,4249 0,0580 2,1828 **
Acceso teléfono fijo (%) 0,2058 0,3212 -0,1155 -5,2966 ***
Acceso teléfono móvil (%) 0,5849 0,6788 -0,0939 -3,5971 ***
Acceso TV paga (%) 0,1369 0,1865 -0,0497 -2,6847 ***
Acceso internet (%) 0,0571 0,1036 -0,0466 -3,6639 ***
Sin acceso TICs (%) 0,3659 0,2824 0,0835 3,2757 ***
Vivienda inadecuada (%) 0,1041 0,0799 0,0242 1,5082
Vivienda con hacinamiento (%) 0,0942 0,0902 0,0040 0,2568
Vivienda sin servicios higiénicos (%) 0,2010 0,1684 0,0326 1,5399
Hogares con alta dependencia económica (%) 0,0083 0,0052 0,0031 0,6546
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 35


Cuadro 10: Prueba de Medias – Atrición 2008, 2009 – 2010 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Ubicación geográfica: -
Costa Norte 0,1365 0,1146 0,0219 1,3666
Costa Centro 0,0730 0,0613 0,0118 0,9714
Costa Sur 0,0575 0,0494 0,0081 0,7472
Siera Norte 0,0619 0,0652 -0,0034 -0,2962
Sierra Centro 0,1972 0,1601 0,0371 2,0031 **
Sierra Sur 0,1491 0,1383 0,0107 0,6425
Selva 0,2210 0,1680 0,0530 2,7455 ***
Lima Metropolitana 0,1039 0,2431 -0,1392 -9,2606 ***
Tipo de vivienda: -
casa independiente 0,8927 0,8646 0,0281 1,6841 *
departamento en edificio 0,0243 0,0339 -0,0096 -1,1512
vivienda en quinta 0,0094 0,0182 -0,0089 -1,6610 *
Vivienda en casa de vecindad 0,0466 0,0677 -0,0211 -1,8459
choza o cabaña 0,0231 0,0156 0,0074 0,9407
vivienda improvisada 0,0038 - 0,0038 1,2168
Local no destinado para habitación humana 0,0002 - 0,0002 0,3036
otro - - -
Situación de la vivienda -
alquilada 0,0793 0,0933 -0,0139 -0,9633
propia, totalmente pagada 0,7213 0,6865 0,0348 1,4534
propia, por invasión 0,0452 0,0648 -0,0195 -1,7387 *
propia, comprándola a plazos 0,0047 0,0104 -0,0056 -1,4703
cedida por el centro de trabajo 0,0095 0,0052 0,0043 0,8490
cedida por otro hogar o institución 0,1392 0,1399 -0,0007 -0,0358
otra forma 0,0007 - 0,0007 0,5237
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5543 0,5984 -0,0441 -1,6702 *
red pública, fuera de la vivienda pero dentro del edificio 0,0684 0,0984 -0,0300 -2,1990 **
pilón de uso público 0,0225 0,0311 -0,0086 -1,0729
camión - cisterna u otro similar 0,0126 0,0052 0,0074 1,2762
pozo 0,0535 0,0596 -0,0061 -0,5048
río, acequia, manantial o similar 0,2422 0,1995 0,0428 1,8870 *
otra 0,0464 0,0078 0,0386 3,5794 ***
Servicio higiénico: -
red pública dentro de la vivienda 0,4277 0,5207 -0,0931 -3,5340 ***
red pública dentro de la vivienda pero fuera del edificio 0,0599 0,0725 -0,0126 -0,9925
Pozo séptico 0,1629 0,1295 0,0334 1,7122 *
Pozo ciego o negro - letrina 0,1485 0,1088 0,0397 2,1182 **
Río, acequia o canal 0,0237 0,0285 -0,0048 -0,5909
No tiene 0,1774 0,1399 0,0375 1,8579 *
Situación de pobreza
Pobre extremo 0,1324 0,0933 0,0391 0,0283 **
Pobre no extremo 0,2356 0,2565 -0,0209 0,3566
No pobre 0,6320 0,6503 -0,0182 0,4765
Ingresos
Ingreso monetario (bruto) 16 064 23 821 -7 757 -6,5391 ***
Gasto monetario (bruto) 16 138 22 405 -6 267 -8,1659 ***
Fuente: Estimaciones propias.

36 • Instituto Nacional de Estadística e Informática


Cuadro 11: Prueba de Medias – Atrición 2009, 2010 – 2011 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Porcentaje de jefes de hogar hombres 0,7626 0,8182 -0,0556 -1,8521 *


Porcentaje de hombres en el hogar 0,4470 0,4288 0,0182 1,0787
Edad del jefe de hogar 50,9064 50,2679 0,6385 0,5770
Edad promedio del hogar 35,1705 33,0757 2,0949 1,7238 *
Edad mediana del hogar 33,5975 31,5478 2,0496 1,5058
Porcentaje de miembros del hogar entre 0 y 18 años 0,2653 0,2699 -0,0045 -0,2813
Porcentaje de miembros del hogar entre 18 y 24 años 0,0833 0,0925 -0,0092 -0,8911
Porcentaje de miembros del hogar entre 25 y 35 años 0,1297 0,1336 -0,0039 -0,2876
Porcentaje de miembros del hogar entre 35 y 45 años 0,1075 0,1424 -0,0349 -2,8267 **
Porcentaje de miembros del hogar entre 45 y 65 años 0,1736 0,1533 0,0203 1,2233
Porcentaje de miembros del hogar de más de 65 0,2406 0,2083 0,0323 1,4885
1 Porcentaje de hogares convivientes 0,2735 0,3254 -0,0519 -1,6395
2 Porcentaje de hogares casados 0,4133 0,4641 -0,0508 -1,4574
3 Porcentaje de hogares viudos 0,1200 0,0766 0,0435 1,9041 *
4 Porcentaje de hogares divorciados 0,0058 - 0,0058 1,1072
5 Porcentaje de hogares separados 0,1171 0,0909 0,0262 1,1566
6 Porcentaje de hogares solteros 0,0702 0,0431 0,0272 1,5143
Nivel Educativo: -
1 Sin Nivel 0,0839 0,0239 0,0600 3,1053 ***
2 Educación Inicial - - - .
3 Primaria Incompleta 0,2293 0,2010 0,0283 0,9545
4 Primaria completa 0,1730 0,1770 -0,0040 -0,1511
5 Secundaria incompleta 0,1310 0,1435 -0,0125 -0,5228
6 Secundaria completa 0,1918 0,2488 -0,0570 -2,0346 **
7 Sup. No univ. Incompleta 0,0242 0,0383 -0,0140 -1,2746
8 Sup. No univ. completa 0,0687 0,0766 -0,0079 -0,4402
9 Sup. univ. Incompleta 0,0298 0,0335 -0,0037 -0,3024
10 Sup. univ. completa 0,0532 0,0526 0,0005 0,0342
11 Post grado 0,0150 0,0048 0,0102 1,2082
Número de perceptores de ingresos 2,1860 2,4163 -0,2303 -2,7430 ***
Acceso a servicios:
Combustible cocina: electricidad (%) 0,0303 0,0526 -0,0223 -1,8135 *
Combustible cocina: GLP (%) 0,5674 0,6890 -0,1216 -3,4763 ***
Combustible cocina: gas natural (%) 0,0007 - 0,0007 0,3751
Combustible cocina: kerosene (%) 0,0119 0,0287 -0,0168 -2,1271 **
Combustible cocina: carbón (%) 0,0853 0,1196 -0,0344 -1,7245 *
Combustible cocina: leña (%) 0,4521 0,3636 0,0885 2,5145 **
Acceso teléfono fijo (%) 0,1864 0,2632 -0,0767 -2,7651 ***
Acceso teléfono móvil (%) 0,6648 0,7273 -0,0625 -1,8742 *
Acceso TV paga (%) 0,1676 0,2488 -0,0812 -3,0480 ***
Acceso internet (%) 0,0705 0,1053 -0,0348 -1,9031 *
Sin acceso TICs (%) 0,2944 0,2249 0,0695 2,1616 **
Vivienda inadecuada (%) 0,1066 0,0574 0,0492 2,2725 **
Vivienda con hacinamiento (%) 0,0859 0,0622 0,0237 1,2031
Vivienda sin servicios higiénicos (%) 0,1887 0,1435 0,0452 1,6374
Vivienda sin niños que asisten a la escuela (%) 0,0117 0,0096 0,0021 0,2771
Hogares con alta dependencia económica (%) 0,0076 - 0,0076 1,2672
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 37


Cuadro 12: Prueba de Medias – Atrición 2009, 2010 – 2011 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t
Ubicación geográfica:
Costa Norte 0,1301 0,1262 0,0038 0,1924
Costa Centro 0,0734 0,0565 0,0169 1,0961
Costa Sur 0,0621 0,0465 0,0155 1,0915
Siera Norte 0,0749 0,0399 0,0350 2,2664 **
Sierra Centro 0,1936 0,1262 0,0674 2,8937 ***
Sierra Sur 0,1397 0,1429 -0,0032 -0,1536
Selva 0,2205 0,1495 0,0710 2,9030 ***
Lima Metropolitana 0,1058 0,3123 -0,2065 -10,8812 ***
Tipo de vivienda: -
casa independiente 0,8572 0,8173 0,0399 1,5990
departamento en edificio 0,0243 0,0577 -0,0334 -2,9716 ***
vivienda en quinta 0,0079 0,0288 -0,0209 -3,1411 ***
Vivienda en casa de vecindad 0,0690 0,0577 0,0113 0,6315
choza o cabaña 0,0343 0,0385 -0,0042 -0,3230
vivienda improvisada 0,0052 - 0,0052 1,0446
Local no destinado para habitación humana 0,0009 - 0,0009 0,4347
otro 0,0011 - 0,0011 0,4861
Situación de la vivienda -
alquilada 0,0796 0,0670 0,0127 0,6630
propia, totalmente pagada 0,7108 0,7703 -0,0595 -1,8610 *
propia, por invasión 0,0451 0,0478 -0,0027 -0,1869
propia, comprándola a plazos 0,0038 0,0048 -0,0010 -0,2211
cedida por el centro de trabajo 0,0132 - 0,0132 1,6741 *
cedida por otro hogar o institución 0,1470 0,1100 0,0369 1,4800
otra forma 0,0004 - 0,0004 0,3062
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5798 0,6842 -0,1044 -2,9968 ***
red pública, fuera de la vivienda pero dentro del edificio 0,0859 0,0718 0,0142 0,7163
pilón de uso público 0,0184 0,0335 -0,0151 -1,5593
camión - cisterna u otro similar 0,0103 0,0191 -0,0088 -1,2100
pozo 0,0449 0,0191 0,0257 1,7785 *
río, acequia, manantial o similar 0,2235 0,1483 0,0751 2,5639 **
otra 0,0372 0,0239 0,0133 1,0016
Servicio higiénico: -
red pública dentro de la vivienda 0,4326 0,5646 -0,1320 -3,7640 ***
red pública dentro de la vivienda pero fuera del edificio 0,0837 0,0670 0,0167 0,8556
Pozo séptico 0,1703 0,1388 0,0315 1,1893
Pozo ciego o negro - letrina 0,1247 0,0861 0,0386 1,6616 *
Río, acequia o canal 0,0195 0,0144 0,0052 0,5306
No tiene 0,1692 0,1292 0,0400 1,5134
Situación de pobreza
Pobre extremo 0,0927 0,0766 0,0161 0,7876
Pobre no extremo 0,2315 0,2105 0,0210 0,7050
No pobre 0,6758 0,7129 -0,0371 -1,1221
Ingresos
Ingreso monetario (bruto) 18 394 23 278 -4 884 -2,6348 ***
Gasto monetario (bruto) 17 001 21 944 -4 943 -5,0940 ***
Fuente: Estimaciones propias.

38 • Instituto Nacional de Estadística e Informática


Cuadro 13: Prueba de Medias – Atrición 2008, 2009, 2010 – 2011 (I)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Porcentaje de jefes de hogar hombres 0,7632 0,8220 -0,0587 -1,8544 *


Porcentaje de hombres en el hogar 0,4413 0,4293 0,0120 0,6863
Edad del jefe de hogar 50,7749 49,7120 1,0628 0,9107
Edad promedio del hogar 34,7734 32,6346 2,1388 1,6806 *
Edad mediana del hogar 33,0309 31,0733 1,9577 1,3702
Porcentaje de miembros del hogar entre 0 y 18 años 0,2649 0,2729 -0,0080 -0,4727
Porcentaje de miembros del hogar entre 18 y 24 años 0,0866 0,0950 -0,0084 -0,7534
Porcentaje de miembros del hogar entre 25 y 35 años 0,1273 0,1357 -0,0085 -0,6081
Porcentaje de miembros del hogar entre 35 y 45 años 0,1082 0,1401 -0,0319 -2,4523 **
Porcentaje de miembros del hogar entre 45 y 65 años 0,1642 0,1506 0,0135 0,8189
Porcentaje de miembros del hogar de más de 65 0,2489 0,2056 0,0432 1,8870 *
1 Porcentaje de hogares convivientes 0,2793 0,3298 -0,0505 -1,4967
2 Porcentaje de hogares casados 0,4093 0,4660 -0,0567 -1,5353
3 Porcentaje de hogares viudos 0,1176 0,0733 0,0443 1,8557 *
4 Porcentaje de hogares divorciados 0,0054 - 0,0054 1,0195
5 Porcentaje de hogares separados 0,1246 0,0838 0,0408 1,6640 *
6 Porcentaje de hogares solteros 0,0638 0,0471 0,0167 0,9192
Nivel Educativo: -
1 Sin Nivel 0,0836 0,0262 0,0574 2,8301 ***
2 Educación Inicial - - - .
3 Primaria Incompleta 0,2294 0,1780 0,0514 1,6392
4 Primaria completa 0,1737 0,1832 -0,0096 -0,3356
5 Secundaria incompleta 0,1451 0,1466 -0,0015 -0,0579
6 Secundaria completa 0,1926 0,2513 -0,0587 -1,9687 **
7 Sup. No univ. Incompleta 0,0221 0,0419 -0,0198 -1,7496 *
8 Sup. No univ. completa 0,0619 0,0838 -0,0219 -1,1970
9 Sup. univ. Incompleta 0,0267 0,0366 -0,0100 -0,8135
10 Sup. univ. completa 0,0515 0,0471 0,0043 0,2620
11 Post grado 0,0135 0,0052 0,0083 0,9787
Número de perceptores de ingresos 2,2027 2,3822 -0,1795 -2,0155 **
Acceso a servicios:
Combustible cocina: electricidad (%) 0,0248 0,0471 -0,0224 -1,8642 *
Combustible cocina: GLP (%) 0,5749 0,6963 -0,1215 -3,2913 ***
Combustible cocina: gas natural (%) 0,0004 - 0,0004 0,2718
Combustible cocina: kerosene (%) 0,0116 0,0262 -0,0146 -1,7422 *
Combustible cocina: carbón (%) 0,0859 0,1099 -0,0241 -1,1356
Combustible cocina: leña (%) 0,4619 0,3717 0,0902 2,4162 **
Acceso teléfono fijo (%) 0,1810 0,2565 -0,0755 -2,5886 **
Acceso teléfono móvil (%) 0,6723 0,7330 -0,0606 -1,7292 *
Acceso TV paga (%) 0,1524 0,2408 -0,0884 -3,2337 **
Acceso internet (%) 0,0704 0,1047 -0,0343 -1,7617 *
Sin acceso TICs (%) 0,2944 0,2199 0,0745 2,1922 **
Vivienda inadecuada (%) 0,1083 0,0576 0,0507 2,2095 **
Vivienda con hacinamiento (%) 0,0894 0,0628 0,0265 1,2520
Vivienda sin servicios higiénicos (%) 0,1985 0,1414 0,0571 1,9241 *
Vivienda sin niños que asisten a la escuela (%) 0,0132 0,0105 0,0027 0,3160
Hogares con alta dependencia económica (%) 0,0070 - 0,0070 1,1569
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 39


Cuadro 14: Prueba de Medias – Atrición 2008, 2009, 2010 – 2011 (II)

Sin Atrición Con Atrición Resultados


Variable
Promedio Promedio Diferencia t

Ubicación geográfica:
Costa Norte 0,1294 0,1181 0,0112 0,4949
Costa Centro 0,0737 0,0675 0,0062 0,3511
Costa Sur 0,0639 0,0380 0,0260 1,5903
Siera Norte 0,0730 0,0380 0,0350 2,0221 **
Sierra Centro 0,1989 0,1350 0,0639 2,3876 **
Sierra Sur 0,1346 0,1308 0,0038 0,1659
Selva 0,2351 0,1477 0,0874 3,0765 **
Lima Metropolitana 0,0914 0,3249 -0,2335 -11,2197 ***
Tipo de vivienda:
casa independiente 0,8668 0,8115 0,0553 2,1464 **
departamento en edificio 0,0184 0,0628 -0,0445 -4,1047 ***
vivienda en quinta 0,0074 0,0314 -0,0240 -3,3774 ***
Vivienda en casa de vecindad 0,0668 0,0576 0,0092 0,4923
choza o cabaña 0,0332 0,0366 -0,0035 -0,2565
vivienda improvisada 0,0055 - 0,0055 1,0243
Local no destinado para habitación humana - - - .
otro 0,0020 - 0,0020 0,6110
Situación de la vivienda -
alquilada 0,0797 0,0733 0,0064 0,3155
propia, totalmente pagada 0,7141 0,7592 -0,0450 -1,3338
propia, por invasión 0,0437 0,0524 -0,0086 -0,5599
propia, comprándola a plazos 0,0043 - 0,0043 0,9031
cedida por el centro de trabajo 0,0116 - 0,0116 1,4970
cedida por otro hogar o institución 0,1458 0,1152 0,0307 1,1653
otra forma 0,0008 - 0,0008 0,3844
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5725 0,6806 -0,1081 -2,9242 **
red pública, fuera de la vivienda pero dentro del edificio 0,0816 0,0733 0,0083 0,4067
pilón de uso público 0,0232 0,0314 -0,0082 -0,7179
camión - cisterna u otro similar 0,0062 0,0209 -0,0148 -2,3278 **
pozo 0,0484 0,0157 0,0326 2,0770 **
río, acequia, manantial o similar 0,2321 0,1518 0,0803 2,5595 **
otra 0,0360 0,0262 0,0098 0,7079
Servicio higiénico: -
red pública dentro de la vivienda 0,4213 0,5550 -0,1337 -3,6082 ***
red pública dentro de la vivienda pero fuera del edificio 0,0824 0,0681 0,0143 0,6989
Pozo séptico 0,1764 0,1414 0,0350 1,2326
Pozo ciego o negro - letrina 0,1215 0,0942 0,0272 1,1190
Río, acequia o canal 0,0182 0,0105 0,0077 0,7807
No tiene 0,1803 0,1309 0,0494 1,7263 *
Situación de pobreza
Pobre extremo 0,0948 0,0733 0,0215 0,9847
Pobre no extremo 0,2340 0,2147 0,0194 0,6116
No pobre 0,6712 0,7120 -0,0409 -1,1624
Ingresos
Ingreso monetario (bruto) 17 676 23 299 -5 623 -3,1611 ***
Gasto monetario (bruto) 16 853 21 754 -4 901 -4,8021 ***
Fuente: Estimaciones propias.

40 • Instituto Nacional de Estadística e Informática


4.2. Análisis Multivariado

El análisis multivariado sigue la metodología de estimar un modelo de elección discreta


empleando un set de más de 90 variables empleadas en el análisis de medias de la sección anterior.
Al igual que en el análisis bivariado, se estimarán modelos para predecir el evento de atrición en
cada una de las combinaciones posibles, dando como resultado seis modelos en total.

Los resultados, presentados en los cuadros 15 al 20, confirman en parte el análisis de la


sección de comparación de medias. Sin embargo, permiten identificar el perfil de aquellos hogares
con mayor y menor riesgo de atrición. Específicamente, los hogares que presentarían un mayor
riesgo serían aquellos situados en Lima Metropolitana, los que tengan jefes de hogares de mayor
edad, tengan mayores ingresos familiares y posean acceso a servicios de telecomunicaciones. En
cambio, los hogares cuyo jefe de hogar sean separados, soltero o viudos o residan en viviendas
alquiladas, tendrán una menor probabilidad de atrición.

Al momento de analizar otros años, se puede ver que la educación no sería un factor
determinante al momento de precisar la probabilidad de atrición para toda la duración del panel,
mientras que, fuera de Lima Metropolitana, la residencia en determinada área geográfica no
representa un factor que en todos los años permita predecir la probabilidad de atrición.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 41


Cuadro 15: Probabilidad de Atrición 2008-09 (Probit)

Variable Coeficiente Err. Estándar z p-value

Acceso agua: red pública dentro de la vivienda 0,0942 0,0536 1,76 0,079
Acceso agua: red pública dentro de la vivienda pero fuera del edificio 0,1553 0,0891 1,74 0,081
Combustible: carbón -0,1447 0,0870 -1,66 0,096
Combustible: electricidad -0,1930 0,1414 -1,36 0,172
Combustible: kerosene -0,2165 0,1351 -1,60 0,109
Combustible: leña -0,0850 0,0543 -1,57 0,118
Dominio: Costa Centro -0,3686 0,1086 -3,40 0,001
Dominio: Costa Sur 0,2307 0,0946 2,44 0,015
Dominio: Lima Metropolitana 0,1312 0,0759 1,73 0,084
Dominio: Sierra Sur 0,1203 0,0628 1,91 0,056
Edad del jefe de hogar 0,0050 0,0026 1,90 0,058
Edad promedio del hogar -0,0046 0,0023 -1,97 0,048
Educación jefe hog: primaria completa 0,1299 0,0602 2,16 0,031
Educación jefe hog: primaria incompleta 0,0879 0,0597 1,47 0,141
Estado civil: separado -0,4742 0,0880 -5,39 0,000
Estado civil: soltero -0,2972 0,1092 -2,72 0,006
Estado civil: viudo -0,4594 0,0882 -5,21 0,000
NBI: Vivienda inadecuada -0,1265 0,0776 -1,63 0,103
Número de perceptores de ingresos 0,0457 0,0211 2,16 0,030
Teléfono fijo 0,0989 0,0608 1,63 0,104
Vivienda alquilada -0,2604 0,0942 -2,76 0,006
Constante -1,4864 0,0985 -15,09 0,000
N 6625
Pseudo R2 0,0373
LR Chi2 - Significancia conjunta 154,25
p-value 0,0000
Fuente: Estimaciones propias.

42 • Instituto Nacional de Estadística e Informática


Cuadro 16: Probabilidad de Atrición 2009-10 (Probit)

Variable Coeficiente Err. Estándar z p-value

Vivienda propia, por invasión 0,6019 0,3342 1,80 0,072


Vivienda en casa de vecindad 0,2413 0,1644 1,47 0,142
Edad del jefe de hogar 0,0048 0,0023 2,09 0,037
Vivienda propia, en proceso pago 0,9889 0,4033 2,45 0,014
Edad mediana del hogar -0,0049 0,0018 -2,68 0,007
Porcentaje de miembros del hogar 18-24 años 0,2663 0,1530 1,74 0,082
Hogar pobre no extremo 0,1209 0,0532 2,27 0,023
Estado civil: viudo -0,3269 0,0837 -3,90 0,000
Vivienda con hacinamiento 0,1031 0,0761 1,36 0,175
Estado civil: separado -0,2683 0,0784 -3,42 0,001
Estado civil: soltero -0,2246 0,1038 -2,16 0,030
Sierra central -0,1234 0,0649 -1,90 0,057
Vivienda en casa independiente 0,1842 0,0926 1,99 0,047
Costa sur -0,1417 0,1069 -1,33 0,185
Selva -0,1781 0,0639 -2,79 0,005
Vivienda propia, pagada 0,6238 0,3190 1,96 0,051
Acceso agua: red pública en la vivienda 0,3651 0,1215 3,01 0,003
Lima Metropolitana 0,4831 0,0722 6,69 0,000
Acceso aga: pozo 0,4490 0,1525 2,95 0,003
Ingreso mensual del hogar 0,0000 0,0000 1,76 0,078
Número de perceptores de ingresos 0,0279 0,0211 1,32 0,186
Combustible para cocinar: electricidad 0,1750 0,1126 1,55 0,120
Acceso agua: río, acequia. 0,3920 0,1285 3,05 0,002
Costa central -0,1566 0,0969 -1,62 0,106
Vivienda cedida por otro hogar o institución 0,6541 0,3233 2,02 0,043
Acceso agua: red pública en la vivienda pero fuera del edificio 0,5098 0,1667 3,06 0,002
Acceso a teléfono fijo 0,1343 0,0599 2,24 0,025
Acceso agua: pilón de uso público 0,3146 0,1872 1,68 0,093
Vivenda alquilada 0,6562 0,3258 2,01 0,044
Constante -2,6840 0,3598 -7,46 0,000
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 43


Cuadro 17: Probabilidad de Atrición 2010-11 (Probit)

Variable Coeficiente Err. Estándar z p-value

Acceso agua: red pública en la vivienda pero fuera del edificio 0,2885 0,1356 2,13 0,033
Porcentaje de hombres en el hogar -0,2676 0,1433 -1,87 0,062
Acceso agua: pilón de uso público 0,2537 0,1933 1,31 0,189
Edad mediana del hogar -0,0032 0,0022 -1,46 0,145
Vivienda inadecuada -0,2439 0,1296 -1,88 0,060
Acceso a internet -0,1520 0,1159 -1,31 0,190
Estado civil: casado -0,1099 0,0771 -1,42 0,154
Estado civil: viudo -0,3080 0,1303 -2,36 0,018
Estado civil: divorciado -0,6049 0,4515 -1,34 0,180
Estado civil: separado -0,3077 0,1154 -2,67 0,008
Estado civil: soltero -0,2643 0,1494 -1,77 0,077
Educación jefe hog: primaria incompleta 0,4933 0,1763 2,80 0,005
Educación jefe hog: primaria completa 0,4383 0,1813 2,42 0,016
Educación jefe hog: secundaria incompleta 0,3243 0,1896 1,71 0,087
Educación jefe hog: secundaria completa 0,3845 0,1815 2,12 0,034
Educación jefe hog: sup no univ incompleta 0,4265 0,2429 1,76 0,079
Educación jefe hog: sup no univ completa 0,4044 0,2016 2,01 0,045
Educación jefe hog: sup univ incompleta 0,3400 0,2484 1,37 0,171
Educación jefe hog: sup univ completa 0,3224 0,2121 1,52 0,129
Vivienda propia, totalmente pagada 0,2792 0,0790 3,53 0,000
Dominio: sierra norte -0,1979 0,1432 -1,38 0,167
Vivienda: choza o cabaña 0,2950 0,1868 1,58 0,114
Acceso agua: red pública en la vivienda 0,2077 0,0842 2,47 0,014
Dominio: sierra central -0,1812 0,1008 -1,80 0,072
Dominio: selva -0,2202 0,0989 -2,23 0,026
Vivienda en quinta 0,3177 0,2194 1,45 0,148
Dominio: Lima Metropolitana 0,6918 0,0849 8,15 0,000
Constante -2,2412 0,2183 -10,27 0,000
Fuente: Estimaciones propias.

44 • Instituto Nacional de Estadística e Informática


Cuadro 18: Probabilidad de Atrición 2008,2009 - 2010 (Probit)

Variable Coeficiente Err. Estándar z p-value

Acceso agua: pozo 0,8355 0,2215 3,77 0,000


Vivienda en quinta 0,5882 0,2760 2,13 0,033
Edad del jefe de hogar 0,0104 0,0028 3,68 0,000
Acceso agua: río, acequia 0,6966 0,2026 3,44 0,001
Edad mediana del hogar -0,0066 0,0023 -2,90 0,004
Porcentaje de miembros del hogar: 18-24 0,2717 0,1990 1,37 0,172
Pobre no extremo 0,1711 0,0687 2,49 0,013
Estado civil: viudo -0,4958 0,1150 -4,31 0,000
Acceso agua: red pública dentro de la vivienda 0,6378 0,1942 3,28 0,001
Estado civil: separado -0,2360 0,0986 -2,39 0,017
Hogar con teléfono fijo 0,1491 0,0824 1,81 0,070
Ingreso del hogar 0,0000 0,0000 1,81 0,070
Dominio: Lima Metropolitana 0,5462 0,0883 6,19 0,000
Educación jefe hog: primaria completa 0,1583 0,0792 2,00 0,045
Hogar con teléfono móvil 0,3215 0,1475 2,18 0,029
Vivienda: casa independiente 0,2404 0,1362 1,77 0,078
Hogar sin acceso a telecomunicaciones 0,3745 0,1627 2,30 0,021
Dominio: sierra norte 0,2292 0,1091 2,10 0,036
Vivienda: casa de vecindad 0,3178 0,2152 1,48 0,140
Acceso agua: pilón de uso público 0,7362 0,2511 2,93 0,003
Número de perceptores de ingresos 0,0342 0,0267 1,28 0,200
Combustible para cocinar: electricidad 0,2191 0,1505 1,46 0,145
Combustible para cocinar: GLP 0,1473 0,0768 1,92 0,055
Combustible para cocinar: kerosene -0,3052 0,2278 -1,34 0,180
Hogar en vivienda sin SSHH 0,1163 0,0798 1,46 0,145
Acceso agua: red pública en la vivienda pero fuera del edificio 0,9451 0,2385 3,96 0,000
Constante -3,3116 0,3034 -10,92 0,000
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 45


Cuadro 19: Probabilidad de Atrición 2009,2010 - 2011 (Probit)

Variable Coeficiente Err. Estándar z p-value

Acceso agua: pozo -0,3313 0,2131 -1,55 0,120


Porcentaje de hombres en el hogar -0,2265 0,1605 -1,41 0,158
Dominio: sierra norte -0,2297 0,1501 -1,53 0,126
Edad promedio del hogar -0,0036 0,0024 -1,53 0,125
Vivienda: choza o cabaña 0,2874 0,1940 1,48 0,139
Vivienda inadecuada -0,2084 0,1360 -1,53 0,125
Vivienda: en quinta 0,4266 0,2569 1,66 0,097
Estado civil: viudo -0,2251 0,1308 -1,72 0,085
Estado civil: separado -0,2455 0,1179 -2,08 0,037
Estado civil: soltero -0,2273 0,1593 -1,43 0,153
Educación: primaria incompleta 0,4269 0,1845 2,31 0,021
Educación: primaria completa 0,4297 0,1902 2,26 0,024
Educación: secundaria incompleta 0,3597 0,1985 1,81 0,070
Educación: secundaria completa 0,4178 0,1908 2,19 0,029
Educación: sup no universitaria incompleta 0,5353 0,2590 2,07 0,039
Educación: sup no universitaria completa 0,3870 0,2161 1,79 0,073
Educación: sup universitaria incompleta 0,3543 0,2616 1,35 0,176
Educación: sup no universitaria completa 0,3061 0,2291 1,34 0,182
Vivienda: propia totalmente pagada 0,2868 0,0855 3,35 0,001
Dominio: selva -0,2240 0,1061 -2,11 0,035
Dominio: sierra centro -0,2336 0,1066 -2,19 0,028
Dominio: Lima Metropolitana 0,6758 0,0930 7,27 0,000
Constante -2,0101 0,2239 -8,98 0,000
Fuente: Estimaciones propias.

46 • Instituto Nacional de Estadística e Informática


Cuadro 20: Probabilidad de Atrición 2008, 2009, 2010 - 2011 (Probit)

Variable Coeficiente Err. Estándar z p-value

Acceso agua: pozo -0,4955 0,2567 -1,93 0,054


Dominio: Lima Metropolitana 0,8962 0,1103 8,13 0,000
Dominio: selva -0,2823 0,1191 -2,37 0,018
Dominio: sierra central -0,2856 0,1177 -2,43 0,015
Dominio: sierra norte -0,3195 0,1757 -1,82 0,069
Edad promedio del hogar -0,0050 0,0026 -1,89 0,059
Educación: sup univ completa 0,1342 0,1016 1,32 0,187
Estado civil: separado -0,3864 0,1380 -2,80 0,005
Estado civil: viudo -0,3079 0,1443 -2,13 0,033
Hogar con acceso a internet -0,2348 0,1453 -1,62 0,106
Vivienda inadecuada -0,2711 0,1563 -1,73 0,083
Vivienda: choza o cabaña 0,3414 0,2233 1,53 0,126
Vivienda: en quinta 0,5611 0,2939 1,91 0,056
Vivienda: propia totalmente pagada 0,2909 0,0952 3,05 0,002
Constante -1,4659 0,1255 -11,68 0,000
Fuente: Estimaciones propias.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 47


4.3. Construcción de Factores Longitudinales

La construcción de los factores de expansión corregidos por atrición representa el siguiente


paso de la corrección de este problema. En la etapa anterior, se estimaron diversos modelos que
intentaban medir la probabilidad de atrición, es decir, la probabilidad de pasar de una ola del panel
a la siguiente.

No obstante, antes de iniciar la corrección es preciso considerar sobre qué variable sería
preciso aplicar la misma. Específicamente, la misma debería realizarse sobre los pesos del panel
y no sobre los de la encuesta de corte transversal. El mecanismo mediante el cual funciona el
ajuste es el siguiente: dado que la probabilidad de atrición es inversamente proporcional a la
permanencia del hogar en la siguiente ola del panel, es posible sobreponderar a aquellos hogares
que no sufren de atrición. Para ello, el peso longitudinal original es dividido entre la probabilidad
de atrición predicha por el modelo probit.

En principio, la suma de estos nuevos pesos sobreponderados debería dar como resultado una
suma de pesos igual a la población de estudio, expresada como número de hogares. Sin embargo,
como el modelo está sujeto a cierto margen de error, puede darse el caso que la suma de los pesos
individuales termine siendo mayor al total. Dado que el objetivo principal de la encuesta es lograr
ser representativa de la población de estudio, deberá introducirse una corrección adicional en los
pesos de tal forma que éstos den como total la población. Este último ajuste puede hacerse tanto
para hacer un calce con la población total o con la población de diversos estratos bajo los cuales
fue construida la encuesta.

Por ejemplo, si la encuesta panel es representativa a nivel urbano / rural, los totales
poblacionales calculados según los factores de expansión corregidos por atrición deberían coincidir
con los totales originales estimados por la encuesta a partir de la información censal disponible.
Este procedimiento es conocido como post-estratificación y en principio debería realizarse para
todos aquellos ámbitos en los que la encuesta panel sea representativa.

En el caso del panel ENAHO 2007-2011, la corrección fue realizada de acuerdo con el
siguiente esquema:

1. Se obtuvo la predicción de atrición a partir del modelo probit, que se denominará como ,
donde t se refiere al año en el que se corregirán los factores. Es decir, si se analiza la atrición
entre los años 2008 y 2009, t corresponderá al año 2009.

2. Para cada factor de expansión calculado en el momento t, que se denotará como , se


calcula el peso corregido de acuerdo con la siguiente expresión:

48 • Instituto Nacional de Estadística e Informática


Dado que se encuentra entre 0 y 1 y la probabilidad será menor si el hogar no sufre
de atrición, el peso sobreponderará a aquellos hogares que permanezcan en el
panel. Lógicamente, no asignará valor alguno a aquellos hogares que hayan dejado de ser
encuestados en la siguiente ola.

3. Debe verificarse, para cada estrato de interés, que la suma de los factores de expansión
coincida con el total poblacional de cada uno de ellos. Es decir, si se cuentan con J estratos
distintos, la sumatoria debería ser igual a la población del estrato de interés,
denotada por . Esta es la etapa de post estratificación.

4. De no existir dicha igualdad, se genera un factor de ajuste adicional para cada estrato que
permita corregir dicha brecha. Este factor, , será igual a:

5. Finalmente, se corrigen los factores de expansión finales:

En el Anexo del documento se presentan los scripts que permiten realizar ajustes por atrición
y post – estratificación para dos escenarios. El primero de ellos asume que existe solamente un
estrato, mientras que el segundo de ellos asume la estratificación propia de la ENAHO para la
encuesta panel: urbano / rural. A continuación, se presentarán algunos resultados que muestran
que la construcción de pesos contribuiría a disminuir la atrición una vez que se consideran los
factores de expansión con post estratificación urbano / rural.

5. Análisis de los Resultados

En esta sección, se presentan los resultados de los ajustes para las distintas olas del panel
y un conjunto de variables seleccionadas. El Cuadro 21 presenta los resultados de los ajustes
para las tres olas del panel. Puede verse que existen diferencias importantes en los tamaños de
la población expandidos cuando se consideran las columnas sin atrición versus las que corrigen
este problema. No obstante, llama la atención que cuando se consideran los promedios para un
conjunto de variables y se comparan los resultados del ajuste versus los que carecen de él, se
puede apreciar una diferencia relativamente importante entre los resultados del estimador puntual.
Esta discrepancia podría deberse a varias causas. En primer lugar, las regresiones logísticas
empleadas para medir la probabilidad de atrición tienen un poder explicativo relativamente bajo.
En tal sentido, estarían fallando al recoger toda la heterogeneidad de la población de estudio. Si,
adicionalmente, se realiza una prueba de diferencia de medias entre los estimadores poblacionales

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 49


con y sin atrición, es claro que existe una diferencia estadísticamente significativa, lo cual implicaría
que la corrección aún mantiene las diferencias entre ambos grupos.

De algún modo, cuando se mencionó anteriormente las formas de corregir el problema de


la atrición, se abordó el problema de las correcciones ex – ante y ex – post, mencionando que la
revisión de la literatura apuntaba a que las soluciones ex – ante vía estrategias de seguimiento
podían ser mejores a la solución estadística. En este caso, la efectividad de la corrección dependerá
del hecho de contar con suficientes variables observables que permitan dividir adecuadamente entre
aquellos individuos que se pierden de aquellos que no.

Cuadro 21: Resumen de Ajustes con y Sin Atrición

2008-2009 2009-2010 2010-2011

Variable Sin Correc- Corre- Sin Correc- Corre- Sin Correc- Corre-
Población ción por gido por Población ción por gido por Población ción por gido por
Atrición Atrición Atrición Atrición Atrición Atrición

Ingreso neto
26 382 30 332 22 070 27 540 23 395 21 989 30 523 26 887 27 812
total del hogar
Ingreso bruto
27 774 31 560 23 091 28 994 24 575 23 014 29 003 25 800 26 106
total del hogre
Gasto
16 249 17 439 13 858 16 819 14 090 13 133 17 759 14 836 15 168
monetario total
Gasto bruto
21 106 23 265 18 073 21 908 18 417 17 196 23 135 19 597 19 815
total del hogar
% de hombres
0,76 0,83 0,65 0,75 0,75 0,68 0,75 0,71 0,67
en el hogar
Acceso a
0,32 0,43 0,27 0,30 0,24 0,22 0,30 0,25 0,24
teléfono fijo (%)
Acceso a
0,67 0,68 0,63 0,73 0,70 0,67 0,75 0,72 0,72
teléfono móvil
Acceso a TV
0,23 0,27 0,20 0,26 0,21 0,19 0,30 0,20 0,23
paga (%)
Acceso a
0,11 0,17 0,08 0,13 0,09 0,08 0,16 0,14 0,13
internet (%)
Sin acceso a
0,26 0,24 0,30 0,21 0,25 0,27 0,19 0,23 0,23
TICs (%)
Costa Norte 0,14 0,15 0,15 0,14 0,14 0,18 0,14 0,16 0,14
Costa Centro 0,07 0,03 0,12 0,07 0,08 0,10 0,07 0,07 0,07
Costa Sur 0,02 0,03 0,02 0,02 0,03 0,05 0,02 0,04 0,03
Sierra Norte 0,06 0,05 0,06 0,06 0,08 0,05 0,06 0,06 0,08
Sierra Centro 0,12 0,11 0,14 0,13 0,14 0,14 0,13 0,15 0,25
Sierra Sur 0,15 0,17 0,12 0,15 0,15 0,14 0,15 0,15 0,15
Selva 0,12 0,11 0,13 0,12 0,15 0,18 0,12 0,16 0,18
Lima
0,31 0,35 0,26 0,31 0,23 0,15 0,31 0,21 0,09
Metropolitana

Población 7 186 933 716 462 7 186 766 7 365 071 3 942 421 7 365 211 7 527 358 320 310 752 766
Fuente: Elaboración propia en base a resultados Panel ENAHO.

50 • Instituto Nacional de Estadística e Informática


Paralelamente, la solución empleada como parte de la metodología de panel ENAHO, de
refrescar la muestra cada año, puede llegar a representar una solución viable en el sentido que el
contar con una muestra adicional que refleje apropiadamente las características de la población
evita que el panel se deteriore y pierda representatividad.

6. Conclusiones y Recomendaciones

Los resultados del análisis del panel muestran que las nuevas reglas de selección de muestra
para el panel 2007-11 habrían logrado reducir de manera relativamente importante la atrición. Sin
embargo, aún se pueden mostrar una serie de oportunidades de mejora, tal como se puede observar
en los resultados del análisis bivariado y multivariado.

Específicamente, se ha podido identificar un perfil que se encuentra con un riesgo bastante


más elevado de sufrir atrición en olas posteriores de un panel. Este perfil correspondería a hogares
jóvenes de mayores ingresos, situados en Lima Metropolitana y con acceso a tecnologías de la
información. Justamente esta característica permite generar reglas de seguimiento que puedan
reducir la no respuesta, en tanto la introducción de preguntas tan simples como el número telefónico
(fijo o móvil) de los miembros del hogar permitiría ubicar de manera más sencilla a los individuos
en olas posteriores del panel. Asimismo, debería examinarse la posibilidad de emplear incentivos
(pecuniarios o no) que permitan aumentar la tasa de respuesta.

Otro de los hallazgos importantes del análisis es que otros factores encontrados en otros
países que incrementaban la probabilidad de atrición no se dan en el caso peruano. Variables
como el estado civil (soltero), o la residencia en viviendas alquiladas o proporcionadas por otros
miembros del hogar no tendrían influencia. En la sección teórica, se mencionaba que la atrición
podía ser influenciada por la existencia de mayor o menor movilidad residencial, factor que todavía
en el caso peruano no se encuentra tan desarrollado, por lo que sería de esperar que esta variable
no sea un buen predictor.

Para finalizar, es preciso mencionar que la documentación metodológica de la primera ola


del panel (2007) no permite identificar en dicho año a los miembros originales de la muestra, lo
cual permitiría enriquecer aún más los análisis realizados.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 51


Bibliografía

Banco Central de Chile (2013). “Encuesta Financiera de Hogares: Metodología y Principales


Resultados EFH 2011-12”.

Bendezú, L. et al. (2007). “La Encuesta Panel CASEN: Metodología y Calidad de Datos Versión 1.0”.
Bover, O. (2004). “The Spanish Survey of Household Finances (EFF): description and methods of
the 2002 wave” Documentos Ocasionales N° 0409, Banco de España.

Couper, M. y M. Ofstedal (2009). “Keeping in contact with mobile sample members”. Capítulo 11
en: Lynn, P. (ed). “Methodology of Longitudinal Surveys”. New York: Wiley.

Kalton, G. y M. Brick (2000) “Weighting in household panel surveys” en Rose, D. (ed.), Researching
Social and Economic Change: the uses of household panel studies, 96-111, London and New York:
Routledge.

Lavallée (1995). “Cross-sectional weighting of longitudinal surveys of individuals and households


using the weight share method”, Survey Methodology, 21, 25-32.

Lepkowski, J.M. and Couper, M.P. (2002), “Nonresponse in Longitudinal Household Surveys.” Mimeo.
Lynn, P. (2012), “Longitudinal survey methods for the Eurosystem Household Finance and
Consumption Network”, European Central Bank, mimeo.

Rendtel, U. y T. Harms (2002) “Weighting and Calibration for Household Panels”

Rose, D. (2000). Researching Social and Economic Change: The Uses of Household Panel Studies.
London: Routledge.

Watson, N. y M. Wooden (2009). “Identifying Factors Affecting Longitudinal Survey Response”

52 • Instituto Nacional de Estadística e Informática


Anexo 1: Definición de la Población Longitudinal en el Panel6

Usualmente, un panel sigue a todos los miembros originales de la muestra (es decir, aquellos
encuestados en la primera ola), hasta que uno de ellos sale del panel, ya sea por muerte o emigración.
En la práctica, mientras permanezcan en el panel, estos individuos tendrán asociado un factor de
expansión que permita hacer inferencias a nivel poblacional. En el caso de otros miembros que no
sean los originales, se puede recopilar su información pero puede que no se les asignen factores de
expansión, por lo que no serían considerados al momento de plantear los estimadores poblacionales.

Dados los altos costos de un panel, podría ser ineficiente no emplear la información de los
individuos que habitan en el hogar (y no son miembros originales de la muestra). La experiencia
internacional muestra que el seguimiento de estos miembros es más sencillo, permitiendo recoger
mejor la dinámica poblacional y evitar en el futuro muestras de refresco. Específicamente, se
contrarrestaría el efecto de la atrición y mortalidad.

Por estos motivos, la mayoría de paneles permiten la entrada de miembros del hogar que
guarden algún tipo de relación con los ya existentes (convivientes, hijos, etc.).

Existen diversas formas de conceptualizar las reglas de seguimiento. Todas mantienen en


común el hecho de que una persona que sale del panel, ya sea por emigración o fallecimiento, es
excluida de la población. Algunas reglas de seguimiento son las siguientes:

• Seguimiento de la población inicial. Los miembros del hogar que se van añadiendo a
la muestra no son considerados. Esto tiene como consecuencia que eventualmente el
panel “morirá” en un futuro, lo cual implicará un nuevo procedimiento de muestreo. Esto
puede traer como consecuencia una discontinuidad en los perfiles longitudinales que se
podrían haber construido.
• Seguimiento de la población inicial más cohabitantes. En este caso, se recopila
información de cualquier persona que esté viviendo en el momento t con los miembros
del hogar, pero apenas deja el mismo, se le deja de hacer seguimiento.
• Seguimiento de adultos de la población inicial. Modificación de la regla anterior, donde
se hace seguimiento a los adultos de la población inicial. Utilizado en Luxemburgo.
• Seguimiento de adultos de la población inicial y sus descendientes. Modificación de
la segunda regla, en donde se define a la población longitudinal como los miembros
originales de la primera ola y sus descendientes. Esta regla se emplea en el PSID (EEUU).
• Modelo de contagio. Un individuo que se muda con un hogar encuestado en el período
t será seguido así deje el hogar (contagio de primer grado). En el modelo de contagio
infinito, un individuo será encuestado si existe una cadena de individuos que permiten
relacionar a este con un individuo de la muestra original. Regla seguida en el panel
alemán.

6 Basado en Rendtel et al. (2009).

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 53


Las reglas de seguimiento, si bien tienen el objetivo de recoger mejor la dinámica poblacional,
tienen ciertos vacíos. Por ejemplo, no consideran la inmigración, a menos que un inmigrante adquiera
algún tipo de contacto con uno de los miembros originales de la muestra.

Cuadro A1: Ejemplos de Desarrollo Longitudinal en un Panel

Fuente: Rendtel et al. (2009).

Efectos de Diseño en la Estimación

Funciones de Vínculo (Link Functions)

Este método permite obtener estimadores insesgados sin descartar a los individuos nuevos
que van llegando a la muestra. En particular, consiste en redistribuir los pesos iniciales de las
personas de la muestra original a los de la ola . (Kalton y Brick, 1985). En
tal sentido, una función de vínculo que relaciona a un par de individuos de los universos inicial
, a un valor real se denomina función de vínculo.

Dada una función de vínculo , el peso de una persona será igual a la


suma de los pesos de la persona de la muestra inicial redistribuida según la función de vínculo:}

54 • Instituto Nacional de Estadística e Informática


Típicamente, la función de vínculo relacionará a los individuos de la ola t-1 con los de la ola
t. Existen diversas formas de hacerlo:

a) Sin participación de pesos: solo se pondera a aquellos individuos de la muestra original.


Esta fórmula tiene el inconveniente de que el panel se extinguirá en el tiempo.


b) Participación de pesos: considerando a los individuos y donde k
vive en el hogar h en el período t, y siendo el tamaño del hogar, se tiene que:

Es decir, todos los pesos de la muestra inicial son redistribuidos por igual entre todos
los miembros del hogar de la ola t. Utilizada en el BHPS.

c) Ponderación de pesos de adultos y sus hijos adultos: Modificación de la función anterior


en la que el número de miembros del hogar considera únicamente a los adultos del
período t-1. Empleada en el PSID.

d) Ponderación de pesos proporcional a la probabilidad de selección .

En algunas circunstancias, los indicadores deberán ser calibrados, multiplicando los factores
de expansión por un factor g que de como total la población del período t. Adicionalmente, estos
factores de expansión deberán corregirse por la existencia de atrición, tal como se menciona en
la sección 5 del documento.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 55


Anexo 2: Códigos para determinar la atrición en el Panel ENAHO

1. Construcción Panel

* Manejo de la base de datos panel:


* Para ello, se va a trabajar con las bases de datos originales de corte transversal
* ya que no hay manera a partir de los archivos panel de poder identificar
* las fuentes de atrición.
* Las bases que se emplearán serán las de hogares, individuos
* (características y educación) y sumaria.
* (Nota: para poder hacerlo, es necesario instalar el comando renvars
* - ssc install renvars)

* 2007

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\enaho01-2007-100.dta”, clear


renvars, postfix(_07)
ren conglome_07 conglome
ren vivienda_07 vivienda
ren hogar_07 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux_2007.dta”, clear


renvars, postfix(_07)
ren conglome_07 conglome
ren vivienda_07 vivienda
ren hogar_07 hogar
ren codperso_07 codperso
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\sumaria-2007.dta”, clear


renvars, postfix(_07)
ren conglome_07 conglome
ren vivienda_07 vivienda
ren hogar_07 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, clear


merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”
drop _merge
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”
drop _merge
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux07.dta”, replace

56 • Instituto Nacional de Estadística e Informática


* 2008

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\enaho01-2008-100.dta”, clear


renvars, postfix(_08)
ren conglome_08 conglome
ren vivienda_08 vivienda
ren hogar_08 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux_2008.dta”, clear


renvars, postfix(_08)
ren conglome_08 conglome
ren vivienda_08 vivienda
ren hogar_08 hogar
ren codperso_08 codperso
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\sumaria-2008.dta”, clear


renvars, postfix(_08)
ren conglome_08 conglome
ren vivienda_08 vivienda
ren hogar_08 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, clear


merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”
drop _merge
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”
drop _merge
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux08.dta”, replace

* 2009

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\enaho01-2009-100.dta”, clear


renvars, postfix(_09)
ren conglome_09 conglome
ren vivienda_09 vivienda
ren hogar_09 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux_2009.dta”, clear


renvars, postfix(_09)

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 57


ren conglome_09 conglome
ren vivienda_09 vivienda
ren hogar_09 hogar
ren codperso_09 codperso
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\sumaria-2009.dta”, clear


renvars, postfix(_09)
ren conglome_09 conglome
ren vivienda_09 vivienda
ren hogar_09 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, clear


merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”
drop _merge
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”
drop _merge
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux09.dta”, replace

* 2010

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\enaho01-2010-100.dta”, clear


renvars, postfix(_10)
ren conglome_10 conglome
ren vivienda_10 vivienda
ren hogar_10 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux_2010.dta”, clear


renvars, postfix(_10)
ren conglome_10 conglome
ren vivienda_10 vivienda
ren hogar_10 hogar
ren codperso_10 codperso
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\sumaria-2010.dta”, clear


renvars, postfix(_10)
ren conglome_10 conglome
ren vivienda_10 vivienda
ren hogar_10 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”, replace

58 • Instituto Nacional de Estadística e Informática


use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, clear
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”
drop _merge
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”
drop _merge
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux10.dta”, replace

* 2011

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\enaho01-2011-100.dta”, clear


renvars, postfix(_11)
ren conglome_11 conglome
ren vivienda_11 vivienda
ren hogar_11 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux_2011.dta”, clear


renvars, postfix(_11)
ren conglome_11 conglome
ren vivienda_11 vivienda
ren hogar_11 hogar
ren codperso_11 codperso
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\sumaria-2011.dta”, clear


renvars, postfix(_11)
ren conglome_11 conglome
ren vivienda_11 vivienda
ren hogar_11 hogar
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”, replace

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp1.dta”, clear


merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp2.dta”
drop _merge
merge 1:1 conglome vivienda hogar using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\temp3.dta”
drop _merge
save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux11.dta”, replace

* Fusionando las bases:

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\aux07.dta”, clear


merge 1:1 conglome vivienda hogar codperso using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO
Corte\aux08.dta”
drop _merge

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 59


merge 1:1 conglome vivienda hogar codperso using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO
Corte\aux09.dta”
drop _merge
merge 1:1 conglome vivienda hogar codperso using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO
Corte\aux10.dta”
drop _merge
merge 1:1 conglome vivienda hogar codperso using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO
Corte\aux11.dta”

save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\panelhh.dta”, replace

* CONSTRUCCION DE INDICADORES DE ATRICION:


* (A nivel de hogares)

* NOTA: Dado que no se puede identificar a los miembros originales de la muestra


* (MOMs), los indicadores comenzaran a partir del 2008

global year “07 08 09 10 11”

* Indicadores de panel:
foreach k of global year {
gen panell_`k’ = 1 if tipenc_`k’==3
recode panell_`k’ .=0
}

gen panel_0809 = 0
replace panel_0809 = 1 if panell_08==1 & panell_09==1
gen panel_0910 = 0
replace panel_0910 = 1 if panell_09==1 & panell_10==1
gen panel_1011 = 0
replace panel_1011 = 1 if panell_10==1 & panell_11==1

gen panel_080910 = 0
replace panel_080910 = 1 if panell_08==1 & panell_09==1 & panell_10==1
gen panel_091011 = 0
replace panel_091011 = 1 if panell_09==1 & panell_10==1 & panell_11==1

gen panel_0811 = 0
replace panel_0811 = 1 if panell_08==1 & panell_09==1 & panell_10==1 & panell_11==1

* Indicadores de atricion
* Como el panel es rotativo, hay que identificar a los que entraron de los que
* vienen del periodo anterior pero se perdieron.

60 • Instituto Nacional de Estadística e Informática


gen att_0809 = 0 if panell_08==1
replace att_0809 = 1 if tipenc_08==3 & ( result_09!=1 & result_09!=. )

gen att_0910 = 0 if panell_09==1


replace att_0910 = 1 if tipenc_09==3 & ( result_10!=1 & result_10!=. )

gen att_1011 = 0 if panell_10==1


replace att_1011 = 1 if tipenc_10==3 & ( result_11!=1 & result_11!=. )

gen att_080910 = 0 if panell_08==1 & panell_09==1


replace att_080910 = 1 if (tipenc_08==3 & tipenc_09==3) & ( result_10!=1 & result_10!=. )

gen att_091011 = 0 if panell_09==1 & panell_10==1


replace att_091011 = 1 if (tipenc_09==3 & tipenc_10==3) & ( result_11!=1 & result_11!=. )

gen att_08091011 = 0 if panell_08==1 & panell_09==1 & panell_10==1


replace att_08091011 = 1 if (tipenc_08==3 & tipenc_09==3 & tipenc_10==3) & ( result_11!=1 & result_11!=. )

save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\panelhh.dta”, replace

2. Base de Análisis

use “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\panelhh.dta”, clear

* Atricion 2008-09:
*********************

log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_0809.log”, replace

* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:

matrix A0809 = (0 , 0 , 0)

foreach var of varlist p207_08 pcthom_08 p208a_08 meanhhage_08 medianhhage_08 pct018_08-pct65m_08


_Ip209_1_08-_Ip209_6_08 _Ip301a_1_08-_Ip301a_11_08 percepho_08 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_0809)
matrix A0809 = (A0809 \ r(mu_1), r(mu_2), r(t))
}

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 61


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist dominio_08 p101_08 p105a_08 p110_08 p111_08 pobreza_08 {


ta `var’, gen(`var’_)
}

foreach var of varlist p1131_08-p1136_08 p1141_08-p1145_08 nbi1_08-nbi5_08 dominio_08_1-pobreza_08_3


ingmo1hd_08-gashog2d_08 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_0809)
matrix A0809 = (A0809 \ r(mu_1), r(mu_2), r(t))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_0809 p207_08 pcthom_08 p208a_08 meanhhage_08 medianhhage_08 /*


*/ pct1824_08 _Ip209_2_08-_Ip209_6_08 _Ip301a_2_08-_Ip301a_11_08 percepho_08 /*
*/ p1131_08-p1136_08 p1141_08-p1145_08 nbi1_08-nbi5_08 dominio_08_2-dominio_08_8 /*
*/ p101_08_1-p101_08_7 p105a_08_1-p105a_08_6 p110_08_1-p110_08_6 /*
*/ pobreza_08_2-pobreza_08_3 ingmo1hd_08-gashog2d_08

stepwise, pe(0.2): probit att_0809 p207_08 pcthom_08 p208a_08 meanhhage_08 medianhhage_08 /*


*/ pct1824_08 _Ip209_2_08-_Ip209_6_08 _Ip301a_2_08-_Ip301a_11_08 percepho_08 /*
*/ p1131_08-p1136_08 p1141_08-p1145_08 nbi1_08-nbi5_08 dominio_08_2-dominio_08_8 /*
*/ p101_08_1-p101_08_7 p105a_08_1-p105a_08_6 p110_08_1-p110_08_6 /*
*/ pobreza_08_2-pobreza_08_3 ingmo1hd_08-gashog2d_08

log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_0910.log”, replace

* Atricion 2009-10:
*********************
* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:


matrix A0910 = (0 , 0 , 0, 0)
foreach var of varlist p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 pct018_09-pct65m_09
_Ip209_1_09-_Ip209_6_09 _Ip301a_1_09-_Ip301a_11_09 percepho_09 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_0910)
matrix A0910 = (A0910 \ r(mu_1), r(mu_2), r(t), r(p))
}

62 • Instituto Nacional de Estadística e Informática


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist dominio_09 p101_09 p105a_09 p110_09 p111_09 pobreza_09 {


ta `var’, gen(`var’_)
}

foreach var of varlist p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_1-pobreza_09_3


ingmo1hd_09-gashog2d_09 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_0910)
matrix A0910 = (A0910 \ r(mu_1), r(mu_2), r(t), r(p))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_0910 p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 /*


*/ pct1824_09 _Ip209_2_09-_Ip209_6_09 _Ip301a_2_09-_Ip301a_11_09 percepho_09 /*
*/ p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_2-dominio_09_8 /*
*/ p101_09_1-p101_09_5 p105a_09_1-p105a_09_6 p110_09_1-p110_09_6 /*
*/ pobreza_09_2-pobreza_09_3 ingmo1hd_09

stepwise, pe(0.2): probit att_0910 p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 /*


*/ pct1824_09 _Ip209_2_09-_Ip209_6_09 _Ip301a_2_09-_Ip301a_11_09 percepho_09 /*
*/ p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_2-dominio_09_8 /*
*/ p101_09_1-p101_09_5 p105a_09_1-p105a_09_6 p110_09_1-p110_09_6 /*
*/ pobreza_09_2-pobreza_09_3 ingmo1hd_09

log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_1011.log”, replace

* Atricion 2010-11:
*********************
* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:


matrix A1011 = (0 , 0 , 0, 0)
foreach var of varlist p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 pct018_10-pct65m_10
_Ip209_1_10-_Ip209_6_10 _Ip301a_1_10-_Ip301a_11_10 percepho_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_1011)
matrix A1011 = (A1011 \ r(mu_1), r(mu_2), r(t), r(p))
}

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 63


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist dominio_10 p101_10 p105a_10 p110_10 p111_10 pobreza_10 {


ta `var’, gen(`var’_)
}

foreach var of varlist p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_1-pobreza_10_3


ingmo1hd_10-gashog2d_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_1011)
matrix A1011 = (A1011 \ r(mu_1), r(mu_2), r(t), r(p))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_1011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

stepwise, pe(0.2): probit att_1011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_080910.log”, replace

* Atricion 2008-09-10:
*********************
* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:


matrix A080910 = (0 , 0 , 0, 0)
foreach var of varlist p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 pct018_09-pct65m_09
_Ip209_1_09-_Ip209_6_09 _Ip301a_1_09-_Ip301a_11_09 percepho_09 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_080910)
matrix A080910 = (A080910 \ r(mu_1), r(mu_2), r(t), r(p))
}

64 • Instituto Nacional de Estadística e Informática


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_1-pobreza_09_3


ingmo1hd_09-gashog2d_09 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_080910)
matrix A080910 = (A080910 \ r(mu_1), r(mu_2), r(t), r(p))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_080910 p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 /*


*/ pct1824_09 _Ip209_2_09-_Ip209_6_09 _Ip301a_2_09-_Ip301a_11_09 percepho_09 /*
*/ p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_2-dominio_09_8 /*
*/ p101_09_1-p101_09_5 p105a_09_1-p105a_09_6 p110_09_1-p110_09_6 /*
*/ pobreza_09_2-pobreza_09_3 ingmo1hd_09

stepwise, pe(0.2): probit att_080910 p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 /*


*/ pct1824_09 _Ip209_2_09-_Ip209_6_09 _Ip301a_2_09-_Ip301a_11_09 percepho_09 /*
*/ p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_2-dominio_09_8 /*
*/ p101_09_1-p101_09_5 p105a_09_1-p105a_09_6 p110_09_1-p110_09_6 /*
*/ pobreza_09_2-pobreza_09_3 ingmo1hd_09

log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_091011.log”, replace

* Atricion 2009-10-11:
*********************
* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:


matrix A091011 = (0 , 0 , 0, 0)
foreach var of varlist p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 pct018_10-pct65m_10
_Ip209_1_10-_Ip209_6_10 _Ip301a_1_10-_Ip301a_11_10 percepho_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_091011)
matrix A091011 = (A091011 \ r(mu_1), r(mu_2), r(t), r(p))
}

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 65


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_1-pobreza_10_3


ingmo1hd_10-gashog2d_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_091011)
matrix A091011 = (A091011 \ r(mu_1), r(mu_2), r(t), r(p))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_091011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

stepwise, pe(0.2): probit att_091011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_0811.log”, replace

* Atricion 2008-09-10-11:
*********************
* Comparación de proporciones o medias para variables selectas:

* a) Caracteristicas de miembros del hogar:


matrix A08091011 = (0 , 0 , 0, 0)
foreach var of varlist p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 pct018_10-pct65m_10
_Ip209_1_10-_Ip209_6_10 _Ip301a_1_10-_Ip301a_11_10 percepho_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_08091011)
matrix A08091011 = (A08091011 \ r(mu_1), r(mu_2), r(t), r(p))
}

66 • Instituto Nacional de Estadística e Informática


* b) Caracteristicas del hogar (incluye ingresos):

foreach var of varlist p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_1-pobreza_10_3


ingmo1hd_10-gashog2d_10 {
di “ “
di “Test de medias para `var’”
ttest `var’, by(att_08091011)
matrix A08091011 = (A08091011 \ r(mu_1), r(mu_2), r(t), r(p))
}

* Estimación de modelos de probabilidad de atrición:

stepwise, pr(0.2): probit att_08091011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

stepwise, pe(0.2): probit att_08091011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

log close

save, replace

3. Construcción de Factores de Expansión con Post Estratificación Urbano / Rural

* Atricion 2008-09:
*********************
stepwise, pe(0.2): probit att_0809 p207_08 pcthom_08 p208a_08 meanhhage_08 medianhhage_08 /*
*/ pct1824_08 _Ip209_2_08-_Ip209_6_08 _Ip301a_2_08-_Ip301a_11_08 percepho_08 /*
*/ p1131_08-p1136_08 p1141_08-p1145_08 nbi1_08-nbi5_08 dominio_08_2-dominio_08_8 /*
*/ p101_08_1-p101_08_7 p105a_08_1-p105a_08_6 p110_08_1-p110_08_6 /*
*/ pobreza_08_2-pobreza_08_3 ingmo1hd_08-gashog2d_08

predict f1_att_0809
sum f1_att_0809, det

replace f1_att_0809 = r(p5) if f1_att_0809<r(p5)


replace f1_att_0809 = r(p95) if f1_att_0809>r(p95) & f1_att_0809!=.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 67


* La corrección más general se hace de la siguiente forma:
* 1. La corrección se realiza sobre los pesos del 2009.

gen factor_corr_att_09 = factor_panel_09/f1_att_0809

* Como la suma de los pesos puede ser mayor al total, es necesario reescalar
* (post-estratificar). ENAHO panel permite hacerlo por zona urbano / rural.

gen _aux = 1 if estrato_09!=. & estrato_09<7


replace _aux = 0 if estrato_09!=. & estrato_09>6

bysort _aux: egen _aux0 = sum(factor_corr_att_09)


bysort _aux: egen _aux1 = sum(factor07_09) if (result_09==1 | result_09==2)
gen _aux2 = _aux1/_aux0

replace factor_corr_att_09 = factor_corr_att_09*_aux2

drop _aux*

save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\panelhh2.dta”, replace

* Atricion 2009-10:
*********************

stepwise, pe(0.2): probit att_0910 p207_09 pcthom_09 p208a_09 meanhhage_09 medianhhage_09 /*


*/ pct1824_09 _Ip209_2_09-_Ip209_6_09 _Ip301a_2_09-_Ip301a_11_09 percepho_09 /*
*/ p1131_09-p1136_09 p1141_09-p1145_09 nbi1_09-nbi5_09 dominio_09_2-dominio_09_8 /*
*/ p101_09_1-p101_09_5 p105a_09_1-p105a_09_6 p110_09_1-p110_09_6 /*
*/ pobreza_09_2-pobreza_09_3 ingmo1hd_09

predict f1_att_0910

* La corrección más general se hace de la siguiente forma:


* 1. La corrección se realiza sobre los pesos del 2009.

gen factor_corr_att_10 = factor_panel_10/f1_att_0910

* Como la suma de los pesos puede ser mayor al total, es necesario reescalar
* (post-estratificar). En el ejemplo más sencillo, se asumirá que existe
* únicamente un estrato.

gen _aux = 1 if estrato_10!=. & estrato_10<7


replace _aux = 0 if estrato_10!=. & estrato_10>6

68 • Instituto Nacional de Estadística e Informática


bysort _aux: egen _aux0 = sum(factor_corr_att_10)
bysort _aux: egen _aux1 = sum(factor07_10) if (result_10==1 | result_10==2)
gen _aux2 = _aux1/_aux0

replace factor_corr_att_10 = factor_corr_att_10*_aux2


drop _aux*

* Atricion 2010-11:
*********************

stepwise, pe(0.2): probit att_1011 p207_10 pcthom_10 p208a_10 meanhhage_10 medianhhage_10 /*


*/ pct1824_10 _Ip209_2_10-_Ip209_6_10 _Ip301a_2_10-_Ip301a_11_10 percepho_10 /*
*/ p1131_10-p1136_10 p1141_10-p1145_10 nbi1_10-nbi5_10 dominio_10_2-dominio_10_8 /*
*/ p101_10_1-p101_10_5 p105a_10_1-p105a_10_6 p110_10_1-p110_10_6 /*
*/ pobreza_10_2-pobreza_10_3 ingmo1hd_10

logit att_1011 dominio_10_8 p105a_10_2 meanhhage_10 nbi1_10 p207_10 pcthom_10 p110_10_1 p101_10_1 /*
*/ p1144_10 _Ip301a_3_10 p110_10_3 _Ip301a_11_10 dominio_10_5 dominio_10_7 dominio_10_4 /*
*/ [iw=w1011]

predict f1_att_1011

* La corrección más general se hace de la siguiente forma:


* 1. La corrección se realiza sobre los pesos del 2009.

gen factor_corr_att_11 = factor_panel_11/f1_att_1011

* Post Estratificacion

gen _aux = 1 if estrato_11!=. & estrato_11<7


replace _aux = 0 if estrato_11!=. & estrato_11>6

bysort _aux: egen _aux0 = sum(factor_corr_att_11)


bysort _aux: egen _aux1 = sum(factor07_11) if (result_11==1 | result_11==2)
gen _aux2 = _aux1/_aux0

replace factor_corr_att_11 = factor_corr_att_11*_aux2


drop _aux*

save “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\panelhh2.dta”, replace.

Asegurando la Calidad de Datos en Encuestas Panel: Tratamiento de la Atrición y Datos Perdidos • 69

You might also like