Professional Documents
Culture Documents
Las opiniones y conclusiones de esta investigación son de exclusiva responsabilidad del autor, por
lo que el INEI no se solidariza necesariamente con ellas.
Presentación
Las encuestas longitudinales nos permiten medir el cambio de manera más rigurosa y
así comprender mejor los fenómenos sociales, en el Perú una de las pocas excepciones
es la Encuesta Nacional de Hogares (ENAHO).
Resumen:
El presente documento realiza una breve revisión de la experiencia internacional sobre el tratamiento
de la información en encuestas de tipo panel. Más específicamente, aborda la problemática de la
atrición y su tratamiento mediante estrategias ex ante y ex post. En el primer caso, se sugieren
reglas de seguimiento más estrictas, mientras que en el segundo, se propone ajustar los factores
de expansión mediante modelos de regresión. Este último tipo de ajustes es aplicado a la base
panel ENAHO 2007-2011. Los resultados muestran que la modificación de factores de expansión
permite mitigar los efectos de la atrición sobre la representatividad de la muestra. No obstante, es
preferible prevenir este problema antes de que se produzca.
Abstract:
The following paper makes a brief review of the international experience regarding data treatment
in panel surveys. More specifically, it focuses on attrition and its treatment using ex ante and ex
post measures. In the first case, more strict following rules are suggested, while in the second case,
the adjustment of probability weights using regression techniques is proposed. Those adjustments
are carried on the ENAHO panel survey, covering years 2007 to 2011. Results show that modifying
probability weights contributes to mitigate attrition effects on the original sample. However, in a
majority of cases, it will be better to prevent this problem before it appears.
Presentación.......................................................................................................................................... 3
Resumen................................................................................................................................................ 5
1. Introducción..................................................................................................................................... 9
2. Revisión de la Literatura.................................................................................................................11
2.1. Problemática de los Datos Perdidos....................................................................................11
2.2. Formas de Tratamiento....................................................................................................... 12
2.3. Atrición y Calidad de Datos................................................................................................. 12
2.4. Tratamiento de la Atrición.................................................................................................... 15
2.4.1. Tratamiento Ex – Ante: Reglas de Seguimiento..................................................... 15
2.4.2. Tratamiento Ex – Post: Ajustes Estadísticos.......................................................... 20
3. Hechos Estilizados: Calidad de Datos en el Panel ENAHO.......................................................... 21
3.1. Descripción de la Base Panel 2007-2011........................................................................... 21
3.2. Reglas de Seguimiento....................................................................................................... 24
4. Metodología para Tratamiento Estadístico de la Atrición.............................................................. 25
4.1. Análisis Bivariado................................................................................................................ 25
4.2. Análisis Multivariado........................................................................................................... 41
4.3. Construcción de Factores Longitudinales........................................................................... 48
5. Análisis de los Resultados............................................................................................................... 49
6. Conclusiones y Recomendaciones............................................................................................... 51
7. Bibliografía..................................................................................................................................... 52
Las encuestas que emplean información longitudinal son relativamente escasas en el Perú.
Una de las pocas excepciones es la Encuesta Nacional de Hogares (ENAHO), que como parte de
su muestreo anual, incluye una submuestra panel. No obstante, esta muestra tiene dos principales
limitaciones que disminuyen de manera importante su potencial para poder ser empleada. La
primera limitación se encuentra relacionada con la limitada duración de las muestras panel
(4 años)1 hacen que dinámicas de cambios en ingreso o el efecto de ciertos programas sociales
en salud y educación (que suelen ser de mayor duración) no puedan ser evaluadas correctamente.
Por otro lado, si la duración de la muestra panel se amplía, es posible que la ausencia de reglas
de seguimiento explícitas haga que la calidad de la muestra original se deteriore rápidamente, con
lo cual ésta perdería rápidamente su representatividad2. Si a esta situación se les suma el hecho de
que la construcción de factores de expansión podría no incluir un ajuste por no respuesta basado
en ciertas características de la población, se estarían introduciendo algunos sesgos.
El presente documento trata de reflejar esta estructura. En particular, luego de presentar los
objetivos de la investigación, se pasará a mencionar el problema general de los datos perdidos,
para luego concentrarse en el caso particular de la atrición, haciendo particular énfasis en sus
consecuencias. Posteriormente, se mencionarán las estrategias orientadas a la mitigación de este
problema, distinguiendo entre las que se pueden realizar con anterioridad al trabajo de campo (ex
– ante), como los ajustes estadísticos que corresponderán luego de haberse realizado el trabajo
de campo (ex – post). Como parte de la segunda entrega de este documento, se realizará una
aplicación al Panel ENAHO 2007-2010.
En estadística, un dato perdido es aquel que involucra una observación para un individuo, o
un conjunto de individuos que no tiene un valor asignado. Dependiendo de sus causas y la extensión
del problema, las conclusiones del análisis estadístico pueden ser severos. En el caso de encuestas
de hogares, una de las principales razones de la existencia de datos perdidos es la existencia de
no respuesta. Específicamente, las unidades informantes (familias, individuos o empresas) optan
por no responder una pregunta, sección del cuestionario o incluso el cuestionario en su totalidad.
Como es conocido, en la existencia de encuestas de hogares, existe información sensible que
algunos individuos son reacios a responder (ingresos, tenencia de bienes, etc.).
Tanto en el caso de encuestas de corte transversal como panel, los tipos de información
perdida pueden clasificarse en tres. El primero de ellos, de pérdida completamente aleatoria (MCAR
por sus siglas en inglés), se refiere al caso en el que los eventos que llevaron a la pérdida de datos
son independientes tanto de las variables observables y no observables, y que son completamente
atribuibles al azar. Cuando los datos perdidos son MCAR, el impacto de este problema es inexistente,
ya que no se producirá sesgo alguno debido a que la subpoblación con información completa y la
que falta serán de características iguales.
Los datos perdidos, particularmente si son MAR, hacen que las muestras que han
sido originalmente diseñadas para representar a una determinada población, pierdan esta
representatividad y, por consiguiente, lleven a inferencias erróneas. En tal sentido, es importante
tratar de reducir al mínimo la pérdida de datos generada por un mal diseño del cuestionario o reglas
de seguimiento inadecuadas. Si, pese a estos esfuerzos, se produce aun este problema (lo que
ocurre con relativa frecuencia), es recomendable recurrir a técnicas estadísticas que permitan,
utilizando la información disponible, inferir el comportamiento de la población.
Como todas las encuestas, las encuestas longitudinales se ven afectadas por la no respuesta
de unidades (unit nonresponse). Sin embargo, lo que diferencia los patrones de no respuesta de una
encuesta longitudinal en comparación con las de corte transversal es que el evento de no respuesta
no se da en una única ocasión, sino que también se acumula a lo largo del tiempo conforme se
producen nuevas olas del panel. Además, estas encuestas también sufren del problema de rastrear
a los miembros de la muestra que cambian de residencia y de determinar estrategias para mitigar
la fatiga del informante que necesariamente se encuentra asociada a la participación en repetidas
ocasiones (Watson y Wooden, 2009).
Como consecuencia, la experiencia en encuestas panel alrededor del mundo muestra, incluso
luego de unas pocas olas, que una parte relativamente importante de la muestra inicial deja de
participar en el mismo. Al respecto, Watson y Wooden (2009) mencionan los siguientes patrones
de atrición en las siguientes encuestas panel:
3 Consideramos necesario presentar esta discusión debido a que en la literatura también se considera este problema
como parte del concepto más general de reglas de seguimiento. No obstante, para fines del presente trabajo se empleará
una definición de regla de seguimiento más relacionada con los mecanismos orientados a garantizar una reducción
en la tasa de no respuesta una vez que se haya definido a qué individuos encuestar en cada ola del panel.
Una tasa elevada de atrición implica una serie de dificultades para el análisis de encuestas
longitudinales. Dependiendo de la gravedad del mismo, la atrición puede desde reducir los niveles
de precisión de los estimadores a afectar la viabilidad y continuidad del panel, particularmente si
la muestra inicial es relativamente pequeña. Dado que en la mayoría de casos, la atrición no es
aleatoria sino que está relacionada con determinadas características, esto puede afectar a los
estimadores poblacionales (Lynn, 2007).
Por lo tanto, el diseño de la encuesta previo al trabajo de campo debe maximizar la retención
en las olas sucesivas y, en el caso se produzca un porcentaje de atrición (lo cual es inevitable),
se pueda recoger la mayor cantidad de información posible de los no respondientes a fin de lograr
ubicarlos (Watson y Wooden, 2009). Para poder lograr ambos objetivos, es necesario conocer la
naturaleza de la atrición en este tipo de encuestas.
La localización de los individuos puede verse afectada por la movilidad residencial. Diversos
estudios han mostrado que las variaciones en la dirección del encuestado impactan negativamente
en la probabilidad de contacto en olas subsiguientes. Condicional al evento de cambio de domicilio,
la existencia de reglas de seguimiento apropiadas permiten mitigar el problema de no respuesta.
Específicamente, todas las encuestas longitudinales incluyen preguntas orientadas a localizar al
encuestado. Entre las principales variables recopiladas destacan las siguientes:
Incluso variables como el nombre de la persona deben estar bien recogidas para facilitar
el contacto en futuras versiones.
Es lógico suponer que las variables no solucionan en su totalidad este problema. Por
consiguiente, una estrategia de rastreo deberá considerar búsquedas en fuentes alternativas,
como las siguientes:
Al respecto, Watson y Wooden (2009), mencionan algunas variables que están relacionadas
con la probabilidad de no respuesta en olas posteriores en una encuesta panel:
• Sexo: las tasas de no respuesta son más elevadas en hombres que en mujeres. Una
posible razón detrás de esto sería el hecho que las mujeres permanecen más en casa.
Sin embargo, incluso condicional al contacto, las mujeres tienen tasas más elevadas de
respuesta.
• Edad: los individuos más jóvenes tienen tasas más bajas de respuesta, mientras que
en individuos de mayor edad la evidencia no es tan clara.
• Estado civil: los individuos solteros tienen una mayor probabilidad de no respuesta,
debido a que presentarían una mayor movilidad residencial.
• Tamaño y composición del hogar: hogares conformados por un solo miembro tienen
mayor probabilidad de atrición. En otros hogares, aquellos con una mayor composición
de menores tendrían una mayor tasa de respuesta, aunque el mecanismo no es tan
claro.
• Educación: individuos con mayor educación son más propensos a colaborar en olas
posteriores del panel, en tanto dan una valoración positiva a la investigación.
• Régimen de propiedad de la vivienda: aquellos hogares que no son dueños de su vivienda
tienen una mayor probabilidad de perderse en olas subsiguientes.
• Ingreso: usualmente, las tasas de no respuesta son mayores en las colas de la distribución
de ingreso. Algunos estudios muestran que este efecto es menor en la cola derecha
(mayores ingresos), pero que en general dicho efecto es reducido.
• Condición laboral: Intuitivamente, un individuo empleado sería más difícil de contactar en
comparación con uno desempleado. Sin embargo, la evidencia en países desarrollados
es mixta.
Uno de los problemas del muestreo de paneles es que puede resultar complejo establecer
una regla de seguimiento de los hogares del levantamiento anterior. Esto se debe, entre otras
razones, a que las famlilias pueden cambiar de domicilio y, por consiguiente, la sola identificación
de la dirección es insuficiente para establecer si el hogar en dicho domicilio fue el mismo que se
entrevistó en la encuesta anterior.
Estos autores definen un problema de rastreo como aquel generado por un cambio de
dirección, número telefónico, correo electrónico o cualquier otra información que permita ubicar
al individuo. Dichos cambios son generados por alguna dinámica en el comportamiento de los
hogares, que justamente es el objetivo de medición de una encuesta longitudinal. En tal sentido,
al no tener información de este grupo, puede estar dejándose de recoger información de un grupo
que tendría características distintas al que no sufrió de atrición. Las consecuencias de la atrición
están relativamente bien documentadas, pero lo que no suele mencionarse es que la reducción de
la atrición, implica un incremento importante en costos.
Probabilidad de Mudanza
A nivel de la sociedad, existen algunos mecanismos que pueden servir para el rastreo de
personas, tales como el registro civil, en donde teóricamente un individuo debe actualizar sus
datos del lugar de residencia. Sin embargo, la efectividad de este método dependerá del grado de
cumplimiento de dicha medida.
Otros factores que influyen están relacionados con el diseño de la encuesta, tal como la
distancia entre olas: a mayor distancia, menor probabilidad de ubicar al encuestado. El tipo de
encuesta también influye: se puede recoger más información conducente a una ubicación del
encuestado si el proceso se realiza cara a cara. Pasa algo similar con la población de estudio. Por
ejemplo, en el caso de poblaciones con alta movilidad, como trabajadores agrícolas temporales, la
probabilidad de tener mecanismos exitosos de seguimiento es bastante reducida.
El diseño del instrumento también puede facilitar información que ayude al seguimiento. La
inclusión de preguntas de contacto ayudará a facilitar este objetivo. La idea es tratar de anticiparse
al movimiento (seguimiento prospectivo), en comparación con otras medidas que se realizan una
vez que se ha terminado el trabajo de campo (seguimiento reactivo).
Deben también analizarse las ventajas de un rastreo centralizado versus el realizado por el
encuestador. En principio, el primer tipo de rastreo sería menos costoso, pero dependerá en gran
medida de la existencia de información pública disponible y de calidad.
Este mecanismo es empleado por otros institutos de estadística, como en el caso de España
(Bover,2008) o internacionales (Rose, 2000 ; Lynn, 2012).
Técnicas Proactivas:
• Solicitar a los entrevistados a que provean actualizaciones en sus direcciones; estos
pedidos pueden realizarse al momento de la encuesta, por correo postal o electrónico.
Para ello, es necesario proveer múltiples opciones para que el entrevistado realice
dicha actualización (teléfono, correo postal, página web). Pequeños incentivos
(económicos o no) pueden incrementar la tasa de respuesta.
• Obtener dirección o números telefónicos de una o dos personas de contacto al momento
de la entrevista.
• Recopilar información que pueda sugerir esfuerzos posteriores de rastreo (Ej: planes
de mudanza, información de contacto para segunda vivienda). Proveer incentivos para
incrementar el cumplimiento.
• Mantener contacto con el entrevistado entre olas (vía correos electrónicos, tarjetas
para ocasiones especiales, entre otros). Si el correo “rebota”, esto indicará necesidad
de desplegar esfuerzos de rastreo.
Rastreo Centralizado:
• Realizar búsqueda en bases públicas para los encuestados, su cónyuge u otros
miembros de la familia o parientes.
• Búsquedas en internet (Google, redes sociales) por el nombre del encuestado y su
ciudad de referencia, particularmente útil en el caso de nombres poco usuales.
• Verificación de registros administrativos (RENIEC, SUNAT, SUNARP).
No obstante, incluso en aquellos casos en los que las reglas de seguimiento están bien
especificadas es posible que tengan que realizarse ajustes. Al respecto, los procedimientos de
ajuste estadístico pasan por la construcción de pesos. En un contexto de corte transversal, la
construcción de estos componentes pasa por tres etapas (Bendezú et al., 2007):
- Construcción de pesos.
- Ajuste por no respuesta.
- Post estratificación.
Siguiendo a Rendtel y Harms (2002), considérese una muestra longitudinal s^t. En la ola
ola t. El problema de la atrición se refiere a que se desea calcular estimadores poblacionales para
una variable y, es decir:
Debe tomarse en cuenta que en el anterior panel ENAHO, llevado a cabo en el período
2002 al 2006, se trabajó con una muestra panel fija con 0% de rotación. Sin embargo, la atrición
de la muestra tuvo efectos adversos sobre el tamaño muestral. Específicamente, ésta se inició en
el año 2002 con un tamaño muestral de 6123 viviendas, y para finales del 2006 disminuyó a 4338
viviendas (se redujo 29,2%).
Sobre la base de esta experiencia, el año 2007, conjuntamente con el cambio del marco, se
pasó a una muestra panel con rotación aproximada del 20% de la muestra. Los objetivos de este
nuevo diseño serían dos. El primero de ellos era el asegurar la representatividad en el panel de la
variable incidencia de la pobreza total a nivel nacional. El segundo estaba más relacionado con la
atrición de la muestra, evitando que la misma no se distorsione por efecto de la atrición.
Desde el punto de vista operativo, ambos objetivos se lograron llevando a cabo las siguientes
estrategias:
4 Debe tomarse en cuenta que la primera encuesta panel de la ENAHO fue realizada entre los años 2006 al 2010.
En tal sentido, las mejoras metodológicas del panel 2007-2011 deberían reducir en gran
medida la atrición. En esta sección, se analizará si en efecto el cambio en el diseño muestral
contribuyó a una reducción en los porcentajes de atrición. Paralelamente, al pasar de un panel sin
rotación a uno con 20% de rotación cada año, se tendría un conjunto de pesos de panel más amplio
que el que se tendría con un panel en el cual no existe rotación. Específicamente, el conjunto de
pesos sería similar al que se observa en el Gráfico 2.
El cuadro muestra, que con el pasar de los años, se tendrán cada vez más muestras a
ser seguidas a lo largo del tiempo. Así, la muestra que en el año 2007 comenzó con una (M1),
terminará, para el año 2011, con cinco muestras (M1 a M5). Desde el punto de vista de los pesos
longitudinales, cada submuestra de este panel debería tener su propio conjunto de pesos, lo
cual elevaría el número de pesos de 4 (en un panel con 0% de rotación) a más de 10 pesos.
Adicionalmente, esto implica que las regresiones empleadas para medir la probabilidad de atrición
se incrementarán de similar forma.
M1
M1
M1 M5
M1
M1 M4 M4
M3 M3 M3
M2 M2 M2 M2
Por otro lado, para fines del análisis de la atrición y las características de los hogares que
contribuyen a dicho fenómeno, es preciso empezar de una muestra de partida, la que en este caso
sería la muestra panel del año 2007. Sin embargo, en dicha encuesta no se puede identificar de
manera correcta a los miembros originales de la muestra. Solo en la encuesta del 2008 es que se
puede identificar parcialmente a aquellos hogares que fueron encuestados el 2007 y no sufrieron
de atrición. En tal sentido, cualquier análisis que se realice a continuación se referirá al panel que
comienza en el año 2008.
Así, se tiene que en el año 2008 la muestra panel seleccionada era de 7767 hogares. De este
total, el 11,6% o 904 hogares, se perderían para el siguiente año. Pasa algo similar con la dinámica
entre los años 2009 y 2010. En el 2009, la muestra bajo selección de panel fue de 7730 hogares,
de los cuales 987 (12,8%) no pasarían al siguiente año. En el 2010, se diseñó nuevamente una
muestra de 7751 hogares, de los cuales no llegarían al 2011 420 hogares (5,4%). En tal sentido,
la atrición es relativamente importante, en particular en los dos primeros años del panel, ya que en
el período 2010-11, la muestra se reduce notoriamente. Finalmente, la tasa de atrición de aquellos
hogares que permanecieron en el panel los años 2008 y 2009 y se perdieron el 2010 fue de 10,3%,
mientras que la tasa de atrición de aquellos hogares que permanecieron en el panel los años 2009,
2010 y se perdieron el 2011 fue de 6,03%. Si se considera la atrición en todo el panel, es decir, a
los hogares que formaron parte del panel desde el 2008 al 2010 y se perdieron el 2011, esta tasa
disminuye al 8,1%.
El análisis mostrado en la sección 6,1 no muestra las razones bajo las cuales se llegó a perder
un hogar. La muestra panel construida permite mostrar, al menos de forma parcial, las razones por
las cuales un hogar dejó de ser encuestado5.
Por ejemplo, entre los años 2008 y 2009, se tiene que de la muestra original de 7730
hogares encuestados el 2009, 4887 hogares (63,2%) provenían del año anterior. De este total, el
18,5% (904 hogares) no respondió la encuesta de manera total o parcial. De ellos, 144 hogares
no respondieron la encuesta ya sea por estar ausentes, encontrarse desocupada la vivienda o por
otros motivos, mientras que 134 hogares rechazaron contestar la encuesta. El Cuadro 2 muestra
los resultados para el resto de años.
Nota: La fila “Total” corresponde a aquellos hogares que fueron encuestados en los dos años del encabezado. No considera a los
refrescos de la muestra en cada año.
Fuente: Panel ENAHO
Elaboración: Propia
Los resultados también son consistentes con la evidencia teórica. Un porcentaje relativamente
estable (entre 12 y 15% cada año) correspondería a la no respuesta en ciertos ítems (ítem
nonresponse). El resto puede dividirse en rechazo y problemas de seguimiento. Por ejemplo, entre
los años 2009 y 2010, el 3,3% de los hogares (164 en total) rechazó llenar la encuesta, mientras
que 160 hogares (3,2%) tuvieron problemas de seguimiento. En tal sentido, las estrategias de
seguimiento e incentivos a brindar deberían ser distintos en cada caso. Específicamente, los patrones
de encuestas incompletas y rechazo podrían solucionarse mediante incentivos pecuniarios o no
pecuniarios que generen una mayor utilidad a los individuos o jefes de hogar para que respondan
la encuesta.
5 Se menciona que los motivos son parciales en tanto solo se tiene el resultado de la encuesta para aquellos casos en los
que un hogar encuestado en el año t pudo ser observado en el año t+1. No se tiene información para aquellos hogares
que fueron dejados de encuestar por la naturaleza del panel rotativo. Sin embargo, en tanto los refrescos de la muestra.
El análisis bivariado consistirá en una comparación de medias entre aquellos hogares que
hayan sufrido de atrición con los que no, comparando una serie de variables que reflejan ciertas
características de los miembros del hogar o de sus integrantes. Se concluirá que determinada
característica es significativa para explicar la atrición si la diferencia de medias es estadísticamente
significativa.
Por ejemplo, en el Cuadro 3 se muestra la diferencia en medias para aquellos hogares que
fueron seleccionados como muestra panel en el año 2008 y no llegaron a formar parte de la muestra
en el 2009. Puede verse que en promedio, aquellos hogares que sufrieron de atrición fueron, en
promedio, aquellos con un mayor porcentaje de jefes de hogar de sexo masculino y con una mayor
preponderancia de integrantes del hogar de entre 0 y 18 años de edad. Esta última característica
es consistente con la evidencia internacional, que muestra que aquellos hogares más jóvenes son
más propensos a presentar atrición.
Al analizar el nivel educativo del jefe de hogar, no se aprecia un patrón claro. Los resultados
del Cuadro 3 muestran que los hogares con jefes de hogar que terminaron la primaria tendrían una
mayor probabilidad de atrición que el resto, mientras que, de los hogares que sufrieron atrición, se
tendría un menor porcentaje de hogares con jefe de hogar sin educación. Nuevamente, los resultados
no serían consistentes con la evidencia internacional, que mostraba una relación directa entre el
nivel educativo y la presencia de atrición. Donde sí se aprecia una diferencia entre los hogares
que no sufrieron atrición y los que sí son en el número de perceptores de ingresos: en promedio,
los hogares con atrición tienen un mayor número de perceptores de ingresos.
Desde el punto de vista de la zona en la que se encuentra ubicado el hogar, existirán también
pocas regularidades. De acuerdo a la hipótesis de trabajo, en la que un mayor ingreso conlleva una
mayor tasa de atrición, es Lima Metropolitana la zona con una mayor atrición. Adicionalmente, los
hogares situados en la costa central y la selva se caracterizan por tener menores tasas de atrición.
Cuando se analiza el tipo de vivienda, no existen diferencias importantes entre los hogares
que sufren de atrición y los que no. Donde si se aprecia una diferencia, es en la situación de la
vivienda, aunque con una dirección que no es la mencionada en la literatura. En particular, la
experiencia internacional muestra que aquellos hogares residentes en viviendas alquiladas o
cedidas por terceros tendían a sufrir de un mayor porcentaje de atrición, cosa que no ocurre en el
caso peruano. Los siguientes cuadros mostrarán también que este es uno de los pocos patrones
recurrentes de atrición en los diversos años cubiertos por el panel.
Por último, son las últimas dos filas del Cuadro 4 las que terminan de confirmar la hipótesis
de trabajo establecida previamente: son los hogares de mayor ingreso y gasto aquellos con una
mayor probabilidad de atrición.
En resumen, los patrones de atrición apuntarían a hogares cuya composición es más joven,
de mayores ingresos, localizados principalmente en Lima Metropolitana y que tienen un mayor
acceso a tecnologías de la información. Esta última característica puede servir para diseñar reglas
de seguimiento que podrían minimizar el rechazo. Por otro lado, desde el punto de vista de las
compensaciones o incentivos a la respuesta, dado que estamos hablando de hogares con mayores
ingresos, deberían analizarse seriamente la posibilidad de diseñar un esquema de incentivos no
pecuniarios.
Por ejemplo, en el caso del panel australiano o alemán, se envían folletos en los que se
muestra la utilidad de la información recopilada para el diseño de políticas económicas o sociales.
Este tipo de instrumentos contribuiría a una mayor tasa de respuesta si se combina con el hecho
de contar con una población en riesgo de atrición más educada. Lamentablemente, este es un
patrón que no se observa de forma regular a lo largo del panel.
No obstante, cuando se analiza el patrón de atrición entre los años 2010 y 2011 en los Cuadros
7 y 8, el hecho de que un hogar sea más joven en promedio pierde algo de significancia, aunque se
mantiene el hecho de que un mayor ingreso, acceso a servicios de telecomunicaciones y residencia
en Lima Metropolitana serían factores relacionados positivamente con la probabilidad de atrición.
Al incrementar la ventana temporal, es decir, analizando los patrones de atrición en los años
2011 para aquellos hogares que permanecieron en el panel para el período 2008-2010, se puede
seguir apreciando el mismo perfil de atrición que en los análisis de más corto plazo.
Ubicación geográfica: -
Costa Norte 0,1348 0,1310 0,0038 0,2229
Costa Centro 0,0749 0,0619 0,0130 0,9873
Costa Sur 0,0632 0,0524 0,0108 0,8867
Siera Norte 0,0666 0,0333 0,0332 2,6922 ***
Sierra Centro 0,1757 0,1238 0,0519 2,7356 ***
Sierra Sur 0,1457 0,1548 -0,0091 -0,5122
Selva 0,2210 0,1500 0,0710 3,4334 ***
Lima Metropolitana 0,1183 0,2929 -0,1746 -10,4978 ***
Tipo de vivienda: -
casa independiente 0,8561 0,8060 0,0501 2,1246 **
departamento en edificio 0,0294 0,0690 -0,0395 -3,4268 ***
vivienda en quinta 0,0093 0,0302 -0,0209 -3,1393 ***
Vivienda en casa de vecindad 0,0616 0,0603 0,0013 0,0811
choza o cabaña 0,0364 0,0345 0,0019 0,1533
vivienda improvisada 0,0056 - 0,0056 1,1404
Local no destinado para habitación humana 0,0008 - 0,0008 0,4240
otro 0,0008 - 0,0008 0,4240
Situación de la vivienda -
alquilada 0,0823 0,0809 0,0015 0,0812
propia, totalmente pagada 0,7029 0,7489 -0,0461 -1,5208
propia, por invasión 0,0459 0,0426 0,0033 0,2395
propia, comprándola a plazos 0,0061 0,0085 -0,0024 -0,4686
cedida por el centro de trabajo 0,0122 - 0,0122 1,7000 *
cedida por otro hogar o institución 0,1501 0,1191 0,0309 1,3085
otra forma 0,0006 - 0,0006 0,3779
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5800 0,6979 -0,1179 -3,6059 ***
red pública, fuera de la vivienda pero dentro del edificio 0,0784 0,0766 0,0018 0,1002
pilón de uso público 0,0219 0,0383 -0,0164 -1,6704 *
camión - cisterna u otro similar 0,0160 0,0170 -0,0011 -0,1286
pozo 0,0447 0,0170 0,0276 2,0367 **
río, acequia, manantial o similar 0,2192 0,1319 0,0873 3,1959 ***
otra 0,0400 0,0213 0,0187 1,4476
Servicio higiénico: -
red pública dentro de la vivienda 0,4419 0,5745 -0,1326 -4,0212 ***
red pública dentro de la vivienda pero fuera del edificio 0,0749 0,0766 -0,0017 -0,0976
Pozo séptico 0,1657 0,1319 0,0338 1,3737
Pozo ciego o negro - letrina 0,1282 0,0766 0,0516 2,3400 **
Río, acequia o canal 0,0204 0,0170 0,0033 0,3566
No tiene 0,1689 0,1234 0,0455 1,8369
Situación de pobreza -
Pobre extremo 0,0881 0,0681 0,0200 1,0677
Pobre no extremo 0,2265 0,2043 0,0222 0,8012
No pobre 0,6854 0,7277 -0,0423 -1,3725
Ingresos -
Ingreso monetario (bruto) 18 776 23 817 -5 041 -2,8312 ***
Gasto monetario (bruto) 17 391 22 364 -4 972 -5,3306 ***
Fuente: Estimaciones propias.
Ubicación geográfica: -
Costa Norte 0,1365 0,1146 0,0219 1,3666
Costa Centro 0,0730 0,0613 0,0118 0,9714
Costa Sur 0,0575 0,0494 0,0081 0,7472
Siera Norte 0,0619 0,0652 -0,0034 -0,2962
Sierra Centro 0,1972 0,1601 0,0371 2,0031 **
Sierra Sur 0,1491 0,1383 0,0107 0,6425
Selva 0,2210 0,1680 0,0530 2,7455 ***
Lima Metropolitana 0,1039 0,2431 -0,1392 -9,2606 ***
Tipo de vivienda: -
casa independiente 0,8927 0,8646 0,0281 1,6841 *
departamento en edificio 0,0243 0,0339 -0,0096 -1,1512
vivienda en quinta 0,0094 0,0182 -0,0089 -1,6610 *
Vivienda en casa de vecindad 0,0466 0,0677 -0,0211 -1,8459
choza o cabaña 0,0231 0,0156 0,0074 0,9407
vivienda improvisada 0,0038 - 0,0038 1,2168
Local no destinado para habitación humana 0,0002 - 0,0002 0,3036
otro - - -
Situación de la vivienda -
alquilada 0,0793 0,0933 -0,0139 -0,9633
propia, totalmente pagada 0,7213 0,6865 0,0348 1,4534
propia, por invasión 0,0452 0,0648 -0,0195 -1,7387 *
propia, comprándola a plazos 0,0047 0,0104 -0,0056 -1,4703
cedida por el centro de trabajo 0,0095 0,0052 0,0043 0,8490
cedida por otro hogar o institución 0,1392 0,1399 -0,0007 -0,0358
otra forma 0,0007 - 0,0007 0,5237
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5543 0,5984 -0,0441 -1,6702 *
red pública, fuera de la vivienda pero dentro del edificio 0,0684 0,0984 -0,0300 -2,1990 **
pilón de uso público 0,0225 0,0311 -0,0086 -1,0729
camión - cisterna u otro similar 0,0126 0,0052 0,0074 1,2762
pozo 0,0535 0,0596 -0,0061 -0,5048
río, acequia, manantial o similar 0,2422 0,1995 0,0428 1,8870 *
otra 0,0464 0,0078 0,0386 3,5794 ***
Servicio higiénico: -
red pública dentro de la vivienda 0,4277 0,5207 -0,0931 -3,5340 ***
red pública dentro de la vivienda pero fuera del edificio 0,0599 0,0725 -0,0126 -0,9925
Pozo séptico 0,1629 0,1295 0,0334 1,7122 *
Pozo ciego o negro - letrina 0,1485 0,1088 0,0397 2,1182 **
Río, acequia o canal 0,0237 0,0285 -0,0048 -0,5909
No tiene 0,1774 0,1399 0,0375 1,8579 *
Situación de pobreza
Pobre extremo 0,1324 0,0933 0,0391 0,0283 **
Pobre no extremo 0,2356 0,2565 -0,0209 0,3566
No pobre 0,6320 0,6503 -0,0182 0,4765
Ingresos
Ingreso monetario (bruto) 16 064 23 821 -7 757 -6,5391 ***
Gasto monetario (bruto) 16 138 22 405 -6 267 -8,1659 ***
Fuente: Estimaciones propias.
Ubicación geográfica:
Costa Norte 0,1294 0,1181 0,0112 0,4949
Costa Centro 0,0737 0,0675 0,0062 0,3511
Costa Sur 0,0639 0,0380 0,0260 1,5903
Siera Norte 0,0730 0,0380 0,0350 2,0221 **
Sierra Centro 0,1989 0,1350 0,0639 2,3876 **
Sierra Sur 0,1346 0,1308 0,0038 0,1659
Selva 0,2351 0,1477 0,0874 3,0765 **
Lima Metropolitana 0,0914 0,3249 -0,2335 -11,2197 ***
Tipo de vivienda:
casa independiente 0,8668 0,8115 0,0553 2,1464 **
departamento en edificio 0,0184 0,0628 -0,0445 -4,1047 ***
vivienda en quinta 0,0074 0,0314 -0,0240 -3,3774 ***
Vivienda en casa de vecindad 0,0668 0,0576 0,0092 0,4923
choza o cabaña 0,0332 0,0366 -0,0035 -0,2565
vivienda improvisada 0,0055 - 0,0055 1,0243
Local no destinado para habitación humana - - - .
otro 0,0020 - 0,0020 0,6110
Situación de la vivienda -
alquilada 0,0797 0,0733 0,0064 0,3155
propia, totalmente pagada 0,7141 0,7592 -0,0450 -1,3338
propia, por invasión 0,0437 0,0524 -0,0086 -0,5599
propia, comprándola a plazos 0,0043 - 0,0043 0,9031
cedida por el centro de trabajo 0,0116 - 0,0116 1,4970
cedida por otro hogar o institución 0,1458 0,1152 0,0307 1,1653
otra forma 0,0008 - 0,0008 0,3844
Abastecimiento de agua: -
red pública, dentro de la vivienda 0,5725 0,6806 -0,1081 -2,9242 **
red pública, fuera de la vivienda pero dentro del edificio 0,0816 0,0733 0,0083 0,4067
pilón de uso público 0,0232 0,0314 -0,0082 -0,7179
camión - cisterna u otro similar 0,0062 0,0209 -0,0148 -2,3278 **
pozo 0,0484 0,0157 0,0326 2,0770 **
río, acequia, manantial o similar 0,2321 0,1518 0,0803 2,5595 **
otra 0,0360 0,0262 0,0098 0,7079
Servicio higiénico: -
red pública dentro de la vivienda 0,4213 0,5550 -0,1337 -3,6082 ***
red pública dentro de la vivienda pero fuera del edificio 0,0824 0,0681 0,0143 0,6989
Pozo séptico 0,1764 0,1414 0,0350 1,2326
Pozo ciego o negro - letrina 0,1215 0,0942 0,0272 1,1190
Río, acequia o canal 0,0182 0,0105 0,0077 0,7807
No tiene 0,1803 0,1309 0,0494 1,7263 *
Situación de pobreza
Pobre extremo 0,0948 0,0733 0,0215 0,9847
Pobre no extremo 0,2340 0,2147 0,0194 0,6116
No pobre 0,6712 0,7120 -0,0409 -1,1624
Ingresos
Ingreso monetario (bruto) 17 676 23 299 -5 623 -3,1611 ***
Gasto monetario (bruto) 16 853 21 754 -4 901 -4,8021 ***
Fuente: Estimaciones propias.
Al momento de analizar otros años, se puede ver que la educación no sería un factor
determinante al momento de precisar la probabilidad de atrición para toda la duración del panel,
mientras que, fuera de Lima Metropolitana, la residencia en determinada área geográfica no
representa un factor que en todos los años permita predecir la probabilidad de atrición.
Acceso agua: red pública dentro de la vivienda 0,0942 0,0536 1,76 0,079
Acceso agua: red pública dentro de la vivienda pero fuera del edificio 0,1553 0,0891 1,74 0,081
Combustible: carbón -0,1447 0,0870 -1,66 0,096
Combustible: electricidad -0,1930 0,1414 -1,36 0,172
Combustible: kerosene -0,2165 0,1351 -1,60 0,109
Combustible: leña -0,0850 0,0543 -1,57 0,118
Dominio: Costa Centro -0,3686 0,1086 -3,40 0,001
Dominio: Costa Sur 0,2307 0,0946 2,44 0,015
Dominio: Lima Metropolitana 0,1312 0,0759 1,73 0,084
Dominio: Sierra Sur 0,1203 0,0628 1,91 0,056
Edad del jefe de hogar 0,0050 0,0026 1,90 0,058
Edad promedio del hogar -0,0046 0,0023 -1,97 0,048
Educación jefe hog: primaria completa 0,1299 0,0602 2,16 0,031
Educación jefe hog: primaria incompleta 0,0879 0,0597 1,47 0,141
Estado civil: separado -0,4742 0,0880 -5,39 0,000
Estado civil: soltero -0,2972 0,1092 -2,72 0,006
Estado civil: viudo -0,4594 0,0882 -5,21 0,000
NBI: Vivienda inadecuada -0,1265 0,0776 -1,63 0,103
Número de perceptores de ingresos 0,0457 0,0211 2,16 0,030
Teléfono fijo 0,0989 0,0608 1,63 0,104
Vivienda alquilada -0,2604 0,0942 -2,76 0,006
Constante -1,4864 0,0985 -15,09 0,000
N 6625
Pseudo R2 0,0373
LR Chi2 - Significancia conjunta 154,25
p-value 0,0000
Fuente: Estimaciones propias.
Acceso agua: red pública en la vivienda pero fuera del edificio 0,2885 0,1356 2,13 0,033
Porcentaje de hombres en el hogar -0,2676 0,1433 -1,87 0,062
Acceso agua: pilón de uso público 0,2537 0,1933 1,31 0,189
Edad mediana del hogar -0,0032 0,0022 -1,46 0,145
Vivienda inadecuada -0,2439 0,1296 -1,88 0,060
Acceso a internet -0,1520 0,1159 -1,31 0,190
Estado civil: casado -0,1099 0,0771 -1,42 0,154
Estado civil: viudo -0,3080 0,1303 -2,36 0,018
Estado civil: divorciado -0,6049 0,4515 -1,34 0,180
Estado civil: separado -0,3077 0,1154 -2,67 0,008
Estado civil: soltero -0,2643 0,1494 -1,77 0,077
Educación jefe hog: primaria incompleta 0,4933 0,1763 2,80 0,005
Educación jefe hog: primaria completa 0,4383 0,1813 2,42 0,016
Educación jefe hog: secundaria incompleta 0,3243 0,1896 1,71 0,087
Educación jefe hog: secundaria completa 0,3845 0,1815 2,12 0,034
Educación jefe hog: sup no univ incompleta 0,4265 0,2429 1,76 0,079
Educación jefe hog: sup no univ completa 0,4044 0,2016 2,01 0,045
Educación jefe hog: sup univ incompleta 0,3400 0,2484 1,37 0,171
Educación jefe hog: sup univ completa 0,3224 0,2121 1,52 0,129
Vivienda propia, totalmente pagada 0,2792 0,0790 3,53 0,000
Dominio: sierra norte -0,1979 0,1432 -1,38 0,167
Vivienda: choza o cabaña 0,2950 0,1868 1,58 0,114
Acceso agua: red pública en la vivienda 0,2077 0,0842 2,47 0,014
Dominio: sierra central -0,1812 0,1008 -1,80 0,072
Dominio: selva -0,2202 0,0989 -2,23 0,026
Vivienda en quinta 0,3177 0,2194 1,45 0,148
Dominio: Lima Metropolitana 0,6918 0,0849 8,15 0,000
Constante -2,2412 0,2183 -10,27 0,000
Fuente: Estimaciones propias.
No obstante, antes de iniciar la corrección es preciso considerar sobre qué variable sería
preciso aplicar la misma. Específicamente, la misma debería realizarse sobre los pesos del panel
y no sobre los de la encuesta de corte transversal. El mecanismo mediante el cual funciona el
ajuste es el siguiente: dado que la probabilidad de atrición es inversamente proporcional a la
permanencia del hogar en la siguiente ola del panel, es posible sobreponderar a aquellos hogares
que no sufren de atrición. Para ello, el peso longitudinal original es dividido entre la probabilidad
de atrición predicha por el modelo probit.
En principio, la suma de estos nuevos pesos sobreponderados debería dar como resultado una
suma de pesos igual a la población de estudio, expresada como número de hogares. Sin embargo,
como el modelo está sujeto a cierto margen de error, puede darse el caso que la suma de los pesos
individuales termine siendo mayor al total. Dado que el objetivo principal de la encuesta es lograr
ser representativa de la población de estudio, deberá introducirse una corrección adicional en los
pesos de tal forma que éstos den como total la población. Este último ajuste puede hacerse tanto
para hacer un calce con la población total o con la población de diversos estratos bajo los cuales
fue construida la encuesta.
Por ejemplo, si la encuesta panel es representativa a nivel urbano / rural, los totales
poblacionales calculados según los factores de expansión corregidos por atrición deberían coincidir
con los totales originales estimados por la encuesta a partir de la información censal disponible.
Este procedimiento es conocido como post-estratificación y en principio debería realizarse para
todos aquellos ámbitos en los que la encuesta panel sea representativa.
En el caso del panel ENAHO 2007-2011, la corrección fue realizada de acuerdo con el
siguiente esquema:
1. Se obtuvo la predicción de atrición a partir del modelo probit, que se denominará como ,
donde t se refiere al año en el que se corregirán los factores. Es decir, si se analiza la atrición
entre los años 2008 y 2009, t corresponderá al año 2009.
3. Debe verificarse, para cada estrato de interés, que la suma de los factores de expansión
coincida con el total poblacional de cada uno de ellos. Es decir, si se cuentan con J estratos
distintos, la sumatoria debería ser igual a la población del estrato de interés,
denotada por . Esta es la etapa de post estratificación.
4. De no existir dicha igualdad, se genera un factor de ajuste adicional para cada estrato que
permita corregir dicha brecha. Este factor, , será igual a:
En el Anexo del documento se presentan los scripts que permiten realizar ajustes por atrición
y post – estratificación para dos escenarios. El primero de ellos asume que existe solamente un
estrato, mientras que el segundo de ellos asume la estratificación propia de la ENAHO para la
encuesta panel: urbano / rural. A continuación, se presentarán algunos resultados que muestran
que la construcción de pesos contribuiría a disminuir la atrición una vez que se consideran los
factores de expansión con post estratificación urbano / rural.
En esta sección, se presentan los resultados de los ajustes para las distintas olas del panel
y un conjunto de variables seleccionadas. El Cuadro 21 presenta los resultados de los ajustes
para las tres olas del panel. Puede verse que existen diferencias importantes en los tamaños de
la población expandidos cuando se consideran las columnas sin atrición versus las que corrigen
este problema. No obstante, llama la atención que cuando se consideran los promedios para un
conjunto de variables y se comparan los resultados del ajuste versus los que carecen de él, se
puede apreciar una diferencia relativamente importante entre los resultados del estimador puntual.
Esta discrepancia podría deberse a varias causas. En primer lugar, las regresiones logísticas
empleadas para medir la probabilidad de atrición tienen un poder explicativo relativamente bajo.
En tal sentido, estarían fallando al recoger toda la heterogeneidad de la población de estudio. Si,
adicionalmente, se realiza una prueba de diferencia de medias entre los estimadores poblacionales
Variable Sin Correc- Corre- Sin Correc- Corre- Sin Correc- Corre-
Población ción por gido por Población ción por gido por Población ción por gido por
Atrición Atrición Atrición Atrición Atrición Atrición
Ingreso neto
26 382 30 332 22 070 27 540 23 395 21 989 30 523 26 887 27 812
total del hogar
Ingreso bruto
27 774 31 560 23 091 28 994 24 575 23 014 29 003 25 800 26 106
total del hogre
Gasto
16 249 17 439 13 858 16 819 14 090 13 133 17 759 14 836 15 168
monetario total
Gasto bruto
21 106 23 265 18 073 21 908 18 417 17 196 23 135 19 597 19 815
total del hogar
% de hombres
0,76 0,83 0,65 0,75 0,75 0,68 0,75 0,71 0,67
en el hogar
Acceso a
0,32 0,43 0,27 0,30 0,24 0,22 0,30 0,25 0,24
teléfono fijo (%)
Acceso a
0,67 0,68 0,63 0,73 0,70 0,67 0,75 0,72 0,72
teléfono móvil
Acceso a TV
0,23 0,27 0,20 0,26 0,21 0,19 0,30 0,20 0,23
paga (%)
Acceso a
0,11 0,17 0,08 0,13 0,09 0,08 0,16 0,14 0,13
internet (%)
Sin acceso a
0,26 0,24 0,30 0,21 0,25 0,27 0,19 0,23 0,23
TICs (%)
Costa Norte 0,14 0,15 0,15 0,14 0,14 0,18 0,14 0,16 0,14
Costa Centro 0,07 0,03 0,12 0,07 0,08 0,10 0,07 0,07 0,07
Costa Sur 0,02 0,03 0,02 0,02 0,03 0,05 0,02 0,04 0,03
Sierra Norte 0,06 0,05 0,06 0,06 0,08 0,05 0,06 0,06 0,08
Sierra Centro 0,12 0,11 0,14 0,13 0,14 0,14 0,13 0,15 0,25
Sierra Sur 0,15 0,17 0,12 0,15 0,15 0,14 0,15 0,15 0,15
Selva 0,12 0,11 0,13 0,12 0,15 0,18 0,12 0,16 0,18
Lima
0,31 0,35 0,26 0,31 0,23 0,15 0,31 0,21 0,09
Metropolitana
Población 7 186 933 716 462 7 186 766 7 365 071 3 942 421 7 365 211 7 527 358 320 310 752 766
Fuente: Elaboración propia en base a resultados Panel ENAHO.
6. Conclusiones y Recomendaciones
Los resultados del análisis del panel muestran que las nuevas reglas de selección de muestra
para el panel 2007-11 habrían logrado reducir de manera relativamente importante la atrición. Sin
embargo, aún se pueden mostrar una serie de oportunidades de mejora, tal como se puede observar
en los resultados del análisis bivariado y multivariado.
Otro de los hallazgos importantes del análisis es que otros factores encontrados en otros
países que incrementaban la probabilidad de atrición no se dan en el caso peruano. Variables
como el estado civil (soltero), o la residencia en viviendas alquiladas o proporcionadas por otros
miembros del hogar no tendrían influencia. En la sección teórica, se mencionaba que la atrición
podía ser influenciada por la existencia de mayor o menor movilidad residencial, factor que todavía
en el caso peruano no se encuentra tan desarrollado, por lo que sería de esperar que esta variable
no sea un buen predictor.
Bendezú, L. et al. (2007). “La Encuesta Panel CASEN: Metodología y Calidad de Datos Versión 1.0”.
Bover, O. (2004). “The Spanish Survey of Household Finances (EFF): description and methods of
the 2002 wave” Documentos Ocasionales N° 0409, Banco de España.
Couper, M. y M. Ofstedal (2009). “Keeping in contact with mobile sample members”. Capítulo 11
en: Lynn, P. (ed). “Methodology of Longitudinal Surveys”. New York: Wiley.
Kalton, G. y M. Brick (2000) “Weighting in household panel surveys” en Rose, D. (ed.), Researching
Social and Economic Change: the uses of household panel studies, 96-111, London and New York:
Routledge.
Lepkowski, J.M. and Couper, M.P. (2002), “Nonresponse in Longitudinal Household Surveys.” Mimeo.
Lynn, P. (2012), “Longitudinal survey methods for the Eurosystem Household Finance and
Consumption Network”, European Central Bank, mimeo.
Rose, D. (2000). Researching Social and Economic Change: The Uses of Household Panel Studies.
London: Routledge.
Usualmente, un panel sigue a todos los miembros originales de la muestra (es decir, aquellos
encuestados en la primera ola), hasta que uno de ellos sale del panel, ya sea por muerte o emigración.
En la práctica, mientras permanezcan en el panel, estos individuos tendrán asociado un factor de
expansión que permita hacer inferencias a nivel poblacional. En el caso de otros miembros que no
sean los originales, se puede recopilar su información pero puede que no se les asignen factores de
expansión, por lo que no serían considerados al momento de plantear los estimadores poblacionales.
Dados los altos costos de un panel, podría ser ineficiente no emplear la información de los
individuos que habitan en el hogar (y no son miembros originales de la muestra). La experiencia
internacional muestra que el seguimiento de estos miembros es más sencillo, permitiendo recoger
mejor la dinámica poblacional y evitar en el futuro muestras de refresco. Específicamente, se
contrarrestaría el efecto de la atrición y mortalidad.
Por estos motivos, la mayoría de paneles permiten la entrada de miembros del hogar que
guarden algún tipo de relación con los ya existentes (convivientes, hijos, etc.).
• Seguimiento de la población inicial. Los miembros del hogar que se van añadiendo a
la muestra no son considerados. Esto tiene como consecuencia que eventualmente el
panel “morirá” en un futuro, lo cual implicará un nuevo procedimiento de muestreo. Esto
puede traer como consecuencia una discontinuidad en los perfiles longitudinales que se
podrían haber construido.
• Seguimiento de la población inicial más cohabitantes. En este caso, se recopila
información de cualquier persona que esté viviendo en el momento t con los miembros
del hogar, pero apenas deja el mismo, se le deja de hacer seguimiento.
• Seguimiento de adultos de la población inicial. Modificación de la regla anterior, donde
se hace seguimiento a los adultos de la población inicial. Utilizado en Luxemburgo.
• Seguimiento de adultos de la población inicial y sus descendientes. Modificación de
la segunda regla, en donde se define a la población longitudinal como los miembros
originales de la primera ola y sus descendientes. Esta regla se emplea en el PSID (EEUU).
• Modelo de contagio. Un individuo que se muda con un hogar encuestado en el período
t será seguido así deje el hogar (contagio de primer grado). En el modelo de contagio
infinito, un individuo será encuestado si existe una cadena de individuos que permiten
relacionar a este con un individuo de la muestra original. Regla seguida en el panel
alemán.
Este método permite obtener estimadores insesgados sin descartar a los individuos nuevos
que van llegando a la muestra. En particular, consiste en redistribuir los pesos iniciales de las
personas de la muestra original a los de la ola . (Kalton y Brick, 1985). En
tal sentido, una función de vínculo que relaciona a un par de individuos de los universos inicial
, a un valor real se denomina función de vínculo.
b) Participación de pesos: considerando a los individuos y donde k
vive en el hogar h en el período t, y siendo el tamaño del hogar, se tiene que:
Es decir, todos los pesos de la muestra inicial son redistribuidos por igual entre todos
los miembros del hogar de la ola t. Utilizada en el BHPS.
En algunas circunstancias, los indicadores deberán ser calibrados, multiplicando los factores
de expansión por un factor g que de como total la población del período t. Adicionalmente, estos
factores de expansión deberán corregirse por la existencia de atrición, tal como se menciona en
la sección 5 del documento.
1. Construcción Panel
* 2007
* 2009
* 2010
* 2011
* Indicadores de panel:
foreach k of global year {
gen panell_`k’ = 1 if tipenc_`k’==3
recode panell_`k’ .=0
}
gen panel_0809 = 0
replace panel_0809 = 1 if panell_08==1 & panell_09==1
gen panel_0910 = 0
replace panel_0910 = 1 if panell_09==1 & panell_10==1
gen panel_1011 = 0
replace panel_1011 = 1 if panell_10==1 & panell_11==1
gen panel_080910 = 0
replace panel_080910 = 1 if panell_08==1 & panell_09==1 & panell_10==1
gen panel_091011 = 0
replace panel_091011 = 1 if panell_09==1 & panell_10==1 & panell_11==1
gen panel_0811 = 0
replace panel_0811 = 1 if panell_08==1 & panell_09==1 & panell_10==1 & panell_11==1
* Indicadores de atricion
* Como el panel es rotativo, hay que identificar a los que entraron de los que
* vienen del periodo anterior pero se perdieron.
2. Base de Análisis
* Atricion 2008-09:
*********************
matrix A0809 = (0 , 0 , 0)
log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_0910.log”, replace
* Atricion 2009-10:
*********************
* Comparación de proporciones o medias para variables selectas:
log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_1011.log”, replace
* Atricion 2010-11:
*********************
* Comparación de proporciones o medias para variables selectas:
log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_080910.log”, replace
* Atricion 2008-09-10:
*********************
* Comparación de proporciones o medias para variables selectas:
log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_091011.log”, replace
* Atricion 2009-10-11:
*********************
* Comparación de proporciones o medias para variables selectas:
log close
log using “D:\Documentos\Consultorías\2014\INEI\Datos\ENAHO Corte\att_0811.log”, replace
* Atricion 2008-09-10-11:
*********************
* Comparación de proporciones o medias para variables selectas:
log close
save, replace
* Atricion 2008-09:
*********************
stepwise, pe(0.2): probit att_0809 p207_08 pcthom_08 p208a_08 meanhhage_08 medianhhage_08 /*
*/ pct1824_08 _Ip209_2_08-_Ip209_6_08 _Ip301a_2_08-_Ip301a_11_08 percepho_08 /*
*/ p1131_08-p1136_08 p1141_08-p1145_08 nbi1_08-nbi5_08 dominio_08_2-dominio_08_8 /*
*/ p101_08_1-p101_08_7 p105a_08_1-p105a_08_6 p110_08_1-p110_08_6 /*
*/ pobreza_08_2-pobreza_08_3 ingmo1hd_08-gashog2d_08
predict f1_att_0809
sum f1_att_0809, det
* Como la suma de los pesos puede ser mayor al total, es necesario reescalar
* (post-estratificar). ENAHO panel permite hacerlo por zona urbano / rural.
drop _aux*
* Atricion 2009-10:
*********************
predict f1_att_0910
* Como la suma de los pesos puede ser mayor al total, es necesario reescalar
* (post-estratificar). En el ejemplo más sencillo, se asumirá que existe
* únicamente un estrato.
* Atricion 2010-11:
*********************
logit att_1011 dominio_10_8 p105a_10_2 meanhhage_10 nbi1_10 p207_10 pcthom_10 p110_10_1 p101_10_1 /*
*/ p1144_10 _Ip301a_3_10 p110_10_3 _Ip301a_11_10 dominio_10_5 dominio_10_7 dominio_10_4 /*
*/ [iw=w1011]
predict f1_att_1011
* Post Estratificacion