You are on page 1of 49

Investigador principal:

Pablo Lavado Padilla

Instituto Nacional de Estadística e Informática


Av. General Garzón N° 658, Jesús María, Lima 11 PERÚ
Teléfonos: (511) 433-8398 431-1340 Fax: 433-3591
Web: www.inei.gob.pe
Mayo, 2015

Impreso en los talleres gráficos de:


Oficina de impresiones del Instituto Nacional de Estadística e Informática

Tiraje : 100 Ejemplares

Hecho el Depósito Legal en la Biblioteca Nacional del Perú : 2015-05375

Las opiniones y conclusiones de esta investigación son de exclusiva responsabilidad del autor, por
lo que el INEI no se solidariza necesariamente con ellas.
TABLA DE CONTENIDO

PRESENTACIÓN

El Instituto Nacional de Estadística e Informática (INEI), pone a disposición de la comunidad nacional,


autoridades, instituciones públicas y privadas, y usuarios en general, el documento “TÉCNICAS
DE MUESTREO Y TAMAÑOS DE MUESTRA PARA EVALUACIONES DE IMPACTO”.

En el marco de la gestión por resultados, los programas sociales deben ser evaluados, monitoreados,
de tal manera que sirva de pilotos de modificaciones y mejora en nuevas intervenciones. La
literatura en evaluación de impacto aún no documenta un estudio que sistematice y resuma las
fórmulas para el cálculo del tamaño de muestra y el análisis de poder para las distintas técnicas de
evaluación de impacto que sea de utilidad en las políticas públicas.

En tal sentido, este documento es una guía práctica para investigadores, profesionales y hacedores
de políticas, que intentan introducir el estudio de la determinación del tamaño de muestra y análisis
de poder para técnicas de evaluación de impacto. Esta sistematización de la documentación
provee fórmulas y/o procedimientos para la determinación del tamaño de muestra requerido.

Esta investigación ha sido seleccionada en el concurso nacional de investigaciones que realiza cada
año el Instituto Nacional de Estadística e Informática - INEI, a través de su órgano desconcentrado
el Centro de Investigación y Desarrollo (CIDE).

Lima, mayo 2015

Instituto Nacional de Estadística e Informática


Resumen

Este documento es una guía práctica para investigadores, profesionales y hacedores de


políticas, que intenta introducir el estudio de la determinación del tamaño de muestra
y análisis de poder para técnicas de evaluación de impacto. Primero, cubre algunos
conceptos básicos de evaluación de impacto e inferencia estadística; analiza las diferen-
tes etapas del diseño de una evaluación de impacto, y discute las distintas técnicas de
muestreo y su relación con los modelos jerárquicos (simple, conglomerados y bloques).
Luego, el estudio desarrolla las fórmulas para la determinación del tamaño de muestra
en diseños experimentales y no experimentales (variables instrumentales, diferencias en
diferencias, regresión discontinua y emparejamiento), así como los ajustes por el uso de
covarianzas y por problemas en la aleatorización (incumplimiento y efecto desborde) al
modelo básico de determinación del tamaño de muestra. Finalmente, el estudio incluye
ejemplos prácticos y aplicaciones en el paquete STATA.

Abstract

This paper is a practical guide for researchers, practitioners and policymakers, which
wants to introduce the study of sample size calculation and power analysis for impact
evaluation techniques. First, some basic concepts of impact evaluation and statistics in-
ference; analyze the different steps in an impact evaluation design, and discuss sampling
techniques and is relationship with hierarchical models (single, cluster and block de-
sign). Then, the study develops the formulas for sample size determination for experi-
mental and non-experimental design (instrumental variables, differences in differences,
regression discontinuity and matching), and includes adjustment for using covariates
and problems in randomization (partial compliance and spillovers effects) in the basic
framework of sample size determination. Finally, the study includes practical examples
and applications in STATA package.
TABLA DE CONTENIDO

TABLA DE CONTENIDO

Presentación...................................................................................................................... 3
Resumen............................................................................................................................ 5
PARTE I: Conceptos Básicos.......................................................................................... 9
1. Introducción................................................................................................................... 9
2. Diseño de Evaluación de Impacto................................................................................ 10
2.1. Muestreo............................................................................................................... 10
2.2. Costos de una evaluación de impacto................................................................... 11
3. Conceptos..................................................................................................................... 12
3.1. La evaluación de impacto..................................................................................... 12
3.2. Modelos Descriptivos vs Modelos Analíticos...................................................... 12
3.3. Repaso de Inferencia............................................................................................ 13
3.4. Cálculo de Tamaño de Muestra............................................................................ 14
3.5. Implementación del cálculo del tamaño de muestra en Stata............................... 19
4. Diseño Multinivel de una Evaluación de Impacto....................................................... 20
4.1. Modelos Multinivel.............................................................................................. 20
4.2. Diseños por conglomerados................................................................................. 20
4.2.1. Ajustes a la varianza con conglomerado....................................................... 21
4.2.2. ICC en la práctica.......................................................................................... 23
4.3. Diseño de bloques................................................................................................. 24
4.4 Implementación del cálculo del tamaño de muestra en Stata................................ 25
PARTE II: Diseño Experimental.................................................................................. 27
5. Diseño Experimental.................................................................................................... 27
5.1. Definición............................................................................................................. 27
5.2. Cálculo del Tamaño de muestra............................................................................ 28
5.3. Ajustes por covariados.......................................................................................... 28
5.4. Implementación del cálculo del tamaño de muestra en Stata............................... 30

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 7


6. Ajustes por problemas en aleatorización...................................................................... 32
6.1. Ajuste por incumplimiento................................................................................... 32
6.2. Ajuste por efecto desborde................................................................................... 33
PARTE III: Diseños no Experimentales...................................................................... 35
7. Diferencias en Diferencias........................................................................................... 35
7.1. Definición............................................................................................................. 35
7.2. Cálculo de la varianza en DD............................................................................... 35
7.3. Ajuste por diseño multinivel................................................................................. 36
7.4. Implementación del cálculo del tamaño de muestra en Stata............................... 38
7.4.1. Modelo de Diferencias en Diferencias a nivel Individual............................. 38
7.4.2. Modelo de Diferencias en Diferencias a nivel conglomerado...................... 39
8. Regresión Discontinua................................................................................................. 41
8.1. Definición............................................................................................................. 41
8.2. Cálculo de la varianza en RD.............................................................................. 41
8.3. Regresión Discontinua Difusa............................................................................. 42
8.4. Implementación del cálculo del tamaño de muestra en Stata............................... 43
8.4.1. Modelo de Regresión Discontinua a nivel Individual................................... 43
9. Emparejamiento........................................................................................................... 45
9.1. Definición............................................................................................................. 45
9.2. Reglas Prácticas.................................................................................................... 46
9.3. Aplicaciones en Stata............................................................................................ 46
10. Bibliografía................................................................................................................ 48

8 • Instituto Nacional de Estadística e Informática


Parte PARTE I: Conceptos Básicos
Conceptos
I Básicos

1. Introducción
El rápido avance en el uso de técnicas de inferencia causal y su aplicación en las
evaluaciones de impacto de diversos programas e intervenciones de políticas públicas,
así como el exponencial gasto social en estos, han generado la necesidad de incrementar el
conocimiento de estas técnicas. En el marco de la gestión por resultados, los programas sociales
deben ser evaluados, así como los pilotos de modificaciones, mejora y nuevas intervenciones que
se vienen realizando.

Un paso inicial de la etapa de factibilidad de las evaluaciones de impacto de los programas es la


determinación del tamaño de muestra a evaluar que nos permita calcular los efectos esperados.
Asimismo, nos interesa conocer los parámetros de los cuales depende este tamaño de muestra
para poder ajustar las restricciones p.ej. presupuestales, sociales, idiosincráticos) que enfrenta el
ejercicio del sector público.

Lamentablemente, la literatura en evaluación de impacto aún no documenta un estudio que


sistematice y resuma las fórmulas para el cálculo del tamaño de muestra y el análisis del poder
para las distintas técnicas de evaluación de impacto que sea de utilidad en las políticas públicas.
En la actualidad, solo se cuentan con investigaciones académicas aisladas de diversas áreas
como la medicina, la psicología, educación, economía, entre otros, que abarcan estos temas de
manera técnica y poco útil para el hacedor de política.

Por ejemplo, las técnicas de muestreo y determinación de tamaño de muestra para diseños
aleatorios y diferencias en diferencias han sido trabajados inicialmente en el campo de la medicina
(Bloom 1995, Bloom et al. 2007, Chow et al. 2008, Frison et al 1992, Jo 2002, Raudenbush et al.
2007, Rhoads 2011, Teerenstra et al. 2012) y posteriormente en diversos campos entre los que se
encuentra la economía (Duflo et al. 2008, McKenzie 2012). Por otro lado, las técnicas de muestreo
para regresión discontinua han sido inicialmente trabajadas en el campo de la medicina (Cappelleri
et al. 1994) y posteriormente con mayor profundidad en el campo de la educación (Schochet
2008). Finalmente, aún hay poco avance respecto a la técnica de emparejamiento y las diversas
técnicas de propensity score matching.

De este modo, este documento busca brindar fórmulas y/o procedimientos para la determinación
del tamaño de muestra requerido para diferentes diseños de evaluación de impacto. Está
estructurado en dos secciones: la primera, introductoria y la segunda, repasa algunos conceptos
de inferencia y cálculo del tamaño de muestra.

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 9


2. Diseño de Evaluación de Impacto
El diseño de una evaluación es un proceso definido por varios pasos en los que deben tenerse
en cuenta el diseño multinivel de la intervención, el método de evaluación (experimental o no
experimental), el tamaño de muestra requerida asociado al método de evaluación y, finalmente, el
muestreo de la información a levantar en campo.

Los pasos del proceso de diseño de la evaluación de impacto serán desarrollados ampliamente
en el presente trabajo con especial énfasis en el cálculo del tamaño de muestra. Sin embargo,
es necesario dedicarle un espacio a las principales técnicas de muestreo que se abordarán
inicialmente dado que son transversales para todos las técnicas de evaluación

2.1. Muestreo1

El muestreo es una técnica estadística para la selección de una muestra a partir de una población
de interés. Los pasos que deben seguirse para desarrollar un adecuado muestreo en una
evaluación de impacto son los siguientes:

a. Determinar la población de interés.

b. Identificar el marco muestral.

c. Levantar tanta información del marco muestral como el cálculo de poder lo requiere.

La determinación de población de interés requiere definir claramente la unidad de análisis, los


objetivos de la evaluación de impacto, y las preguntas que esta buscará responder. Luego, una
vez definido la población que deseamos estudiar debemos definir el marco muestral, es decir, la
población de donde seleccionaremos la muestra, la cual idealmente coincide con la población
de interés. Un adecuado marco muestral es necesario para asegurar la validez externa de los
resultados obtenidos en la evaluación de impacto. Finalmente, debemos elegir el método para
levantar la información. A continuación, se definen los tres métodos de muestreo más comunes.

a. Muestreo aleatorio: A cada unidad de muestreo en la población, le da la misma probabilidad de


ser seleccionado.

b. Muestreo aleatorio estratificado: La población es dividida en estratos y dentro de estos un


muestreo aleatorio simple es realizado. Como resultado de esto, cada unidad dentro de cada
estrato tiene la misma probabilidad de ser seleccionada.

c. Muestreo por conglomerados: Las unidades son agrupadas en conglomerados y se realiza un


muestreo aleatorio de los conglomerados.

En general, el método de muestreo en las evaluaciones de impacto está relacionada con las
reglas de elegibilidad del programa y el diseño jerárquico de la evaluación, temas que discutiremos
ampliamente en la sección 4.

1 Esta sección sigue muy de cerca los resultados de Gertler et al (2011).


Gertler, P., Martinez, S., Premand, P. Rawlings, L. y Vermeersch, C. (2011) “Impact evaluation in practice”. The World Bank

10 • Instituto Nacional de Estadística e Informática


2.2. Costos de una evaluación de impacto

Las evaluaciones de impacto suelen requerir presupuestos elevados, donde deben ser
considerados los costos del equipo evaluador (investigadores, coordinador de campo, experto
en muestreo, etc), materiales y levantamiento de la información, entre otros. Según Gertler et al.
(2011), el costo de las evaluaciones de impacto equivalen aproximadamente a un 4,5% del costo
total de la intervención, dependiendo del tipo de diseño de este.

El mayor costo en una evaluación es usualmente aquella proveniente del levantamiento de la


información de campo, lo cual puede incluir materiales, equipo, salario de los encuestadores y
varios otros gastos operacionales. Por ello, actualmente las políticas públicas prestan mucha
atención al uso de data administrativa para realizar evaluaciones de impacto en países en
desarrollo.

La data administrativa hace referencia a data levantada por una organización como parte de sus
funciones normales. Una de las principales condiciones que deben asegurarse en el uso de data
administrativa es que la data sea comparable entre los grupos tratados y controles. Existen dos
tipos de fuentes comúnmente utilizadas de data administrativa.

Primero, la data administrativa de censos poblacionales, cobertura enteramente ambos grupos y


asegura la validez externa de los resultados. Sin embargo, son escasos y contienen solo limitada
información del conjunto de variables de interés. Los principales censos en el Perú son Censo
Nacional de Población, y Vivienda del año 2007 y Censo Nacional Agropecuario (CENAGRO)
del año 2012 levantado por el Instituto Nacional de Estadística e Informática (INEI) y, en temas
educativos, el Censo Escolar (CE) y la Evaluación Censal de Estudiantes (ECE) levantadas por el
Ministerio de Educación anualmente desde 2004 y 2007 respectivamente.

Segundo, la data administrativa de encuestas de hogares contiene mayor número de variables


de interés y permite construir data longitudinal (panel data) pero puede no tener suficientes
observaciones para detectar impactos pequeños. Los principales encuestas en el Perú son la
Encuesta Nacional de Hogares (ENAHO), Encuesta Demográfica y de Salud Familiar (ENDES),
Encuesta Nacional de Programas Estratégicos (ENAPRES), entre otras encuestas levantadas
por el INEI. Por ejemplo, el Programa JUNTOS cobertura aproximadamente al 10% de hogares
en el Perú, si deseamos hacer una evaluación de impacto utilizando data administrativa de la
ENAHO solo contaremos (aproximadamente) con 200 hogares tratados. En este punto, volvemos
a preguntanos si este tamaño de muestra es suficiente para detectar efectos pequeños.

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 11


3. Conceptos
3.1. La evaluación de impacto

El problema de la evaluación de impacto consiste en determinar la diferencia entre la variable de


resultado (Y ), en el mismo momento del tiempo (t=1 ), del individuo participante en el programa
(D=1 ) y la variable resultado de este individuo en ausencia del programa (D=0 ). Esta diferencia
es la que conocemos como efecto del tratamiento o del programa.

Impacto=[Yi (t=1,D=1)-Yi (t=1,D=0)]

Dado que el término Yi (t=1,D=0) no es observable porque solo existe información de los
beneficiarios una vez que recibieron el programa Yi (t=1,D=1). El reto de las técnicas de
evaluación de impacto pasan por identificar un grupo contrafactual (j ) similar al grupo tratado (i ).

Impacto=[Yi (t=1,D=1)-Yj (t=1,D=0)]

El escenario ideal para la construcción del grupo control consiste en la asignación aleatoria del
tratamiento. La aleatorización del tratamiento asegura que las características observables y no
observables de los individuos sean similares, por lo que cualquier diferencia entre los grupos
debería ser atribuible solo al tratamiento.

Lamentablemente, la mayoría de programas no son asignados aleatoriamente sino que siguen


un proceso de focalización (por parte de hacedor de políticas) o autoselección (por parte de
los beneficiarios). En los estudios no experimentales se requieren de ciertos supuestos de
identificación que nos permitan solucionar el sesgo de selección.

3.2. Modelos Descriptivos vs Modelos Analíticos

Los modelos descriptivos buscan estimar un estadístico (p.ej. media, proporción) para una población
o subpoblación a partir de una muestra representativa. Por ejemplo, suponga que se deseamos
responder la pregunta: ¿Cuál es el puntaje promedio de la Evaluación Censal de Estudiante (ECE)
de matemática en colegios públicos de primaria? Para ello necesitamos definir el marco muestral
de la subpoblación que buscamos estudiar: 29 434 colegios públicos de primaria2 (suponiendo que
todos son elegibles). Una vez definido el marco muestral, nuestra labor será elegir una muestra de
colegios sobre la cual el puntaje promedio muestral de la ECE de matemática sea representativo
del puntaje promedio ECE poblacional.

Por otro lado, los modelos analíticos, a diferencia de los modelos descriptivos, buscan establecer
inferencia acerca del proceso generador de datos en una población, es decir, a partir de una prueba
de hipótesis estimar la relación entre una variable dependiente y una variable independiente.

Por ejemplo, en este caso estamos interesados en responder la pregunta: ¿Cuál es la diferencia
en el puntaje de la ECE de matemáticas en los colegios públicos de primaria que reciben y
no reciben el programa de acompañamiento pedagógico? Note que la pregunta puede ser
formulada de la siguiente manera, ¿Cuál es el impacto del programa de acompañamiento
pedagógico sobre los resultados de la ECE de matemática en los colegios públicos de
2 Fuente: Estadística de la Calidad Educativa (ESCALE) del Ministerio de Educación.

12 • Instituto Nacional de Estadística e Informática


primaria? En este caso, debemos calcular el puntaje para el grupo que recibe el programa
(tratados) y para el grupo que no lo recibe (controles). Nuestra labor será definir tamaños de
muestra que permitan, a partir de una prueba de hipótesis, conocer si las diferencias los puntajes
de ambos grupos son significativas.

3.3. Repaso de Inferencia

Las pruebas de hipótesis tienen dos hipótesis, una hipótesis nula y una alternativa. En las técnicas
de evaluación de impacto, la hipótesis nula está definida como la no existencia de diferencias entre
las medias de las poblaciones de los grupos tratados y controles, mientras que la alternativa está
definida como la existencia de estas diferencias.

El nivel de significancia (denotado por α) es la probabilidad de rechazar la hipótesis nula cuando


esta es verdadera. Es también conocida como error tipo I y se da cuando se encuentran diferencias
entre los dos grupos cuando en realidad estas no existen.

El poder (denotado por k) es la probabilidad de rechazar la hipótesis nula cuando esta es falsa. La
inversa del poder es conocida como error tipo II y se da cuando no se encuentran diferencias entre
los dos grupos, cuando en realidad sí existen.

La tabla 1 resume lo dicho, ilustrando ambos tipos de errores.

Cuadro 01: Errores Tipo I y II


  No rechazamos Ho Rechazamos Ho
No Error Error Tipo I
Ho es verdadera
(probabilidad=1-α) (probabilidad=α)
Error Tipo II No Error
Ho es falsa
(probabilidad=k) (probabilidad=1-k)

El valor comúnmente utilizado para α es 0,05, por lo que la probabilidad de no rechazar (aceptar)
la hipótesis nula cuando es verdadera es 0,95, mientras que el valor comúnmente utilizado para el
poder está entre los valores de 0,8 y 0,9.

Un concepto muy importante en la inferencia en evaluaciones de impacto es el Efecto Tamaño


(ET), el cual es una medida estandarizada del tamaño de la diferencia de las medias entre los
grupos de estudio. Cuando nos referimos al ET que pensamos mínimamente encontrar (dado los
parámetros de α y k ) estamos haciendo mención al Efecto Mínimo Detectable (EMD).

El EMD es un parámetro cuyo valor va a depender de la relación que queramos evaluar. En


la práctica suele calcularse a partir de la sistematización de evaluaciones de impacto de
intervenciones similares (de preferencia en contextos similares). Por ejemplo, los Programas de
Transferencia Condicionadas (PTC) tienden a reducir en 0,04 las brechas de pobreza, aumentar
en 0,09 el consumo per cápita de alimentos, aumentar en 0,07 la matrícula escolar en los países
de la región (Fiszbein y Schady 2009). Estos valores, debidamente estandarizados podrían ser
tomados los efectos mínimos esperables para la evaluación de impacto del Programa JUNTOS
(PTC en el Perú).

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 13


3.4. Cálculo de Tamaño de Muestra
Una vez repasado y esclarecidos algunos conceptos básicos que nos serán de utilidad a
través del documento, es tiempo de dar los primeros pasos para la determinación del
tamaño de3.4. Cálculo de Tamaño de Muestra
muestra.
SupongamosUna vez repasado
que y esclarecidos
deseamos algunos
realizar unaconceptos básicos que
evaluación de nos serán de de
impacto utilidad
una través
programa de
del documento, es tiempo de dar los primeros pasos para la determinación del tamaño de muestra.
capacitación laboral asignado aleatoriamente sobre los ingresos. Para esto definamos la
siguiente Supongamos
regresión quequedeseamos
busca estimar la evaluación
realizar una diferencia entre dos
de impacto de ungrupos
programa(quienes recibieron el
de capacitación
laboral asignado
tratamiento y quienes no). aleatoriamente sobre los ingresos. Para esto definamos la siguiente regresión
que busca estimar la diferencia entre dos grupos (quienes recibieron el tratamiento y quienes no).
𝑌𝑌𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽𝑇𝑇𝑖𝑖 + 𝜀𝜀𝑖𝑖 
Yi=α+βTi+εi
El Efecto Promedio de Tratamiento (ATE por sus siglas en inglés), es decir, el impacto del
programaEldeEfecto Promedio de Tratamiento (ATE por sus siglas en inglés), es decir, el impacto del programa
capacitación laboral está dada por el parámetro 𝛽𝛽. Del mismo modo, 𝑇𝑇 es una
de capacitación laboral está dada por el parámetro β. Del mismo modo, T es una variable binaria
variable binaria
que indica que indicarecibe
si el individuo si elel tratamiento
individuo(Tirecibe
=1) o no (Teli=0),
tratamiento
mientras que ε(𝑇𝑇 = 1) oel error
representa
i 𝑖𝑖
no (𝑇𝑇𝑖𝑖 = 0),
idiosincrático
mientras que el cual seel
𝜀𝜀𝑖𝑖 representa distribuye como iid~(0,σ ) el
error idiosincrático 2
. cual se distribuye como 𝑖𝑖𝑖𝑖𝑖𝑖~(0, 𝜎𝜎 2 ) .

Para el caso
Paradel estimador
el caso de una
del estimador variable
de una variablebinaria (Ttoma
binaria (T toma
solosolo
dos dos valores),
valores), la varianza
la varianza del del
estimador queda definida
estimador queda definida como: como:

1 𝜎𝜎 2 (1)
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) =
𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁 (1)
2
Donde 𝑃𝑃 es la proporción de la muestra que recibe el tratamiento y 𝜎𝜎 es la varianza del
Donde P es la proporción de la muestra que recibe el tratamiento y σ2 es la varianza del error εi.
error 𝜀𝜀𝑖𝑖 .
La figura 01 muestra las distribuciones normales para las hipótesis nula (curva de la izquierda)
La figuray la01hipótesis
muestra las (curva
alternativa distribuciones
de la derecha)normales para delas
para el estimador unahipótesis nula
evaluación de (curva de la
impacto.
izquierda) y la hipótesis alternativa (curva de la derecha) para el estimador de una
evaluación de impacto. Figura 01: Distribuciones de hipótesis nula y alternativa

Figura 01: Distribuciones de hipótesis nula y alternativa

HO HA 12

Efecto Tamaño Valor Efecto Tamaño


0 Crítico β

14 • Instituto Nacional de Estadística e Informática


Efecto Tamaño Valor Efecto Tamaño
Efecto Tamaño Valor Efecto Tamaño
Efecto Tamaño Valor Efecto Tamaño
Efecto
0 Tamaño
Crítico Valor
β Efecto Tamaño
0 Crítico β
0 Crítico β
or un lado, para la curva Pordeunlalado,hipótesis0
para la nula (centrada
Crítico
curva de la en
β cero), nula
hipótesis para un nivel de
Efecto Tamaño (centrada Valor Efectoen Tamaño
cero), para un nivel de
un lado,
gnificancia para
dado
or un lado, paraPor la
(𝛼𝛼), curva
nos de
indica
la uncurva la
quehipótesis
𝐻𝐻
de lala dadoserá
hipótesis nula
rechazadanula (centrada
si ̂
𝛽𝛽
(centradacae en
al cero),
lado derecho
en cero), para del
para unvalor
̂unnivel
nivel de de
significancia
lado, para curva
0 (𝛼𝛼),
de lanos indica
hipótesis que (centrada
nula 𝐻𝐻0 será 0
rechazada
en cero), si
para
Crítico
𝛽𝛽 cae
un β
al
nivel lado derecho del valor
de significancia
ficancia
ítico, para dado
lo (𝛼𝛼),
cual nos
debe indica
cumplirse que
que 𝐻𝐻 ̂
𝛽𝛽será
> 𝑡𝑡 rechazada
𝑆𝑆𝑆𝑆 . Por si 𝛽𝛽
ejemplo,̂ cae
̂ al lado
supongamos derecho
que 𝛼𝛼del
= valor
dado
gnificancia dado (𝛼𝛼), nos (α ), nos indica
indica
crítico, paraque que
𝐻𝐻0 será
lo cual
0 H será rechazada 𝛽𝛽 cae al lado derecho del valor para lo
rechazada si cae
̂ al lado derecho
0debe cumplirse que 𝛽𝛽 > 𝑡𝑡𝛼𝛼 𝑆𝑆𝑆𝑆𝛽𝛽 . Por ejemplo, supongamos que 𝛼𝛼 =
𝛼𝛼 𝛽𝛽 del valor crítico,
05 y el error estándar
cual Por
estimado
debe un
del
cumplirse lado,
programa
que ̂ para de lacapacitación
curva de laboral
lasupongamos
hipótesis nulasoles,
esdedecapacitación
500 α =(centrada en cero), para un
co, para
ítico, paralo lo
cual debe
cual debe cumplirse
0.05 cumplirse queque
y el error 𝛽𝛽 >𝛽𝛽̂ 𝑡𝑡>𝛼𝛼 𝑆𝑆𝑆𝑆
estándar 𝛽𝛽 . Por
estimado
𝑡𝑡𝛼𝛼 𝑆𝑆𝑆𝑆 Porejemplo,
𝛽𝛽 . Por
ejemplo,
del ejemplo,
programa supongamos que
supongamos 0,05
que que 𝛼𝛼y el=
laboral𝛼𝛼error
=esestándar
de 500 soles,
tonces, ̂
si 𝛽𝛽 es estimado
mayor aestimado del programa
significancia
1.65*500=825 Efecto de capacitación
dado
rechazaremos
Tamaño (𝛼𝛼),
Valor nos
la laboral
indica
hipótesis
Efecto es
Tamaño quede
nula 500
𝐻𝐻
que soles,
será
𝛽𝛽 sea entonces,
rechazada
igual a si
si ̂
𝛽𝛽 es
cae mayor
al a derecho d
lado
y el error estándar
05 y el error estándar entonces,
estimado del ̂
si 𝛽𝛽 programa
deles programa de
mayor a 1.65*500=825 capacitación
de capacitación laboral0
rechazaremos
laboral es de 500
la hipótesis
es soles,
de 500 soles, nula que 𝛽𝛽 sea igual a
ro. 1,65*500=825 rechazaremos la
crítico, para0lo cualCrítico hipótesis nula
debe cumplirse que β sea igual a cero.
que 𝛽𝛽̂ > 𝑡𝑡𝛼𝛼 𝑆𝑆𝑆𝑆𝛽𝛽 . Por ejemplo, supongamos
nces, si 𝛽𝛽 ̂ cero. β
tonces, si es mayor
𝛽𝛽̂ es a 1.65*500=825
mayor a 1.65*500=825
Efecto Tamaño
rechazaremos la la
Valor Efectorechazaremos
Tamaño
hipótesis nula
hipótesis queque
nula 𝛽𝛽 sea igual
𝛽𝛽 sea a a
igual
or otro
Por lado, la curva de la hipótesis y la
0.05laTamaño el hipótesis
error
alternativa estándar
(centrada estimado
en el alternativa
valor del de programa
𝛽𝛽), para un de nivelcapacitación 𝛽𝛽), laboral es de 50
ro. unEfecto lado,
Tamaño para laotro
PorValor curva
Porlado,
0 otro lado,
Efecto decurva de
Crítico la curva
laβ hipótesis
de lanula (centrada
alternativa
hipótesis (centradaen cero),
en para
el valor
(centrada de
en un
βel nivelde
),valor
para undenivel poder
para un nivel
oder dado (𝑘𝑘), nosdado
indica ),que 1 será nonos ̂rechazada ̂
si a𝛽𝛽𝐻𝐻 caeserá al
si 𝛽𝛽lado derecho del
ignificancia
otro lado, dado
la0 curva (𝛼𝛼), (k
Crítico
de de nos
poder
la
nos 𝐻𝐻indica
entonces,
indica
β dado
hipótesis
que
que
(𝑘𝑘),si 𝛽𝛽
H
𝐻𝐻
alternativa
esserá
1 será
0 mayor
indica norechazada
rechazada
que
(centrada
1.65*500=825
si
1 en elno
̂ cae
valorrechazadarechazaremos
alallado
delado 𝛽𝛽̂valor
derecho
siderecho
para
𝛽𝛽),𝛽𝛽), caeunal
lalado
del del hipótesis
valor
nivel
crítico,
valor
derecho nula
para lo que
del valor𝛽𝛽 se
or
para
ítico,otro lado,
lapara
curva
lo lacual
curva
de la
cual
debe debe lacero.
hipótesis hipótesis
cumplirse
cumplirse nula que
que alternativa
(centrada
𝛽𝛽̂ > ̂𝑡𝑡1−𝑘𝑘 (centrada
en
𝑆𝑆𝑆𝑆 . cero),
Por
Por ejemplo,en
para
ejemplo, el valor
un
supongamos de
nivel
supongamos de
que para
1-k=0,8
que un nivel
y el mismo error
𝛽𝛽̂ > 𝑡𝑡1−𝑘𝑘
rarítico,
de lapara lo cual debecrítico, cumplirse
𝐻𝐻para loenque
cual 𝛽𝛽debe
> para 𝑆𝑆𝑆𝑆
𝑡𝑡𝛼𝛼cumplirse . 𝛽𝛽Por ejemplo,
que supongamos
𝑆𝑆𝑆𝑆𝛽𝛽 . Por ejemplo, que 𝛼𝛼 = supongamos que
𝛽𝛽
dado hipótesis
(𝑘𝑘), nos nula
indica que(centrada será no cero),
rechazada un
si ̂nivel alde
si𝛽𝛽̂acae lado derecho deldel valor
𝛽𝛽
− do
der𝑘𝑘 (𝛼𝛼),
dado
= 0.8nos estándar
elindica
y(𝑘𝑘), nos
mismo que
indica
error𝐻𝐻 estimado,
será
que
0estándar 1𝐻𝐻 entonces,
rechazada
será
1 estimado, no 𝛽𝛽̂ cae
sirechazada
es mayor
entonces, al silado ̂0,84*500=420
𝛽𝛽
es derecho
cae
mayor al a del
lado no rechazaremos
valor
derecho
0.84*500=420 ̂
(aceptamos) la
valor
0.05 indica y el
que error estándar
será 1
rechazada
hipótesis − estimado
𝑘𝑘
nula =
Por̂ que 0.8 y del
el
si 𝛽𝛽̂ lado,
otro cae programa
mismo
lâ lado
al𝛽𝛽
sea igual curvaerror de
.derechode capacitación
estándar
la hipótesis estimado,
del valor laboral
entonces,
alternativa es de
si 𝛽𝛽 500
es
(centradaque soles,
mayor
en elavalor
0.84*500=420
de 𝛽𝛽), para
oco, cual
ítico, paradebe
para
rechazaremos lo 𝐻𝐻 cual
lo debe
0(aceptamos)
cumplirse
cual debe cumplirse
que lacumplirse
𝛽𝛽 > 𝑡𝑡
hipótesis que
𝑆𝑆𝑆𝑆 .
que
nula Por
que >
𝛽𝛽̂a𝛽𝛽
β
𝑡𝑡>
̂1−𝑘𝑘
ejemplo,
sea𝑡𝑡 𝑆𝑆𝑆𝑆 𝛽𝛽 . supongamos
𝑆𝑆𝑆𝑆
igual aPor
. Por
𝛽𝛽. .ejemplo,
ejemplo, que
̂
supongamos
supongamos
𝛼𝛼 = que
ntonces, si ̂ eŝ mayornoarechazaremos
𝛽𝛽 1.65*500=825𝛼𝛼 𝛽𝛽(aceptamos)
rechazaremos la
1−𝑘𝑘 hipótesis
𝛽𝛽
la nula
hipótesis que 𝛽𝛽
nulasea igual
que 𝛽𝛽a 𝛽𝛽.
sea . ̂
igual a
cumplirse
𝑘𝑘niendo
= que
y estimado
ely resultados
mismo 𝛽𝛽poder
𝛼𝛼 𝑆𝑆𝑆𝑆programa
𝛽𝛽 > 𝑡𝑡error Por dado
.estándar ejemplo, (𝑘𝑘), supongamos
estimado, nosentonces,
indica que que 𝐻𝐻 1esserá
̂ 𝛼𝛼
si𝑘𝑘,𝛽𝛽 =mayor no arechazada
0.84*500=420 si 𝛽𝛽 cae al lado derecho d
− 𝑘𝑘 0.8
estándar
ero. = ambos
0.8 el mismo del
Uniendo error
ambos
tenemos estándar de
resultados
que para capacitación
estimado,
tenemos
obtener un quepoderlaboral
entonces,
para de sies
obtener 𝛽𝛽̂ un
debe
Efecto de 500
escumplirse:
mayor
poder
Tamaño soles,
de a 0.84*500=420
debe
Valor
̂ poder cumplirse:
Efecto Tamaño
timado del programa Uniendo
de crítico, ambos
capacitación resultados
paranula lo
laboral tenemos
cual𝛽𝛽̂es debe deigual que
cumplirse
500 para obtener un de 𝑘𝑘, debe cumplirse:
que 𝛽𝛽 > 𝑡𝑡1−𝑘𝑘 𝑆𝑆𝑆𝑆𝛽𝛽 . Por ejemplo, supongam
eschazaremos (aceptamos)
mayor a 1.65*500=825 la hipótesis laque que sea 𝛽𝛽̂ sea asoles,
𝛽𝛽. 𝛽𝛽.0 sea
rechazaremos (aceptamos) ̂ rechazaremos
𝛽𝛽 > la(𝑡𝑡hipótesis
+ 𝑡𝑡 nula
)𝑆𝑆𝑆𝑆
hipótesis nula
igual que a 𝛽𝛽. . igual Críticoa β
(2) un nivel
Por otro lado, larechazaremos
1.65*500=825 curva de 1la−hipótesis = 0.8 alternativa
la𝑘𝑘 hipótesis
𝛼𝛼 1−𝑘𝑘 y elnula 𝛽𝛽mismo que(centrada
𝛽𝛽 error
̂ 𝛽𝛽> sea + en
𝑡𝑡1−𝑘𝑘ela)𝑆𝑆𝑆𝑆
(𝑡𝑡𝛼𝛼estándar
igual valor
estimado,
𝛽𝛽 de 𝛽𝛽), para
entonces, si 𝛽𝛽̂ es mayor (2) a (2) 0.84*5
ndo
niendo ambos
ambos resultados
resultados tenemos
Por
tenemos un que lado,
que para paraobtener
para la
obtener un
curva unpoder de
poder de
la 𝑘𝑘,
de debe
hipótesis
𝑘𝑘, debe cumplirse:
nula
cumplirse: (centrada en cero), para un n
ara oder dadoejemplo,
nuestro (𝑘𝑘), nos esoindica
quiere que
nonuestro 1 será
rechazaremos
decir, 𝐻𝐻que si elno rechazada
(aceptamos)
valor estimado si
la ̂ cae
hipótesis
𝛽𝛽programa
delque alvalor ̂
lado
nula
𝛽𝛽 es quederecho
al ̂
𝛽𝛽 sea
menos del
igual valor
a 𝛽𝛽.𝛽𝛽̂. es al menos
Para
Para nuestro ejemplo,
significancia ejemplo,
eso dado eso
quiere (𝛼𝛼),quiere
decir,
elnos decir,
que sideel
indica sipara
valor
que el
estimadoun estimado
del programa del siprograma
𝛽𝛽̂ cae
es alalmenos
aualcurva
a de soles
1,250 la hipótesis
(2.49*500), alternativa
𝛽𝛽̂ > (𝑡𝑡
entonces +(centrada
𝑡𝑡
podremos )𝑆𝑆𝑆𝑆 ̂en
haber valor
identificado 𝛽𝛽), el
𝐻𝐻 0 será
verdadero
rechazada
nivel
impacto (2) lado derecho d
arítico, paraalternativa
hipótesis lo cual debe
(centrada
igual ̂
acumplirse
𝛽𝛽soles
> 𝛼𝛼en
1,250 el+1−𝑘𝑘
soles que
(𝑡𝑡(2,49*500),𝑡𝑡1−𝑘𝑘
valor 𝛽𝛽𝛽𝛽 >𝛽𝛽),
)𝑆𝑆𝑆𝑆
de
(2.49*500), 𝛽𝛽 𝑡𝑡1−𝑘𝑘para𝑆𝑆𝑆𝑆𝛽𝛽un
entonces . Por
nivel
podremosejemplo, haber supongamos
identificado que
el(2)
verdadero
,l nos indicacon igual
queun𝐻𝐻80% a 1 Uniendo
250
crítico, ambos
𝛼𝛼
para lodesi resultados
cual entonces
̂ tenemos
podremos
debealcumplirse que
haber para
que del obtener
identificado
̂ el un poder
verdadero de
impacto
𝑘𝑘,
𝑆𝑆𝑆𝑆𝛽𝛽 . Por ejemplo, supongamos delimpacto
debe cumplirseq
programa 1 será de no rechazada
probabilidad ser cae
𝛽𝛽 identificado lado (produciendo
derecho
̂
𝛽𝛽 > unvalor
𝑡𝑡𝛼𝛼impacto
1nuestro
− 𝑘𝑘 =
que 𝐻𝐻 0.8
será y el
no programa
mismo del
rechazada programa
con
error un
si 80%
estándar
̂
𝛽𝛽 caecon
de al un
estimado,
lado 80%
probabilidad de de probabilidad
ser
entonces,
derecho identificado
del si
valor𝛽𝛽 de es sermayoridentificado
(produciendo ̂a un (produciendo
impacto
0.84*500=420 un
significativo impacto
a
1 ejemplo, eso quiere decir,>el𝑡𝑡aque
𝛽𝛽̂ydecir, si el valor estimado del programa 𝛽𝛽 de eŝ al menos
racual
nuestro
gnificativo debeaejemplo,
uncumplirse
nivel
un
deleso
nivel quiere
5%).
que
del0.05 5%).
significativo un
1−𝑘𝑘 que
error 𝑆𝑆𝑆𝑆
nivel si. del
el
𝛽𝛽estándar
Por valor
5%). estimado
ejemplo,
̂ sea 𝛽𝛽̂ >supongamos
estimado (𝑡𝑡del
del𝛼𝛼 + programa
programa
𝑡𝑡1−𝑘𝑘 )𝑆𝑆𝑆𝑆 que 𝛽𝛽𝛽𝛽 es al menos laboral es de 50
capacitación
ocumplirse
a rechazaremos
1,250 soles
que (aceptamos)
̂>
(2.49*500),
𝛽𝛽 𝑡𝑡 la
entonces
𝑆𝑆𝑆𝑆 . hipótesis
Por podremos
ejemplo,
̂ nula que
haber 𝛽𝛽
supongamos igual
identificado a
que 𝛽𝛽. el. verdadero impacto
ual
aelfiguraa
mismo 1,250
02 errorsoles (2.49*500),
estándar 1−𝑘𝑘 entonces,
estimado,𝛽𝛽 entonces podremos
si 𝛽𝛽representado
entonces, es mayor ̂ haber
apor identificado
1.65*500=825 el verdadero
rechazaremos impacto
la hipótesis nula que 𝛽𝛽 sea
programa
nos grafica
con un 80%
el La
poder
de figura
Para
estadístico
02 nos
nuestro
probabilidad ̂ grafica
ejemplo,
de elsipoder
ser
𝛽𝛽 es
eso
mayor
el áreaasombreada
estadístico
quiere
identificado decir,
0.84*500=420
representado
que
(produciendo si
de lapor
el
curva
valor
un elimpacto
área sombreada
estimado delcurva de la curva
programa 𝛽𝛽̂ es a
ror estándar
lshipótesis
programa
Uniendo ambos estimado,
con
alternativa.La
un figura
resultados
A80% entonces,
02 de
tenemos
cero.
medida que sielque
nosprobabilidad
grafica espara
el
𝛽𝛽̂área mayor
poder de
sombreada a 0.84*500=420
estadístico
ser
obtener representado
identificado
un
sea poder
una de
proporción por
(produciendo
𝑘𝑘, debe el área
mayor sombreada
cumplirse:
de unla impacto de la de
(aceptamos) la hipótesis de nula
hipótesis
igual que
amayor
1,250𝛽𝛽 sea
alternativa. igual A a 𝛽𝛽.
medida . que el área sombreada sea una proporción mayor de la
ficativo
gnificativo a un
s) la hipótesis
pótesis a unnivel
alternativa, nivel
nula del
hipótesis
elque 5%).
del
poder𝛽𝛽̂alternativa.
5%).
sea
hipótesis seráigual
̂ alternativa,𝛽𝛽.ysoles
Aamedida . laelque (2.49*500),
el área sombreada
evaluación
poder será
entonces
demayorimpacto y la
podremos
seatendrá
una proporción
evaluaciónmayores haber
de
mayor identificado
impacto
de la hipótesis
tendrá
el verdadero
mayores
resultados tenemos alternativa,
que Por
del
para otro
𝛽𝛽
el poder >
programa
obtener lado,
(𝑡𝑡
será +
𝛼𝛼 un la
𝑡𝑡
mayor
con curva
1−𝑘𝑘 un
poder )𝑆𝑆𝑆𝑆
y la
dede la
𝛽𝛽evaluación
80% 𝑘𝑘, debehipótesis alternativa
de impacto tendrá
de probabilidad
cumplirse: de ser (centrada
mayores en (2)
el valor
oportunidades
identificado de
de
(produciendo 𝛽𝛽), paraun
portunidades de encontrar efectos significativos.
agurafigura
enemos 02 02nos
quenosgrafica
para grafica el
obtener poder
oportunidades
el
encontrar poder poder
un
efectos
estadístico
poder
significativo dede
estadístico 𝑘𝑘,
significativos.
dado (𝑘𝑘),
a
representado
encontrar
debe
un nosnivel
efectos
representado
cumplirse:
indica
del
por el área
significativos.
por el área sombreada
que 𝐻𝐻1 será no rechazada
5%). sombreada de la
de curva
la
si curva
̂ cae al lado derecho d
𝛽𝛽
Para
ipótesis nuestro ejemplo,
𝛽𝛽̂ > (𝑡𝑡A𝛼𝛼eso
alternativa. quiere
medida decir,
que que si el valor estimado del programa ̂ es al
𝛽𝛽mayor demenos
hipótesis alternativa. A+ medida
𝑡𝑡1−𝑘𝑘 )𝑆𝑆𝑆𝑆 𝛽𝛽 el el
que área área sombreada
sombreada seasea unauna proporción
proporción̂ (2) mayor la la
de
̂
𝛽𝛽 > (𝑡𝑡𝛼𝛼 + soles
𝑡𝑡1−𝑘𝑘el)𝑆𝑆𝑆𝑆 crítico, para lo cual debe cumplirse (2) que 𝛽𝛽 > 𝑡𝑡 𝑆𝑆𝑆𝑆𝛽𝛽 .impacto
Por el ejemplo, supongam
pótesis alternativa, el poder será mayor yFigura
gual a 1,250 (2.49*500),
𝛽𝛽 Laserá figuraentonces02 nos podremos
grafica el02: Poder estadístico
haber
poder identificado
estadístico el verdadero
representado por área sombreada de
tesis alternativa, poder mayor y la evaluación de impacto tendrá 1−𝑘𝑘 mayores
la evaluación dê impacto tendrá13 mayores ̂ 13
emplo,
el eso
programa
tunidades quiere
con decir,
un 80% que1de − si
de 𝑘𝑘 el
= valor
0.8
probabilidad
hipótesis yestimado
el mismo
alternativa. del errorprograma
de ser identificado estándar 𝛽𝛽
medida que (produciendoes al
estimado, menos
el área sombreada entonces,
un impacto si 𝛽𝛽 es mayor
sea una proporción may a 0.84*5
uiere
oles decir,deque
ortunidades
(2.49*500),
encontrar
de encontrar
si el valor efectos
efectos
estimado significativos.
significativos.
del programa 𝛽𝛽 es el al verdadero
menos
ignificativo a un entonces
nivel delno podremos
5%).rechazaremos
hipótesis haber
alternativa, identificado
(aceptamos) el poder la hipótesis
será mayor impacto
nula yque la 𝛽𝛽 ̂ sea igual ade𝛽𝛽. impacto
evaluación . tendrá
00),
on un entonces
80% de podremos
probabilidad haber de identificado
ser identificado el verdadero (produciendoimpacto un impacto
oportunidades deresultados
encontrar efectospor significativos.
La
undefigura 02 5%).
probabilidad
nivel del de serelUniendo
nos grafica poder estadístico
identificado ambos (produciendo representado tenemos
un impacto que
el área parasombreada
obtener undepoder la 13 de 𝑘𝑘, debe cumplirse
curva
13
5%).e hipótesis alternativa. A medida que el área sombreada sea una proporción mayor de la
sipótesis
grafica alternativa,
el poder estadístico 𝛽𝛽̂ > (𝑡𝑡𝛼𝛼 +de 𝑡𝑡1−𝑘𝑘
la )𝑆𝑆𝑆𝑆
el poderrepresentado será mayorpor y el la área sombreada curva 𝛽𝛽
evaluación de impacto tendrá mayores
poder
ernativa. estadístico
A medida representado
que el área por el
sombreada área sombreada
sea una de la
proporción curva mayor de la
portunidades de encontrar Para nuestro
efectos ejemplo, eso quiere decir, que si el valor estimado del programa 𝛽𝛽̂ es a
significativos.
medida que el área
ativa, el poder será mayor sombreada sea una proporción mayor detendrá la mayores
igualya la 1,250evaluación
soles (2.49*500), de impacto entonces podremos haber identificado el verdadero
der será mayor y
de encontrar efectos significativos. la evaluación de impacto tendrá
HO mayores HA
del programa con un 80% de probabilidad de ser identificado (produciendo un
efectos significativos. 13
significativo a un nivel del 5%).
13
La figura 02 nos grafica el poder estadístico representado por el área sombreada de
13
de hipótesis alternativa. A medida que el área sombreada sea una proporción may
hipótesis alternativa, el poder será mayor y la evaluación de impacto tendrá m
oportunidades de encontrar efectos significativos.

t=1,981 t=0 t=1,98

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 15


t=1.981 t=0 t=1.98
t=1.981 t=0 t=1.98
Supongamos ahora
Supongamos queque
ahora este parámetro
parámetro𝛽𝛽 de la hipótesis alternativaesesel el mínimo efecto
que que
Supongamos ahora que esteeste
parámetro 𝛽𝛽βdedelalahipótesis
hipótesis alternativa
alternativa es el mínimo efecto
mínimo efecto que
podemospodemos detectar
detectar (el (el EfectoMínimo
Efecto Mínimo Detectable
Detectableo EMD),o EMD),entonces reemplazando
entonces de (1) y de
reemplazando (2),(1) y
podemos detectar
tenemos:
(el Efecto Mínimo Detectable o EMD), entonces reemplazando de (1) y
(2), tenemos:
(2), tenemos:
1 𝜎𝜎 2
𝐸𝐸𝐸𝐸𝐸𝐸 = (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 )√ 1 √𝜎𝜎 2
𝐸𝐸𝐸𝐸𝐸𝐸 = (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 )√𝑃𝑃(1 − 𝑃𝑃) √ 𝑁𝑁
𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁
En este caso, si el EMD es al menos igual a 1,250 soles tendremos la certeza que podemos
En este En caso, si elsiEMD
este caso, el EMD es esal al
menos
menosigual igual aa 1,250 soles tendremos
1 250 soles tendremos la la certeza
certeza queque podemos
podemos
detectar el impacto
detectar
mínimo
el impactomínimo
esperado.Cabe
mínimo esperado.
Cabe indicar
indicar
quefórmula
que esta
esta fórmula aplica
aplica no solo
no
parano
solo para
variables
detectar el impacto esperado. Cabe indicar que esta fórmula aplica solo para
variables dependientes
dependientes continuas,continuas, sino que
sino que también paratambién
variablespara variables
dependiente dependiente
binarias medidas comobinarias
variables dependientes continuas, sino que también para variables dependiente binarias
medidas como proporciones
proporciones o porcentajes.o porcentajes.
medidas como proporciones o porcentajes.
Ahora, reemplazando
Ahora, reemplazandola fórmula
la fórmula anterior
anterior tenemos tenemos que elde tamaño
que el tamaño muestrade parala muestraun para
Ahora, reemplazando la fórmula anterior tenemos que el la tamaño de laidentificar
muestra para
identificar
EMD un
dado EMD
tiene dado
que ser tiene
al que
menos ser
igual al
a: menos igual a:
identificar un EMD dado tiene que ser al menos igual a:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 22 1
𝑁𝑁 = [ 𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 )] 1
𝑁𝑁 = [ 𝐸𝐸𝐸𝐸𝐸𝐸 ] 𝑃𝑃(1 − 𝑃𝑃)
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃)
De este modo, la ecuación anterior nos indica que el tamaño de muestra mínimo (N)
De este modo, la ecuación anterior nos indica que el tamaño de muestra mínimo (N)
depende De este
del modo,
EMD,la la ecuación
proporciónanteriorde nostratados
indica que el tamaño
(𝑃𝑃) el errordeestándar
muestra mínimo
(𝜎𝜎) y los(N ) valores
depende de del 𝑡𝑡 y
depende del EMD, la proporción de tratados (𝑃𝑃) el error estándar (𝜎𝜎) y los valores de 𝑡𝑡𝛼𝛼𝛼𝛼 y
𝑡𝑡1−𝑘𝑘 . EMD, la proporción de tratados (P ) el error estándar (σ) y los valores de tα y t1-k.
𝑡𝑡1−𝑘𝑘 .
Volvamos Volvamosahoraahoraal alejemplo
ejemplo de de lalaevaluación
evaluación de impacto
de impacto del programa
del programa de capacitación
de capacitación laboral
Volvamos ahora al ejemplo de la evaluación de impacto del programa de capacitación
laboral sobre los ingresos.
sobre Supongamos
los ingresos. que queremos
Supongamos saber cuál es
que queremos el tamaño
saber cuál esmínimo de muestra
el tamaño que de
mínimo
laboral nossobre
permitelosidentificar
ingresos. de Supongamos
manera confiable que
el queremos
valor del saber
impacto del cuál es el tamaño mínimo de
programa.
muestra que nos permite identificar de manera confiable el valor del impacto del programa.
muestra que nos permite identificar de manera confiable el valor del impacto del programa.
Para responder
Para responder estaesta pregunta
pregunta necesitamos conocer
necesitamos conocer loslos parámetros
parámetrosdeldel ladolado
derecho
derechode lade la
Para responder esta pregunta necesitamos conocer los parámetros del lado derecho de la
ecuación anterior. Supongamos que, según intervenciones similares,
ecuación anterior. Supongamos que, según intervenciones similares, se tiene conocimiento se tiene conocimiento que el
ecuación Efectoanterior. Supongamos
Mínimo Detectable es deque, segúnla intervenciones
100 soles, similares,
proporción de tratados es 0,6,se tieneestándar
el error conocimiento
es
450 y finalmente, el poder y nivel de significancia deseados son de 0,8 y 0,05 respectivamente.
Reemplazando en la fórmula anterior, obtenemos que el tamaño mínimo de la muestra (N ) es 14 14
524 personas.

Es decir, con 524 personas (314 tratados y 210 controles), tengo la certeza (con un poder de 80%)
que puedo detectar un impacto del programa de capacitación laboral de al menos 100 soles.

Supongamos ahora que contamos con un presupuesto reducido y no podemos levantar información
para este número de individuos. Es decir, ahora nos enfrentamos a la siguiente pregunta ¿Qué nos
reduce el tamaño de muestra necesario?

 El Efecto Mínimo Detectable: La primera expresión del lado derecho depende del EMD de
forma inversa. Para nuestro ejemplo, con los parámetros originales, notamos que aumentando
una unidad, el EMD se reduce el tamaño de muestra en 11 unidades, si reducimos 2 unidades
el EMD se reduce en 22 unidades y así sucesivamente. Sin embargo, como se observa en
la fórmula anterior, esta relación inversa es decreciente. La intuición detrás de esta relación
es que si queremos capturar efectos más pequeños (dado los demás parámetros) vamos a

16 • Instituto Nacional de Estadística e Informática


necesitar mayor muestra para poder hacerlo. Los paneles A y B de la figura 0,3 nos muestran
el poder para un efecto tamaño menor (EMD=2,5) y mayor (EMD=2). En el panel B, el
área sombreada se nota que al aumentar el efecto tamaño se tendrá mayor poder.

 El error estándar: En la expresión del lado derecho observamos que el error estándar (σ)
tiene una relación directa con el tamaño de la muestra. La intuición detrás de esta relación es
que a medida que la varianza es más pequeña (dado los demás parámetros) va a ser más
fácil distinguir las diferencias entre las distribuciones de las hipótesis nula y alternativa. Los
paneles A y B de la figura 04 nos muestran el poder para un error estándar alto (σ =2) y
bajo (σ=0,7) respectivamente. En el panel B, el área sombreada es una proporción mayor
en la distribución de la hipótesis alternativa lo que denota un mayor poder.

 La proporción de tratados y controles: La segunda expresión del lado derecho depende


de la proporción de tratados (P) y controles (1-P) en la evaluación de impacto. Para nuestro
ejemplo, con P=0,6 dicha expresión es igual a 4,167. Si reduzco la proporción de tratados
a 0,55, entonces la expresión cae a 4,04, mientras que si la reduzco hasta 0,3 la expresión
sube hasta 4,762. Si seguimos intentando con diferentes valores de P, nos daremos cuenta
que esta expresión es convexa en P y el valor que minimiza esta expresión se da cuando
P=0,5. Para este valor, esta expresión toma el valor de 4.

 El poder: Se observa una relación directa con respecto al tamaño de la muestra. Esto quiere
decir que si deseamos ser más exigentes con la probabilidad de no cometer error tipo II,
entonces (dado los demás parámetros) necesitaremos mayor tamaño de muestra para hacer
esto posible.

Figura 03: Sensibilidad del poder estadístico


Panel A: Sensibilidad a un menor Efecto Tamaño (EMD=2,5)

t=1,98 t=0 t=1,98 EMD=2,5

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 17


Panel B: Sensibilidad a un mayor Efecto Tamaño (EMD=4)

t=1,98 t=0 t=1,98 EMD=4

Nota: Tamaño de muestra de 100 observaciones y error estándar de 1.


Elaboración: Propia

Figura 04: Sensibilidad del poder estadístico al error estándar

Panel A: Sensibilidad al error estándar (SD=2)

18 • Instituto Nacional de Estadística e Informática


Panel B: Sensibilidad al error estándar (SD=0,7)

Nota: Tamaño de muestra de 100 observaciones y EMD de 2,5.


Elaboración: Propia

3.5. Implementación del cálculo del tamaño de muestra en Stata


En el ejemplo práctico utilizado respecto al programa Trabaja Joven, se evalúa el efecto de la
intervención sobre los ingresos de los hogares. Suponga que deseamos diseñar un piloto para
evaluar esta intervención por lo que necesitamos saber cuál es el número de individuos que
necesitamos para obtener al menos un poder de 0,80 y un EMD conservador de 0,20.
El cálculo del tamaño de muestra necesario en Stata se calcula en los siguientes pasos:
a. Especificar las siguiente variables:
Como se puede observar en la ecuación del número de individuos (N), los parámetros que
debemos asumir son la proporción de tratados (P) y el EMD conservador de 0,20.

scalar p=0.5 /*ratio of treatment group*/


scalar emd=0.2 /*Standardized Minimum Detectable Effect*/

La probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0,05 (prueba de 2 colas) y poder de 0,8.
scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/
scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

b. Cálculo del tamaño de muestra


Siguiendo la fórmula del tamaño de muestra mínimo necesario, los parámetros anteriormente
descritos tenemos:
*Sample size
scalar N=(1/emd)^2*(t_alphaplusbeta^2)*(1/(p*(1-p)))
display round(N)

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 19


4. Diseño Multinivel de una Evaluación de Impacto
4.1. Modelos Multinivel

En las ciencias sociales, médicas y educativas las estructuras multiniveles y diseños jerárquicos
son comunes. Las poblaciones están agrupadas en comunidades, centros poblados y distritos; los
alumnos en secciones, y estas a su vez en colegios; los trabajadores en empresas; entre otros.

El tipo de diseño multinivel de la intervención depende del tipo de pregunta de interés en la


evaluación, consideraciones políticas, legales, restricciones logísticas, éticas y la existencia de
externalidades (Bernal y Peña 2012) que enfrenta el investigador y/o hacedor de políticas incluso
antes de la implementación. Es por ello que al realizar una intervención (o evaluación de impacto)
lo primero que se debe definir (o conocer) es el diseño multinivel.

Lamentablemente, en la práctica, muchas intervenciones financiadas por gobiernos nacionales


suelen no tomar las consideraciones necesarias para ajustar el diseño lo que genera evaluaciones
con inadecuados niveles de precisión y poder estadístico (Spybrook et al 2007, Hedges, 2004).

La presente sección aborda los ajustes al cálculo del tamaño de muestra al diseño de la
intervención y brinda algunas consideraciones prácticas de algunos parámetros asociados a
estas. Los parámetros varían dependiendo la unidad de asignación: individual, conglomerados o
bloques (estratos).

Cabe resaltar que aunque la sección sintetiza los modelos básicos de los diseños estudiados
(bloques y conglomerados), la gama de niveles y combinaciones posibles es grande y compleja
por lo que superan el alcance de este trabajo. Afortunadamente, el software “Optimal Design”, nos
permite calcular estos modelos y el manual nos brinda un acercamiento amigable a estos modelos
(Spybrook, et al 2011).

4.2. Diseños por conglomerados

En este diseño todos los individuos que están agrupados dentro de un conglomerado (p.ej. centro
poblado, colegio, hospitales) reciben la misma intervención (tratados o controles); es decir, el nivel
de asignación del tratamiento es el conglomerado.

En algunas intervenciones, el diseño de conglomerado viene dado por la misma naturaleza de


la intervención (este es el caso de inversiones en bienes públicos como construcción de lozas,
canchas, alumbrado público, etc.), mientras que en otros casos viene dado por restricciones
logísticas, éticas y/o presupuestales.

Por ejemplo, Kremer y Miguel (2004) evaluaron el impacto de una intervención que consistía en
entregar medicinas de desparasitación a niños y niñas en colegios de Kenia. Siendo los parásitos
intestinales una enfermedad que se transmite vía contacto humano ¿Es posible que existan
efectos indirectos en el grupo control si se asigna a nivel individual? ¿Es ético brindar medicinas
a un grupo de niños y a otros dentro de una misma aula? Por tanto, ¿Cuál sería el nivel de
asignación de la intervención?

Existen algunas razones para utilizar un diseño de conglomerado como evitar que los beneficios

20 • Instituto Nacional de Estadística e Informática


¿Es ético¿Es ético brindar brindar medicinas medicinas a un grupo a un grupo de niños de niños y a otros y a otros dentrodentro de unademisma una misma aula? aula? Por Por
tanto, ¿Es
tanto,
¿Cuál
tanto, ético
¿Cuál
sería brindar
¿Cuálrazones sería
el nivel
sería el nivel medicinas
el nivel
de de
asignación a un
asignación grupo
de la de de laniños
intervención? intervención?y a otros dentro de una misma aula? Por
Existen algunas para de asignación
utilizar un diseño de la intervención?
de conglomerado como evitar que los
tanto, ¿Cuál sería el nivel de asignación de la intervención?
Existen Existen
beneficios
Existen algunas algunas
se transfieran
algunas razones razones
razones de
para para utilizar
tratados
utilizar
para utilizar
a controles
un diseño un diseño
un diseño
(efecto de
de conglomerado
de desborde conglomerado
conglomerado o spillover)
comocomo como evitar
o efectos
evitar que los
evitar que los
de
que los
Existen
beneficios
equilibrio
beneficios
beneficios general algunas
se transfieran se pero
se transfieran razones
transfieranse debe
de tratados para
de
tener tratados
de tratados utilizar
en a
cuenta
a controles un
controles
a controles diseño
que(efectoel de
(efecto
tamaño
(efectodesborde conglomerado
desborde
de
desborde muestra
o spillover) o como
spillover)
requerido
o spillover) evitar
o efectos o
crece
o efectos de los
que
efectos a de
de
medida beneficios
equilibrio
equilibrio que
equilibrio se se
transfieran
general se
general
aumenta
general transfieran
pero se de pero
pero el
tratados
debe se de
tamaño debe
se tenera tratados
controles
debe tener tener
deen cuentalos a
en controles
(efecto
en cuenta cuenta
conglomeradosdesborde
que elque que (efecto
tamaño o el
el tamaño (el
spillover) desborde
tamaño número
de muestra o de
efectos
de muestra o
muestra
despillover)
de requerido
individuos
equilibrio
requeridorequerido o efectos
por
general
crece crece a deaa
crece
medida equilibrio
medida
conglomerado),
medida pero
que seque se
que general
debe
lo sese
aumenta tener
aumenta
queaumenta pero en
finalmente
el tamaño se
cuentadebe que
el tamaño
el tamaño
aumenta tenerel
de losde en
tamaño
de cuenta
de muestra
los conglomerados
elconglomerados
presupuesto
los que
conglomerados el
requerido
de (el tamaño crece de
(el número
la evaluación.
número(el amuestra
númeromedida requerido
que se aumenta
de individuos
de individuos
de individuos crece
por por pora
medida que el
conglomerado),
conglomerado), tamaño de
se aumentalos
lo queconglomerados
que finalmente el tamaño (el número
de
aumenta losel de individuos
elconglomerados
presupuesto por conglomerado),
de (el
de la lo que
número de individuos por
la evaluación. finalmente
4.2.1.conglomerado),
Ajustes aumenta a lo laelque
varianzalofinalmente
presupuesto
finalmente
con aumenta
deconglomerado
la evaluación.
aumenta el presupuesto presupuesto de la evaluación. evaluación.
conglomerado), lo que finalmente aumenta el presupuesto de la evaluación.
4.2.1. 4.2.1.
Ajustes Ajustes a la a la
la varianza con
con conglomerado
4.2.1.
Representemos Ajustes unvarianza
adiseño varianza con conglomerado
de conglomerado conglomerado de forma jerárquica de 2 niveles, con
4.2.1.4.2.1. Ajustes Ajustes a laa la varianza
varianza con conglomerado
con conglomerado
Representemos
individuos
Representemos
Representemos agrupados un diseño un
un diseño
dentro diseño de los
de de
conglomerado conglomerado
deconglomerados.
conglomerado de Podemosforma de
de forma forma pensar
jerárquica jerárquica
jerárquica ende de 22 niveles,
una2 intervención
deniveles, niveles,cona con con
Representemos
individuos
nivel individuos
individuos de colegios agrupados
Representemos agrupados
donde
agrupados un
dentro diseño
un los dentro
dealumnos
dentro
diseño los de
dede losconglomerado
deconglomerados.
losrepresentan
conglomerado conglomerados.
conglomerados. de forma de
el nivel
Podemos forma
Podemos
Podemos
jerárquica jerárquica
1 ydepensar
pensar pensar
losen colegios
dos unaen
niveles,de 2
enintervención
una
con(nivel
una niveles,
intervención
intervención
individuos dea conaa
individuos
nivel nivel
asignación alde
agrupados
de colegios
nivel agrupados
colegios
detratamiento)
colegios dentrodonde
donde de dentro
representan
los
donde losdealumnos
los
los alumnos
conglomerados. los
alumnos conglomerados.
el representan
nivel representan
2.
Podemos
representan pensar
el nivel Podemos
el
elen nivel
una
1 yintervención
nivel pensar
11 yycolegios
los los
losena colegios
una(nivel
nivel
colegios intervención
de (nivel
colegios de de
(nivel dea
nivel
asignación
asignación donde
de los
colegios alumnos
al tratamiento)
tratamiento) donde representan
los
representan alumnos el nivel el nivel1 y los
representan
nivel 2. colegios el (nivel
nivel de 1asignación
y los al
colegiostratamiento)
(nivel de
El nivel asignación oalnivel
tratamiento)
1, representan al individual
el nivel
representan
2.
representan
es representado el nivel el por: 2. 2.
asignación al tratamiento) representan el nivel 2.
El nivel El nivelnivel
1, o nivel 1, o o nivel
nivel
individual individual es representado
es representado representado por:
El 1, individual es 𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽por: 0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖
por:
El nivel El nivel 1, o1,nivel o nivelindividual individual esesrepresentado representado por:por:
𝑦𝑦𝑖𝑖𝑖𝑖 =𝑦𝑦 𝑦𝑦𝛽𝛽𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖0𝑗𝑗=
=+𝛽𝛽 𝛽𝛽𝑒𝑒0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖
Para 𝑛𝑛 ∈ {1,2, … , 𝑛𝑛} individuos por conglomerado y𝑖𝑖𝑖𝑖 𝑗𝑗+∈𝑒𝑒{1,2,
0𝑗𝑗 𝑖𝑖𝑖𝑖 … , 𝐽𝐽} conglomerados. Donde
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖
𝑦𝑦𝑖𝑖𝑖𝑖 es
Para Para
𝑛𝑛Para 𝑛𝑛resultado
∈el{1,2,
𝑛𝑛 ∈…
∈ {1,2,
{1,2, , 𝑛𝑛}… …individuos
,, 𝑛𝑛}
para individuos
𝑛𝑛} individuos
el individuo por 𝑖𝑖conglomerado
por conglomerado
por conglomerado
en el conglomerado y 𝑗𝑗 ∈ yy{1,2, 𝑗𝑗𝑗𝑗 ∈ ∈… {1,2,
, 𝐽𝐽}𝑗𝑗,…
{1,2, … 𝛽𝛽,, 0𝑗𝑗
conglomerados.
𝐽𝐽} conglomerados.
𝐽𝐽} conglomerados.
es la media Donde Donde
delDonde
Para 𝑛𝑛
es ∈el {1,2, resultado… , 𝑛𝑛} individuos
2para el individuo por conglomerado en el y 𝑗𝑗
conglomerado ∈ {1,2, … 2 , 𝐽𝐽} conglomerados.
es la media delDonde
𝑦𝑦
conglomerado
𝑦𝑦𝑖𝑖𝑖𝑖 es𝑦𝑦𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖el es resultado
Para el𝑗𝑗,
n resultado para𝜎𝜎 para
~(0,
∈𝑒𝑒𝑖𝑖𝑖𝑖{1,2,…,n} el esindividuo
)individuosel
el errorindividuo asociado
𝑖𝑖 en 𝑖𝑖elen
por conglomerado 𝑖𝑖 aconglomerado
cada persona
{1,2,…,J} yconglomerados.
yelj ∈conglomerado 𝑗𝑗,𝜎𝜎 𝛽𝛽es 𝑗𝑗,
0𝑗𝑗𝑗𝑗,la
𝛽𝛽
𝛽𝛽varianza
es 0𝑗𝑗laDonde
0𝑗𝑗 esmedialadentro
ymedia
es el del
del
𝑦𝑦 es
conglomerado el
resultado resultado 𝑗𝑗, 𝑒𝑒 para
~(0, 𝜎𝜎 2el
) es individuo
el error 𝑖𝑖
asociadoen el a conglomerado
cada persona y 𝑗𝑗,𝜎𝜎 2𝛽𝛽es es
la la
varianza media
ij
) del
2dentro
del conglomerado.
conglomerado
conglomerado
𝑖𝑖𝑖𝑖 𝑗𝑗, 𝑒𝑒𝑖𝑖𝑖𝑖para 𝑗𝑗, 𝑒𝑒el𝑖𝑖𝑖𝑖
~(0, individuo
𝑖𝑖𝑖𝑖𝜎𝜎
2
~(0, ) es𝜎𝜎 el 2i)en eselelconglomerado
error asociado
error asociado a j,cada
β0j aespersonacadala media personaydel𝜎𝜎conglomerado
2
es 2
y 𝜎𝜎la varianza
0𝑗𝑗 , eij~(0,σ
es la jvarianza dentrodentro
es el error asociado a cada 2 2
del conglomerado
del
del2,conglomerado.
conglomerado.
conglomerado. 𝑗𝑗, 𝑒𝑒𝑖𝑖𝑖𝑖 ~(0, 𝜎𝜎 )persona
es el error y σ es 2
la varianza
asociado a cada dentropersona del conglomerado. y 𝜎𝜎 es la varianza dentro
El nivel o nivel del conglomerado es representado por:
del conglomerado.
El
El nivel2, Elo nivel 2,
2, o o2,nivel
o nivel del delconglomerado
conglomerado es representado por: por:
El nivel nivel nivel del
nivel conglomerado
del conglomerado 𝛽𝛽0𝑗𝑗 es 𝛾𝛾es
= representado esrepresentado
representado
00 + 𝛾𝛾01 𝑊𝑊𝑗𝑗 + 𝑢𝑢0𝑗𝑗
por: por:
El nivel 2, o nivel del conglomerado es representado por:
Donde 𝛾𝛾00 es la media total, 𝛾𝛾01𝛽𝛽es 0𝑗𝑗 la =𝛽𝛽 𝛾𝛾0𝑗𝑗
𝛽𝛽media
0𝑗𝑗00=
=+𝛾𝛾 𝛾𝛾𝛾𝛾000001+
+𝑊𝑊𝑗𝑗𝛾𝛾
diferencial𝛾𝛾+ 01 𝑊𝑊
01 𝑢𝑢0𝑗𝑗
𝑊𝑊 +
+ 𝑢𝑢
𝑗𝑗𝑗𝑗 entre 𝑢𝑢0𝑗𝑗
0𝑗𝑗
los grupos de tratamiento y
𝛽𝛽0𝑗𝑗 = 𝛾𝛾00 + 𝛾𝛾01 𝑊𝑊 𝑗𝑗 + 𝑢𝑢0𝑗𝑗
control,
Donde Donde𝛾𝛾𝑊𝑊 es 𝛾𝛾00
es esindicador
laelγmedia la media
media
total,del total, 𝛾𝛾01
𝛾𝛾01tratamiento, es la la mediamedia
𝑢𝑢diferencial
0𝑗𝑗 ~(0, diferencial
2
𝜏𝜏 ) entre es el entre entre
efecto losaleatorio
grupos de tratamiento
asociado ya yy
Donde 00𝑗𝑗Donde 𝛾𝛾 00 es la
es la media total,
total, γes01𝛾𝛾01la lamedia
es es media diferencial diferencialentre los los
grupos grupos
los
de tratamientode tratamiento
grupos de tratamiento
y control, W
cada
control, Donde
control,
conglomerado
control,𝑊𝑊𝑗𝑗eses 𝛾𝛾 𝑊𝑊 es
el𝑗𝑗𝑗𝑗 eses
00
lael media
yel𝜏𝜏 del
indicador 2indicador total,
estratamiento,
indicador ladel varianza del𝛾𝛾
tratamiento, es
tratamiento,la media
entre conglomerados.
delu0jtratamiento, 𝑢𝑢diferencial
~(0,
2 𝜏𝜏
es𝜏𝜏 el
2
2 ) entre
) eses
efecto el los
efecto
el efecto grupos
aleatorio de
aleatorio tratamiento
asociado
aleatorio asociado
asociado ay
j
yaa
el𝑊𝑊
00indicador 01 ~(0,τ 2
)𝑢𝑢es 0𝑗𝑗 ~(0,
el 𝑢𝑢 0𝑗𝑗𝜏𝜏~(0,
efecto
0𝑗𝑗 )aleatorio asociado a cada conglomerado
2
control,es𝑊𝑊la𝑗𝑗 varianza
cada esyel𝜏𝜏 2indicador entre 2 del tratamiento,
2 conglomerados. 𝑢𝑢0𝑗𝑗 ~(0, 𝜏𝜏 ) es el efecto aleatorio asociado a
cada τconglomerado y
y 𝜏𝜏𝜏𝜏lael es la
la varianza entre entre conglomerados.
2
cada conglomerado
Reemplazando conglomeradoel nivel 2 es en varianza
es
nivel varianza
1, obtenemos conglomerados.
entre conglomerados.
el modelo de la forma reducida:
cada conglomerado y 𝜏𝜏 2 es la varianza entre conglomerados.
Reemplazando
Reemplazando
ReemplazandoReemplazandoel nivel el nivel
2elen
el nivel nivel 2 en
el22𝑦𝑦nivel
enen el nivel
1,
elel nivel
nivel 1,
obtenemos obtenemos
1,1,obtenemos
obtenemos el modelo el
el modelo
el modelo modelo de
de la de
de la
la forma
forma forma
reducida:
la reducida:
forma reducida:
reducida:
𝑖𝑖𝑖𝑖 = 𝛾𝛾00 + 𝛾𝛾01 𝑊𝑊𝑗𝑗 + 𝑢𝑢0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖
Reemplazando el nivel 2 en el nivel 1, obtenemos el modelo de la forma reducida:
𝑦𝑦𝛾𝛾𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖00==+𝛾𝛾 +𝑊𝑊,𝑗𝑗𝛾𝛾 01 𝑊𝑊 ++𝑢𝑢 +
+ 𝑒𝑒𝑒𝑒tratamiento,
Del cual estamos interesados𝑦𝑦𝑖𝑖𝑖𝑖en=𝑦𝑦 estimar 𝛾𝛾𝛾𝛾00
00
𝛾𝛾+
01 𝛾𝛾+el𝑊𝑊
01 𝑢𝑢efecto
𝑗𝑗𝑗𝑗 +
0𝑗𝑗 𝑢𝑢𝑒𝑒0𝑗𝑗
0𝑗𝑗 𝑖𝑖𝑖𝑖del 𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖 mientras que
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛾𝛾00 01 + 𝛾𝛾01 𝑊𝑊𝑗𝑗 + 𝑢𝑢0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖 2
Del
𝑢𝑢0𝑗𝑗 +cual
Del Del cual
𝑒𝑒𝑖𝑖𝑖𝑖 representa
estamos
cual estamos estamos el error
interesados interesados
compuesto,
interesados en estimar en
en con estimar
estimar 𝛾𝛾media
01 , el
𝛾𝛾 cero
𝛾𝛾01 , el
, ely varianza
01efecto
efecto
efecto del
del tratamiento,
del 𝜏𝜏 + tratamiento,
2
𝜎𝜎 . mientras
tratamiento, mientras
mientras que que que
Del Del
cual cualestamos estamos interesados
interesados enen estimar
estimar γ ,
01 𝛾𝛾
el ,efecto
el del
efecto tratamiento,
del mientras
tratamiento,
2 2 que u
mientras +eij que
𝑢𝑢 + 𝑒𝑒
representa representa el error compuesto, con media cero y varianza 2 𝜏𝜏 2 + 𝜎𝜎 2 .
elelerror
error compuesto, con media y cero ycero varianza 𝜏𝜏 .+es𝜎𝜎la. siguiente: 0j
𝑢𝑢0𝑗𝑗varianza
+𝑢𝑢𝑒𝑒0𝑗𝑗 𝑖𝑖𝑖𝑖 representa el error compuesto, con media y varianza
𝑖𝑖𝑖𝑖 + 𝑒𝑒del . 2𝜏𝜏 niveles + 𝜎𝜎
0𝑗𝑗 01
La representa
𝑖𝑖𝑖𝑖 estimador compuesto,
ajustada por conunmedia diseño ceroconglomerado
varianza τ2+σ de
2
𝑢𝑢0𝑗𝑗 + 𝑒𝑒𝑖𝑖𝑖𝑖 representa el error compuesto, con media cero y varianza 𝜏𝜏 2 + 𝜎𝜎 2 .
La
La varianza
La varianza del estimador del
del estimador ajustada ajustada
por unpor diseñoun
un diseño conglomerado conglomerado de
de 22 niveles es
es lala siguiente:
varianza
La varianza
estimador
del estimador
ajustada
ajustada
por
por un
diseño
diseño 1conglomerado
conglomerado 𝑛𝑛𝜏𝜏 2 de +de 𝜎𝜎2dos
2niveles
niveles
es la siguiente:
niveles
es la siguiente:
siguiente:
La varianza del estimador ajustada ̂
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐por un )= diseño conglomerado2 de 22niveles es la siguiente:
̂̂𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑃𝑃(1 1− 𝑃𝑃)1 1𝑛𝑛𝜏𝜏 2𝑛𝑛𝑛𝑛 +𝑛𝑛𝜏𝜏
𝑛𝑛𝜏𝜏 𝜎𝜎2 + + 𝜎𝜎 𝜎𝜎 2
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽
̂𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 ) = )
) =
= 2
+ 𝜎𝜎 2
Si la asignación al tratamiento sería 𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
nivel𝑃𝑃(1
â𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 )= 𝑃𝑃)1−
−𝑃𝑃(1
𝑃𝑃(1
individual, − 𝑃𝑃) 𝑛𝑛𝑛𝑛𝑛𝑛𝜏𝜏
𝑃𝑃) la 𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛
varianza del modelo
Siasignación
laSi asignación
asignación al tratamiento sería 𝑃𝑃(1individual, − 𝑃𝑃) 𝑛𝑛𝑛𝑛la varianza del modelo
anteriormente
Si laSi la ladescrito
asignación al sería: tratamiento
al tratamiento
al tratamiento sería seríasería a nivel nivel aa individual,
nivel
individual,
nivel individual,
la varianza la varianza del la modelo del
varianza modelo
del modelo
anteriormente
Si la
anteriormente
anteriormente asignación
descrito
anteriormente descrito sería: descrito
descrito al
sería: sería: tratamiento
sería: sería a nivel individual, la varianza del modelo
1 𝜏𝜏 2 + 𝜎𝜎 2
anteriormente descrito sería: 𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 ) =
𝑃𝑃(1 1− 𝑃𝑃)1 1𝜏𝜏 2 𝑛𝑛𝑛𝑛
+ 𝜎𝜎 𝜏𝜏𝜏𝜏 22 + + 𝜎𝜎 𝜎𝜎 2
2
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽
̂ ̂
̂ ) =
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 )𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 = ) = 𝑃𝑃(1 1− 𝑃𝑃) 𝜏𝜏 2 𝑛𝑛𝑛𝑛
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 + 𝜎𝜎 2
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑃𝑃(1 ) =−𝑃𝑃(1 𝑃𝑃) − 𝑃𝑃) 𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛 20
Dado un número de individuos por grupo, definamos 𝑃𝑃(1 el − efecto
𝑃𝑃) diseño 𝑛𝑛𝑛𝑛 al ratio entre el error
estándar para la asignación a nivel conglomerado entre el error estándar para la asignación20a 20
20
nivel individual. 20

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 21


error estándar para la asignación a nivel conglomerado entre el error estándar para la
Dado un número dado de individuos por grupo, definamos el efecto diseño al ratio entre el
asignación a nivel individual.
error estándar para la asignación a nivel conglomerado entre el error estándar para la
asignación a nivel individual. 𝐷𝐷 = √1 + (𝑛𝑛 − 1)𝜌𝜌
Donde 𝜌𝜌 = 𝜏𝜏 2 /(𝜏𝜏 2 + 𝜎𝜎 2 ) es conocida 𝐷𝐷 =como √1 +la(𝑛𝑛correlación
− 1)𝜌𝜌 intracluster (ICC por sus siglas
en inglés, la cual toma valores entre 0 y 1.
Donde 𝜌𝜌 = 𝜏𝜏 2 /(𝜏𝜏 2
+ 𝜎𝜎 2 ) es conocida como la correlación intracluster (ICC por sus siglas
Donde ρ=τ2/(τ2+σ2 ) es conocida como la correlación intracluster (ICC por sus siglas en inglés,
Lainglés,
en ICC representa la proporción de 0layvarianza total explicada por la varianza intra grupos.
la cuallatoma cualvalores
toma valores
entre entre
0 y 1). 1.
Consideremos por ejemplo una muestra de 2,000 individuos, divididos en 100 grupos de 20
La ICC representa la proporción de la varianza total explicada por la varianza intra grupos.
individuos
La ICC cada uno (ejemplo:
representa la proporción 100decolegios la varianza contotal 20 explicada
alumnos por cadala uno).
varianza Porintragrupos.
un lado, si la
Consideremos por ejemplo una muestra de 2,000 individuos, divididos en 100 grupos de 20
ICC Consideremos
toma valor depor0,ejemplo los alumnos una muestra dentrodede2,000 individuos,no
los colegios divididos
son muy en 100 grupos por
similares, de 20 lo que
individuos
individuos cada cada uno uno (ejemplo:
(ejemplo: 100100 colegios
colegios con con
20 20 alumnos
alumnos cada uno).cadaPor uno).
un lado,Por
si la un
ICC lado,
toma si la
es lo mismo que asignar 2,000 alumnos a tratamiento o control. Por ello, a medida que la
ICC toma valor de valor
0, losdealumnos
0, los dentro alumnos de los dentrocolegios de no losson colegios no sonpormuy
muy similares, lo que similares,
es lo mismo porque lo que
ICC es menor, se cuenta con mayor variabilidad lo que implica mayor muestra efectiva. Por
es lo asignar
mismo2 que 000 alumnos
asignar a2,000 tratamiento alumnos o control. Por ello, a medida
a tratamiento que la Por
o control. ICC es menor,
ello, a medidase cuenta que la
otro lado,
con si lavariabilidad
mayor ICC toma Efectolo valor
que
Tamaño de 1,
implica dentro
mayor
Valor de
muestra
Efecto cada
Tamaño conglomerado
efectiva. Por otro lado, losi alumnos
la ICC toma son
valor idénticos
de
ICC es menor, se cuenta con mayor variabilidad lo que implica mayor muestra efectiva. Por
y por1,tanto
dentroefectivamente
de cada conglomerado solo tenemos
loCrítico
alumnos 100 sonobservaciones
idénticos y por tanto, independientes,
efectivamente solo lo que reduce la
tenemos
otro lado, si la ICC toma valor 0 de 1, dentroβde cada conglomerado lo alumnos son idénticos
100 observaciones independientes, los que reduce la variabilidad.
variabilidad.
n lado,y por paratantola efectivamente
curva de la hipótesis solo tenemos nula 100 observaciones
(centrada en cero), independientes,
para un nivello de que reduce la
Ahora,
canciavariabilidad.
dado Ahora,reemplazando
(𝛼𝛼), reemplazando
nos indica que la ecuación
la ecuación
𝐻𝐻0 seráderechazada de
la varianza de la varianza
̂
si 𝛽𝛽 caeajustada de ̂
𝛽𝛽 ajustada
por elderecho
al lado diseño dedel por
valor diseño
el
conglomerado en de
paraAhora, la ecuación
conglomerado
lo cual debe en del EMD
la
cumplirse y reordenando
ecuación del
𝛽𝛽̂ >EMD 𝑡𝑡los términos,
y reordenando tenemos que la fórmula detenemos
lossupongamos
términos, la determinación
que del
la fórmula
reemplazando
tamaño de conglomerados la que ecuación
se expresa
𝛼𝛼 𝑆𝑆𝑆𝑆
de la
de
𝛽𝛽 .laPor ejemplo,
varianza
siguiente forma: de 𝛽𝛽̂ ajustada que por𝛼𝛼 el = diseño de
de laestándar
el error determinación estimado del del tamaño programade conglomerados se expresa deeslade siguiente forma:
conglomerado en la ecuación del EMDde capacitación
y reordenando laboral
los términos, 500 soles,
tenemos que la fórmula
es, side𝛽𝛽̂ la
esdeterminación
mayor a 1.65*500=825 del tamaño rechazaremos
𝜎𝜎 ∗ (𝑡𝑡 de
𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 la hipótesis
conglomerados 1 nulade
1 se expresa que la 𝛽𝛽 sea igual
siguiente a
forma:
𝐽𝐽2 = [ ] [1 + (𝑛𝑛 − 1)𝜌𝜌]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
o lado, la curva de la
De este modo el tamaño total 𝐸𝐸𝐸𝐸𝐸𝐸𝐽𝐽
hipótesis
2 = [ alternativa ]
(centrada
de la muestra 𝑁𝑁 − en el valor
viene𝑛𝑛dado [1 +de (𝑛𝑛𝛽𝛽),
por − 1)𝜌𝜌]
elpara
productoun nivel de 𝐽𝐽 por 𝑛𝑛. Al
De este modo, el tamaño total de la muestra 𝑃𝑃(1 N viene𝑃𝑃) dado por el producto de J por n. Al igual
dado igual queenindica
(𝑘𝑘), que
nos enel el caso
que de
𝐻𝐻 asignación
será no a nivel
rechazada si ̂
individual,
𝛽𝛽 cae el
al EMD
lado y la
derecho proporción
del valor de tratados se
De este modocaso de asignación
el tamaño 1
total ade nivella individual,
muestra el 𝑁𝑁 EMD
viene y ladado
proporción
por eldeproducto
tratados sederelacionan
𝐽𝐽 por 𝑛𝑛. Al
pararelacionan
lo inversamente
cual debe inversamente
cumplirse
con el número conque 𝛽𝛽̂conglomerados,
eldenúmero > 𝑡𝑡1−𝑘𝑘 de𝑆𝑆𝑆𝑆 conglomerados,
𝛽𝛽 . mientras
Por ejemplo, que el mientras
supongamos
error que ely error
estándar que
el poder estándar
se y
igual que en el caso de asignación a nivel individual, el EMD y la proporción de tratados se
el relacionan
poder
y el mismo se de
relacionanmanera
error estándar de directa
manera con el número
directa con de conglomerados.
el número de
si 𝛽𝛽̂ es mayor conglomerados.
= 0.8relacionan inversamente conestimado,
el númeroentonces, de conglomerados, a 0.84*500=420
mientras que el error estándar y
El ajuste del cálculo del tamaño de ̂
muestra se da en el último
hazaremos
el poder (aceptamos)
se relacionan
El ajuste la
del cálculo hipótesis
dedel manera nula
tamaño que
directa
de muestra𝛽𝛽 sea
con else igualnúmeroa 𝛽𝛽.
da en de . término del del
conglomerados.
el último término ladolado derecho derecho
(1 + ((𝑛𝑛 − 1)𝜌𝜌),), el cual cualdependedependedede la la ICC.ICC. A A medida que la que ICC la ICC aumenta, los dentro
individuos
do ambos
El ajuste
1+(n-1)ρ
resultados
del cálculotenemos delque tamañopara obtenerde muestra unmedida
poder
se dadeen𝑘𝑘,eldebe
aumenta,
últimocumplirse: los individuos
término del lado derecho
dentro de cada conglomerado se parecen más, la muestra disponible nos brinda y,
de cada conglomerado se parecen más, la muestra disponible nos brinda menor variabilidad menor
(1 + (𝑛𝑛 para−un1)𝜌𝜌),ny,dado,el𝛽𝛽̂es
cual
> (𝑡𝑡depende
necesario de
un número
+ 𝑡𝑡1−𝑘𝑘 )𝑆𝑆𝑆𝑆 la ICC. A medida que
de conglomerados mayor.la Así
ICCla aumenta,
ICC sea pequeña, los individuos
(2) si elAsí la
variabilidad para un 𝑛𝑛𝛼𝛼 dado, es necesario
𝛽𝛽 un número de conglomerados mayor.
dentronúmerode cada conglomerado
de individuos dentro delseconglomeradoparecen más, (n ) es la grande,
muestra disponible
entonces el efecto nosdiseño
brinda puede menor
ICC sea pequeña, si el número de individuos dentro del conglomerado ̂ (𝑛𝑛) es grande,
ser grande
uestrovariabilidad
ejemplo, ypara
esoy,quiereel númerodecir, de conglomerados
que si el valor necesarios
estimado
un 𝑛𝑛 dado, es necesario un número de conglomerados mayor. Así la también
del lo será.
programa 𝛽𝛽 es al menos
entonces el efecto diseño puede ser grande y el número de conglomerados necesarios
1,250ICC soles
sea(2.49*500),
pequeña, sientonces el número podremos de individuos haber identificado dentro delel conglomerado
verdadero impacto (𝑛𝑛) es grande,
también Ahora lo supongamos
será. que nos interesa un diseño de conglomerado de forma jerárquica de tres
ograma con
entonces un 80%
el conefecto de probabilidad
diseñoagrupados puede ser de ser identificado
grande y el (produciendo
número de Podemos un
conglomeradosimpacto necesarios
niveles, individuos dentro de los conglomerados. pensar en una
Ahora
cativotambién supongamos
a unintervención
nivel a nivel de colegios donde los alumnos representan el nivel 1, las secciones el nivel 2 de 3
del 5%).
lo será. que nos interesa un diseño de conglomerado de forma jerárquica
niveles, loscon individuos agrupadosal dentro de los conglomerados.
el nivel 3. Podemos pensar en una
nos ygrafica
ura 02Ahora colegios
supongamos (nivel estadístico
el poder que de asignación
nos interesa tratamiento)
representadoun diseño representan
por de elconglomerado
área sombreada de de la curva
forma jerárquica de 3
La representación
intervención a niveldel demodelo
colegiosmultinivel donde losde los 3 niveles
alumnos representan puedeelser nivel observada
1, las seccionesen Bloom el
ótesisniveles,
alternativa. A medida
conelindividuos que el
agrupados área sombreada
dentro sea
de niveles una proporción
los laconglomerados. mayor
Podemos de la
pensar en una
(2005). La representación
En presente del modelo
trabajo multinivel
solo se de los
presentará
nivel 2 y los colegios (nivel de asignación al tratamiento) representan el nivel 3. tres puede
fórmula ser observada
de la en
determinaciónBloom (2005).
del En
tamaño
sis alternativa,
intervención el apoder
el presente nivel será
trabajo, de semayor
solocolegios presentará y lala fórmula
donde evaluación
los alumnos derepresentan
impactodeltendrá
de la determinación el nivel
tamaño mayores
de 1, las secciones el
conglomerados:
de conglomerados:
nidadesnivel de 2encontrar
y los colegios efectos significativos.
(nivel de asignación al tratamiento) representan el nivel 3.
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1 2 𝛾𝛾 2 𝜎𝜎 2 1
𝐽𝐽3 = [ ] 2
[𝜏𝜏 + + ][ 2 ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) 𝜎𝜎 𝐾𝐾 𝐾𝐾 ∗ 𝑁𝑁 𝜏𝜏 + 𝛾𝛾 2 + 𝜎𝜎 2
13 21
2 2
Donde, 𝜏𝜏 es la varianza la media de la variable resultado entre colegios, 𝛾𝛾 es la varianza
21
la media de la variable resultado entre secciones, 𝜎𝜎 2 es la varianza la media de la variable
resultado entre estudiantes, 𝐽𝐽 es el número total de colegios, 𝐾𝐾 es la media armónica de
secciones por colegio y 𝑁𝑁 es la media armónica de alumnos por secciones.
22 • Instituto Nacional de Estadística e Informática

La ICC para el modelo de 3 niveles queda definida como:


de conglomerados:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1 2 𝛾𝛾 2 𝜎𝜎 2 1
𝐽𝐽3 = [ ] 2
[𝜏𝜏 + + ][ 2 ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) 𝜎𝜎 𝐾𝐾 𝐾𝐾 ∗ 𝑁𝑁 𝜏𝜏 + 𝛾𝛾 2 + 𝜎𝜎 2
Donde, 𝜏𝜏 2 es
Donde, la lavarianza
τ2 es varianza la mediadede
la media la variable
la variable resultado
resultado entre colegios,
entre colegios, 𝛾𝛾 2 eslalamedia
γ2 es la varianza varianza
de la de
la media variable resultadoresultado
la variable entre secciones, σ es la varianza
entre secciones,
2 2
𝜎𝜎 esla media de la variable
la varianza resultado
la media de laentre
variable
estudiantes, J es el número total de colegios, K es la media armónica de secciones
resultado entre estudiantes, 𝐽𝐽 es el número total de colegios, 𝐾𝐾 es la media armónica por colegio y de
N es la media armónica de alumnos por secciones.
secciones por colegio y 𝑁𝑁 es la media armónica de alumnos por secciones.
La ICC
La ICC parapara el modelode
el modelo de3tres nivelesqueda
niveles quedadefinida
definida como:
como:
𝜏𝜏 2
𝜌𝜌3 =
𝜏𝜏 2 + 𝛾𝛾 2 + 𝜎𝜎 2
En este caso la ICC, es la proporción de la varianza del total de estudiantes (𝜏𝜏 2 + 𝛾𝛾 2 + 𝜎𝜎 2 )
En este caso la ICC, es la proporción de la varianza del total de estudiantes (τ2+γ2+σ2 ) explicada
explicada por la intragrupos.
por la varianza varianza intra
A partirgrupos. A partir
del ICC para del estudiados
los diseños ICC para(multinivel
los diseños
de dosestudiados
y tres
(multinivel de 2 y 3 niveles), se puede observar que la magnitud del ICC está
niveles), se puede observar que la magnitud del ICC está inversamente relacionada con inversamente
el nivel
de agregación
relacionada con el(Murray et al.
nivel de 2004).
agregación (Murray et al. 2004).
4.2.2.4.2.2.
ICCICCen en
la la
práctica
práctica
En la práctica, calcular la ICC no es tarea complicada. En STATA, la ICC se puede
En la práctica, calcular la ICC no es tarea complicada. En STATA, la ICC se puede computar
computar utilizando
utilizando unANOVA
un modelo modelo ANOVA
mediante mediante
el comando el comando
“loneway” “loneway”
o utilizando un modeloodeutilizando
máxima un
modelo de máxima
verosimilitud verosimilitud
mediante mediante
el comando “iccvar”. Este el comando
último no viene “iccvar”.
incorporado Este último
en STATA por lono
queviene
debe ser en
incorporado previamente
STATA descargado.
por lo que debe ser previamente descargado.
Algunas consideraciones
Algunas consideracionesprácticas quedebemos
prácticas que debemos tener
tener en cuenta
en cuenta cuando
cuando calculamos
calculamos la ICC
la ICC son
son descritas
descritas aa continuación.
continuación.
Primero, la fuente
Primero, la fuentededeinformación
información dede donde
donde es preferible
es preferible calcular
calcular la los
la ICC son ICC son los
censos. censos.
En el Perú En
el Perú
existen algunos censos que pueden ser utilizados para tales fines: En educación, la Evaluación la
existen algunos censos que pueden ser utilizados para tales fines: En educación,
Evaluación Censal
Censal de de Estudiantes
Estudiantes (desde
(desde el año 2007)elpara
añoel2007) para el
rendimiento de rendimiento
evaluaciones dedelenguaje
evaluaciones
y
matemática
de lenguaje y ymatemática
el Censo Escolar
y el(desde
Censo el año 2004) (desde
Escolar para variables
el año de infraestructura y acceso de
2004) para variables
a servicios básicos;
infraestructura y accesoena agricultura, el Censo en
servicios básicos; Nacional Agropecuario
agricultura, (año Nacional
el Censo 2012) paraAgropecuario
variables
de crédito agropecuario, tenencia de animales, tierras, uso de tecnología, riego, entre otros; en
(año 2012) para variables de crédito agropecuario, tenencia de animales, tierras, uso de
variables de salud, la Encuesta Nacional Demográfica de Salud (desde 2010) y en variables
tecnología, riego, entre
socioeconómicas, otros;deen
el Censo variables
Población de salud,
y Viviendas (añola2007).
Encuesta Nacional Demográfica de
Salud (desde 2010) y en variables socioeconómicas, el Censo de Población y Viviendas
Segundo, si no se tiene certeza sobre los valores de la ICC es recomendable hacer un análisis
(año 2007).
de sensibilidad de este parámetro sobre el tamaño de muestra requerido. Estos valores pueden
Segundo,
tomarsesi sobre
no se tienedecerteza
la base sobre los
trabajos anteriores valores
o alguna de la
medida ICC definida
arbitraria es recomendable hacer un
por el investigador.
Por ejemplo,
análisis si a partir dede
de sensibilidad la ECE
estecalculamos
parámetro un ICC de 0,15
sobre para 2do grado
el tamaño de primaria,
de muestra podríamosEstos
requerido.
calcular
valores el número
pueden tomarsede colegios
en base(conglomerados) necesarios para
a trabajos anteriores diferentes
o alguna ICC: 0,10,
medida 0,15 y 0,20.
arbitraria definida
por el investigador. Por ejemplo, si a partir de la ECE calculamos un ICC de 0.15 para 2do
Conocer valores de ICC para intervenciones similares es de mucha utilidad para validar la
información de los ICC calculados (ver cuadro 02). Es importante notar que la ICC es sensible al
diseño de la intervención lo que podría conllevarnos a equivocaciones. 22

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 23


Cuadro 02: ICC en evaluaciones de impacto
Indicadores ICC Niveles Cluster Fuente
Educación I: Rendimiento académico en matemáticas
Puntaje Stanford 9 a/ 0.081 Tres Colegio Jacob et al. (2010)
Puntaje Kindergarden b/ 0.243 Dos Colegio Hedges et al. (2007)
Puntaje 1er grado b/ 0.228 Dos Colegio Hedges et al. (2007)
Puntaje 6to grado b/
0.264 Dos Colegio Hedges et al. (2007)
Educación II: Rendimiento académico en matemáticas
Puntaje Stanford 9 a/ 0.059 Tres Colegio Jacob et al. (2010)
Puntaje Kindergarden b/
0.233 Dos Colegio Hedges et al. (2007)
Puntaje 1er grado b/
0.239 Dos Colegio Hedges et al. (2007)
Puntaje 6to grado b/
0.26 Dos Colegio Hedges et al. (2007)
Educación III: Comportamiento y emocionales
Inatención/Problemas cognitivos a/ 0.005 Tres Colegio Jacob et al. (2010)
Indice de Conner a/
0.008 Tres Colegio Jacob et al. (2010)
Educación IV: Otros
Participación en desayunos a/ 0.206 Tres Colegio Jacob et al. (2010)
Talla a/
0.017 Tres Colegio Jacob et al. (2010)
Peso a/
0.017 Tres Colegio Jacob et al. (2010)
Salud I: Embarazo
Hipertensión durante embarazo c/ 0.010 Dos Clínica Piaggio et al. (2001)
Anemia durante embarazo c/
0.012 Dos Clínica Piaggio et al. (2001)
Infección urinaria c/
0.005 Dos Clínica Piaggio et al. (2001)
Nota: Elaboración Propia
a/ Chicago Literacy Initiative database; b/ Early Childhood Longitudinal Survey; c/ Antenatal Care Trial

4.3. Diseño de bloques

En este diseño, se estratifica grupos de individuos dentro de los cuales la variable resultado es similar
entre los individuos. Si la variación entre e intra estratos es grande y pequeña respectivamente, el
diseño por bloques incrementará la precisión y por tanto, el poder estadístico. En este diseño, se
deben seguir dos pasos: Primero, se debe definir los bloques (estratos) y luego, dentro de cada
estrato se asignan los individuos a los grupos de tratamiento o control.

La definición de los bloques también servirá para incrementar la validez de la evaluación (Spybrook
et al. 2011). Supongamos que deseamos implementar una intervención que busca evaluar el
impacto de entregar libros sobre el rendimiento escolar (medido por una prueba estandarizada).
En algunos casos podemos estar interesados en definir estratos sobre la en base de la evidencia
empírica, la cual nos sugiere estratificar los colegios según nivel de rendimiento (bajo, mediano
y alto rendimiento). En otros casos, podemos estar interesados en alguna definición establecida
como impactos diferenciados según área (urbana, rural), región natural (Costa, Sierra y Selva) o
modalidad (unidocentes y polidocente).

24 • Instituto Nacional de Estadística e Informática


Representemos un diseño de bloques de forma jerárquica de dos niveles, con individuos
agrupados dentro de los conglomerados. Podemos pensar en una intervención a nivel de colegios
en bloques en áreas naturales, en donde los colegios representan el nivel 1 (nivel de asignación al
tratamiento) y las áreas naturales (Costa, Sierra y Selva) representan el nivel 2.

A continuación se desarrolla el modelo jerárquico multinivel de bloques desarrollado por


Raudenbush y Liu (2000). El nivel 1, o nivel individual representado por:

yij=β0j+β1j Xij+eij

Para n ∈ {1,2,…,n} individuos por bloque y j ∈ {1,2,…,J} bloques. Donde yij es el resultado para
el individuo i en el bloque j, β0j es la media del bloque j, β1j es el efecto tratamiento del bloque
j, X1j es el indicador de tratamiento del bloque j, eij~(0,σ2) es el error asociado a cada persona y
σ2 es la varianza dentro del bloque.

El nivel 2, o nivel del bloque es representado por:

β0j=γ00+u0j

β1j=γ10+u1j

Donde es la media total, γ10 es el efecto total del tratamiento, u0j~(0,τ00) es el efecto aleatorio
asociado con la media, u0j~(0,τ10) es el error aleatorio asociado al efecto del tratamiento y
finalmente, τ00 es la variabilidad de la media entre bloques y τ10 es la variabilidad del efecto de
tratamiento entre bloques. Tanto u0j y u1j son independientes de eij y se asume que tienen una
distribución normal bivariada sobre los bloques

Reemplazando el nivel 2 en el nivel 1, obtenemos el modelo de la forma reducida:

yij=γ00+γ01 Xij+u0j+u1j Xij+eij

Ahora, reemplazando
Ahora, reemplazando la la ecuación
ecuación dede lala varianza
varianzade ajustada
̂ ajustada
de 𝛽𝛽 porpor
el el
diseño
diseñode de
bloques en en
bloques la
laecuación del EMD
ecuación y reordenando
del EMD los términos,
y reordenando los tenemos
términos,quetenemos
la fórmulaque
de laladeterminación
fórmula de della
tamaño de bloques
determinación se expresa
del tamaño de la siguiente
de bloques forma:
se expresa de la siguiente forma:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
𝐽𝐽𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 = [ ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛
4.4 Implementación del cálculo del tamaño de muestra en Stata
4.4 Implementación del cálculo del tamaño de muestra en Stata
En el ejemplo práctico que utiliza este trabajo acerca del programa Trabaja Joven, se evalúa
elEn efecto de práctico
el ejemplo la intervención
que utiliza sobre los ingresos
este trabajo acerca delde los hogares.
programa Tal como
Trabaja Joven, vimos
se evalúa el
anteriormente,
efecto de la intervención sobre los ingresos de los hogares. Tal como vimos anteriormente,que
se desea diseñar un piloto para evaluar esta intervención. Supongamos se
para
deseaevitar spillovers
diseñar un pilotoypara
efectos de equilibrio
evaluar generalSupongamos
esta intervención. se decide asignar aleatoriamente
que para la
evitar spillovers
intervención a nivel centro poblado (conglomerado).
y efectos de equilibrio general se decide asignar aleatoriamente la intervención a nivel centro
poblado (conglomerado).
a. Especificar las siguiente variables:

Como se puede observar en la ecuación del número de conglomerados (J), los parámetros
adicionales al cálculo del tamaño de muestra para un diseño a nivel individuos son el
número de individuos por conglomerado (𝑛𝑛) y la correlación intra cluster (𝜌𝜌). Supongamos
Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 25
que cada centro poblado (conglomerado) tiene aproximadamente 20 individuos (𝑛𝑛 = 20)
que cumplen los requisitos del programa.
a. Especificar las siguiente variables:

Como se puede observar en la ecuación del número de conglomerados (J), los parámetros
adicionales al cálculo del tamaño de muestra para un diseño a nivel individuos son el número
de individuos por conglomerado (n) y la correlación intracluster (ρ). Supongamos que cada
centro poblado (conglomerado) tiene aproximadamente 20 individuos (n=20 ) que cumplen los
requisitos del programa.

En cuento a la correlación intracluster (ICC), en el Perú no se cuenta con un censo que tenga
información de ingresos de los individuos (variable resultado a estudiar) con inferencia a nivel
centro poblado. Por ello, se tomará en cuenta una encuesta de un piloto desarrollado por el
Programa JUNTOS para cinco regiones del Perú (Arequipa, Lambayeque, Lima, Ica y Ucayali).
Cabe resaltar que los ICC calculados tienen poca validez externa por lo que deben ser tomados
de forma referencial.

use “base_eat.dta”, clear

scalar n=20 /*number of individual in cluster*/


scalar p=0.5 /*ratio of treatment group*/
scalar emd=0.2 /*Standardized Minimum Detectable Effect*/

A partir de la base del eat se calcula la correlación intracluster utilizando los dos comandos
mencionados anteriormente.

* Alternative 1: Computing rho from ANOVA


loneway income ccpp
scalar rho = r(rho)

* Alternative 2: Computing rho using Maximun Likelihood


quiet xtmixed income|| ccpp: , var
iccvar

Las probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0.05 (prueba de 2 colas) y poder de 0.8.

scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/


scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

b. Cálculo del tamaño de muestra de conglomerados

El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación.

*Sample size in cluster


scalar J_2 = (t_alphaplusbeta/emd)^2*(1/(p*(1-p)))*(1+(n-1)*rho)
display round(J_2)

26 • Instituto Nacional de Estadística e Informática


Parte
Diseño
PARTE II: Diseño Experimental

II Experimental

PARTE II: Diseño Experimental

5. Diseño
5. Diseño Experimental
Experimental

5.1.5.1.
Definición
Definición
Como se mencionó en la sección 3.1, el reto de la evaluación de impacto radica en
Como se mencionó en la sección 3.1, el reto de la evaluación de impacto radica en determinar las
determinar las condiciones bajo las cuales un grupo control j que no haya recibido el
condiciones bajo las cuales un grupo control j que no haya recibido el tratamiento E[Yj│D=0],
tratamiento 𝐸𝐸[𝑌𝑌𝑗𝑗 |𝐷𝐷como
puede utilizarse = 0], puede utilizarse
aproximación válida delcomo aproximación
contrafactual válida
E[Y │D=1] . Si del
esto contrafactual
fuera cierto,
j
𝐸𝐸[𝑌𝑌𝑗𝑗ahora
|𝐷𝐷 =estaríamos interesados
1]. Si esto en estimar
fuera cierto, la siguiente
ahora ecuación:
estaríamos interesados en estimar la siguiente
ecuación:
=E[Yi│D=1]-E[Yj│D=0]
= 𝐸𝐸[𝑌𝑌 |𝐷𝐷 = 1] − 𝐸𝐸[𝑌𝑌 |𝐷𝐷 = 0]
𝑖𝑖 𝑗𝑗

Ahora,
Ahora,si siaa la ecuaciónanterior
la ecuación anterior le restamos
le restamos y sumamos
y sumamos 𝐸𝐸[𝑌𝑌𝑗𝑗, |𝐷𝐷
E[Yj│D=1] = 1], obtenemos
obtenemos los siguienteslos
resultados:
siguientes resultados:

[𝐸𝐸[𝑌𝑌𝑖𝑖 |𝐷𝐷 = 1] − 𝐸𝐸[𝑌𝑌𝑗𝑗 |𝐷𝐷 = 1]]+ [𝐸𝐸[𝑌𝑌


=⏟ ⏟ 𝑗𝑗 |𝐷𝐷 = 1] − 𝐸𝐸[𝑌𝑌𝑗𝑗 |𝐷𝐷 = 0]]
𝜏𝜏𝐴𝐴𝐴𝐴𝐴𝐴 𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑑𝑑𝑑𝑑 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠ó𝑛𝑛
De este modo, la comparación de medias de los grupos de tratamiento y control es una
De este modo, la comparación de medias de los grupos de tratamiento y control es una combinación
combinación del Efecto Promedio del Tratamiento (ATT) y las diferencias preexistentes
del Efecto Promedio del Tratamiento (ATT) y las diferencias preexistentes entre ambos grupos,
entre ambos grupos, denominado sesgo de selección.
denominado sesgo de selección.
Esta diferencia radica en que los individuos que se autoseleccionan al tratamiento (𝐷𝐷 = 1),
sonEsta diferencia radicadiferentes
sistemáticamente en que losa individuos
aquellos queque se
se seleccionan
autoseleccionan
a noalrecibirlos = 0)., son
tratamiento(𝐷𝐷(D=1)
sistemáticamente diferentes a aquellos que se seleccionan a no recibirlos (D=0).
Una manera de asegurar que el sesgo de selección sea cero, es decir, 𝐸𝐸[𝑌𝑌𝑗𝑗 |𝐷𝐷 = 1] =
Una manera de asegurar que el sesgo de selección sea cero, es decir, E[Yj│D=1]=
𝐸𝐸[𝑌𝑌𝑗𝑗E[Y = 0], consiste
|𝐷𝐷 │D=0] , consisteenenasignar
asignaraleatoriamente
aleatoriamente lala participación
participación enenelel programa
programadedemanera
manera
j
aleatoria.
aleatoria.DeDeesta
estaforma
forma,no
no se permite
permitequequeloslos individuos
individuos se autoseleccionen
se autoseleccionen sobre laen base
base de asus
sus
diferencias
diferencias sistemáticas.
sistemáticas.

Cuando
Cuandoel eldiseño experimentales escorrectamente
diseño experimental correctamente diseñado
diseñado e implementado,
e implementado, permite
permite remover
enteramente
remover el sesgoel de
enteramente selección,
sesgo proporcionando
de selección, un estimadoruninsesgado
proporcionando estimadordelinsesgado
impacto del del
programa en la muestra bajo estudio, es decir, un estimador que tenga validez
impacto del programa en la muestra bajo estudio, es decir, un estimador que tenga validez interna (Duflo
et al.(Duflo
interna 2008). etLaal.importancia
2008). Lade esta técnicaderadica
importancia en que radica
esta técnica es entendida
en quecomo la forma como
es entendida más
efectiva de garantizar la eliminación del sesgo de selección en comparación a
la forma más efectiva de garantizar la eliminación del sesgo de selección en comparación otras técnicas no a
experimentales (Glazerman et al., 2003; Lalonde, 1986).
otras técnicas no experimentales (Glazerman et al., 2003; Lalonde, 1986).

5.2. Cálculo del Tamaño de muestra


Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 27
Las fórmulas que estudiadas anteriormente en las secciones 3 y 4 representan los cálculos
del tamaño de muestra para diseños aleatorios. Por un lado, para un diseño aleatorio con
5.2. Cálculo del Tamaño de muestra

Las fórmulas que estudiadas anteriormente en las secciones 3 y 4 representan los cálculos
del tamaño de muestra para diseños aleatorios. Por un lado, para un diseño aleatorio con
asignación individual, la sección 3.3 nos permite determinar el tamaño de la muestra necesario
para un EMD dado:

𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1
𝑁𝑁 = [ ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃)
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 22 1
Como mencionó anteriormente, 𝑁𝑁 = [𝜎𝜎 ∗ (𝑡𝑡 + 𝑡𝑡 ) ] 1
𝑁𝑁 = [una de
𝛼𝛼 las1−𝑘𝑘 mejores
𝐸𝐸𝐸𝐸𝐸𝐸 ] 𝑃𝑃(1 formas − 𝑃𝑃) de evitar problemas de
contaminación o desbordes (spillovers) 𝐸𝐸𝐸𝐸𝐸𝐸
en el diseño 𝑃𝑃(1una
de − 𝑃𝑃)evaluación de impacto consiste
ComoComomencionó
se mencionó anteriormente,unaunadedelaslasmejores
anteriormente, mejores formas formas de
de evitar
evitar problemas
problemas de de
en contaminación
Como asignar el tratamiento
mencionó anteriormente,
o desbordes a (spillovers)
nivel una de conglomerado
endeel las
diseño mejores
de una(e.g.evaluación
colegios,
formas dedecentros
evitar poblados).
consiste enLa
impactoproblemas de
contaminación
sección 4.3 o desbordes
nos permite (spillovers)
determinar enel eltamaño
diseño de de una evaluación
muestra de impacto
necesario consiste
(número de
asignar el tratamiento
contaminación o desbordes a nivel de conglomerado
(spillovers) en el diseño (p.ej. colegios, centros poblados).
de una evaluación de impacto La sección
consiste
en asignar
4.3 el
nos permite tratamiento
determinar a nivel de conglomerado (e.g. colegios, centros poblados). La
conglomerados)
en asignar para
el tratamiento un diseño a elniveltamaño
porde de muestra necesario
conglomerado
conglomerado de dos (número
(e.g.niveles:
colegios, de centros
conglomerados)
poblados). paraLa
sección
un diseño 4.3 nos permite determinar el tamaño de muestra necesario (número de
sección 4.3pornos conglomerado
permite determinar de dos niveles: el2 tamaño de muestra necesario (número de
conglomerados) para un diseño 𝜎𝜎 ∗ (𝑡𝑡por conglomerado
𝛼𝛼 +conglomerado
𝑡𝑡1−𝑘𝑘 ) 1 de dos 1 niveles:
conglomerados) para𝐽𝐽2un=diseño [ por ] de dos[1niveles:
+ (𝑛𝑛 − 1)𝜌𝜌]
𝐸𝐸𝐸𝐸𝐸𝐸 2 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
La principal desventaja 𝐽𝐽2 = [𝜎𝜎del 𝛼𝛼 + 𝑡𝑡1−𝑘𝑘por
∗ (𝑡𝑡diseño ) ] conglomerados
1 1 [1 + (𝑛𝑛 −la1)𝜌𝜌]
es − pérdida de precisión
𝐽𝐽2 = [ 𝐸𝐸𝐸𝐸𝐸𝐸 ] 𝑃𝑃(1 − 𝑃𝑃) 𝑛𝑛 [1 + (𝑛𝑛 1)𝜌𝜌]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1
(incremento del error estándar) en comparación al diseño de asignación individual (Bloom,− 𝑃𝑃) 𝑛𝑛
Laal,principal
et desventaja del diseñoEnpor
2007, Konstantopoulos, conglomerados esestándar
la pérdida de precisión
La principal desventaja del 2008). diseño poresteconglomerados diseño, el errores la pérdida depende de de mayor
precisión
(incremento
La principal
forma del número del error
desventaja estándar)
del
de estándar)
conglomeradosdiseño en comparación
por conglomerados al
(𝐽𝐽) que delal número diseño
es la de asignación
pérdida de
de asignación individual
precisión
individuos individual (Bloom,
(incremento
por conglomerado
(incremento del error en comparación diseño de (Bloom,
et del
al,En2007,
error Konstantopoulos,
estándar) en un
comparación 2008).del alEndiseñoeste de diseño,
asignación el error estándar
individual depende
(Bloom, et al,de2007,
mayor
et al, 2007, Konstantopoulos, 2008). En este diseño, el error estándar depende de mayora
(𝑛𝑛). este contexto, aumento poder estadístico está asociado necesariamente
Konstantopoulos,
forma del número 2008).
de En este diseño,
conglomerados (𝐽𝐽) el error
que del estándardedepende
número individuos de mayor
por forma del
conglomerado
incrementos
forma del de en el número
número de conglomerados de conglomerados (𝐽𝐽) que del y por tanto en el
número costo de por la evaluación. Por
número
(𝑛𝑛). En este conglomerados
contexto, un aumento (J ) que del delnúmero
poder de individuosde
estadístico por
está
individuos
conglomerado
asociado
conglomerado
(n). En este a
necesariamente
ejemplo,
(𝑛𝑛). En en
este una evaluación
contexto,
contexto, unenaumento un
del de con
aumento
poder asignación
del poder
estadístico está a nivel colegio,
estadístico
asociado estáun incremento
asociado
necesariamente en una
necesariamente unidad a
incrementos
del tamaño de el número
muestra representa conglomerados
un incremento y pordel tanto
costo en
de el costo de
levantar la aevaluación.
incrementosPor
información de todos
incrementos
en el número en deel número
conglomerados de conglomerados
y por tanto, en y por tantodeenlaelevaluación.
el costo costo de laPor evaluación.
ejemplo, enPor
ejemplo,
los alumnos en una evaluación con asignación a nivel colegio, un incremento en una unidad
una
ejemplo, en dentro
evaluación con deasignación
una evaluación este colegio. conaasignación
nivel colegio, un incremento
a nivel colegio, en un una unidad del
incremento entamaño de
una unidad
delmuestra
tamañorepresenta
de muestraunrepresenta
incremento undel incremento
costo de del costo
levantar de levantar
información de información
todos los de todos
alumnos
del tamaño de muestra representa un incremento del costo de levantar información de todos
5.3. Ajustes
los alumnos por colegio.
dentro covariados
de este colegio.
losdentro
alumnos de este
dentro de este colegio.
Una
5.3. de las formas
Ajustes de mejorar la precisión de los diseños por conglomerados consiste en
por covariados
5.3.5.3. Ajustes
Ajustes
utilizar porpor
un análisis covariados
covariados
de regresión múltiple (también conocido como Análisis de Covarianza o
Una
ANCOVA) de las formas
para de de mejorar la precisión
controlar de los diseños por conglomerados consiste en
Una Una dedelaslasformas
formas mejorarlapor
de regresión
mejorar características
laprecisión
precisión de de diseños
los en porunconglomerados
los diseños periodo
por base
conglomerados anterior
consiste consiste a en
en utilizar la
utilizar un
aleatorización. análisis de múltiple (también conocido como Análisis de Covarianza o
utilizar
un análisis de regresión múltiple (también conocido como Análisis de Covarianza o ANCOVA) para o
un análisis de regresión múltiple (también conocido como Análisis de Covarianza
ANCOVA) para controlar por características en un periodo base anterior a la
controlar
ANCOVA)
Estos porpara
covariados características
controlar
pueden en por
controlar un periodo base anterior
características
características aenanivel
la un
aleatorización.
periodo base(e.g.
conglomerado anterior
colegio)a o laa
aleatorización.
aleatorización.
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, la
Estoscovariados
Estos covariados puedenpueden controlar
controlarcaracterísticas
características a nivel
a nivel conglomerado
conglomerado (p.ej. colegio) o a nivelo a
(e.g. colegio)
regresión
Estos a estimarpueden
covariados debe incluirlos
controlar de la siguiente forma:
características a nivel en conglomerado (e.g. colegio) ao a
individual (p.ej. estudiantes). Para considerar los
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, lacovariados ambos niveles, la regresión
nivel individual
estimar (e.g. estudiantes).
debe incluirlos de la𝑖𝑖𝑖𝑖 siguiente Para
𝛽𝛽forma: +considerar 𝛽𝛽2los
𝑋𝑋𝑗𝑗 +covariados
𝑒𝑒𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖  en ambos niveles, la
regresión a estimar debe 𝑦𝑦 incluirlos= 𝛼𝛼 +de 𝑇𝑇𝑗𝑗 siguiente
0la 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖𝑖 +forma:
regresión a estimar debe incluirlos de la siguiente forma:
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado 𝑦𝑦 = 𝛼𝛼 +a𝛽𝛽nivel 𝑇𝑇 +individual
𝛽𝛽 𝑥𝑥 + 𝛽𝛽para 𝑋𝑋 +el𝑒𝑒individuo
+ 𝜀𝜀  i en el conglomerado
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽00𝑇𝑇𝑗𝑗𝑗𝑗 + 𝛽𝛽11𝑥𝑥𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 + 𝛽𝛽22𝑋𝑋𝑗𝑗𝑗𝑗 + 𝑒𝑒𝑗𝑗𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
j, mientras que 𝑋𝑋𝑗𝑗 representa el covariado a nivel conglomerado en el conglomerado j.
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado a nivel individual para el individuo i en el conglomerado
Donde
Bloom 𝑥𝑥et𝑖𝑖𝑖𝑖alrepresenta
(2007) muestra el covariado una fórmulaa nivelsimplificada
individual para de laelvarianza
individuoque i ennoelasume
conglomerado
mayores
j, mientras que 𝑋𝑋𝑗𝑗 representa el covariado a nivel conglomerado en el conglomerado 3 j.
j,pérdidas
mientras de que
precisión para muestras
𝑋𝑋𝑗𝑗 representa de conglomerados
el covariado mayores a 20 en
a nivel conglomerado unidades .
el conglomerado j.
Bloom et al (2007) muestra una fórmula simplificada de la varianza que no asume mayores
Bloom et al (2007) muestra una fórmula simplificada de la varianza que no asume 3 mayores 
pérdidas de precisión para muestras de conglomerados mayores a 20 unidades 3.
pérdidas de precisión para muestras de conglomerados 2 mayores
𝜌𝜌(1 − 𝑅𝑅𝐶𝐶 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼 ) a 20 unidades
2 .
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) =
28 • Instituto Nacional de Estadística e Informática + 
𝑃𝑃(1 − 𝑃𝑃)𝐽𝐽 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛𝑛𝑛 
𝜌𝜌(1 − 𝑅𝑅2𝐶𝐶2 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅2𝐼𝐼2 )
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂̂ ) = 𝜌𝜌(1 − 𝑅𝑅𝐶𝐶 ) + (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼 )
nivel individual (e.g. estudiantes). Para considerar los covariados en ambos niveles, la
regresión a estimar debe incluirlos de la siguiente forma:
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛼𝛼 + 𝛽𝛽0 𝑇𝑇𝑗𝑗 + 𝛽𝛽1 𝑥𝑥𝑖𝑖𝑖𝑖 + 𝛽𝛽2 𝑋𝑋𝑗𝑗 + 𝑒𝑒𝑗𝑗 + 𝜀𝜀𝑖𝑖𝑖𝑖 
Donde 𝑥𝑥𝑖𝑖𝑖𝑖 representa el covariado a nivel individual para el individuo i en el conglomerado
Donde xij representa el covariado a nivel individual para el individuo i en el conglomerado j,
j, mientras que que
mientras 𝑋𝑋𝑗𝑗 representa
Xj representael elcovariado
covariado aa nivel
nivelconglomerado
conglomerado enconglomerado
en el el conglomerado j. et
j. Bloom
Bloom etal al (2007)
(2007) muestra
muestra una una fórmula
fórmula simplificada
simplificada de la varianza
de la varianza que nomayores
que no asume asume mayores
pérdidas de
pérdidasprecisión 3 unidades3.
para muestras de conglomerados mayores a 20 unidades .
de precisión para muestras de conglomerados mayores a 20

𝜌𝜌(1 − 𝑅𝑅𝐶𝐶2 ) (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼2 )
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) = +
𝑃𝑃(1 − 𝑃𝑃)𝐽𝐽 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛𝑛𝑛

Rauden Al igual que presenta


anteriormente, reemplazamos
de la varianzalacorrecta.
varianza en la fórmula EMD para obtener el tamaño
3
bush (1997) la fórmula
Al de la muestra mínimo: Al igual que anteriormente, reemplaza
Al igual
igual que
que anteriormente,
anteriormente, reemplazamos
reemplazamos la
la varianza
varianza en
en la
la fórmula EMD
Al igual
fórmula para
EMD que obtener el
paraanteriormente,
obtener
28 el
reem
tamaño de la muestra mínimo: tamaño de la muestra mínimo:
tamaño de la muestra mínimo:
tamaño de la muestra mínimo:
𝜎𝜎
𝜎𝜎 ∗∗ (𝑡𝑡
(𝑡𝑡𝛼𝛼𝛼𝛼 ++ 𝑡𝑡𝑡𝑡1−𝑘𝑘 ) 22 𝜌𝜌(1 Al−igual 𝑅𝑅𝐶𝐶22) que(1anteriormente,
− 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼22) reemplazamos 𝜎𝜎 ∗ la (𝑡𝑡𝜎𝜎𝛼𝛼varianza
∗+(𝑡𝑡𝑡𝑡1−𝑘𝑘
𝛼𝛼 +
𝐽𝐽𝐽𝐽2𝐶𝐶 = [ 1−𝑘𝑘 )] [ 𝜌𝜌(1 − 𝑅𝑅𝐶𝐶 ) + (1 − 𝜌𝜌)(1 − 𝑅𝑅𝐼𝐼 )] 𝐽𝐽2𝐶𝐶 =𝐽𝐽2𝐶𝐶 [ =[
2𝐶𝐶 = [ 𝐸𝐸𝐸𝐸𝐸𝐸 ] [ Al tamaño
𝑃𝑃(1 igual
− 𝑃𝑃) de+laanteriormente,
que muestra
𝑃𝑃(1 − mínimo:
𝑃𝑃)𝑛𝑛 ]
reemplazamos la varianza
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸e
𝐸𝐸𝐸𝐸𝐸𝐸
Al igual que anteriormente, 𝑃𝑃(1 − 𝑃𝑃) 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛 la varianza en la fórmula E
reemplazamos
tamaño de la muestra mínimo: 2
Donde
Donde 𝐽𝐽𝐽𝐽2𝐶𝐶 es el número detamaño conglomerados
de la muestra paramínimo: un diseño Donde deDonde 𝐽𝐽𝜎𝜎2𝐶𝐶∗ (𝑡𝑡
conglomerados es𝐽𝐽𝛼𝛼2𝐶𝐶el
+es 𝑡𝑡número
el)de número de conglom
dos
𝜌𝜌(1 −de 𝑅𝑅𝐶𝐶2co
)
2𝐶𝐶 es el número de conglomerados para un diseño 𝐽𝐽2𝐶𝐶de= conglomerados de dos
1−𝑘𝑘
[ 2] [
niveles, n es el número de individuos dentro del conglomerado, niveles, 𝜎𝜎P
niveles, ∗ n es es
(𝑡𝑡 la + el
𝐸𝐸𝐸𝐸𝐸𝐸 número
proporción
𝑡𝑡
n proporción
es )
2elniveles,
de
𝜌𝜌(1 de
𝑃𝑃(1individuo
− 𝑅𝑅
−EMD2
)
𝐶𝐶𝑃𝑃)
Donde nJ2Ceseselel número
niveles, númeroAl de conglomerados
deigual
individuosque anteriormente, para un
dentro deldiseño de 𝐽𝐽conglomerados
conglomerado,
reemplazamos
𝜎𝜎 ∗ (𝑡𝑡 𝛼𝛼 + 𝑡𝑡= P2varianza
[ )la es𝜌𝜌(1
𝛼𝛼la de −dos 𝑅𝑅en
1−𝑘𝑘 lanúmero
𝐶𝐶 ) ] [(1al
fórmula −de𝜌𝜌)(1 de indi
−+𝑅𝑅
conglomerados
n es el número asignados
de individuos al tratamiento,
dentro del 𝜌𝜌 es
conglomerado, 𝐽𝐽 la correlación
= [ P es la conglomerados
2𝐶𝐶 1−𝑘𝑘
intracluster
proporción conglomerados
] [ de asignados
incondicional
𝐸𝐸𝐸𝐸𝐸𝐸 conglomerados asignados
+ 𝑃𝑃(1 (sin tratamien
− al𝑃𝑃)trata
conglomerados asignados al tratamiento,
tamaño de la muestra 𝜌𝜌 esDonde la correlación
mínimo:
2𝐶𝐶 𝐽𝐽 es
2𝐶𝐶 𝐸𝐸𝐸𝐸𝐸𝐸
intracluster
el número de incondicional
conglomerados
𝑃𝑃(1 −𝑅𝑅𝑃𝑃) 2
(sin para
𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛 u
los 2 los (sin covariados), esreducida
la proporción
covariados),
losasignados 𝑅𝑅𝐶𝐶𝐶𝐶2 es
al tratamiento, es la la ρproporción
es la correlación de
de la varianza
laintracluster entre
incondicional conglomerados loscovariados), que
covariados), es
𝑅𝑅 2 es
covariados), proporción varianza
niveles, entre conglomerados los que es
𝐶𝐶 𝑅𝑅
reducida es la propor
Donde 𝜎𝜎 ∗𝐽𝐽2𝐶𝐶 (𝑡𝑡n𝛼𝛼reducida
eses 𝑡𝑡elel número
número de
de individuos
conglomerados dentro para del 2un co
2 2 𝐶𝐶
la proporción de la varianza 2 entre
Donde conglomerados que es + por)por los 𝜌𝜌(1
los − 𝑅𝑅
covariados,
covariados, ) (1 2− es 𝜌𝜌)(1
𝑅𝑅𝜌𝜌la
esdiseño la es−
2 proporció 𝑅𝑅prop
𝐼𝐼 )
𝐽𝐽es lael [número de 1−𝑘𝑘 conglomerados 𝐶𝐶para
esun
por 𝑅𝑅𝐼𝐼reducida de co
por loslos covariados,
covariados, 𝑅𝑅 𝑅𝑅𝐼𝐼𝐼𝐼2 es
es la la proporción
proporción 𝐽𝐽2𝐶𝐶 de de la = varianza
varianza
conglomerados
2𝐶𝐶niveles, n es
intra
intrael
conglomerado
] [pordelos
conglomerado
asignados
número al
que
que+es
covariados,
tratamiento,
individuos reducida
dentro 𝐼𝐼 es lala
del corre
con ]
por proporción de la varianza intraconglomerado niveles, n es que es reducida
el número de por
𝐸𝐸𝐸𝐸𝐸𝐸 los
por2covariados.
individuos los 𝑃𝑃(1
covariados.−covariados.
dentro 𝑃𝑃)del conglomerado, 𝑃𝑃(1 − 𝑃𝑃)𝑛𝑛 P
por loslos covariados.
covariados. conglomerados
los covariados), asignados por
𝑅𝑅𝐶𝐶 es laalproporción los tratamiento,de𝜌𝜌laesvarianza la correlae
Donde conglomerados
𝐽𝐽2𝐶𝐶 es el asignados
número de al tratamiento,
conglomerados 2 de 2𝑅𝑅 2 𝜌𝜌
Siguiendo esBloom
para
a 2 laun correlación
diseño
et al. de
(2007)intraclust
conglom
pode
Siguiendo
Siguiendo a aBloom
Bloom
Siguiendo a Bloom et al. (2007) et
et al.
al. (2007)
(2007) podemos
podemos calcular
podemos calcular calcular
lospor los
covariados),
2 los los
valores valores
de
covariados,
los valores 𝑅𝑅 yes𝑅𝑅 la de
Siguiendo
2 y
la 𝑅𝑅
siguiente
proporción de
𝐶𝐶 de𝐼𝐼 𝑅𝑅𝐶𝐶 y 𝑅𝑅𝐼𝐼 de la siguientevarianza
es la proporción
2 a la
Bloomdesiguiente
forma: lade etvarianza
laal. (2007) ent
los covariados),
niveles, n es el número 𝑅𝑅 es la
𝐶𝐶 de individuos proporción de
dentro 𝐶𝐶 la varianza 𝐼𝐼 entre conglomera
forma:
forma: porporlos loscovariados, forma:
covariados.𝑅𝑅𝐼𝐼 forma: 2
es la proporción de la varianza la
del conglomerado, P es i
por los covariados,
conglomerados asignados 𝑅𝑅𝐼𝐼2alestratamiento,
la proporción 𝜌𝜌 esdelalacorrelación varianza intra intraclusterconglome in
por 2 los covariados.
𝜏𝜏Siguiendo
2 − 𝜏𝜏∗2
2
por los covariados. 2𝑅𝑅 2 𝜏𝜏 − 𝜏𝜏proporción a Bloom et al. (2007) podemos calcular lo
los covariados), 𝑅𝑅 𝐶𝐶 es la de la varianza entre conglomerados
𝑅𝑅𝐶𝐶𝐶𝐶2 =

= forma:
Siguiendo
2 𝜏𝜏
2
2 a Bloom et al. (2007) podemos calcular los2
por los covariados,
Siguiendo a Bloom 𝑅𝑅 𝐼𝐼
𝜏𝜏
es la proporción
et al. (2007) podemos de la varianza calcularintra los conglomerado
valores de 𝑅𝑅𝐶𝐶
forma:
𝜎𝜎 2
− 𝜎𝜎 2
por los forma: covariados. 2 𝜎𝜎 2
− 𝜎𝜎 ∗2 𝜏𝜏 2 − 𝜏𝜏∗2
𝑅𝑅
𝑅𝑅𝐼𝐼𝐼𝐼2 = = 𝜎𝜎 22
∗ 𝑅𝑅𝐶𝐶2 = 2 22
𝜎𝜎 (2007) podemos calcular 𝜏𝜏 −𝜏𝜏2𝜏𝜏∗ 2
Siguiendo a Bloom et al. 2 𝜏𝜏22 los− 𝜏𝜏∗valores
2 2
𝑅𝑅𝐶𝐶 = de 𝑅𝑅𝐶𝐶 y 𝑅𝑅𝐼𝐼
Donde 2 2 Donde 𝑅𝑅𝜏𝜏𝐶𝐶 =
2 y 𝜎𝜎𝜏𝜏 que son
y2𝜎𝜎𝜏𝜏𝜏𝜏las
2
yy varianzas
2
𝜎𝜎𝜏𝜏2 −incon
2
Donde 𝜏𝜏𝜏𝜏 2 yy 𝜎𝜎 𝜎𝜎 2 son
son las las varianzas
forma: incondicionales
incondicionales (sin (sin covariados),
covariados), mientras 𝜎𝜎 2 son
2 2
varianzas Donde
mientras que ∗2son 𝜎𝜎 ∗las sonvarianzas 𝜎𝜎∗2
𝜏𝜏 ∗
𝑅𝑅 2 ∗
=
las las correspondientes varianzas 𝜎𝜎 2 −condici
las correspondientes
correspondientes varianzas varianzas condicionales
condicionales (con (con covariados). las correspondientes 𝐼𝐼 varianzas
covariados). 𝜎𝜎𝜎𝜎2∗2 co
Donde τ2 y σ2 son las varianzas incondicionales (sin covariados), mientras 2
𝜏𝜏
2
2que − 𝜎𝜎𝜏𝜏22 y 2 son
∗ − 𝜎𝜎 ∗ 𝑅𝑅 2 las
𝐼𝐼 =
Raudenbush et Raudenbush
𝑅𝑅el = 𝐼𝐼 = 2et al.
𝑅𝑅varianzas (2007), resume 𝜎𝜎 2resume los cp
correspondientes
Raudenbush et al.
al. (2007),
varianzasresume
(2007), condicionales
resume los
los principales Donde
(con covariados).
principales supuestos
𝜏𝜏 2 y 𝜎𝜎 2bajo
supuestos son
bajo 𝐶𝐶 estimador
las
el Raudenbush
estimador 𝜏𝜏 𝜎𝜎ANCOVA:
ANCOVA:
incondicionales
2 et al. (2007), (sin
laspoder 2
correspondientes 2 varianzas condicionales (con
Donde 𝜏𝜏 yen𝜎𝜎 lason a.lasLa varianzas
estimación incondicionales (sincova cov
a. La
La estimación
a. Raudenbush
estimación ANCOVA
ANCOVA
et al. (2007), Donde
resume
incrementará
incrementará 2
y 𝜎𝜎 2 son
los 𝜏𝜏principales
el las varianzas
elsupuestos
poder enbajola medida a.que
elincondicionales
medida
estimador 𝜎𝜎 2La
que −los
los𝜎𝜎
ANCOVA: (sinANCOVA
2covariados
estimación
∗ covariados
ANCOVA
covariados), (𝑥𝑥)
(𝑥𝑥)
incremmien in
tengan una más fuerte asociación lineal las
con correspondientes
la
Raudenbush variables et 𝑅𝑅 varianzas
resultado
al.
2
(2007),
𝐼𝐼 =
tengan (𝑦𝑦). una
resume
tengan condicionales
más los
una fuerte
principales
más fuerte(con
asociación covari
supue
asocia
tengan una más fuerte asociación las correspondienteslineal con lavarianzas variablescondicionales
resultado (𝑦𝑦). 𝜎𝜎 (con covariados).
2
b. a. La Lamagnitud
estimación de
ANCOVA la asociación
incrementará debe el ser
poder la
Raudenbush
en misma
la medida et enal.
que b.
ambos
(2007),
los Lab.grupos
covariados magnitud
resume
La los
magnitud de
x(tratamiento lade
principales
) tengan
(incrementará unaasociaciónyy asociaci
lael supuest d
b. La magnitud de la Donde asociación 𝜏𝜏 y 𝜎𝜎debe
Raudenbush2 2
son etser
las
al. a.la misma
La
varianzas
(2007), estimación en ambos
incondicionales
resume los ANCOVA grupos
principales (sin (tratamiento
covariados),
supuestos bajo poder
mientrasel estim
control).
más fuerte asociación lineal con la variablesa.resultado (y una
). más control). control).
control). las correspondientes varianzas Latenganestimación
condicionales ANCOVA fuerte (con asociación
incrementará
covariados). linealelcon poder la vari en
c. Los residuos (el error de
a. predicción)
La estimación deben ANCOVA estar c. Los
normalmente
incrementará residuos
c. Loseldistribuidos poder
residuos (elenerror lacon
(el de pred
medida
error dequ
c. Los residuos (el error de predicción) b.deben tengan estar
La magnitud normalmente
una más fuerte de la asociación lineal distribuidos debe con con
ser la la variab
mism
La magnitud de la asociación
b. varianza debe seral. la (2007),
misma
más en ambos grupos (tratamiento
varianza ylacontrol).
constante.
constante. Raudenbush
varianza constante. tengan et una
b. Lacontrol).
resume
fuerte los
asociación principales lineal
magnitud de la asociación debe ser la misma
supuestos
con
varianza variables bajo elresultado
constante. estimado(
Algunas a. de Lab. estimación
La magnitud ANCOVA de la tener asociación
incrementaráAlgunas debe ser
el consideraciones
poder la en misma la medida enprácticasambos que gr
los
c. Los consideraciones
Algunas residuos (el error
consideraciones prácticas
predicción)
prácticas que
quedeben debemos
c. control).
debemos Los normalmente
estar residuos
tener en
en (el cuenta error
Algunas
distribuidos
cuenta cuando
cuando con incluimos
deconsideraciones
predicción)
varianza
incluimos deben prácti e
covariados son descritas a tengan
continuación. control).
una más fuerte asociación covariados
lineal con son
la descritas
variables a continuació
resultado (𝑦𝑦).
constante.
covariados son descritas a continuación. c. Los varianzaresiduos constante.
(el covariados
error de son
predicción) descritas a
deben contin es
b. La c. magnitud
Los residuos de lavarianza(el error de debe
asociación predicción)
ser deben en estar normalmen
Primero, constante.
Primero, ellaprácticas
uso misma
eldel estimador ambos ANCOV grupos
Primero, el el uso
uso deldel estimador
estimadorcontrol). ANCOVA
ANCOVA varianzagenera Algunas
constante.
genera pérdidas
pérdidas de
de grados
gradosPrimero,
consideraciones de
de libertad
libertad por
uso
por del el
que
el uso
estimador
uso de
debemos
de ANt
covariados.
3 Rauden bush Entonces,
(1997) presenta si asociación
la fórmula de la lineal
varianza entre los
covariados
Algunas
correcta. covariados son
consideraciones covariados.
(x)
descritas y la
covariados.
a Entonces,
variable
continuación.
prácticas resultado
Entonces,
que si asociación
debemos(y)
si asociació lin
ten
covariados. Entonces, si asociación c. Los
Algunas lineal
residuos entre
(el
consideraciones los
error covariados
de (x) yque
predicción)
prácticas la variable
deben
debemos resultado
estar normalmente
tener (y)
en cuenta d
es débil, el uso del estimador ANCOVA puede covariados resultar ser
son es débil,
incluso
descritas el usoeldel
perjudicial
es a débil,
continuación. para
uso estimador
el
del poder
estimador ANCOV AN
es débil, el uso del estimadorvarianza ANCOVA
covariados puede
constante.
son Primero,
descritasresultar a ser
usoincluso
elcontinuación.
del estimador perjudicial ANCOVA para el poder genera pérdid
de de lapara evaluación.
de lala evaluación. desi la evaluación.
Tecnicas de muestreo y tamaños de muestra evaluaciones de impacto • 29
evaluación. covariados.
Primero, el uso Entonces,
del estimador asociación
ANCOVA lineal generaentrepérdidas los cov
Algunas Primero, consideraciones
el uso del estimadorprácticas ANCOVA que debemos
Segundo, genera
lasmás tener ende cuenta
pérdidas
características grados
pre- cu
de
trata
Segundo, las características
Segundo, las características pre- tratamiento
pre- tratamiento es a
covariados. nivel
débil,
a nivel agregado
el uso
Entonces,
agregado (𝑋𝑋 del (𝑋𝑋 si ),
estimador
Segundo, son
asociación ANCOVAlas accesibles
lineal puede
características
entre y los resulta
pre-
covar
𝑗𝑗 ), son más losaccesibles
covariadosy(x) y la v
𝑗𝑗
covariados
covariados. son descritasEntonces, a continuación.
si asociación lineal entre
Algunas consideraciones prácticas que debemos tener en cuenta cuando incluimos covariados
son descritas a continuación.

Primero, el uso del estimador ANCOVA genera pérdidas de grados de libertad por el uso de
covariados. Entonces, si asociación lineal entre los covariados (x ) y la variable resultado (y)
es débil, el uso del estimador ANCOVA puede resultar ser incluso perjudicial para el poder de la
evaluación.

Segundo, las características pretratamiento a nivel agregado (Xj), son más accesibles y menos
costosas de conseguir.

Tercero, en las ciencias sociales las características a nivel conglomerado (Xj) están más asociadas
con la variable resultado que las características a nivel individual (xij ). Por tanto, las primeras
incrementan el poder de la evaluación más que las segundas (Bloom 2005, Bloom et al 2007).

Cuarto, en temas educativos relacionados a logros de aprendizaje (y), las características


demográficas (sexo, etnicidad o características socioeconómicas) son covariados menos efectivos
que puntaje de pruebas anteriores (pretest). Además, la mejora en precisión del pretest i) declina
ligeramente en la medida que el número de años entre el pretest y el posttest se incrementa, y ii)
aumenta ligeramente para mayor cantidad de pretest (Bloom, et al. 2007).

5.4. Implementación del cálculo del tamaño de muestra en Stata

En el ejemplo práctico que utiliza este trabajo acerca del programa Trabaja Joven, se evalúa el
efecto de la intervención sobre los ingresos de los hogares. Tal como vimos anteriormente, se
desea diseñar un piloto para evaluar esta intervención

c. Especificar las siguiente variables:

Como se puede observar en la ecuación del número de conglomerados con covariados, los
parámetros del número de individuos por conglomerado (n), la proporción de tratados (P) y
el EMD conservador son los mismos a los parámetros utilizados en el cálculo del tamaño de
conglomerados (J).

use “base_eat.dta”, clear

scalar n=20 /*number of individual in cluster*/


scalar p=0.5 /*ratio of treatment group*/
scalar emd=0.2 /*Standardized Minimum Detectable Effect*/

Como hicimos en la sección 3.4, a partir de la base del ATE se calcula la correlación intracluster
condicional (con covariados) y no condicional (sin covariados). En este caso, solo utilizaremos
el comando “xtmixed”. En este caso, los covariados incluyen características de la vivienda (tipo
de pared y piso, acceso a agua potable, alumbrado, cocina y teléfono) y de los individuos (sexo,
edad, analfabetismo e indicador de empleo), así como características a nivel distrital (pobreza).

30 • Instituto Nacional de Estadística e Informática


* Defining covariates and outcome
local var pobrezax
local covariados pared piso agua desague alumbrado cocina tel_fijo
lengua sexo edad analfa trabaja FGT0

* Computing rho using Maximun Likelihood


xtmixed `var’ || conglome: , var
xtmixed `var’ `covariados’ || conglome: , var

scalar R2_b = 1-(.0316765/.0859538)


scalar R2_w = 1-(.1522047/.1412365)
disp R2_b
disp R2_w

*Defining Effect Design in Cluster with Covariates (Bloom et al 2007)


scalar BB=(sd^2)*(n_*rho*(1-R2_b)+(1-rho)*(1-R2_w))/(pi_*(1-pi_)*n_)

Tal como hicimos anteriormente, las probabilidad de errores tipo I y II son definidas para los valores
típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.

scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/


scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

d. Cálculo del tamaño de muestra de conglomerados

El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación.

*Sample size in cluster design with covariates


scalar J_C=2*(1/emd)^2*(t_alphaplusbeta^2)*BB
display round(J_C)

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 31


6. Ajustes por problemas en aleatorización
6. Ajustes por problemas
La implementación en aleatorización
de un diseño aleatorio está sujeta a potenciales problemas que pueden poner en
Lariesgo la validez interna
implementación de la
de un evaluación
diseño de impacto.
aleatorio La presente
está sujeta sección tiene
a potenciales por finalidad
problemas queajustar
pueden
el tamaño de muestra a tres de los problemas más comunes en la práctica: incumplimiento
poner en riesgo la validez interna de la evaluación de impacto. La presente sección tiene y efecto
desborde (spillovers).
por finalidad ajustar el tamaño de muestra a tres de los problemas más comunes en la
práctica: incumplimiento
6.1. Ajuste y efecto desborde (spillovers).
por incumplimiento
6.1. Ajuste por incumplimiento
Uno de los problemas más comunes en las asignaciones aleatorias es el incumplimiento
Uno de losdel
perfecto problemas
protocolo más comunes del
de asignación en tratamiento.
las asignaciones aleatorias
Este problema es eldebido
ocurre incumplimiento
a que el
perfecto del protocolo
investigador raramente detiene
asignación
control del tratamiento.
perfecto sobre lasEste problema
decisiones de ocurre debido de
las elecciones a que
las el
personas.
investigador raramente tiene control perfecto sobre las decisiones de las elecciones de las
personas.
Así, solo una fracción de individuos que son asignados al tratamiento realmente lo toman,
Así, solo una
mientras que,fracción
por otrode individuos
lado, que no sonqueasignados
son asignados
a este al
lo tratamiento realmente
terminan tomando. lo toman,
Es claro que
mientras
este grupoque,deporpersonas
otro lado, que características
tienen no son asignados a este
distintas al lo terminan
resto tomando.
de la muestra queEs claro
hace queque
estelosgrupo
individuos se autoseleccionen.
de personas Si estas características
tienen características son no
distintas al resto de observables
la muestra queintroducirán
hace que
una correlación entre el tratamiento (D) y el término de error (ε) que generará
los individuos se autoselecciones. Si estas características son no observables introducirán estimadores
unasesgados e ineficientes.
correlación entre el tratamiento (𝐷𝐷) y el término de error (𝜀𝜀) que generará estimadores
sesgados e ineficientes.
En estos casos, el estimador de variables instrumentales puede servir para recuperar un
Enefecto
estos local del el
casos, tratamiento,
estimadormientras que la varianza
de variables puede serpuede
instrumentales ajustada parapara
servir tomarrecuperar
en cuentaun
el incumplimiento perfecto de la asignación. De este modo, puede ser
efecto local del tratamiento, mientras que la varianza puede ser ajustada para tomar tomado en cuenta para en
determinar el tamaño de muestra necesario:
cuenta el incumplimiento perfecto de la asignación. De este modo, puede ser tomado en
cuenta para determinar el tamaño de muestra necesario:
𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 1
𝑁𝑁 = [ ]
𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃) [𝑐𝑐 − 𝑠𝑠]2
Donde 𝑐𝑐 es la proporción de individuos inicialmente asignados al grupo de tratamiento y
queDonde
efectivamente reciben de
c es la proporción el individuos
tratamiento, mientrasasignados
inicialmente que 𝑠𝑠 esallagrupo
proporción de individuos
de tratamiento y que
efectivamente
inicialmente reciben el
asignados al tratamiento,
grupo control mientras
pero que
que es la proporciónsu
incumplieron deasignación
individuos inicialmente
y, por tanto,
asignados
reciben al grupo control pero que incumplieron su asignación y, por tanto, reciben el
el tratamiento.
tratamiento.
De la fórmula anterior podemos que a medida que una menor proporción de individuos
cumplen la asignación
De la fórmula a la cual
anterior, podemos que fueron
a medidainicialmente
que una menor asignados,
proporciónelde tamaño
individuosdecumplen
muestra
la asignación
necesario a la cual fueron inicialmente asignados, el tamaño de muestra necesario será
será mayor.
mayor.
6.2. Ajuste por efecto desborde
Otro problemas comunes de las asignaciones aleatorias es el efecto desborde o spillovers.
Como se vio anteriormente, no considerar la contaminación o contagio entre los grupos
puede atentar contra la validez interna de la evaluación de impacto. La forma más común
de combatir el efecto desborde es asignando los grupos (tratamiento o control) a niveles
superiores al individual hasta que los efectos de contaminación sean menores. Es decir,
pasamos de un diseño individual a un diseño por conglomerados, como vimos en la sección
4 del presente documento.
32
32 • Instituto Nacional de Estadística e Informática
6.2. Ajuste por efecto desborde

Otro problemas comunes de las asignaciones aleatorias es el efecto desborde o spillovers.


Como se vio anteriormente, no considerar la contaminación o contagio entre los grupos
puede atentar contra la validez interna de la evaluación de impacto. La forma más común
de combatir el efecto desborde es asignando los grupos (tratamiento o control) a niveles
superiores al individual hasta que los efectos de contaminación sean menores. Es decir,
pasamos de un diseño individual a un diseño por conglomerados, como vimos en la sección
4 del presente documento.

SinSin embargo,loslosdiseños
embargo, diseñospor
por conglomerados
conglomerados sonson costosos
costosos yynonosiempre
siemprerepresentan
representanla la
mejor elección en el diseño de la evaluación. Rhoads (2011) compara el diseñopor
mejor elección en el diseño de la evaluación. Rhoads (2011) compara el diseño bloques
por bloques
y el diseño por conglomerados utilizando el poder estadístico como criterio
y el diseño por conglomerados utilizando el poder estadístico como criterio de elección de elección
entre
entre loslos diseños.
diseños. El El autor,
autor, calcula
calcula el el máximomonto
máximo montodedecontaminación
contaminaciónpermisible
permisible bajo
bajo el
el cual el diseño por bloques puede ser preferible al diseño por conglomerados, de la
cual el diseño por bloques puede ser preferible al diseño por conglomerados, de la siguiente
siguiente forma:
forma:

1 − 𝜌𝜌
𝑀𝑀𝑀𝑀𝑀𝑀 = 1 − √
1 + (𝑛𝑛 − 1)𝜌𝜌

Donde 𝑀𝑀𝑀𝑀𝑀𝑀 representa el Monto Máximo de Contaminación que puede ser tolerado antes
queDonde MACpor
el diseño representa el Monto Máximo
conglomerados de Contaminación
sea preferible al diseño que
por puede ser tolerado antes que el
bloques.
diseño por conglomerados sea preferible al diseño por bloques.

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 33


Parte
Diseño no
PARTE III: Diseños no Experimentales

III
7. Diferencias en Diferencias
PARTE III: Diseños no Experimentales

Experimentales
7.1. Definición
PARTE III: Diseños no Experimentales
La técnica de Diferencias en Diferencias (desde ahora DD) consiste en aplicar una doble
7. Diferencias
diferencia. La primera en diferencia
Diferencias compara, dentro de cada grupo, los cambios a lo largo del
7. Diferencias
tiempo en la variable
7.1. Definición en Diferencias
de interés (línea de base y seguimiento), mientras que la segunda
diferencia compara los cambios entre grupos (tratados y controles). Entonces, el estimador
Lapuede
técnica 7.1.deDefinición
Diferencias en Diferencias
de DD expresarse de la siguiente manera:(desde ahora DD) consiste en aplicar una doble
diferencia. La La primera
técnica diferencia
de Diferencias compara,
en Diferencias (desdedentro
ahora DD de) consiste
cada grupo,
en aplicarlosunacambios a lo largo del
doble diferencia.
𝜏𝜏𝐷𝐷𝐷𝐷enLa
tiempo = la[𝐸𝐸(𝑌𝑌 |𝐷𝐷 = de
variable
primera1diferencia 1)compara,

interés 0 |𝐷𝐷
𝐸𝐸(𝑌𝑌dentro=de 1)]
(línea de −
cada [𝐸𝐸(𝑌𝑌
base
grupo, |𝐷𝐷 = 0)
y1cambios
los a lo−
seguimiento), 𝐸𝐸(𝑌𝑌
largo |𝐷𝐷 = en
del0mientras
tiempo 0)]laque la segunda
variable
de interés (línea de base y seguimiento), mientras que la segunda diferencia
diferencia compara los cambios entre grupos (tratados y controles). Entonces, el estimador compara los cambios
El estimador de DD
entre permite
grupos mejorar
(tratados las estimaciones
y controles). en dos
Entonces, el estimador aspectos:
de DD puede expresarse de la siguiente
de DD puede manera:expresarse de la siguiente manera:
a. Eficiencia: La doble diferenciación elimina algunos determinantes de 𝑌𝑌 constantes
𝜏𝜏𝐷𝐷𝐷𝐷 = [𝐸𝐸(𝑌𝑌1 |𝐷𝐷 = 1) − 𝐸𝐸(𝑌𝑌0 |𝐷𝐷 = 1)] − [𝐸𝐸(𝑌𝑌1 |𝐷𝐷 = 0) − 𝐸𝐸(𝑌𝑌0 |𝐷𝐷 = 0)]
en el tiempo no incluidos en la regresión, y que de otro modo serían cargados al
Eltérmino Elde
estimador error
de
estimadorDDde (ypermite
porpermite
DD tanto, a la varianza
mejorar
mejorar de este).
lasestimaciones
las estimaciones en dosenaspectos:
dos aspectos:
b. Sesgo de selección: Elimina los determinantes de 𝑌𝑌 constantes en el tiempo y
a. Eficiencia:La
a. Eficiencia: La doble diferenciación elimina algunos determinantes de Y constantes en de el tiempo
correlacionados con doble diferenciación
el tratamiento elimina
no incluidos enalgunos determinantes
la regresión. Es decir, elimina
no incluidos en la regresión, y que de otro modo serían cargados al término de error (y por
𝑌𝑌 constantes
las
en el tiempo
diferenciastanto, no
preexistentes incluidos
a la varianza deconstantes
este).
en la en el tiempo que hace que los individuos se al
regresión, y que de otro modo serían cargados
término de al
autoseleccionen error
grupo(y por tanto, a la varianza
de tratamiento o control. de este).
b. Sesgo de selección: Elimina los determinantes en
b. Sesgo de selección: Elimina los determinantes de Y constantes deel 𝑌𝑌
tiempo y correlacionados
constantes en elcontiempo y
La técnica de el tratamiento
DD nos permite no incluidos en la regresión.
controlar por no Es decir,
factoreselimina las
no en diferencias
observables preexistentes constantes
constantes en el las
correlacionados
en el tiempo quecon hace el
quetratamiento incluidos
los individuos se autoseleccionen la regresión.
al grupo de tratamientoEs decir, elimina
o control.
tiempo, mas diferencias
no por las preexistentes
característicasconstantes no observables que varían
en el tiempo que ahace lo largo
que los del individuos
tiempo. se
Debido a esto, La técnica de DD al
el estimador
autoseleccionen nosgrupo
permiteasume
DD decontrolar por factores
que
tratamiento no observables
el otérmino
control. de errorconstantes
(𝑢𝑢) ensolo
el tiempo,
incluye
mas no por las características no observables que varían a lo largo del tiempo. Debido a esto,
características no observables constantes en el tiempo, lo que se conoce como el supuesto
el estimador DD asume que el término de error (u) solo incluye características no observables
La técnica
de “tendencias de DD nos
paralelas” lospermite controlar por factores no observables constantes en el
constantes en de
el tiempo,grupos.
lo que se conoce como el supuesto de “tendencias paralelas” de los
tiempo, masgrupos. no por las características no observables que varían a lo largo del tiempo.
7.2. Cálculo
Debido de a la varianza
esto, en DD DD asume que el término de error (𝑢𝑢) solo incluye
el estimador
7.2. Cálculo de la varianza en DD
características
El cálculo de la potenciano observables
de la evaluaciónconstantes en el en
consiste tiempo,
ajustarlolaque se conoce
fórmula como básico
del diseño el supuesto
de “tendencias
experimental El cálculo
por paralelas”
el coeficiente de
de la potenciade losde grupos.
la evaluación consiste
autocorrelación de lasenvariables
ajustar la defórmula
interésdel y
diseño básico de
el número
experimental por el coeficiente de autocorrelación de las variables de interés y el número de
periodos de línea de base y de seguimiento (Frison et al 1992, McKenzie 2012)).
7.2. Cálculo de de
periodos la línea
varianza
de baseen
y deDD
seguimiento (Frison et al 1992, McKenzie 2012)).

El cálculo de la potencia de la 1 𝜎𝜎 2 1 consiste


evaluación 1 + (𝑟𝑟 −en
1)𝜃𝜃 (𝑚𝑚la+fórmula
ajustar 1)𝜃𝜃 − 1del diseño básico
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽̂ ) = [ − ]
experimental por el coeficiente𝑃𝑃(1de
⏟ − autocorrelación
𝑃𝑃) 𝑁𝑁 2 ⏟ 𝑟𝑟de las variables𝑚𝑚
de interés y el número de
periodos de línea de base y de seguimiento
𝐴𝐴 (Frison et al 1992,
𝐵𝐵 McKenzie 2012)).
La parte A de la varianza de 𝛽𝛽̂ es la1 varianza 2
1 del diseño básico experimental − 1 • 35 que
𝜎𝜎muestreo
Tecnicas de 1y + (𝑟𝑟 −
tamaños 1)𝜃𝜃
de muestra para(𝑚𝑚 + 1)𝜃𝜃
evaluaciones de impacto
estudiamos en la sección 3. ̂
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 ) = B de la varianza
La parte [ introduce tres − nuevos conceptos: ] el
𝑃𝑃(1 − 𝑃𝑃) 𝑁𝑁 2
⏟ ⏟ 𝑟𝑟 𝑚𝑚
coeficiente de autocorrelación de la variable 𝐴𝐴 resultado (denotado por 𝑟𝑟), el número de
El cálculo de la potencia de la evaluación consiste en ajustar la fórmula del diseño básico
comoexperimental
beneficios de Lapormicroempresas,
el coeficiente
técnica de DDde enos
ingresos
autocorrelación
permite y gastos defamiliares
controlar las variables estarán,
por factores nogeneralmente,
de interés y el número
observables de
cons
poco periodos
correlacionadas
de línea en
tiempo, el
de basetiempo
mas yno y
de por el parámetro
seguimiento
las características tomará
(Frison et no
𝜃𝜃 valores
al 1992, entre
McKenzie
observables 0.2 y 0.4.
que2012)). Por otro
varían a lo largo
lado, variables cognitivas
Debido (pruebasa esto, estandarizadas
el estimador 2DD en lenguaje
asume y/o quematemáticas)
el término ydemedidas error (𝑢𝑢) s
antropométricas estarán generalmente 1
altamente 𝜎𝜎correlacionados
1 1 + (𝑟𝑟 − 1)𝜃𝜃 en el (𝑚𝑚 + 1)𝜃𝜃con
tiempo, − 1valores
La parte A de características
la varianza de ̂no
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 )es=observables
la varianza del diseño constantes en el tiempo,
[ básico experimental lo que se conoce
− que estudiamos ] como
La magnitud
entre 0.6 en
y 0.8 5
la de . parámetro
sección 3. La parte𝜃𝜃 Bdepende
de la 𝑃𝑃(1
⏟ de
varianza −introduce
la 𝑃𝑃) 𝑁𝑁 tres
variable 2
⏟ estudiada
nuevos 𝑟𝑟conceptos:
4
. Por un
el lado,𝑚𝑚 lasde variables
coeficiente
de “tendencias paralelas” de los grupos.
autocorrelación
como beneficios de la variable resultado
de microempresas, (denotado
e ingresos
𝐴𝐴 por r ), el número
y gastos familiaresde periodos
𝐵𝐵
estarán, de línea de
generalmente,
seguimiento
Reemplazando (denotado
la ecuación por r ) y el número
de ladevarianza de periodos
de 𝛽𝛽̂ ajustada de línea de base
por valores (denotado
el diseñoentre DD 0.2por m ).
en la 0.4.
ecuación del
poco La parte A 7.2.
correlacionadas de en Cálculo
la elvarianza
tiempo la varianza
ydeel 𝛽𝛽̂ es laenvarianza
parámetro DD
𝜃𝜃 tomará del diseño básicoy experimental
Por otro que
tamaño de
La muestra,
magnitud
lado, estudiamos
variables detenemos
cognitivas parámetro que
(pruebasθ laestandarizadas
fórmula
depende de la de la determinación
variable en estudiada
lenguaje 4
. Por
y/o del
un tamaño
lado, las
matemáticas) de muestra
variablesy medidasse
enEl lacálculo
sección de3.la La parte Bdedela laevaluación
potencia varianza introduceconsiste en tres nuevos
ajustar conceptos:
la fórmula deleld
expresa de la siguiente
como
antropométricas beneficios deforma:
estarán microempresas, e ingresos y gastos familiares estarán, generalmente, poco
generalmente altamente correlacionados en el tiempo, con valores
coeficiente de
correlacionadas autocorrelación
experimental
en el tiempo y por el de la
coeficiente
el parámetro variable
θ tomará resultado
de autocorrelación
valores entre 0,2 y 0,4.(denotadode las
Por otro lado,por 𝑟𝑟), eldenúmero
variables
variables interés de
ye
y 0.85de
entre periodos
0.6 cognitivas. (pruebas
línea
𝜎𝜎 ∗ (𝑡𝑡de
periodos seguimiento
de línea2 deenbase
estandarizadas
𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 )
(denotadoy de
1lenguaje por 𝑟𝑟)−y 1)𝜃𝜃
1 y/o1seguimiento
matemáticas)
+ (𝑟𝑟 el número
(Frison
y medidas
(𝑚𝑚 + de periodos
etantropométricas
al
1)𝜃𝜃 1992, de línea de2012))
−5 1 McKenzie base
estarán
𝑁𝑁 = generalmente
[
(denotado por 𝑚𝑚).𝐸𝐸𝐸𝐸𝐸𝐸 altamente ] correlacionados en
[ el tiempo, con valores
− entre 0,6 y 0,8 . ]
Reemplazando la ecuación de la varianza 𝑃𝑃(1 −de 𝑃𝑃)𝛽𝛽̂2 ajustada𝑟𝑟1por el𝜎𝜎diseño 2
1 1 +DD 𝑚𝑚
(𝑟𝑟 en la ecuación
− 1)𝜃𝜃 (𝑚𝑚 +del
1)𝜃𝜃 − 1
Reemplazando la ecuación de la varianza de
𝑉𝑉𝑉𝑉𝑉𝑉(𝛽𝛽 ̂ )ajustada
= por el diseño DD
[ en la ecuación del

tamaño de muestra,
Algunas tamaño
consideraciones tenemos que
a tomar la fórmula de la determinación del tamaño de muestra sea
de muestra, tenemos que laen cuenta
fórmula de la en 𝑃𝑃(1
⏟ el−trabajo
determinación 𝑃𝑃) 𝑁𝑁 del 2
⏟ aplicado
tamaño se describen
de𝑟𝑟muestra se 𝑚𝑚 34
expresa de
continuación:la siguiente
expresa forma:
de la siguiente forma: 𝐴𝐴 𝐵𝐵

𝜎𝜎La∗representa
parte
(𝑡𝑡 A de la varianza
) 2total ̂ es
de+𝛽𝛽𝑟𝑟(𝑟𝑟 la elvarianza
(𝑚𝑚 + 1)𝜃𝜃 del −diseño básico exper
a. Dato un T (que 𝛼𝛼 + 𝑡𝑡1−𝑘𝑘el 1 periodos,
de 1 1 +−𝑚𝑚),1)𝜃𝜃 número óptimo 1 de periodos
𝑁𝑁 = [ estudiamos en ]la sección 3. La [ parte B de la − varianza introduce ]
de seguimiento es 𝐸𝐸𝐸𝐸𝐸𝐸 igual a 𝑟𝑟 = 𝑇𝑇/2 𝑃𝑃(1 para − 𝑃𝑃)T2 pares. Para 𝑟𝑟 T impares, el 𝑚𝑚poder es eltres nuevos c
mismo
cuando elegimos coeficiente
𝑚𝑚 − 𝑟𝑟a =tomarde1 oautocorrelación
𝑟𝑟 − = 1 . en
𝑚𝑚cuenta de la variable resultado (denotado por 𝑟𝑟), el
Algunas consideraciones
Algunas consideraciones
periodos(𝑟𝑟de a tomar
línea ende en
cuenta en
seguimientoel trabajo el trabajo
aplicado
(denotado poraplicado
se describen
𝑟𝑟) se describen
ya continuación:
elbaja
número deextremo
periodosa de l
b. Con solo
continuación: 2 periodos = 𝑚𝑚 = 1), si la autocorrelación fuese muy (en el
cero),a. elDato un(denotado
ajuste Tpor por 𝑚𝑚).
(quediferencias
representa elen diferencias
total de periodos,(término B) tiende
r+m), el número óptimoa 1.de periodos de
a. Dada
c. Dato un seguimiento
unaTcantidad es
(que representa igual a
de periodo r=T/2 para
el total
de líneaT pares.
de periodos,Para
de base (e.g,T impares, el poder
el número
es común
𝑟𝑟 + 𝑚𝑚), es el
tener mismo
𝑚𝑚 =cuando
óptimo de aumentar
1), periodos
elegimos m-r=1 o r-m=1.
de número
el seguimiento es igual de
de periodos a 𝑟𝑟seguimiento
= 𝑇𝑇/2 para reducirá T pares. Para T impares,
la varianza (y por el poder
tanto, es el mismo
mejorará el
cuando
poder). elegimos
Aumentar
b. Con 𝑚𝑚el−𝑟𝑟 𝑟𝑟será
solo 2 periodos = 1más
(r=m=1), o 𝑟𝑟si relevante
− 𝑚𝑚 = 1 a. medida
la autocorrelación fuese muyquebajala autocorrelación
(en el extremo cero),(𝜃𝜃) el sea más
b. baja. ajuste por diferencias en diferencias (término B) tiende
Con solo 2 periodos (𝑟𝑟 = 𝑚𝑚 = 1), si la autocorrelación fuese muy baja (en el extremoa 1.
cero),c. elDada
ajusteunapor diferencias
cantidad de periodoendediferencias
línea de base(término B) tiende
(p.ej. es común tener m a=1),
1. aumentar el
7.3. Ajuste
c. Dada una por
número
diseño
cantidad multinivel
de periodo
de periodos de línea
de seguimiento de base
reducirá (e.g, (yespor
la varianza común tener 𝑚𝑚el=poder).
tanto, mejorará 1), aumentar
Por ello número Aumentar
general, de el r
la periodos será
asignación más
de norelevante a medida
es nivel individual
seguimiento que la autocorrelación
reducirá lasino (θ)
a un (y
varianza sea más
nivel baja.
por más
tanto,agregado.
mejorará La el
literatura
poder).para
7.3. diseños
Aumentar
Ajuste multiniveles
el 𝑟𝑟 será
por diseño másenrelevante
multinivel modelosade DD aún
medida quenolahaautocorrelación
sido muy desarrolla (𝜃𝜃) seapor lo
más
que baja.
en la presente sección solo abordaremos el caso del diseño de conglomerados. La
Por lo general, la asignación no es a nivel individual sino a un nivel más agregado. La literatura
varianza (y por tanto también la determinación del tamaño de muestra) debe ajustarse a este
7.3. Ajusteparapordiseños
diseño multiniveles en modelos de DD aún no ha sido muy desarrolla por lo que en la
multinivel
cambio enpresente
el diseño.
sección solo abordaremos el caso del diseño de conglomerados. La varianza (y por tanto
también lala
Por lo general, determinación
asignación del tamaño
no es denivel muestra) debe ajustarse
individual sinoa este
a uncambio en elmás
nivel diseño.agregado. La
Como ya hicimos anteriormente, suponemos que la asignación es a nivel conglomerado
literatura Como
para ya diseños
hicimos
multinivelessuponemos en modeloslade DD aún no haconglomerado
sido muy desarrolla por lo
pero que la unidad deanteriormente,
análisis es a nivelque asignaciónPara
individual. es a nivel
esto Teerenstra peroetque
al. (2012)
que en lala unidad
presente sección
de análisis soloindividual.
es a nivel abordaremos el caso etdel
Para esto Teerenstra diseño
al. (2012) de conglomerados.
consideran la siguiente La
consideran la siguiente
versión generalizada versión
de un generalizada de un conglomerado.
conglomerado.
varianza (y por tanto también la determinación del tamaño de muestra) debe ajustarse a este
cambio en el diseño. 𝑦𝑦 = 𝜇𝜇 + 𝛾𝛾 + 𝜏𝜏 + (𝛾𝛾𝛾𝛾) + 𝑐𝑐 + (𝑐𝑐𝑐𝑐) + 𝑠𝑠 + (𝑠𝑠𝑠𝑠)
𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑔𝑔 𝑡𝑡 𝑔𝑔𝑔𝑔 𝑖𝑖 𝑖𝑖𝑖𝑖 𝑖𝑖𝑖𝑖 𝑖𝑖𝑖𝑖𝑖𝑖

Como ya hicimos anteriormente, suponemos que la asignación es a nivel conglomerado


4 Se asume que el parámetro θ es constante en el tiempo y que tiene un comportamiento similar en ambos grupos (tratados y
pero
4 que que
Se asume lacontroles).
unidad de análisis
el parámetro θ es constantees a ennivel individual.
el tiempo y que tiene Para esto Teerenstra
un comportamiento et al.
similar (2012)
en ambos
consideran
grupos
5
(tratados
5 la siguiente
Ver y controles).
McKenzie 2012 versión generalizada de un conglomerado.
para un análisis más detallado del parámetro de autocorrelación.
Ver McKenzie 2012 para un análisis más detallado del parámetro de autocorrelación.
𝑦𝑦𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 = 𝜇𝜇 + 𝛾𝛾𝑔𝑔 + 𝜏𝜏𝑡𝑡 + (𝛾𝛾𝛾𝛾)𝑔𝑔𝑔𝑔 + 𝑐𝑐𝑖𝑖 + (𝑐𝑐𝑐𝑐)𝑖𝑖𝑖𝑖 + 𝑠𝑠𝑖𝑖𝑖𝑖 + (𝑠𝑠𝑠𝑠)𝑖𝑖𝑖𝑖𝑖𝑖
36 • Instituto Nacional de Estadística e Informática
35
Donde
Donde 𝑦𝑦 𝑦𝑦 del del sujeto
sujeto 𝑖𝑖 (i=1,…,n),
𝑖𝑖 (i=1,…,n), el conglomerado
el conglomerado j (j=1,…,I),
j (j=1,…,I), entiempo
en el el tiempo t (línea
t (línea de de
Donde Donde
Donde 𝑦𝑦
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 del 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑦𝑦sujeto del
del sujeto
Donde 𝑖𝑖y(i=1,…,n),
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 sujeto
del sujeto el
𝑖𝑖𝑖𝑖 (i=1,…,n),
(i=1,…,n),
conglomerado
i (i=1,…,n)
el
el conglomerado
conglomerado
j (j=1,…,I),
, el conglomerado enjj el(j=1,…,I),
j (j=1,…,I)(j=1,…,I),
tiempo en
en tel
t (línea
, en el tiempo detiempo
el(línea
tiempo de base
tt (línea
(línea de de
basebase
t=0,
base t=0,
follow-up
t=0, follow-up
follow-up t=1),
en elt=1), t=1), en en
el
en el
grupo
deelel grupo
grupo de de
tratamiento
de tratamiento d d (control
(control d=0, d=0, tratado tratado d=1). d=1). Además, Además,
dedtratamiento d=0,d (control d=0, ). tratado d=1).sabe Además,
itjk
base t=0,
base follow-up
t=0,t=0 t=1),
follow-up
, follow-up grupo
t=1),
t=1) en
, en eltratamiento
grupogrupo de tratamiento (control
tratamiento
d (control tratado
dd=0(control d=1).
, tratado d=0,
d=1 Además,tratado
Además, se d=1). Además,
se sabe que ,(𝑐𝑐𝑐𝑐) , , se distribuyen con media cero y varianza 2 𝜎𝜎 2 2, 𝜎𝜎 2 2, 𝜎𝜎 2 2, 𝜎𝜎 2
se sabe
e sabe se
que que
sabe
𝑐𝑐 𝑐𝑐
que
,(𝑐𝑐𝑐𝑐) que,(𝑐𝑐𝑐𝑐)
,𝑐𝑐
𝑐𝑐
c𝑠𝑠 ,(𝑐𝑐𝑐𝑐)
,(cτ)
, ,
(𝑠𝑠𝑠𝑠)𝑠𝑠, s , ,𝑠𝑠
(𝑠𝑠𝑠𝑠)
𝑠𝑠
(sτ)
se , (𝑠𝑠𝑠𝑠)
se
(𝑠𝑠𝑠𝑠)
distribuyense distribuyen
distribuyen
se con con
distribuyen
media con
mediacero media
cero
con y y varianza
mediacero
varianza y
cero
𝜎𝜎 2 varianza
, y
𝜎𝜎 2
varianza
, 𝜎𝜎 2
, 𝜎𝜎
𝜎𝜎 2 . , 𝜎𝜎
𝜎𝜎 2
2 , , 𝜎𝜎
𝜎𝜎 2
,, 𝜎𝜎2𝑠𝑠𝑠𝑠
𝜎𝜎
𝑐𝑐𝑐𝑐 , 𝜎𝜎𝑠𝑠𝑠𝑠𝑠𝑠2
2 ,,.𝜎𝜎 2 ..
2
se sabe 𝑗𝑗
Donde
𝑗𝑗 𝑗𝑗𝑗𝑗
𝑗𝑗𝑗𝑗 ,(𝑐𝑐𝑐𝑐)
que𝑦𝑦𝑐𝑐𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑗𝑗 j𝑗𝑗𝑗𝑗 𝑗𝑗𝑗𝑗
del𝑗𝑗𝑗𝑗
jt 𝑗𝑗𝑗𝑗
𝑗𝑗𝑗𝑗 , 𝑠𝑠𝑗𝑗𝑗𝑗
𝑗𝑗𝑗𝑗sujeto
𝑗𝑗𝑗𝑗𝑗𝑗
ji 𝑗𝑗𝑗𝑗 , (𝑠𝑠𝑠𝑠)
𝑗𝑗𝑗𝑗 𝑗𝑗𝑗𝑗𝑗𝑗 𝑗𝑗𝑗𝑗𝑗𝑗 se distribuyen
𝑗𝑗𝑗𝑗𝑗𝑗
𝑖𝑖 (i=1,…,n),
jit
𝑗𝑗𝑗𝑗𝑗𝑗 el conglomerado con media cero y varianza
j (j=1,…,I),𝑐𝑐 𝑐𝑐𝑐𝑐 𝑠𝑠
en el tiempo
𝑐𝑐
𝑠𝑠𝑠𝑠 𝜎𝜎𝑐𝑐𝑐𝑐 ,t 𝜎𝜎(línea
𝑐𝑐 𝑐𝑐𝑐𝑐 𝑐𝑐𝑐𝑐
𝑠𝑠
𝑐𝑐𝑐𝑐 de 𝜎𝜎𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠 .
Se
Se define
Se define ladefine la
autocorrelación
base t=0, autocorrelación
la autocorrelación follow-up en dos t=1), en en
niveles: en
dos endosdosniveles:
niveles:
Se
Se define
define Seladefine
la autocorrelación
autocorrelaciónla autocorrelación enel
en dos
dosgrupo de tratamiento d (control d=0, tratado d=1). Además,
niveles:
niveles:
niveles:
se sabe que 𝑐𝑐𝑗𝑗 ,(𝑐𝑐𝑐𝑐)𝑗𝑗𝑗𝑗 , 𝑠𝑠𝑗𝑗𝑗𝑗 , (𝑠𝑠𝑠𝑠)𝑗𝑗𝑗𝑗𝑗𝑗 se𝜎𝜎 2distribuyen 2 con 2 media cero y varianza 𝜎𝜎𝑐𝑐2 , 𝜎𝜎𝑐𝑐𝑐𝑐 2
, 𝜎𝜎𝑠𝑠2 , 𝜎𝜎𝑠𝑠𝑠𝑠
2
.
𝑐𝑐 𝜎𝜎 𝜎𝜎
𝜎𝜎 2
2
𝑐𝑐
𝜌𝜌𝑐𝑐 = 2 𝜌𝜌 =
𝜌𝜌2 𝑐𝑐𝑐𝑐𝑐𝑐 =
𝜌𝜌 =
𝑐𝑐 𝜎𝜎 𝑐𝑐
𝑐𝑐
Se define la autocorrelación en 𝜎𝜎dos 𝑐𝑐 +𝑐𝑐 𝜎𝜎𝑐𝑐𝑐𝑐
niveles:
𝜌𝜌
𝜎𝜎𝑐𝑐 + =2 𝜎𝜎 22+ 2 𝜎𝜎 2
𝜎𝜎𝑐𝑐𝑐𝑐𝑐𝑐2𝜎𝜎+
2
𝜎𝜎 𝑐𝑐𝑐𝑐 𝜎𝜎
+ 2
𝜎𝜎𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐
𝜎𝜎𝑠𝑠2 2 𝜎𝜎
2
𝜌𝜌𝑠𝑠 = 2 2𝜌𝜌𝑐𝑐 =𝜎𝜎𝑠𝑠2 𝜎𝜎
𝜎𝜎𝑐𝑐𝑠𝑠𝑠𝑠222
𝜎𝜎𝑠𝑠 𝜌𝜌
+𝑠𝑠 𝜎𝜎=
𝜌𝜌 = 𝜎𝜎𝑐𝑐22 𝜎𝜎+
=
𝜌𝜌𝑠𝑠𝑠𝑠𝑠𝑠 =
𝑠𝑠𝑠𝑠
𝜌𝜌 𝜎𝜎 + 𝑠𝑠 2
2 𝜎𝜎𝜎𝜎𝑐𝑐𝑐𝑐2
𝜎𝜎𝑠𝑠2 + 𝜎𝜎 𝜎𝜎
𝜎𝜎𝑠𝑠𝑠𝑠𝑠𝑠2 +𝑠𝑠𝑠𝑠 𝜎𝜎
+
2
2
𝜎𝜎𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠
Las cuales son conocidas como la autocorrelación de los conglomerados 𝜎𝜎𝑠𝑠2 𝑠𝑠𝑠𝑠 y de los individuos
LasLas
Las cuales
cuales
espectivamente. son
cuales
Las cuales Elson
Lasson
conocidas
conocidas
son conocidas
coeficiente
cualesconocidas como
son conocidas de como
como la
comocomo
la autocorrelación
la
autocorrelación autocorrelación
autocorrelación 𝜌𝜌𝑠𝑠 =ponderado
la autocorrelación
la autocorrelación
de
𝜎𝜎𝑠𝑠 + 𝜎𝜎de
de
los
de
de
2 los
los
queda conglomerados
conglomerados
conglomerados
losconglomerados definido y de
conglomerados ydede yyylos
la de individuos
de
de
los
los individuos
los individuos
individuos
𝑠𝑠𝑠𝑠 los los individuos
2
6
respectivamente.
respectivamente.
iguiente forma :
respectivamente. El
respectivamente. El
coeficiente
El coeficiente
coeficiente
El coeficiente de de
de
de autocorrelación
autocorrelación
autocorrelación
autocorrelación ponderado ponderado
ponderado
ponderado
queda queda
definido queda
queda
dedefinido
la definido
definido
siguiente de
de de la
la la
respectivamente.
Las cuales6 6:𝑦𝑦son
Donde 66 del
Elsujeto
conocidas coeficiente como
𝑖𝑖 (i=1,…,n),
de autocorrelación
ellaconglomerado
autocorrelación j (j=1,…,I), de enlos
ponderado
conglomerados
el tiempo t (línea de
queda
y de los definido de
individuos la
siguiente
siguiente forma
siguiente forma
forma
forma: 6::
𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑛𝑛𝑛𝑛 1 − 𝛿𝛿
siguiente forma
respectivamente. 𝜌𝜌: = Elt=1),coeficiente
base t=0, follow-up
𝜌𝜌𝑐𝑐 de
+ autocorrelación
en el grupo de tratamiento d (control d=0, tratado
𝜌𝜌𝑠𝑠 ponderado d=1). Además,queda definido de la
se sabe que𝑐𝑐𝑐𝑐 6 1
𝑐𝑐𝑗𝑗 ,(𝑐𝑐𝑐𝑐) 𝑠𝑠𝑗𝑗𝑗𝑗 ,(𝑛𝑛
𝑗𝑗𝑗𝑗 ,+ (𝑠𝑠𝑠𝑠)−𝑗𝑗𝑗𝑗𝑗𝑗 1)𝛿𝛿
se distribuyen 1 con+ (𝑛𝑛
media − cero 1)𝛿𝛿y varianza 𝜎𝜎𝑐𝑐2 , 𝜎𝜎𝑐𝑐𝑐𝑐
2
, 𝜎𝜎𝑠𝑠2 , 𝜎𝜎𝑠𝑠𝑠𝑠
2
.
siguiente forma : 𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛
𝑛𝑛𝑛𝑛
𝑛𝑛𝑛𝑛 1 −1 1
1 𝛿𝛿−−

𝛿𝛿
𝛿𝛿
𝛿𝛿
Se define la autocorrelación 𝜌𝜌𝑐𝑐𝑐𝑐 𝜌𝜌 𝜌𝜌=𝑐𝑐𝑐𝑐
𝜌𝜌 en= = dos niveles: 𝜌𝜌como:
𝑐𝑐 + 𝜌𝜌 +
𝜌𝜌
𝜌𝜌𝑐𝑐𝑐𝑐𝑐𝑐1+ 𝜌𝜌𝑠𝑠 𝜌𝜌 𝜌𝜌
𝜌𝜌𝑠𝑠𝑠𝑠
A partir de la cual el ajuste a la varianza 𝑐𝑐𝑐𝑐1=
𝑐𝑐𝑐𝑐 queda
+1 1 +
(𝑛𝑛
+ definida
− (𝑛𝑛
(𝑛𝑛 −
1)𝛿𝛿
− 1)𝛿𝛿
2 1)𝛿𝛿
++1 1 (𝑛𝑛+
+ −(𝑛𝑛
(𝑛𝑛 −
1)𝛿𝛿
− 1)𝛿𝛿
1)𝛿𝛿
1+ − (𝑛𝑛𝑛𝑛𝑛𝑛
𝜎𝜎𝑐𝑐 1)𝛿𝛿 1 + − 1)𝛿𝛿 𝑠𝑠
1 −
(𝑛𝑛 𝛿𝛿
𝜌𝜌𝑐𝑐𝑐𝑐 =
1 definida
𝜌𝜌𝑐𝑐 =
𝜎𝜎como:
𝜌𝜌𝑐𝑐 + 2 𝜌𝜌𝑠𝑠
1(𝑛𝑛+−(𝑛𝑛 (𝑛𝑛como: 2
A partir
A partir de lade la cual el =ajuste aavarianza
la varianza −𝜎𝜎queda
𝜎𝜎𝑐𝑐 + 1)𝛿𝛿 1) + − 1)𝛿𝛿 2
A
A partir Acual
de la el 𝐷𝐷𝐷𝐷𝐷𝐷
cual ajuste
el elaajuste
ajustela𝑟𝑟)[1
a la varianza queda ( definida
queda definida como:
𝑐𝑐𝑐𝑐
partir de partir de
la 𝑉𝑉𝑉𝑉𝑟𝑟
cual la cual
el (1
ajuste− a la
la + varianza
varianza 1)𝜌𝜌]queda
2 queda definida como:
definida como: 𝜎𝜎𝑠𝑠 𝑃𝑃(1 − 𝑃𝑃) 𝐽𝐽𝐽𝐽
A partir de la cual el ajuste a la varianza 𝜌𝜌𝑠𝑠 = 2
𝜎𝜎𝑠𝑠 + 𝜎𝜎queda
2 definida como: 1 1 𝜎𝜎 2 𝜎𝜎 2
2
Reemplazando la ecuación de𝑉𝑉𝑉𝑉𝑟𝑟 la varianza de 𝛽𝛽̂ 𝑟𝑟)[1
ajustada
𝑠𝑠𝑠𝑠
por el diseño DD en1
1 la 𝜎𝜎
𝜎𝜎
ecuación 2
del
𝑉𝑉𝑉𝑉𝑟𝑟
𝑉𝑉𝑉𝑉𝑟𝑟
𝐷𝐷𝐷𝐷𝐷𝐷 =
𝐷𝐷𝐷𝐷𝐷𝐷 =
(1
= −(1
(1 − − 𝑟𝑟)[1
− 𝑟𝑟)[1 +
𝑟𝑟)[1 (𝑛𝑛 +− (𝑛𝑛 −
1)𝜌𝜌]
+ conglomerados
(𝑛𝑛 − 1)𝜌𝜌]
− 1)𝜌𝜌] (
1)𝜌𝜌] (
( ) )
)
Las cuales son conocidas 𝑉𝑉𝑉𝑉𝑟𝑟
como 𝐷𝐷𝐷𝐷𝐷𝐷
𝐷𝐷𝐷𝐷𝐷𝐷
la= (1
autocorrelación de los+ (𝑛𝑛 y(
𝑃𝑃(1 de los
𝑃𝑃(1

𝑃𝑃(1
individuos
1𝑃𝑃)−
− 𝑃𝑃) )2
𝜎𝜎 𝐽𝐽𝐽𝐽
𝐽𝐽𝐽𝐽
𝑃𝑃) 𝐽𝐽𝐽𝐽
amaño de muestra, tenemos que
respectivamente. El la fórmula
𝑉𝑉𝑉𝑉𝑟𝑟
coeficiente =de
𝐷𝐷𝐷𝐷𝐷𝐷 de (1la−determinación
𝑟𝑟)[1 +ponderado
autocorrelación (𝑛𝑛 − 1)𝜌𝜌] del ( tamaño
queda 𝑃𝑃(1 − de
definido ) muestra
𝑃𝑃)
de la 𝐽𝐽𝐽𝐽 se
̂ 𝑃𝑃(1 − 𝑃𝑃) 𝐽𝐽𝐽𝐽
expresa de la siguiente
Reemplazando
Reemplazando
Reemplazando
siguiente forma6:
forma:
la
la ecuación
la ecuación ecuación de lade la
la𝑛𝑛𝑛𝑛varianza
devarianza varianza de 𝛽𝛽de ̂ 𝛽𝛽̂̂𝛿𝛿 ajustada
de1ajustada
𝛽𝛽 ajustada por por el
el diseño
el diseño
por diseño DDDD en laen
DD la
la ecuación
enecuación del del
ecuación del
ReemplazandoReemplazando
Reemplazando
la ecuación
la la ecuación
ecuación
de de
la
de la
varianza
la varianza
varianza
de
de
𝛽𝛽
−𝛽𝛽 ajustada
̂ ajustada
ajustada por
por
porel
el
diseño
el
diseño
diseño DD DD
DD
en la
en
en la
ecuación
la
ecuación
del
ecuación del
del
tamaño
tamaño de
tamaño de de
muestra,
de muestra,
muestra, tenemos tenemos
tenemos 𝜌𝜌 que = que
la
que la
fórmula fórmula
la1)𝛿𝛿fórmula
fórmula
𝜌𝜌 + de de
la
de la 𝑠𝑠determinación
determinación
la1determinación
𝜌𝜌
determinación del del
tamañotamaño
del tamaño
tamaño de de muestra
muestra se
muestra
de se se se
tamaño muestra, tenemos 1que
+ (𝑛𝑛 −la 1 + (𝑛𝑛 de
lala determinación del de muestra
se se
𝑐𝑐𝑐𝑐 𝑐𝑐
− 1)𝛿𝛿
tamañotamaño de de muestra,
muestra, tenemostenemos que que la lafórmula
fórmula
1 de
de la determinación deldel 2tamañotamañode muestra
de muestra
expresa
expresa de
expresa de
la
de𝐽𝐽 la siguiente
siguiente (1 −
ladesiguiente
expresa =siguiente forma:
𝜌𝜌 ) forma:
1
forma:
[[ + (𝑛𝑛 − 1)𝜌𝜌 ] ( ) ] [ 𝑡𝑡 + 𝑡𝑡 ]
ladesiguiente
la siguiente forma:
A partir de la cual el ajuste a la varianza queda definida como:
expresa de
expresa la
𝐷𝐷𝐷𝐷𝐷𝐷 𝑐𝑐𝑐𝑐 forma:
forma: 𝑃𝑃(1 − 𝑃𝑃) (𝐸𝐸𝐸𝐸𝐸𝐸)2 𝑛𝑛 1−𝛼𝛼 𝛽𝛽
1 𝜎𝜎 2
𝑉𝑉𝑉𝑉𝑟𝑟𝐷𝐷𝐷𝐷𝐷𝐷 = (1 − 𝑟𝑟)[1 + (𝑛𝑛 − 1)𝜌𝜌] ( )
𝑃𝑃(1 − 𝑃𝑃) 𝐽𝐽𝐽𝐽
Notamos que básicamente 1 1
1 11 1 1
𝐽𝐽𝐷𝐷𝐷𝐷𝐷𝐷a𝐽𝐽𝐽𝐽=la(1 fórmula vista anteriormente ( el]se le ha 1)aumentado 1delel
] [𝑡𝑡término
2 2
Reemplazando la =
ecuación − (1𝜌𝜌 −
de )
la𝜌𝜌 [[ 1 ))+
varianza [[ 1de+
(𝑛𝑛 𝛽𝛽̂−(𝑛𝑛 −
1)𝜌𝜌
ajustada ]1)𝜌𝜌
por ]] diseño
( 1DD en la) ecuación ]] [[𝑡𝑡𝑡𝑡1−𝛼𝛼
+ ]]2 𝑡𝑡𝑡𝑡𝛽𝛽𝛽𝛽 ]]22
𝑡𝑡𝑡𝑡𝛽𝛽+
𝐽𝐽 𝐷𝐷𝐷𝐷𝐷𝐷
𝐽𝐽
𝐷𝐷𝐷𝐷𝐷𝐷 =
= (1
(1
= −
(1

𝑐𝑐𝑐𝑐 −𝜌𝜌
𝜌𝜌 𝜌𝜌
𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐 ) [[
)
[[ 1
1
[[ 1 +
+ + (𝑛𝑛
(𝑛𝑛
(𝑛𝑛 −
−− 1)𝜌𝜌
1)𝜌𝜌
1)𝜌𝜌𝑃𝑃(1] ((
( 𝑃𝑃(1
− 𝑃𝑃) − )
𝑃𝑃) )
) 2 2se ]2 [1−𝛼𝛼
𝑡𝑡 ] [ 𝑡𝑡 +
1−𝛼𝛼 +
+ 𝑡𝑡 ]
1 − 𝜌𝜌𝑐𝑐𝑐𝑐 ), el cual depende solo de 𝜌𝜌𝑐𝑐𝑐𝑐 .
tamaño de muestra,
𝐷𝐷𝐷𝐷𝐷𝐷 𝐷𝐷𝐷𝐷𝐷𝐷
tenemos que la
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
fórmula de la determinación 𝑃𝑃(1−−
del
𝑃𝑃(1
𝑃𝑃(1 −𝑃𝑃)𝑃𝑃)
tamaño 𝑃𝑃)
(𝐸𝐸𝐸𝐸𝐸𝐸)
de (𝐸𝐸𝐸𝐸𝐸𝐸)
muestra𝑛𝑛𝑛𝑛 2 𝑛𝑛
(𝐸𝐸𝐸𝐸𝐸𝐸)
(𝐸𝐸𝐸𝐸𝐸𝐸)
2
𝑛𝑛
1−𝛼𝛼 1−𝛼𝛼 𝛽𝛽 𝛽𝛽
expresa de la siguiente forma: (𝐸𝐸𝐸𝐸𝐸𝐸) 𝑛𝑛
Algunas consideraciones a tomar en cuenta en el trabajo aplicado se describen a
Notamos
Notamos que
queNotamos básicamente
básicamente 𝐽𝐽𝐷𝐷𝐷𝐷𝐷𝐷 =a(1la−a ala
aa𝜌𝜌fórmula lafórmula vista ( vista anteriormente
1anteriormente se +lese se
2 le le ha aumentado el
), término
Notamos Notamos que que básicamente
que
básicamente básicamente )a[[la
la fórmula
+fórmula
fórmula vista
]vista
vista )anteriormente
anteriormente
anteriormente ]se
𝑡𝑡𝛽𝛽ha selehahaaumentado
aumentado
se le haaumentado
el término (1-ρ
aumentado el término
el término
csel término
1
Notamos
continuación: que básicamente 𝑐𝑐𝑐𝑐la 1 fórmula
(𝑛𝑛 − 1)𝜌𝜌 vista
𝑃𝑃(1 − 𝑃𝑃) anteriormente
(𝐸𝐸𝐸𝐸𝐸𝐸)2 𝑛𝑛
] [𝑡𝑡1−𝛼𝛼 le ha aumentado el término
(1 −(((1 𝜌𝜌− (𝜌𝜌
),
1 el
− el
), cual
el
cual
𝜌𝜌 ),cualdepende
el
depende depende
cual solo
depende solode soloρde .
solo 𝜌𝜌de de .𝜌𝜌𝜌𝜌 . .
1 − 𝜌𝜌 𝑐𝑐𝑐𝑐
− 𝜌𝜌𝑐𝑐𝑐𝑐
1 𝑐𝑐𝑐𝑐 ),
𝑐𝑐𝑐𝑐 ),
el
𝑐𝑐𝑐𝑐 cual
el información
cual depende
depende solo
solo decs de 𝜌𝜌
𝑐𝑐𝑐𝑐 𝜌𝜌𝑐𝑐𝑐𝑐 . .
𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐 anteriormente
a. Si se cuenta con
Notamos que básicamente confiable
a la fórmula devista
un panel de individuos
se le ha aumentado y conglomerados
el término se
Algunas
Algunas Algunas 1 − 𝜌𝜌consideraciones
Algunas 𝑐𝑐𝑐𝑐 ),consideraciones
(consideraciones
consideraciones a a
tomar a atomar
𝜌𝜌tomar
tomar
𝑐𝑐𝑐𝑐 . en en enen cuenta
cuenta
cuenta cuenta
en elentrabajo en
en
el eltrabajo
aplicado
el trabajo
trabajose aplicado
describen
aplicadoaplicado se se
a continuación:
se describen
describen describen aa a
puedeAlgunas
Algunas calcular consideraciones
los el cual depende
coeficientes
consideraciones a tomar en cuenta𝑐𝑐 en el
solo
a de de
tomarautocorrelación en cuenta 𝜌𝜌 eny el
𝜌𝜌 𝑠𝑠 trabajo aplicado se
. trabajo
Por ejemplo, aplicado para se describen
describen aa
continuación: continuación:
continuación: Algunas consideraciones a tomar en cuenta en el trabajo aplicado se describen a
continuación:
investigaciones
continuación: a. ensetemas
Si
continuación: cuenta de con educación
información confiable en el Perú de unse panel cuenta
de individuoscon información
y conglomerados de se puede
variablesa.educativas Sia.secalcular en el Censo
losconcoeficientes Escolar (matricula,
de autocorrelación deserción,
ρun y panel
ρs. Por alumnos,
ejemplo, entre
para otros) y
investigaciones en se
Sicuenta
se cuenta con información confiable
de un panel de de individuos y conglomerados
a. a.
Si
a. seSi
Si se
cuenta
se cuenta
cuenta con con
información
con información
información
información confiable
confiable
confiable
confiable de de
un
de un
panel
de individuos
c
un panel
panel de de individuos
individuos
y conglomerados
de
se
y y conglomerados
conglomerados se se
la Evaluación
a. Si sepuede temas
Censal
cuenta dede
puedecalcularcon educación
Estudiantes
calcular información en el Perú
(pruebas se cuenta
confiable
los coeficientes de autocorrelación
los coeficientes de autocorrelacióncon
estandarizadas
de información
𝜌𝜌 un
𝑐𝑐 y de
panel
𝜌𝜌𝑠𝑠 . Por de
lenguajede 𝜌𝜌𝑐𝑐 y 𝜌𝜌𝑠𝑠 . Por ejemplo, para se
ejemplo,individuos
variablesy educativas
matemática)
individuos
para y
y conglomerados
en el Censo
conglomerados se
desde elpuede
puede puede
2003
puede calcular
y calcular
Escolar
calcular
2007 los
calcular losen coeficientes
investigaciones
los
(matricula,
los
respectivamente.
investigaciones coeficientes
coeficientes
deserción,
coeficientes
en temas de educación
temas de educación de
alumnos, ende
de autocorrelación
autocorrelación
entre seotros)cuentaycon
autocorrelación
el Perú
de autocorrelación
en el Perú se 𝜌𝜌cuenta 𝜌𝜌
la Evaluación
información
𝑐𝑐 y
𝜌𝜌
𝜌𝜌𝑐𝑐 𝜌𝜌y
y
de .
Censal
𝑐𝑐 y 𝜌𝜌con
𝑠𝑠 𝜌𝜌
𝜌𝜌Por .
. de
𝑠𝑠 . Por
𝑠𝑠 Por
ejemplo,
Por
información
ejemplo,
Estudiantes
ejemplo,
ejemplo,de para
para
para
para
(pruebas 𝑐𝑐 y 𝑠𝑠
enestandarizadas deeldede lenguaje y matemática) desde el 2003 ycuenta
2007conrespectivamente.
variables educativas en el Censo Escolar (matricula, deserción, alumnos, entre otros)
investigaciones
investigaciones
investigaciones en
temas
en temas
temas educación
de educación
educación en
el de
en el
en (matricula,
Perú
el Perú
se
Perú se
cuenta
se con información
información y de
otros) de
variables
investigaciones educativas
la Evaluación en
Censal de en
temas Censo
de
Estudiantes
𝜎𝜎
Escolar
educación
(pruebas
2 +𝜎𝜎 2 en
estandarizadas ellenguaje
Perú se cuenta
deserción,cuenta
y matemática) con
alumnos,
con información
entre
información de
de
variables
variables
El parámetro está
variables educativas
educativas
desde el
definido 2003
educativas yen
como2007 en
el el
Censo Censo
respectivamente.
en el Censo Escolar
𝑐𝑐 𝑠𝑠
Escolar
Escolar (matricula,
(matricula,
(matricula, deserción,
deserción, alumnos,
alumnos, entre entre otros)
otros) y y
𝛿𝛿 la Evaluación Censal
variables educativas en el𝜎𝜎𝑐𝑐2Censo𝛿𝛿 =de Estudiantes
2 +𝜎𝜎 2Escolar
+𝜎𝜎𝑐𝑐𝑐𝑐 2
𝑠𝑠 +𝜎𝜎𝑠𝑠𝑠𝑠 (matricula, deserción, alumnos, entre otros) yy
(pruebas deserción,
estandarizadas de alumnos,
lenguaje y entre otros)
matemática)
la Evaluación
la Evaluación
desde Censal
elCensal
2003 yde2007 de Estudiantes
Estudiantes𝛿𝛿 = 𝜎𝜎 +𝜎𝜎(pruebas (pruebas estandarizadas
estandarizadas de lenguaje
de lenguaje yy matemática)
y matemática)
la
la Evaluación Censal derespectivamente.
de Estudiantes (pruebas estandarizadas de
de lenguaje y matemática)
𝜎𝜎 +𝜎𝜎 2 2

Evaluación
6 ElEl Censal
parámetro
parámetro está
𝛿𝛿 δestá definido
definido Estudiantes
como
como (pruebas estandarizadas lenguaje matemática)
6 𝑐𝑐 𝑠𝑠
+𝜎𝜎 +𝜎𝜎 2 2 2 2

desde el 2003 yy 2007 respectivamente.


𝑐𝑐 𝑐𝑐𝑐𝑐 𝑠𝑠 𝑠𝑠𝑠𝑠
desde el
desde 2003
el y
2003 2007 2007respectivamente.
respectivamente.
desde el 2003 y 2007 respectivamente. 2 2
6
El parámetro 𝛿𝛿 está definido como 𝛿𝛿 =
𝜎𝜎𝑐𝑐 +𝜎𝜎𝑠𝑠 36
2 muestreo
2 +𝜎𝜎 2y+𝜎𝜎 2 36
Tecnicas𝜎𝜎de𝑐𝑐 +𝜎𝜎𝑐𝑐𝑐𝑐 𝑠𝑠2 tamaños
𝑠𝑠𝑠𝑠 de muestra para evaluaciones de impacto • 37
𝜎𝜎𝑐𝑐2 +𝜎𝜎
𝜎𝜎 222 +𝜎𝜎 2
𝜎𝜎 +𝜎𝜎
6
El
El parámetro
El 666parámetro 𝛿𝛿 está
𝛿𝛿 está definido
definido comocomo
𝛿𝛿 =𝛿𝛿 = 𝑠𝑠𝑐𝑐
2 𝑠𝑠
2
El parámetro 𝛿𝛿 está definido como
𝛿𝛿 𝛿𝛿 𝜎𝜎2𝑐𝑐𝑐𝑐 +𝜎𝜎𝑠𝑠𝑠𝑠2 2
parámetro está definido como 𝛿𝛿 =
= 𝜎𝜎𝑐𝑐2 +𝜎𝜎
𝜎𝜎 22
2 +𝜎𝜎
2
𝜎𝜎𝑐𝑐𝑐𝑐
𝑐𝑐
2 +𝜎𝜎22 +𝜎𝜎2
+𝜎𝜎𝑐𝑐𝑐𝑐
+𝜎𝜎 2
2𝑠𝑠 +𝜎𝜎
+𝜎𝜎𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠2 +𝜎𝜎𝑠𝑠𝑠𝑠
2
𝜎𝜎 𝑐𝑐
𝑐𝑐 +𝜎𝜎 𝑐𝑐𝑐𝑐 +𝜎𝜎𝑠𝑠 +𝜎𝜎𝑠𝑠𝑠𝑠
𝑐𝑐𝑐𝑐 𝑠𝑠𝑠𝑠
b. Lamentablemente, para investigaciones en temas relacionados a ingresos, gastos, consumo,
entre otros en el Perú no se cuentan con paneles a nivel centro poblado (que en este caso
podrían ser los conglomerados).

c. En la práctica, se utilizan valores referenciales de investigaciones similares en otros países.


En Estados Unidos se construyen paneles longitudinales de los cuales se pueden obtener
parámetros referenciales. Una vez determinado el valor del parámetro es recomendable hacer
análisis de sensibilidad del tamaño de muestra cambiando el nivel de ρcs.

7.4. Implementación del cálculo del tamaño de muestra en Stata

7.4.1. Modelo de Diferencias en Diferencias a nivel Individual

En el ejemplo práctico que utiliza este manual acerca del programa Trabaja Joven, se
evalúa el efecto de la intervención sobre los ingresos de los hogares. Tal como vimos
anteriormente, se desea diseñar un piloto para evaluar esta intervención. Supongamos
que se decide asignar aleatoriamente a los individuos a cada uno de los grupos (tratados
y controles) pero ahora además se cuenta con la posibilidad de tener periodos de línea de
base y seguimiento.

El piloto tiene una duración de dos años (T=2) por lo que óptimamente se asignan un periodo a la
línea de base (m=1) y un periodo a la línea de seguimiento (r=1). Se siguen las fórmulas descritas
en el trabajo de Frison y Pocock (1992).

e. Especificar las siguiente variables:

Dado el número de periodos que durará el piloto (T=2), se define óptimamente el número de
periodos ex post al tratamiento (línea de base), mientras que el número de periodos exante al
tratamiento (follow up) será por el resto (T-r=m). Dado que la variable estudiada es el gasto
de los hogares, se asume una baja correlación entre periodos ex post al tratamiento (θ) igual
a tetha=0,4.

use “sumaria_07_10.dta”, clear

scalar T=2 /*total period (baseline


+ follow-up)*/
scalar tetha=0.8
scalar p=0.5 /*ratio of treatment group*/
scalar emd=0.2 /*Standardized Minimum Detecta-
ble Effect*/

*Optimal baseline and follow-up


scalar r=round(T/2)
scalar me=T-r

38 • Instituto Nacional de Estadística e Informática


Tal como hicimos anteriormente la probabilidad de errores tipo I y II son definidas para los valores
típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.

scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/


scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

f. Cálculo del tamaño de muestra

El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar y
un tamaño de potencia de 80%, dados los parámetros anteriormente descritos es calculado a
continuación. Para tales fines, hacemos uso de la fórmula descritas en la sección 4.2.

*Sample size in DD
DIF =(((1+(r-1)*rho_l)/r)+((1+(me-1)*rho_l)/me)-2*rho_l)
scalar n_DIF=2*(1/emd)^2*DIF*(t_alphaplusbeta^2)
display round(n_DIF)

7.4.2. Modelo de Diferencias en Diferencias a nivel conglomerado

Como trabajamos anteriormente, supongamos que se asume que para evitar efectos desborde
(spillovers) y efectos de equilibrio general se decide hacer la asignación a nivel de centro poblado.
En este caso buscaremos determinar el número de centros poblados (conglomerados) de la
muestra dado un número promedio de hogares dentro del conglomerado y los demás parámetros
estuadiados anteriormente. Las fórmulas descritas siguen el trabajo de Teerenstra et al. (2012).

a. Especificar las siguiente variables:

Al igual que los casos anteriores, el primer paso es definir los parámetros con los cuales
trabajaremos. Dado el T=2, el número de periodos ex ante y ex post al tratamiento (línea de base
y follow-up). Se ha decidido que dentro de cada conglomerado se tomará una muestra de 20
hogares y la correlación intra cluster (ρ) es obtenida a partir de la Encuesta Nacional de Hogares.

use “sumaria_07_10.dta”, clear

xtmixed gasto_2010 || conglome: , var


iccvar
scalar rho = 0.44 //Intracluster correlation

scalar n = 20 //Number of household by cluster


scalar phiT=.5 //Proportion of treated villages
scalar phiC=1-phiT //Proportion of control villages

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 39


El cálculo del tamaño de muestra introduce un concepto nuevo: Coeficiente de correlación
ponderado. Para este, necesitamos conocer el coeficiente de autocorrelación del conglomerado y
el coeficiente de autocorrelación de los individuos. A pesar de que estos coeficientes podrían ser
calculados, en la práctica se prefiere tomar valores referenciales sacados de trabajos similares
dado que el cálculo de estas requeriría de muestras paneles confiables tanto a nivel individual y a
nivel conglomerado.

scalar p_c=0.1 //Cluster autocorrelation between baseline and fo-


llow-up
scalar p_s=0.3 //Subject autocorrelation between baseline and fo-
llow-up

scalar r=p_c*(n*rho/(1+(n-1)*rho))+p_s*((1-rho)/(1+(n-1)*rho))
disp r

Tal como hicimos anteriormente, la probabilidad de errores tipo I y II son definidas para los valores
típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.

scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/


scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

b. Cálculo del número de conglomerados

El tamaño muestral necesario para detectar un efecto mínimo de 0,2 desviaciones estándar, un
tamaño muestral dentro de cada cluster n=20 y un tamaño de potencia de 80%. Esta vez, en las
fórmulas anteriormente descritas despejamos J:

*DIF
scalar DIF =2*(1-r)*(1+(n-1)*rho)*(1/phiT+1/phiC)
scalar J_DIF= (t_alphaplusbeta^2)*(DIF)*1/emd
display round(J_DIF)

40 • Instituto Nacional de Estadística e Informática


8. Regresión
La técnica deDiscontinua
Regresión Discontinua (desde ahora RD) consiste en estimar el efecto del
tratamiento aprovechando una discontinuidad en la asignación al tratamiento 𝑍𝑍𝑖𝑖 , la cual es
8.1. Definición
una variable continua de focalización que determina la elegibilidad 8. Regresiónpara el programa.
Discontinua
La
Dependiendo si su valor es mayor o menor que un umbral predeterminadoel de
técnica de Regresión Discontinua (desde ahora RD) consiste en estimar efecto
manera del
tratamiento 8. Regresión Discontinua 8.1.alDefinición
exógena 𝑍𝑍̅. aprovechando una discontinuidad en la asignación tratamiento 𝑍𝑍𝑖𝑖 , la cual es
una variable continua de focalización que determina la elegibilidad
8.1. Definición La técnica depara el programa.
Regresión Discon
La intuición del
Dependiendo si sudiseñovalorconsiste
es mayor en que o menor los individuos
que un umbral mástratamiento
cercanos
predeterminado al
aprovechando unadel
lado derecho
de manera d
umbral
exógena 𝑍𝑍. La
deben
̅ técnica
ser demuyRegresión Discontinua
parecidos a los (desde ahora
individuos RD) consiste
más en
cercanos estimar al el
lado efecto del
izquierdo del
una variable continua de focal
tratamiento aprovechando una discontinuidad en la asignación al tratamiento Zi, la cual es una
umbral, excepto porque los primeros participan en el programa Dependiendo y los segundos si su valor no. es Si mala
variable continua de focalización que determina la elegibilidad8.para el programa.
Regresión Dependiendo
Discontinua si
La intuición
variable Z del diseño consiste en que los individuos más cercanos al lado derecho del
su es valorcontinua,
es mayor o y el umbral
menor que un umbralha sido definido dedemanera
predeterminado manera exógena
exógena arbitraria,
𝑍𝑍̅. es muy posible
umbral deben ser muy parecidos
que existan individuos identificables alrededor del umbral a los individuos más cercanos al
y que sus determinantes
8.1. Definición lado izquierdodedel la
umbral, La
exceptointuición del
porque diseño losconsiste
primerosen que los individuos
participan en máselcercanos
programaLa al lado y
intuición derecho
los del
segundos
del umbral
diseño no. Si
consiste la
variable de resultado Y sean muy similares a ambosLalados del umbral, porDiscontinua
lo que la
deben ser muy parecidos a los individuos más cercanos al ladotécnica izquierdode del Regresión
umbral, excepto
variable
comparación Z es continua, yparticipan
el umbral ha sido definido de maneraumbral debendel
arbitraria, ser
estratamiento,
muy parecid
posible
porquedelosestosprimerosdos grupos engenera
el programa un estimador
y los segundos válido
no. Si ladel
tratamiento impacto
variable Z es continua,
aprovechando y una
el discont al
que existan
umbral individuos
ha sido identificables
definido de manera ̅ alrededor
arbitraria, es muy del umbral
posible que umbral,
y
existan que sus
individuos excepto porque
determinantes
identificables losde prim
la
menos alrededor del punto de corte 𝑍𝑍 (efecto promedio local del tratamiento).
una variable continua de focalizació
variable alrededor
de resultado del umbral Y yseanque susmuy determinantes
similares de la
a variable
ambosdelados variable
resultado delY sean Z esmuy
umbral, continua,
por loy que
similares el umb la
a ambos lados del umbral, por lo que la comparación de Dependiendo
estos dos grupos
que si
genera
existan su
un valor
estimador
individuos es mayor
identifica o
La condición de identificación estaría
comparación estos dos grupos genera un estimador válido del impactodada por (Bernal y Peña, 2011): del tratamiento, al
válido del impacto del tratamiento, al menos alrededor del punto de corte ̅ (efecto
exógena 𝑍𝑍. de resultado Y sean mpromedio local
menos alrededor del punto de corte 𝑍𝑍̅ (efecto promedio local variable
del tratamiento). del tratamiento).
lim𝑃𝑃𝑃𝑃(𝐷𝐷 = 1|𝑍𝑍 = 𝑧𝑧) ≠ lim𝑃𝑃𝑃𝑃(𝐷𝐷 = 1|𝑍𝑍 = 𝑧𝑧)
comparación de estos dos grupos
𝑧𝑧↑𝑍𝑍̅ 𝑧𝑧↓𝑍𝑍̅ La intuición del diseño consiste en q
La condición de identificación
La condición de identificaciónestaría
estaría dada dadaporpor (Bernal
(Bernal y Peña,y 2011):
Peña, menos2011): alrededor
umbral deben ser muy parecidos del punto de co a
En la literatura de evaluación de impacto se consideran umbral,
dos tipos
excepto porque
de RD: Regresión
los primeros
Discontinua Nítida (RDN), lim𝑃𝑃𝑃𝑃(𝐷𝐷 en =el1|𝑍𝑍 = 𝑧𝑧)
cual la ≠variable
lim𝑃𝑃𝑃𝑃(𝐷𝐷puntaje
= 1|𝑍𝑍La condición
= 𝑧𝑧) define de identificación es
𝑧𝑧↑𝑍𝑍̅ 𝑧𝑧↓𝑍𝑍̅ variable Z es continua, y el umbral lah
(𝑍𝑍) plenamente
condición del tratamiento y la Regresión Discontinua Difusa, que existan en el individuos
cual la variable puntaje
identificables
lim 𝑃𝑃𝑃𝑃(𝐷𝐷
En la literatura
(𝑍𝑍) solo cambia de evaluación
la probabilidad
En la literatura de evaluación de
de impacto
deimpacto,
ser tratado. se consideran
se consideran dos tipos de
dos :
tipos
Regresión
de RD:
Discontinua
Regresión
𝑧𝑧↑𝑍𝑍̅
variable de resultado Y sean muy s
RD
Discontinua NítidaNítida
(RDN), en (RDN),
la cual laen el cual
variable puntajela (Z)variable puntaje
define plenamente (𝑍𝑍)
la condición
En
comparación
define
la literatura plenamente
del tratamiento
de estos de grupos
dos evaluación gene
la
La técnica y de
la RD
Regresión tiene un
Discontinua alto nivel
Difusa,
condición del tratamiento y la Regresión Discontinua Difusa, ende el validez
cual la interna
variable generando
puntaje (Z) solo resultados
cambia
en el cualdel la similares
probabilidad
la variable a
puntaje los
de ser tratado.aleatorio (Buddelmeyer y Skoufias, 2004). menosDiscontinua
alrededor Nítida
punto (RDN),
de corte 𝑍𝑍̅
en
de un experimento
(𝑍𝑍) solo cambia la probabilidad de ser tratado. Sin embargo, en RD el grado
condición del tratamiento y la R
de validezLaexternatécnica dees RDlimitado
tiene un altoy los
nivelparámetros
de validez interna calculados La tienen
generando condición
resultados
(𝑍𝑍) solounsimilares
alcance
de
cambia local.
identificación
a los
la de un estaríad
probabilidad
La técnicaexperimento
de RD tiene un alto nivel de validez interna generando
aleatorio (Buddelmeyer y Skoufias, 2004). Sin embargo, en RD el grado de validez resultados similares a los
Otra
de undesventaja
externa esdel
experimento modelo
aleatorio RD es que
(Buddelmeyer estay requiere
Skoufias, un tamaño
2004). LaSin de muestra
embargo, de RDen mucho
lim 𝑃𝑃𝑃𝑃(𝐷𝐷elmayor
= 1|𝑍𝑍
̅RD un grado
limitado y los parámetros calculados tienen un alcance local. técnica tiene alto n
𝑧𝑧↑𝑍𝑍
para
de obtener
validez los mismos
externa es limitado impactosy losque un diseño
parámetros aleatorio.tienen
calculados Goldberg
de un (1972)
alcance
un experimento demuestra
local.
aleatorio que
(Bud
Otra desventaja del modelo RD es que esta requiere un tamaño de muestra
Endistribuye
lade literatura mucho demayor para
evaluación de yim
en un diseño a nivel individual, si la variable puntaje se
obtener los mismos impactos que un diseño aleatorio. Goldberg (1972) demuestra que en un validez normalmente
externa es el tamaño
limitado l
Otra desventaja
de muestra diseño debe del modelo
ser,individual,
a nivel al menos RD es que
2.75 veces
si la variable esta
puntajemayorrequiere un tamaño
Discontinua
quenormalmente
se distribuye de
el diseño elaleatorio muestra
Nítida
tamaño de para mucho
(RDN),
muestra en mayor
obtener el el c
para obtener
debe
mismo nivel de poder. los
ser, mismos
al menos impactos
2,75 veces mayorque un
que el diseño
diseño aleatorio.
aleatorio para Otra
Goldberg
condición
obtener el desventaja
del
mismo (1972)
tratamiento
nivel dedel modelo
demuestra
poder.y la Regres RD
que
en un diseño a nivel individual, si la variable puntaje se(𝑍𝑍) para
solo cambia
distribuye obtener los mismos
la probabilidad
normalmente impacto
el tamaño de ser
8.2. Cálculo de la varianza en RD
8.2. Cálculo de la varianza en RD
de muestra debe ser, al menos 2.75 veces mayor que el diseño aleatorio para obtener el en un diseño a nivel individual,
La técnica
de muestra de RDdebe tiene ser,
un alto al menosnivel d
mismo nivel
Consideremos deelpoder.
Consideremos el siguiente
siguiente modelosimple
modelo simple para paraRDRD..
de unmismoexperimento aleatorio
nivel de poder. (Buddelm
8.2. Cálculo de la varianza en RD 𝑅𝑅𝑅𝑅 de validez externa es limitado y los pa
𝑦𝑦𝑖𝑖 = 𝛼𝛼 + 𝜏𝜏𝐷𝐷 + 𝛾𝛾𝛾𝛾 + 𝑢𝑢𝑖𝑖
8.2. Cálculo de la varianza en
Consideremos el siguiente modelo simple para RD. Otra desventaja del modelo RD es qu
La varianza asintótica para el efecto tratamiento bajo RD queda definida como:
Consideremos el siguiente mode
para obtener los mismos impactos que
𝑅𝑅𝑅𝑅
𝑦𝑦𝑖𝑖 = 𝛼𝛼 + 𝜏𝜏𝐷𝐷 + 𝛾𝛾𝛾𝛾 +en𝑢𝑢𝑖𝑖un diseño a nivel individual, si la v
40
de muestra debe ser, al menos 2.75
La varianza asintótica para el efecto tratamiento bajo RD queda definida como:
mismo Lanivel
varianza de poder. asintótica para el efe
Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 41

8.2. Cálculo de la varianza en RD40


𝐴𝐴 𝐵𝐵
2
1 𝜎𝜎 2 (1 − 𝑅𝑅𝑅𝑅𝑅𝑅 )
La parte A de la varianza de 𝜏𝜏̂𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ es 𝑅𝑅𝑅𝑅 )
la =varianza del diseño2 básico experimental que
𝑅𝑅𝑅𝑅 𝑃𝑃(1
⏟ − 𝑃𝑃) 𝑁𝑁 ⏟ (12− 𝜌𝜌𝑇𝑇𝑇𝑇 ) 2
estudiamos en la sección 2. La parte 2𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ B de la 2varianza 1
𝐴𝐴 introduce
𝜎𝜎 (1 − 𝑅𝑅 nuevos
𝐵𝐵 dos 𝑅𝑅𝑅𝑅
) conceptos: 𝜌𝜌𝑇𝑇𝑇𝑇 2
,
1 𝜎𝜎 𝑅𝑅𝑅𝑅 (1 − 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 )= ) 𝑃𝑃(1 2 − 𝑃𝑃) 2 2 2
la correlación ) 1 ⏟𝜎𝜎 (1 − 𝑅𝑅 𝑁𝑁 )⏟(1 − 𝜌𝜌 )
La parte A entre elvarianzatratamiento (𝐷𝐷 es2)− y la 2 variable puntaje (𝑆𝑆); , el valor asintótico
La varianza𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ asintótica = para el efecto tratamiento bajo RD queda definida
𝑅𝑅𝑅𝑅 como: 𝑅𝑅𝑅𝑅𝑅𝑅experimental
𝑇𝑇𝑇𝑇
de la𝑅𝑅𝑅𝑅 ⏟ 𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂
𝑃𝑃(1 − 𝑁𝑁) =(1
de2𝑃𝑃)𝑅𝑅𝜏𝜏̂𝑅𝑅𝑅𝑅𝑅𝑅 la 𝜌𝜌varianza ) 𝑁𝑁 del 𝐴𝐴− diseño básico que 𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ 𝑅𝑅𝑅𝑅 )
2 1 𝜎𝜎 (1 2−⏟ 𝑅𝑅 𝑃𝑃(1
⏟ ) 2 − 𝑇𝑇𝑇𝑇 𝑃𝑃)
⏟(1 𝜌𝜌 2
) 𝐵𝐵
del estudiamos
𝑅𝑅 de𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ la regresión. en la=sección 1 𝜎𝜎 (1 − 𝑅𝑅𝑅𝑅 𝑅𝑅 ) 1
la 1varianza 𝜎𝜎2 (1 − 𝑅𝑅 )
2
𝜎𝜎 introduce
(1 − 𝑅𝑅𝑅𝑅𝑅𝑅 𝑇𝑇𝑇𝑇 2
2
) nuevos conceptos: 𝜌𝜌𝑇𝑇𝑇𝑇 2
) = −2. La parte B de dos ,
𝑅𝑅𝑅𝑅
𝑅𝑅𝑅𝑅 )
𝐴𝐴 𝐵𝐵
La parte 𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ A𝑅𝑅𝑅𝑅de𝑃𝑃(1 𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂
𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂ ) )
= =2 2 𝐴𝐴 𝐵𝐵del 𝑅𝑅𝑅𝑅
⏟la𝑃𝑃(1 ⏟ varianza𝑃𝑃)
− 𝑁𝑁
𝑃𝑃) ⏟(1de
𝑁𝑁 −
𝑅𝑅
𝑅𝑅𝑅𝑅(𝐷𝐷⏟ 𝑅𝑅 𝜏𝜏̂
(1𝑅𝑅− 𝜌𝜌
𝑅𝑅𝑅𝑅 𝑅𝑅 𝜌𝜌es
) )la varianza 2diseño 2básico experimental que
aElvarianza la correlación de 𝜏𝜏̂ entre es el
la tratamiento
varianza del diseño )
𝑇𝑇𝑇𝑇
𝑃𝑃(1
⏟ y
𝑃𝑃(1 la
⏟ básico
𝑇𝑇𝑇𝑇 −variable
𝑃𝑃)
−2𝑃𝑃)) aparece 𝑁𝑁 puntaje
(1
𝑁𝑁experimental
⏟(1 −
⏟ − 𝜌𝜌𝑇𝑇𝑇𝑇 𝜌𝜌 2 (𝑆𝑆);
)) que𝑅𝑅𝑅𝑅 𝑅𝑅 , el valor asintótico
partenumerador estudiamos de la parte
en la sección 𝐴𝐴 B (es
2. La decir,
es parte 1 −
𝐵𝐵B de la 𝑅𝑅 varianza diseñointroduce también
𝑇𝑇𝑇𝑇 dos en
A nuevos un diseño
conceptos: aleatorio 2
de𝜌𝜌𝑇𝑇𝑇𝑇 , es l
del 𝑅𝑅A 2 de la varianza de 𝜏𝜏̂𝐴𝐴𝑅𝑅𝑅𝑅 la varianza 𝐴𝐴del básico parte2experimental que
𝑅𝑅𝑅𝑅 𝐵𝐵
de la regresión. 𝑅𝑅𝑅𝑅
𝐴𝐴nuevos 𝐵𝐵La de la varianza 𝜏𝜏̂ 𝑅𝑅𝑅𝑅
sección
cuando 2.se
la en La parte
utiliza
correlación B
la de
variable
entre la varianza puntaje introduce como dos
𝑅𝑅𝑅𝑅covariado, como ya estudiamos conceptos: 𝐵𝐵 𝜌𝜌 , 2 en la sección 2.
tudiamos
ianza de
varianza 𝜏𝜏̂ 𝑅𝑅la𝜏𝜏̂ 𝑅𝑅𝑅𝑅
de sección
es es la𝑅𝑅𝑅𝑅varianza Laelparte
2.varianza tratamiento
del Bdiseño dediseñola (𝐷𝐷 varianza
básico ) y experimental
la variabledos
introduce puntaje nuevos
que
estudiamos que(𝑆𝑆);experimental
𝑇𝑇𝑇𝑇 𝑅𝑅𝑅𝑅𝑅𝑅la, sección
conceptos:
en el valor 2
𝜌𝜌𝑇𝑇𝑇𝑇 ,2. asintótico
La parte B de
La
re elpartetratamientoLa𝑅𝑅parte
A de laA(𝐷𝐷de lala)varianza
varianza yparte la de de2 𝜏𝜏̂ 𝑅𝑅del
variable eses la2la
puntaje varianza básico
varianza
(𝑆𝑆); 2 del
del2𝑅𝑅diseño experimental
,aparece diseño
básico
eldiseño
valor básico
experimental
asintótico que estudiamos en que
arte
ón Por El
correlación
2. La A
otro delado,
numerador
del parte𝑅𝑅 la2 varianza
entre de
B)de el la denominador
de
elde la
regresión.
tratamiento 1 de 𝜏𝜏̂
𝜎𝜎B (1de
(es es
𝑅𝑅 −
𝑅𝑅𝑅𝑅
(𝐷𝐷introducela 𝑅𝑅la
parte
decir,
) y𝑅𝑅𝑅𝑅 varianza
) 1
la variable B− (es
𝑅𝑅 )del
decir,
puntaje
𝑅𝑅𝑅𝑅 1/(1(𝑆𝑆); también
− básico
2 2 ))en
𝜌𝜌
𝜌𝜌𝑅𝑅𝑇𝑇𝑇𝑇
2 experimental
no
2, el valorentre un aparece
diseño
asintótico en que
el
aleatorio diseño(𝐷𝐷𝑅𝑅𝑅𝑅 )
=2.la Lavarianza introduce dos nuevos conceptos: la ,𝑇𝑇𝑇𝑇
correlación el tratamiento
𝑅𝑅𝑅𝑅
cción
estudiamos
sión. 2.𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂
La parte
la ensección
𝑅𝑅𝑅𝑅 la B
sección la
parte varianza
2. BLa de parte
la varianza B de introduce
la dos
varianza nuevos
dos 𝑅𝑅𝑅𝑅nuevos conceptos:
introduce conceptos: dos 𝑅𝑅𝑅𝑅
𝑇𝑇𝑇𝑇,, la correlación
𝜌𝜌nuevos conceptos: entre 𝜌𝜌el2 ,
2
liamos
aleatorio.
2
de en
cuando
𝑅𝑅 tratamiento
tratamiento laMientras
se
la tratamientosección
regresión.
(𝐷𝐷 utiliza
𝑅𝑅𝑅𝑅 𝑅𝑅𝑅𝑅
(𝐷𝐷) y(D ⏟)la2.
𝑃𝑃(1lamás
RD
laLa
variable

)variable 𝑃𝑃) parte
alta
y lavariable
variable sea
⏟ B
puntaje
𝑁𝑁 puntaje(1 −de
puntajela 𝜌𝜌 la2 como )varianza
correlación
(𝑆𝑆);
(S) ; 𝑅𝑅𝑅𝑅𝑅𝑅2covariado,
𝑅𝑅,,𝑅𝑅𝑅𝑅 ,𝑅𝑅introduce
elelvalor
2 entre
valor como dos
elasintótico
asintótico
2 asintótico tratamiento
del
del nuevos
ya 𝑅𝑅estudiamos
2 de la regresión.
2 de la regresión.
conceptos:
(𝐷𝐷en la
𝑅𝑅𝑅𝑅
) ysección 𝑇𝑇𝑇𝑇 ,2.
la𝜌𝜌variable
𝑇𝑇𝑇𝑇
laelcorrelación
Por otro El numerador
lado,entre el yde
tratamientola parte (𝐷𝐷
B puntaje
𝑅𝑅𝑅𝑅 𝑇𝑇𝑇𝑇
(es ) y
decir, (𝑆𝑆);
la variable
1 − el valor
puntaje
) aparece (𝑆𝑆); también
2𝑅𝑅 , el valor
en un asintótico
diseño aleatorio
rrelación
ón. puntaje
la 𝑅𝑅 parte2 (𝑆𝑆), Bentre(esmayor eleltratamiento
decir, denominador
será 1−
𝐴𝐴 2 (𝐷𝐷de la
la𝑅𝑅varianza ) aparece
𝑅𝑅𝑅𝑅
)y yparte
𝐵𝐵
mayorla 2variable
también B el (estamaño
en decir,𝑅𝑅𝑅𝑅
puntaje
un 1/(1
de muestra.
diseño 𝜌𝜌𝑇𝑇𝑇𝑇𝑅𝑅))
− aleatorio
(𝑆𝑆); 2
𝑅𝑅𝑅𝑅 no aparece en el diseño
𝑅𝑅𝑅𝑅 , el valor asintótico
del 2numerador
cuando
de la
El regresión.
de
numerador sela utiliza
parte de laBlaparte variable
(es 𝑅𝑅𝑅𝑅B decir,
(es puntaje
decir, 1 − 1- 𝑅𝑅 como )
) aparece
aparece covariado, también
también como
en El un en yaun
diseño
numerador estudiamos
diseño
aleatorio enparte
de)aleatorio
cuando
la lasesecciónB (es 2. decir, 1
zade
la aleatorio.
de la 𝜏𝜏̂regresión.
variable es
puntajeMientras
la varianza
como más del
covariado, altadiseño seacomo la básicocorrelación
ya
𝑅𝑅𝑅𝑅
experimental
estudiamos entreenellaque tratamiento
sección 2. (𝐷𝐷𝑅𝑅𝑅𝑅 y la variable
ando
arte se
B (es Por utiliza
𝑅𝑅𝑅𝑅
utilizaotro
decir, la
la variable
lado,
variable el 2puntaje
denominador
puntaje como comocovariado,
de la
covariado, como
parte Bya estudiamos
(es
como decir, ya en
1/(1 la
estudiamos −sección
𝜌𝜌 2 )) 2.
en Por
nola otro
aparece
sección lado, enel
2. el diseño
2.
El Adicionalmente,
adenominador
parte
La puntaje
parte
numerador (𝑆𝑆),
B denominador
(esB de
de demayor
decir, 1debe
lala
la
−1𝑅𝑅−
varianza
parteparte será
𝑅𝑅𝑅𝑅
de laBparte
𝑅𝑅)𝑅𝑅𝑅𝑅
2
(es
aparece
considerarse
Blaintroduce
varianza
)(es aparece
decir, decir,
también
1/(1
que
ytambién
dos mayor
11/(1-− la𝑅𝑅en
nuevos 2varianza
2 el un
en
))) no
tamañodiseño
un
conceptos:
aparece
no
delde
diseño
aparece
aleatorio
error
también
en2𝜌𝜌en
cuando
muestra. ,endiseño
aleatorio
2
el enRD seyutiliza
𝑇𝑇𝑇𝑇
un diseño el diseño la variable
aleatorios
aleatorio
puntaje se como
aleatorio. Mientras más B (es
alta decir, sea −la 𝑅𝑅𝑅𝑅))
𝜌𝜌2correlación aparece entre el𝑇𝑇𝑇𝑇
el diseño aleatorio.
tratamiento Mientras
(𝐷𝐷 𝑅𝑅𝑅𝑅
) más
y la variable
umeradorr
riable
asume otro
variable lado,
puntaje
iguales el
de𝑅𝑅𝑅𝑅
puntaje denominador
como
la parte
2
como covariado, B𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦
=covariado, 2(es de la
como
. decir, parte ya B (es
estudiamos
1 −tratamiento
ya𝑅𝑅𝑅𝑅 decir,
𝑇𝑇𝑇𝑇
)el)aparece 1/(1
en la − 𝜌𝜌
sección )) no
𝑇𝑇𝑇𝑇 Por otro
también 2. aparece
en,2.mayor lado,
un enel la
diseño el diseño
denominador
aleatorio de la parte
cuando
tamiento
as más se
alta alta
(𝐷𝐷utilizasea
sea ) 𝜎𝜎 yla
lalalacorrelación
𝑦𝑦𝑦𝑦𝑦𝑦 variable
variable
correlación entre
puntaje
puntaje el como
entre tratamiento
como
(𝑆𝑆);
el 2estudiamos
covariado,
(D
𝑅𝑅𝑅𝑅,RD yvalor
la variable
como
(𝐷𝐷 en lapuntaje
asintótico
𝑅𝑅𝑅𝑅
ysección
ya
)error laestudiamos
(S)
variable 𝑅𝑅𝑅𝑅el en
será varianza
la sección 2. se
eatorio.
minador Adicionalmente,
puntaje
Mientras
de la parte (𝑆𝑆), másB debe
mayor (es alta considerarse
será
decir, sea la la
1/(1 varianza
correlación
− que
𝜌𝜌 2 )) y la
2 mayor
𝑅𝑅𝑅𝑅
no varianza
entre
aparece el el del
tamaño
tratamiento
en el de en
diseño RD
muestra.
aleatorio. (𝐷𝐷 y ) diseño
y
Mientras la aleatorios
variable
más alta sea la corre
do
nominador
Por r será seotro utiliza y de
lado,
la varianza
mayorlala
el variable
el tamaño
parte
denominador
y𝜎𝜎mayor
2
B (es puntaje
de
el
muestra.
decir,
2tamaño de lacomo 1/(1 de −
parte covariado,
𝑇𝑇𝑇𝑇B
muestra.𝜌𝜌𝑇𝑇𝑇𝑇 (es no aparece
)) decir, como
1/(1 −en ya𝜌𝜌el2estudiamos
diseño
𝑇𝑇𝑇𝑇 )) no aparece en el diseño
en la sección 2.
Lantaje asume (𝑆𝑆),
seamayor
correlación iguales será =
la𝐷𝐷varianza
𝑅𝑅𝑅𝑅 𝜎𝜎 . y mayor
2 el tamaño de)𝑅𝑅𝑅𝑅
𝑅𝑅𝑅𝑅 muestra.
ás más
tro alta
lado,alta sea
el
Adicionalmente, laentre
ladenominador
correlación
correlación
𝑦𝑦𝑦𝑦𝑦𝑦
altade
debe y sea
entre
𝑦𝑦𝑦𝑦𝑦𝑦 𝑆𝑆la(𝜌𝜌
entre el
considerarse ) tratamiento
depende
tratamiento
la𝑇𝑇𝑇𝑇elcorrelación
parte B (es lade
(𝐷𝐷 (𝐷𝐷
decir, la distribución
1/(1 y) lay−variable
della
2puntaje
variable
𝜌𝜌enerror )) no de(𝐷𝐷 la𝑅𝑅𝑅𝑅
(𝑆𝑆),
aparecevariable
ymayor enserá puntaje
el la varianza
diseño (𝑆𝑆), selay mayo
aleatorio. Mientras
Adicionalmente, más debe considerarse queque la varianza varianza
entre delelerror tratamiento
𝑇𝑇𝑇𝑇RD en
y elRD diseño ) elyaleatorios
diseño
la variablealeatorios
se
eserá la
B varianza
ubicación (es decir, y mayor
del 1ypunto 2elalta
lade tamaño
)la aparece
corte de
2 de muestra.
también en un diseño el aleatorio
) en esta distribución y lay de división se 𝑅𝑅𝑅𝑅 )del grupo tratado la yque la
debe la considerarse
varianza que
−mayor𝑅𝑅𝑅𝑅𝑅𝑅 2elvarianza
tamaño del 𝑆𝑆error el RD y el de diseño aleatorios
orio.
puntaje
dicionalmente,La Mientras
(𝑆𝑆),
asume
correlación
asume mayor debe más
iguales
iguales será 𝜎𝜎
considerarse
entre 𝑦𝑦𝑦𝑦𝑦𝑦 sea
𝐷𝐷varianza
𝑅𝑅𝑅𝑅=y𝜎𝜎𝑆𝑆 la
𝑦𝑦𝑦𝑦𝑦𝑦 (𝜌𝜌de
que y. 𝑇𝑇𝑇𝑇
2mayormuestra.
correlación
la varianza
depende tamañoentre
dellaerror
de tratamiento
muestra.
en RD
distribución el
Adicionalmente, la(𝐷𝐷
diseño variable y debe
aleatoriosla
puntaje variable
se(𝑆𝑆),
considerarse
ble control. puntaje 2
. como
Algunos covariado,
de lasde como ya estudiamos enmayormente
la sección 2.estudiadas, son
je = . distribuciones elpara 2 la tratado distribución
(𝑆𝑆), 𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦
ubicación mayor 2 será
del puntola 2varianza
corte y de mayor 𝑆𝑆 2en estatamaño 𝑆𝑆,diseño de aleatorios
muestra.
ume
𝑦𝑦𝑦𝑦
considerarse
be iguales
considerarse 𝜎𝜎que
𝑦𝑦𝑦𝑦𝑦𝑦 que la= 𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦
varianza
la varianza del delerror error 2enla RD
en RD y elydistribución
el diseño y la
aleatoriosasume división
se se iguales del𝜎𝜎grupo = 𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦2
. y
Adicionalmente,
ador
normal,
2 control.
de La la Lapartecorrelación
correlación
uniforme, Bdebe (esnormalconsiderarse
decir,
entre
entre D 1/(1
RD𝑅𝑅𝑅𝑅
𝐷𝐷
truncaday Sy− que
(𝑆𝑆𝜌𝜌 (𝜌𝜌
y
𝑇𝑇𝑇𝑇 ))) varianza
)no
depende
bimodal. dependeaparece de del
En la
de enerror
la la el
distribución en
diseño
distribución
práctica RD de se y
la el de
suele diseño
variable la aleatorios
puntaje
𝑦𝑦𝑦𝑦𝑦𝑦 (S)
variable
utilizar la ,
puntajela se
distribución (𝑆𝑆), la
𝜎𝜎=𝑦𝑦𝑦𝑦𝑦𝑦
tre 𝜎𝜎
𝐷𝐷 2.𝑅𝑅𝑅𝑅
𝑆𝑆 Algunos
.ylaubicación
(𝜌𝜌 22
) depende
del=
de
punto
lasde
2 de
distribuciones
la
corte distribución
de Sde
𝑇𝑇𝑇𝑇
en 𝑆𝑆esta
para de 𝑆𝑆,
la
distribución
𝑅𝑅𝑅𝑅
mayormente
variable y la puntaje estudiadas,
divisióny del (𝑆𝑆), grupo la son lay control.
tratado
distribución
asume
alta onalmente,
normal. sea
𝑦𝑦𝑦𝑦𝑦𝑦
correlación iguales
ubicación correlación
debe𝜎𝜎
entre𝑇𝑇𝑇𝑇
𝑦𝑦𝑦𝑦𝑦𝑦𝐷𝐷del 𝑅𝑅𝑅𝑅 𝜎𝜎
considerarse
punto entre
y𝑦𝑦𝑦𝑦𝑦𝑦 .
𝑆𝑆 (𝜌𝜌𝑇𝑇𝑇𝑇 de el
2 tratamiento
)que
cortedepende la varianza en (𝐷𝐷 esta
de la distribución )
del y la
error
distribución variable
endeRD y el diseño
la
lasevariable división puntaje aleatorios
del 𝐷𝐷 la y se
grupo
(𝑆𝑆), 𝑅𝑅𝑅𝑅 tratado 2 y
nto normal,
de corte uniforme,
Algunos de 𝑆𝑆deen las esta normal
distribuciones truncada
distribución para S,ymayormente
y bimodal.
la división En la
estudiadas,
del práctica
gruposon La correlación
latratado suele
distribución y utilizar
normal, entre
launiforme,
distribución 𝑆𝑆 (𝜌𝜌𝑇𝑇𝑇𝑇 ) depen
varianza
eicación 𝑆𝑆 (𝜌𝜌𝑆𝑆dely
control. mayor
2
punto = de el
Algunos tamaño
2 corte de de
las muestra.
distribuciones
de distribución
𝑆𝑆2Enenla práctica,
estadedistribución para 𝑆𝑆, mayormente
y la división estudiadas,
la del son la distribución
𝐷𝐷iguales 𝜎𝜎 𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦 y. bimodal. la grupo tratado de ycorte de 𝑆𝑆 en es
𝑅𝑅𝑅𝑅 2
eLa ynormal.
𝑅𝑅𝑅𝑅
(𝜌𝜌)𝑦𝑦𝑦𝑦𝑦𝑦
normal 2depende truncada de la distribución la sevariable
lasuele puntaje
utilizar (𝑆𝑆),
ubicación
la distribución normal. del punto
de las ydistribuciones
correlación
Reemplazando
𝑇𝑇𝑇𝑇
normal,
𝑇𝑇𝑇𝑇 )entredepende
la
uniforme, 𝐷𝐷para
ecuación
𝑅𝑅𝑅𝑅 de 𝑆𝑆lade
ynormal
𝑆𝑆, (𝜌𝜌
mayormente
𝑇𝑇𝑇𝑇la ) varianza
dependeyestudiadas,
truncada
dede
de
bimodal.la𝜏𝜏̂variable
distribución
ajustada Ensonpuntaje
la por deel(𝑆𝑆),
lapráctica ladiseño
distribución variable
se suele RD puntaje
en
utilizar la (𝑆𝑆),
laecuación la
distribución del pa
ntrol.
e de
oubicacióncorte Algunos
corte deque 𝑆𝑆 en
de 𝑆𝑆 de en las
estaesta distribuciones
distribución
distribución yenlayRDpara división
la 𝑆𝑆,
divisiónmayormente del del grupo grupo estudiadas,
tratado control.
tratado son
y y Algunos de las la distribución distribuciones
nsiderarse
,orrelación
normal del
truncada la
Reemplazandopunto varianza
y de
bimodal. la del
corte
ecuación error
En
2 de la 𝑆𝑆
de en
práctica
la esta
varianza y el
se diseño
distribución
suele
de aleatorios
utilizar
ajustada y la
por se
división
distribución
el diseño del en grupo
la tratado
ecuación del y
stamaño Reemplazando deentre muestra, la
𝑅𝑅𝑅𝑅 ecuación
tenemos
y truncada de
𝑇𝑇𝑇𝑇 )que la varianza
laestudiadas,
fórmula deEnlaladede 𝜏𝜏̂ ajustada
laladeterminación por el diseño RD del RD en
tamaño la ecuación
de (𝑆𝑆),muestra del
la sey bimo
𝑆𝑆,(𝜌𝜌 ydepende distribución de lautilizar
variable puntaje
rmal, normal.
uniforme, 𝐷𝐷 para
normal 𝑆𝑆mayormente bimodal. práctica
e𝑦𝑦𝑦𝑦
control.
distribuciones
las
. tamañodistribuciones
Algunos
tamaño
para
demuestra,
de
𝑆𝑆,
las tenemos mayormente
distribuciones
tenemos que para estudiadas,
lafórmula
fórmula 𝑆𝑆, mayormente
son
de la lason lasedistribución
determinación
suele
distribución normal,
estudiadas, del del tamaño son
la
uniforme,
la
distribución
normal
de distribución
muestra se
truncada
expresa
cióntruncada del de de
punto muestra,
lay bimodal.
siguientede corte forma: deforma: que
en esta la de determinación del grupo tratado yse
tamaño de muestra
mal rmal.
ormal truncada
expresa
Reemplazando yde bimodal.
la siguiente
la En la
En
ecuación la𝑆𝑆 práctica
práctica sedistribución
se varianza
suele suele utilizar utilizar la ydistribución
laladistribución
división
normal.
normal,
ol. expresa uniforme,dede la las normal
siguiente forma: para 𝑆𝑆, mayormente estudiadas, son RD
truncada de
y la
bimodal. En dela ajustada
práctica
𝜏𝜏̂ se por
suele el diseño
utilizar en la ecuación del
la distribución
y 𝑆𝑆 Algunos
ecuación (𝜌𝜌𝑇𝑇𝑇𝑇 2
) de
tamaño depende
la varianza
de dedistribuciones
muestra, la de distribución ajustadaque
𝜏𝜏̂tenemos de porlalaelvariable diseño puntaje
fórmula RDde la(𝑆𝑆),
en determinación
la la
ecuación del del la distribución
tamaño de
normal.
eemplazando la ecuación de la varianza 𝜎𝜎 (𝑡𝑡de
∗división 𝜏𝜏̂ ajustada 2 por el 1 diseño RD
Reemplazando en2 la ecuación la ecuación delmuestra se
de la varianza
al,
orte uniforme,
a, tenemos 𝑆𝑆 enque
de expresa normal
esta la fórmula truncada
distribución de la y y bimodal.
determinación
la 𝛼𝛼 + 𝑡𝑡 Endel
1−𝑘𝑘 la
del )grupo
práctica
2tamaño tratado se
de (1
suele
muestra
y −utilizar
𝑅𝑅 𝑅𝑅𝑅𝑅 ) la distribución
se
detenemos
la 𝜏𝜏̂de𝑁𝑁
desiguiente que= forma: [ fórmula ] la ecuación 2
maño
ción dedela
cuación demuestra,
varianza
la varianza ajustada
𝑅𝑅𝑅𝑅𝑅𝑅ajustada lapor 𝜎𝜎por ∗ (𝑡𝑡
el diseño
el𝛼𝛼de +
de𝑡𝑡la
diseño RD )RD
determinación
en en 1 ecuación
la (1
del −tamaño
del
tamaño 𝑅𝑅𝑅𝑅𝑅𝑅de 2) muestra,
de muestra tenemosse que la fórmu
Reemplazando
iente
al.
istribuciones forma: para la ecuación𝑆𝑆, mayormente 𝜏𝜏̂𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅
de la=varianza [estudiadas, 𝐸𝐸𝐸𝐸𝐸𝐸 1−𝑘𝑘
𝜏𝜏̂ ajustada
son ]la 𝑃𝑃(1 por −el𝑃𝑃)
distribución diseño (1 −delRD 𝜌𝜌𝑇𝑇𝑇𝑇 en) la ecuación del
nemospresa
tenemos de la
queque siguiente
la fórmula
la fórmula forma:
de la determinación
depráctica laque determinación 𝐸𝐸𝐸𝐸𝐸𝐸 deldel tamaño de 𝑃𝑃(1 −
2 muestra 𝑃𝑃) (1
expresa−se se𝜌𝜌 2
)
𝑇𝑇𝑇𝑇de2la siguiente forma:
tamañotruncada dey8.3. muestra,
bimodal.Regresión tenemos
En la Discontinua lase fórmula
suele
Difusa𝜎𝜎 ∗ (𝑡𝑡utilizar de+la𝑡𝑡tamaño determinación
la )distribución de 1 muestra del(1tamaño− 𝑅𝑅𝑅𝑅𝑅𝑅 )de muestra se
nte8.3.
forma: forma: Regresión 𝜎𝜎 ∗ Discontinua
(𝑡𝑡 + 𝑡𝑡 ) 𝑁𝑁 2 Difusa = 1 [ (1
𝛼𝛼
− 𝑅𝑅 2
1−𝑘𝑘
) ]
mplazando
expresa 8.3. la
Regresión ecuación
de=la [siguiente Discontinua
𝛼𝛼 forma: de la varianza
1−𝑘𝑘 𝜎𝜎 ∗ (𝑡𝑡 + 𝑡𝑡 𝑅𝑅𝑅𝑅𝑅𝑅 Difusa de 𝜏𝜏̂ ajustada
2 por el diseño2 RD en
2 la ecuación del
1−𝑘𝑘 )𝐸𝐸𝐸𝐸𝐸𝐸 1 𝑃𝑃(1
(1 −−𝑅𝑅𝑃𝑃)
𝑅𝑅𝑅𝑅
𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅 ] 𝛼𝛼 𝑅𝑅𝑅𝑅 )(1 − 𝜌𝜌𝑇𝑇𝑇𝑇 ) 𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡
ño Lo de estudiado
muestra,
Lo estudiado hasta 𝑁𝑁hasta
𝐸𝐸𝐸𝐸𝐸𝐸
tenemos 𝑅𝑅𝑅𝑅𝑅𝑅 =
elel2momento
elque [ la
momento 𝑃𝑃(1 fórmula−
se se 𝑃𝑃)aplica
aplica (1 a2]−
de unla aa𝑇𝑇𝑇𝑇
2
un
determinación
𝜌𝜌diseño )−de diseño
Regresión de Regresión
del
Discontinua
2Regresión tamaño Nítida Discontinua
de muestra
(RDN) es se
𝑁𝑁;𝑅𝑅𝑅𝑅𝑅𝑅 =Nítida
[
Lo estudiado
𝜎𝜎 ∗𝜎𝜎(𝑡𝑡
8.3. +𝛼𝛼𝑡𝑡+
∗𝛼𝛼cuando
Regresión(𝑡𝑡 hasta )Discontinua
𝑡𝑡1−𝑘𝑘 momento
2
) puntaje 1 1 (1 𝐸𝐸𝐸𝐸𝐸𝐸 se
Difusa−(1𝑅𝑅aplica
−𝑅𝑅𝑅𝑅 𝑃𝑃(1
𝑅𝑅))𝑅𝑅𝑅𝑅
2 2) un diseño
𝑃𝑃) de
(1 − 𝜌𝜌𝑇𝑇𝑇𝑇2) Discontinua Nítida 𝐸𝐸𝐸𝐸𝐸𝐸
𝑁𝑁n(RDN); de la =lavarianza de 𝜏𝜏̂forma: ajustada ] ] por 𝜎𝜎 ∗el (𝑡𝑡diseño RD en la 1 ecuación del
decir, 1−𝑘𝑘 la variable define completamente la asignación al tratamiento. Sinlaembargo,
sa 𝑁𝑁de es
[=siguiente
[ Difusadecir, cuando la variable𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 puntaje define (1 − 𝑅𝑅𝑅𝑅𝑅𝑅
completamente ) asignación al
Discontinua
𝑅𝑅𝑅𝑅𝑅𝑅 (RDN);
𝑅𝑅𝑅𝑅𝑅𝑅 es
la𝐸𝐸𝐸𝐸𝐸𝐸 decir, 𝑁𝑁 cuando =
𝑃𝑃(1 [
más−común la 𝑃𝑃) variable
(1es− el𝜌𝜌−
2 puntaje
]
𝜌𝜌)𝑇𝑇𝑇𝑇 )𝑃𝑃(1 define completamente la asignación al
laenfórmula práctica de el caso diseño de de Regresión Discontinua Difusa (RDD) , en el
𝐸𝐸𝐸𝐸𝐸𝐸 2
3. Regresión Discontinua el𝑃𝑃(1
Difusa −𝐸𝐸𝐸𝐸𝐸𝐸𝑃𝑃) (1
mos que Lo 𝑅𝑅𝑅𝑅𝑅𝑅
la determinación del tamaño muestra se𝜌𝜌de2
tratamiento. estudiado
Sin hasta momento se𝑇𝑇𝑇𝑇 aplica a− un 𝑃𝑃)diseño
(1común−8.3. )Regresión
Regresión Discontinua
Discontinua Difusa
Nítida
tratamiento. cual la Sinembargo,
variable embargo,puntaje en enlalaparcialmente
define práctica
práctica el
ella caso
caso
asignación más
más al común
tratamiento; 𝑇𝑇𝑇𝑇es eseleseldiseño diseño
decir solo de de Regresión
Regresión
cambia
rma:
ntinua ta el momento
Difusa se aplica a un
𝜎𝜎Difusa
∗en diseño
(𝑡𝑡el𝛼𝛼aplica de Regresión 2 Discontinua 2 Nítida
o8.3.continua
estudiado
Discontinua (RDN);
Regresión
Discontinua Difusahasta
Difusa
discontinuamente eseldecir,
Discontinua
Difusa
𝑁𝑁
momento
(RDD), cuando
la probabilidad
(RDD),
= [
se
en ella+ cual
de
cual𝑡𝑡ser
variable
1−𝑘𝑘 ala
la )un
variable
tratado.variable
]
puntaje
diseño 1puntajededefine
puntaje (1 −define
Regresión Lo
define 𝑅𝑅completamente
𝑅𝑅𝑅𝑅 )Discontinua
parcialmente
estudiado
parcialmente hasta la elasignación
laNítida
la asignación
momento
asignación al
se aplic
, cuando la
tratamiento. variable Sin
𝑅𝑅𝑅𝑅𝑅𝑅 puntaje
embargo, define en la completamente
práctica el caso la asignación
más común 2 al
es el diseño de Regresión
DN);
almomento
eltratamiento; es decir, cuando la variable 𝐸𝐸𝐸𝐸𝐸𝐸 puntaje define
𝑃𝑃(1 completamente
− 𝑃𝑃)lala (1 − 𝜌𝜌Nítida la
𝑇𝑇𝑇𝑇 ) Discontinua
asignación al
Lo
embargo,
al
estudiado ∗ (𝑡𝑡 se se
𝜎𝜎tratamiento;
momento en𝛼𝛼 el+
En lahasta𝑡𝑡es
aplica
caso
esdecir
aplica
práctica
1−𝑘𝑘 de)eladecir
2
RDD
un asolo
momentoel,un
diseño
solo
1
lacaso
cambia
cambia
diseño
variable (1
se
de−de
más
discontinuamente
Regresión
aplica𝑅𝑅discontinuamente
común
puntaje
2Regresión
𝑅𝑅𝑅𝑅 )funciona
a un
Discontinua
esvariablediseño
elcomo Discontinua
diseño de
probabilidad
Nítida
(RDN);
probabilidad
Regresión
de
instrumento Regresión
dediseño
esdede
la asignación,
serser
decir, tratado.
cuando la variable p
tratado.
por Nítida
tanto
tamiento.
=
ndo la la [ Discontinua
Sin
variable embargo, Difusa
puntaje ] en (RDD),
definela práctica en el
completamente cual
el caso la más la la común puntaje
asignación es define
el
tratamiento.
al al parcialmente
de Regresión
Sin embargo, la asignaciónen la práctica
cuando
𝑅𝑅
Regresión
(RDN);
sa (RDD), eselen variable
𝐸𝐸𝐸𝐸𝐸𝐸
Discontinua
ajuste
decir,
el cualRDD cuando
lapuntaje
al 𝑃𝑃(1
modelo
variable −
Difusa
la define
𝑃𝑃)
variable
RDN (1
puntaje −
serácompletamente
𝜌𝜌 2
análogo)
puntaje
define al ajuste
define
parcialmente por asignación
no cumplimiento
completamente
la asignación ( la
non asignación
complience ) al por
En En
scontinua
rgo, el en el
caso
al la caso de
tratamiento;
Difusa
práctica de RDD, RDD,
(RDD),el es la
caso laen variable
variable
decir el
más solo
cual común puntaje
puntaje
cambia
la funciona
funciona
𝑇𝑇𝑇𝑇 discontinuamente
variablees el puntaje
diseño como
como
define
de instrumento
instrumento
la
Regresión probabilidad
parcialmente
Discontinua de de
lala
de asignación,
la
ser asignación,
asignación
Difusa tratado.
(RDD), en elpor cual la v
mbargo,
tratamiento.
a decirexpresión solo enutilizando
lade
Sin
cambia práctica
la técnicas
embargo, el decaso
discontinuamente
varianza variables
ense la más
ajusta común
instrumentales
prácticala probabilidad
por el
no escaso el
(Hahn
cumplimiento diseño
más
de etseral.
comúnde
2001).
tratado.Regresión
queda es el diseño
definida de
del Regresión
siguiente
nua tanto tanto
Difusa
tratamiento;
studiado el el
ajuste ajuste
es decir RDD RDDsolo al al modelo
cambia modelo RDN
RDN
discontinuamente será
será análogo
análogo la al
al
probabilidad ajuste
ajuste por
de porser no no cumplimiento
tratado. cumplimiento (non (non
DD), (RDD),
Discontinua
odo:
enEn enhasta
el cual
elDifusa
el cual
caso laelvariable
la
de
momento
variable
(RDD), RDD,técnicas puntaje se aplica
enlapuntaje
elvariable
cual
define define
la
a un
parcialmente
puntaje
variable
diseñoladeasignación
parcialmentefunciona
puntaje define laRegresión
como alinstrumento
asignación tratamiento;
parcialmente
Discontinua
dees la decir Nítida
solo cambia
asignación,
la asignación por discon
N); complience)
complience)escambia La
decir, expresión utilizando
utilizando
cuando de la varianza
técnicas
la cambia variable se de de
ajusta variables
variablespor
puntaje no instrumentales
cumplimiento
instrumentales
define queda
completamente (Hahn
definida
(Hahn et
del etal. 2001).
siguiente
al. 2001).
latratado. modo:
DD,
nalomentosolosolo
cir la variable
casotanto
eltratamiento; sedeaplica
cambia discontinuamente
eles
RDD,
puntaje alaunvariable
discontinuamente
ajuste
decir funciona
RDD
solo diseño lade
alpuntaje probabilidad
como
laRegresión
modelo instrumento
probabilidad
discontinuamente RDNDiscontinua
funciona
de será
como
ser
de de tratado.
ser
análogo la asignación,
Nítida
tratado.
lainstrumento
probabilidad alEn ajusteeldede
por
caso por
la ser noasignación
asignación,
de cumplimiento
RDD, lapor variable
al (non
puntaje f
miento.
oDDlaelalvariable
nto Sin embargo,
modelo
complience)
ajuste RDD
RDNutilizando
puntaje al
será
modelo en análogo
define la técnicas
práctica
completamente
RDN
al ajuste
seráde elvariables
1caso
análogo
porla𝜎𝜎más no
2 asignación
al común
(1cumplimiento

instrumentales
ajuste
2
𝑅𝑅𝑅𝑅𝑅𝑅por) (𝑞𝑞es𝑇𝑇no
al el
−(non
(Hahn 𝑞𝑞diseño
𝐶𝐶 ) et al.de
cumplimiento 2001). Regresión
(non
D,a variablela puntaje funciona 𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂como instrumento
) =instrumento de de la asignación, tantoporpor el ajuste RDD al modelo RDN se
o, En
ontinuaandoenelvariable
mplience)
caso
técnicas
la Difusa depuntaje
práctica
utilizando
RDD,
de variables
(RDD),
el caso lafunciona
técnicas
variable
enmás como
instrumentales
eldecomún
cual
𝑅𝑅 puntaje
𝑅𝑅𝑅𝑅
variables la es ⏟funciona
variable
𝑃𝑃(1 (Hahn
el −diseño
instrumentales
et𝑁𝑁como
𝑃𝑃)puntaje al.
de

la Regresión
(12001).
asignación,
instrumento
−define
(Hahn
2
𝜌𝜌𝑇𝑇𝑇𝑇 ) (𝑝𝑝
⏟etparcialmente de
𝑝𝑝𝐶𝐶 )la asignación,
− 2001).
𝑇𝑇al. la asignación por
al
D modelo
al modelo RDN RDN será será análogo análogo al ajuste
al ajuste por por no nocumplimiento
cumplimiento complience)
(non (non utilizando técnicas de variabl
D),tanto
tamiento; en el cual ajuste ladecir RDD
variable al puntajemodelodefine RDN parcialmente será análogo laalasignación
la ajuste por 𝐶𝐶nodecumplimiento ser tratado. (non 41
deesvariables solo cambia discontinuamente probabilidad
𝐴𝐴 𝐵𝐵
ndo técnicas
técnicas de variables instrumentales
instrumentales (Hahn (Hahn et al. et 2001).
al. 2001).
complience) utilizando
lo cambia discontinuamente la probabilidad de ser tratado. técnicas de variables instrumentales (Hahn et al. 2001). 41
l término c se agrega a la expresión de la varianza estudiada en el modelo RDN.
caso de 42RDD, • Institutola variable
Nacional de Estadística puntaje e Informática funciona como instrumento de la asignación, por 41
inalmente,
ariable puntaje reemplazando funciona la ecuación
como instrumento de la varianza de la asignación, de 𝜏𝜏̂ ajustada por el diseño RDD en la
el ajuste RDD al modelo RDN será análogo al ajustepor por no 41 cumplimiento41(non
cuación
modelo del RDN tamaño será de análogo muestra, tenemos
al ajuste porque nolacumplimiento
fórmula de la determinación (non del tamaño de
ubicación del punto de corte de 𝑆𝑆 en esta distribución y la 2división del grupo tratado y
1 𝜎𝜎 2 (1 − 𝑅𝑅𝑅𝑅𝑅𝑅 ) (𝑞𝑞𝑇𝑇 − 𝑞𝑞𝐶𝐶 )
𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂𝑅𝑅𝑅𝑅𝑅𝑅 ) para
control. Algunos de las distribuciones = 𝑆𝑆, mayormente estudiadas, 2 son la distribución
𝑃𝑃(1
⏟ − 𝑃𝑃) 𝑁𝑁 ⏟ (1 − 𝜌𝜌𝑇𝑇𝑇𝑇 ) ⏟ (𝑝𝑝𝑇𝑇 − 𝑝𝑝𝐶𝐶 )
normal, uniforme, normal truncada y bimodal. En 𝐴𝐴
la práctica se suele utilizar 𝐶𝐶
la distribución
𝐵𝐵
normal.
El término c se
El término C seagrega
agrega aa lalaexpresión
expresiónde la de
varianzala varianza
estudiada en estudiada
el modelo en RDNel. Finalmente,
modelo RDN.
reemplazando
Reemplazando
Finalmente, la ecuación
la ecuación
reemplazando lade
de la lavarianza
varianza
ecuación de
dede ajustada
ajustadapor
la 𝜏𝜏̂varianza 𝜏𝜏̂el ajustada
por
de diseño
el diseñoRDD RD
por enelen
ladiseño
ecuación del en
la ecuación
RDD della
tamaño tamaño de muestra, tenemos que la fórmula de la determinación
ecuación del tamaño de muestra, tenemos que la fórmula de la determinación del tamañosede
de muestra, tenemos que la fórmula de la determinación del tamaño
del tamaño de muestra
de se
muestra
expresa de la siguiente forma:
expresa
muestradeselaexpresa
siguiente
de forma:
la siguiente forma:

𝜎𝜎 𝛼𝛼∗ +
𝜎𝜎 ∗ (𝑡𝑡 (𝑡𝑡𝛼𝛼𝑡𝑡1−𝑘𝑘 2
+ 𝑡𝑡)1−𝑘𝑘 ) 2 1 1 (1 −(1 2− 𝑅𝑅 2 )
𝑅𝑅𝑅𝑅𝑅𝑅 ) (𝑞𝑞
𝑅𝑅𝑅𝑅𝑇𝑇 − 𝑞𝑞𝐶𝐶 )
=[=[
𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅 ] ] 2
𝐸𝐸𝐸𝐸𝐸𝐸 𝐸𝐸𝐸𝐸𝐸𝐸 𝑃𝑃(1 − 𝑃𝑃)
𝑃𝑃(1 − 𝑃𝑃) (1 −(1 2−)𝜌𝜌(𝑝𝑝
𝜌𝜌𝑇𝑇𝑇𝑇 ) − 𝑝𝑝𝐶𝐶 )
𝑇𝑇𝑇𝑇𝑇𝑇

8.3.
8.4. Regresión
ImplementaciónDiscontinua Difusa
del cálculo del tamaño de muestra en Stata
8.4. Implementación del cálculo del tamaño de muestra en Stata
Lo estudiado
8.4.1. Modelohasta el momento
de Regresión se aplica aa nivel
Discontinua un diseño de Regresión Discontinua Nítida
Individual
(RDN);8.4.1.es Modelo
decir, de cuando
Regresión Discontinua a nivel Individual completamente la asignación al
la variable puntaje define
En el ejemplo práctico que utiliza este manual acerca del programa Trabaja Joven, se
tratamiento. Sin embargo, en la práctica el caso más común es el diseño de Regresión
evalúaEnelelefecto
ejemplo de la intervención
que utiliza estesobre los ingresos de los hogares. Joven,Tal comoelvimos
Discontinua Difusapráctico
(RDD), en el cual lamanual acerca
variable del programa
puntaje defineTrabaja
parcialmente se evalúa
la asignación
anteriormente,
efecto de laseintervención
desea diseñar
sobreun lospiloto para
ingresos de evaluar estaTalintervención.
los hogares. Supongamos
como vimos anteriormente, se ahora
al tratamiento;
desea es decir
diseñar un solopara
piloto cambia
evaluar discontinuamente
esta intervención. la probabilidad
Supongamos ahora deelser
que tratado.
programa brinda
que el programa brinda la capacitación a los individuos cuyos hogares sean focalizados
la capacitación a los individuos cuyos hogares sean focalizados como pobres según el Índice de
como
En pobres
el caso de según
RDD, ellaÍndice
variablede Focalización
puntaje funciona de Hogares continuo. de la asignación, por
como instrumento
Focalización de Hogares continuo.
tanto el ajuste RDD al modelo RDN será análogo al ajuste por no cumplimiento (non
Por simplicidad se asume que el diseño es RDN (el caso de RDD puede ser adicionado
Por simplicidad
complience) se asume
utilizando que el
técnicas dediseño es RDN
variables (el caso de RDD(Hahn
instrumentales puede et
seral.
adicionado
2001). utilizando
utilizando los comandos
los comandos). Se tienede la sección
conocimiento 2). Se tiene
conocimientos que conocimiento
la intervención yaconocimientos
está en curso y seque la
intervención ya estáinformación
quiere levantar en curso de
y seunaquiere levantar
muestra información
que permita de una muestra
tener una adecuada precisiónque permita
de los
resultados.
tener una adecuada precisión de los resultados.
a. Especificar
a. Especificar laslas siguientevariables:
siguiente variables: 41

El programa será asignado a individuos cuyos hogares posean un el Índice de Focalización de


El programa será asignado a individuos cuyos hogares posean un el Índice de Focalización
Hogares (IFH) superior a 0,4. En ningún caso se permite que individuos de hogares con un IFH
de Hogares (IFH) superior
menor a 0,4 reciba a 0.4. En
el tratamiento, delningún caso que
mismo modo, se permite
todos los que individuos
individuos de hogares
de hogares con un con
un IFHIFHmenor a 0.4 reciba el tratamiento, del mismo modo, que todos los individuos
mayor a 0,4 no lo reciban. El cumplimiento de este último requisito es importante para poder de
hogares con un IFH mayor a
enmarcarnos en un diseño RDN.0.4 no lo reciban. El cumplimiento de este último requisito es
importante para poder enmarcarnos en un diseño RDN.

scalar p = .5 /* Proportion of treated indivi-


scalarduals*/
p = .5 /* Proportion of treated individuals*/
scalarscalar
emd=0.2emd=0.2 /*Standardized
/*Standardized Minimum Minimum Detecta-
Detectable Effect*/
ble Effect*/
* Cut off point
scalar* cutoff
Cut off=point
.4
scalar cutoff = .4
* Treatment variable status
* Treatment variable
gen T=indice>=cutoff status
if indice<.
gen T=indice>=cutoff if indice<.

* Assignment variable: score


gen score = indice - cutoff 42

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 43


𝑅𝑅𝑅𝑅 𝑃𝑃(1
⏟ − 𝑃𝑃) 𝑁𝑁 ⏟
(1 − 𝜌𝜌𝑇𝑇𝑇𝑇 )
del 𝑅𝑅𝑅𝑅2𝑅𝑅 )de=la𝑃𝑃(1
𝑉𝑉𝑉𝑉𝑉𝑉(𝜏𝜏̂
⏟regresión.
− 𝑃𝑃) 𝑁𝑁 ⏟ 2
(1 − 𝜌𝜌𝑇𝑇𝑇𝑇 ) 𝐴𝐴 𝐵𝐵
𝐴𝐴 𝐵𝐵
ElLanumerador
parte A de de la parte
varianza B (es 𝜏𝜏̂ 𝑅𝑅𝑅𝑅 es1 −
de decir, la 𝑅𝑅varianza
2 del diseño básico experimental
𝑅𝑅𝑅𝑅 ) aparece también en un diseño aleator
varianza de 𝜏𝜏̂ 𝑅𝑅cuando es lasevarianza
𝑅𝑅estudiamos utiliza del
en lalasección diseño
variable Labásico
2.puntaje partecomo Bexperimental
decovariado,
la varianza que introduce
como dos nuevosenconceptos:
ya estudiamos la sección𝜌𝜌
ección 2. La parte B de la varianza introduce dos nuevos 𝑅𝑅𝑅𝑅conceptos: 𝜌𝜌2 , 2
Por
La correlaciónla correlación
otro lado,
entre elentre el(Dtratamiento
denominador
el tratamiento RD
) y ladevariable
la parte )By(es
(𝐷𝐷 puntaje la
(S)variable
decir, 1/(1
definida
𝑇𝑇𝑇𝑇 puntaje
como− 𝜌𝜌𝑇𝑇𝑇𝑇(𝑆𝑆);
2
y elno𝑅𝑅
)) , el valor
aparece
valor
𝑅𝑅𝑅𝑅 en elasintó
diseñ
𝑅𝑅𝑅𝑅 2 de la regresión, definido como 2 .
e el tratamiento asintótico (𝐷𝐷del
del 𝑅𝑅) y la
de variable
la regresión.
aleatorio. Mientras más alta sea la puntaje (𝑆𝑆); 𝑅𝑅 , el valor asintótico
𝑅𝑅𝑅𝑅correlación entre el tratamiento (𝐷𝐷 ) y la variab
𝑅𝑅𝑅𝑅

ión. puntaje (𝑆𝑆), mayor será la varianza y mayor el tamaño de muestra.


2
El numerador de la parte B (es decir, 1 − 𝑅𝑅𝑅𝑅𝑅𝑅
scalar rho_TS = (exp((invnormal(1-p))^2/2))/sqrt(2*_pi)
) aparece también en un diseño aleato
2
la parte B disp (es decir, cuando 1 −se𝑅𝑅𝑅𝑅𝑅𝑅
Adicionalmente,
rho_TS ) aparece
utiliza la variable
debe también
considerarse puntajeenque uncomo
ladiseño aleatorio
covariado,
varianza comoenyaRD
del error estudiamos
y el diseñoenaleatorios
la sección
a variable puntaje 0.39894228 como covariado, como ya. estudiamos en Bla(es sección
Por
asume otro lado,𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦
iguales el denominador
2 2
= 𝜎𝜎𝑦𝑦𝑦𝑦𝑦𝑦 de la parte decir,2.1/(1 − 𝜌𝜌𝑇𝑇𝑇𝑇 )) no aparece en el dis
2
2 ))
enominador*deR-squared la aleatorio.
parte B (esMientras decir, 1/(1 más− alta 𝜌𝜌𝑇𝑇𝑇𝑇 sea nolaaparece correlación en el diseño
entre el tratamiento (𝐷𝐷𝑅𝑅𝑅𝑅 ) y la varia
𝑅𝑅𝑅𝑅 2
s más alta reg Lapuntaje
sea gasto
la correlación
T score
correlación (𝑆𝑆), mayor 𝐷𝐷
entre será lay varianza
𝑆𝑆 (𝜌𝜌𝑇𝑇𝑇𝑇 ) depende
el tratamiento (𝐷𝐷 𝑅𝑅𝑅𝑅
y mayor ) yde la la
el distribución
variable
tamaño de la variable puntaje (𝑆𝑆),
de muestra.
scalar R2 = .32 /* R-squared */
será la varianzaubicación y mayor eldel puntodedemuestra.
tamaño corte de 𝑆𝑆 en esta distribución y la división del grupo tratado
Adicionalmente,
control. Algunos de debe
las considerarse
distribuciones que la varianza
para 𝑆𝑆, mayormentedel errorestudiadas,
en RD y elson diseño aleatorio
la distribució
ebe considerarse Tal como que
hicimos
asume la varianza
anteriormente
iguales
normal, uniforme,𝑦𝑦𝑦𝑦𝑦𝑦 del
𝜎𝜎 2 laerror
= 𝜎𝜎
normal𝑦𝑦𝑦𝑦𝑦𝑦
2en
probabilidadRD
. y
de el diseño
errores tipo aleatorios
I y II son se
definidas para
truncada y bimodal. En la práctica se suele utilizar la distribució los valores
= 𝜎𝜎 2
. típicos de: nivel de significancia de 0,05 (prueba de 2 colas) y poder de 0,8.
𝑦𝑦𝑦𝑦 𝑦𝑦𝑦𝑦𝑦𝑦 normal. 2
La correlación entre 𝐷𝐷𝑅𝑅𝑅𝑅 y 𝑆𝑆 (𝜌𝜌𝑇𝑇𝑇𝑇 ) depende de la distribución de la variable puntaje (𝑆𝑆)
𝑅𝑅𝑅𝑅 2
re 𝐷𝐷 y 𝑆𝑆 scalar (𝜌𝜌𝑇𝑇𝑇𝑇 )Reemplazando
depende
ubicación de la distribución
del lapunto
t_alpha=invnormal(0.975) ecuaciónde corte de lade variable
de la/*Notice: 𝑆𝑆 en esta
varianza de puntaje if(𝑆𝑆),
𝜏𝜏̂distribución
0.95 ajustada la
poryelladiseño
two-sided división
test*/ RD del en lagrupo tratadd
ecuación
scalar
to de corte de 𝑆𝑆tamaño t_beta=invnormal(0.80)
en estadeAlgunos
control. distribución
muestra,de y ladistribuciones
las
tenemos división
que la fórmula del para
grupo de𝑆𝑆,tratado
lamayormentey
determinación estudiadas,
del tamaño sonde la muestra
distribuc
scalar t_alphaplusbeta=t_alpha+t_beta
de las distribuciones paradeuniforme,
normal,
expresa 𝑆𝑆,lamayormente
siguiente normal
forma: estudiadas,
truncada yson la distribución
bimodal. En la práctica se suele utilizar la distribuc
normal truncada ynormal. bimodal. En la práctica se suele utilizar la distribución
b. Cálculo del número de individuos 𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) 2 1 2
(1 − 𝑅𝑅𝑅𝑅𝑅𝑅 )
𝑁𝑁
Reemplazando la ecuación de la varianza = [ ]
de 𝜏𝜏̂ ajustada por(1el−diseño
𝜌𝜌𝑇𝑇𝑇𝑇 ) RD en la ecuación
𝑅𝑅𝑅𝑅𝑅𝑅 2
El tamaño muestral necesario para detectar un efecto 𝐸𝐸𝐸𝐸𝐸𝐸 mínimo de 𝑃𝑃(1 − 𝑃𝑃)
0,2 desviaciones estándar y
cuación deunlatamaño varianza
tamaño de de𝜏𝜏̂ ajustada
muestra, por el
tenemos diseñoque RDla en
fórmula la ecuación
de potencia de 80%, dados los parámetros anteriormente descritos es calculado a de la del
determinación del tamaño de muestra
a, tenemoscontinuación. 8.3.
que la expresa Regresión
fórmulaParade delalafines
tales
Discontinua
determinación
siguiente
hacemos forma: Difusa
uso de della fórmula
tamañodescritas de muestra se
en la sección 4,2.
ente forma: Lo estudiado hasta el momento se aplica a un diseño de Regresión Discontinua Nítid
scalar (RDN);RDDE = es 1/(1-rho_TS^2)
decir, cuando la 𝜎𝜎 ∗ (𝑡𝑡𝛼𝛼 +
variable 𝑡𝑡1−𝑘𝑘 ) 2define
puntaje 1 completamente
/*Design
(1
Effect
2
− 𝑅𝑅𝑅𝑅𝑅𝑅 ) la asignación
2 𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅 = 2[ ]
(𝑡𝑡𝛼𝛼 + 𝑡𝑡1−𝑘𝑘 ) Sin embargo,
*/𝜎𝜎 ∗tratamiento. 1 (1 en− 𝑅𝑅la ) 𝐸𝐸𝐸𝐸𝐸𝐸el caso 𝑃𝑃(1
𝑅𝑅𝑅𝑅práctica más−común 𝑃𝑃) (1 − 2
es 𝜌𝜌el
𝑇𝑇𝑇𝑇 )diseño de Regresió
𝑁𝑁𝑅𝑅𝑅𝑅𝑅𝑅 =scalar[ var_rctn] = (1-R2)/(p*(1-p)) 2
𝐸𝐸𝐸𝐸𝐸𝐸
Discontinua 𝑃𝑃(1 −(RDD),
Difusa 𝑃𝑃) (1 − en𝜌𝜌Difusa ) la variable puntaje define parcialmente la asignació
el𝑇𝑇𝑇𝑇cual
8.3. Regresión Discontinua
scontinua Difusa scalar al tratamiento;
n_sample = es decir solo cambia discontinuamente la probabilidad de ser tratado.
talphaplustbeta2*var_rctn*RDDE/emd
Lo estudiado hasta el momento se aplica a un diseño de Regresión Discontinua Nít
disp n_sample
a el momento se aplica
el casoaesde
En(RDN); undecir,
diseñocuando
RDD, ladevariable
Regresión
la puntaje
variable Discontinua
puntaje Nítida
funciona como
defineinstrumento
completamente de la la asignación,
asignaciónp
cuando la variable tanto elpuntaje
tratamiento. ajusteSin define
RDD alcompletamente
embargo, modelo en laRDN prácticala
seráasignación
elanálogo
caso más alalajuste
comúnpor es noel cumplimiento
diseño de Regres (no
mbargo, en la práctica complience)
Discontinua el caso más (RDD),
utilizando
Difusa común
técnicas esde
en diseño
el variables
cual de Regresión
instrumentales
la variable (Hahn parcialmente
puntaje define et al. 2001). la asignac
a (RDD), en el cual la variable puntaje
al tratamiento; es decirdefine parcialmente
solo cambia la asignación
discontinuamente la probabilidad de ser tratado.
ecir solo cambia discontinuamente la probabilidad de ser tratado.
En el caso de RDD, la variable puntaje funciona como instrumento de la asignación,
D, la variable puntaje tanto funciona
el ajuste como RDD instrumento
al modelo RDN de la asignación,
será análogopor al ajuste por no cumplimiento (4
DD al modelo RDN será análogo
complience) al ajuste
utilizando técnicaspor de no variables
cumplimiento (non
instrumentales (Hahn et al. 2001).
ando técnicas de variables instrumentales (Hahn et al. 2001).

41

44 • Instituto Nacional de Estadística e Informática


9. Emparejamiento
9.1. Definición

Las técnicas de emparejamiento, introducidas por Rubin (1973), buscan calcular los efectos
promedios en tratados asumiendo que el sesgo de selección se debe únicamente a diferencias en
características observables. Es decir, se debe cumplir la condición de Independencia Condicional
(CI):

Y(0),Y(1)⊥D|X

La implementación del estimador de emparejamiento puede ser complicada si se cuenta con


gran número de las variables de control (variables X), lo que se conoce como el problema dela
multidimensionalidad. Rosenbaum y Rubin (1983), introducen la técnica de emparejamiento
basada en el Propensity Score Matching (PSM) o probabilidad de ser asignado al tratamiento
condicionado en las variables X:

P(X)=Pr(D=1|X)

Este procedimiento permite calcular el puntaje para cada una de las unidades tratadas sobre la
base de estas variables observables, solucionando así la multidimensionalidad. Una vez se calcula
este puntaje se procede a acotar la muestra al área de Soporte Común (SC) de las probabilidades
de tratamiento eliminándose las observaciones que no se encuentren dentro de esta área con la
finalidad de asegurar la comparabilidad entre el grupo de tratados y control (Heckman, Ichimura y
Todd, 1998). Es decir, se debe cumplir:

0<P(D=1|X)<1

Según Bernal y Peña (2011), el estimador del ATT por PSM está dado de la siguiente forma:

τDD=E(P(X)|D=1) {E[Y(1)|D=1,P(X)]-E[Y(0)|D=0,P(X)]}

Donde E(P(X)|D=1), representa el valor esperado con respecto a la probabilidad de participación


P(X), condicional en ser participante del programa.

La literatura de evaluación de impacto describe distintas técnicas de emparejamiento, las cuales


describen un trade-off entre sesgo y varianza (Caliendo y Kopeining, 2008). Se describen dos de
las técnicas más utilizadas:

a. Vecino más cercano (nearest neighbour matching): El individuo del grupo de comparación
como el pareo del individuo tratado en términos de cercanía del PSM.

b. Estratificado: Divide las probabilidades de participación en bloques (estratos) y busca el


contrafactual solo en el estrato al cual pertenece el individuo tratado.

c. Kernel Matching: Utiliza los promedios ponderados de todos los individuos del grupo control
para construir el resultado contrafactual. Se ponderar de acuerdo a la distancia del puntaje,
siendo una de las mayores ventajas de este método.

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 45


Una de las desventajas del PSM es que calcular los errores estándar no es tarea sencilla pues debe
incorporar la varianza debida a la estimación de la probabilidad de participación, la imputación del
soporte común y posiblemente el orden en los cuales los individuos tratados son emparejados. La
forma de calcular los errores estándar dependerá de la técnica de emparejamiento utilizada. Por
ejemplo, al utilizar el método del vecino más cercano, es posible calcular los errores de manera
analítica (Lechner, 2001), mientras que para el método de kernel se debe calcular los errores
utilizando el bootstrapping (Black y Smith, 2003).

9.2. Reglas Prácticas

Dada las dificultades en el cálculo de la varianza del estimador de emparejamiento, no es posible


encontrar en la literatura de evaluación de impacto una fórmula para determinar el tamaño de
muestra necesaria. Sin embargo, McKenzie detalla una regla práctica en 5 pasos, los cuales son
descritos a continuación:

a. Identificar cuánto se conoce sobre las características de los grupos tratados y control.

b. Luego, revisar la posibilidad de tener panel data.

c. Calcular el tamaño de muestra óptimo bajo un diseño experimental balanceado (P=0,5).

d. Expandir el tamaño de muestra calculado en c) dividiendo por la proporción que en el paso a)


se espera dejar después de recortar del soporte común en el PSM. Si el investigador no conoce
mucho sobre las características de la muestra tratada, la muestra control deberá incrementarse
hasta 10 veces la muestra tratada. Por otro lado, si el investigador tiene conocimiento sobre
las características de la muestra tratada, la muestra control deberá incrementarse solo entre
20%-200% la muestra tratada.

9.3. Aplicaciones en Stata

a. Especificar los parámetros

Como se puede observar en la ecuación del número de individuos (N), los parámetros que
debemos asumir son la proporción de tratados (P) y el EMD conservador de 0,20.

scalar p=0.5 /*ratio of treatment group*/


scalar emd=0.2 /*Standardized Minimum Detecta-
ble Effect*/

La probabilidad de errores tipo I y II son definidas para los valores típicos de: nivel de significancia
de 0,05 (prueba de 2 colas) y poder de 0,8.

scalar t_alpha=invnormal(0.975) /*Notice: 0.95 if two-sided test*/


scalar t_beta=invnormal(0.80)
scalar t_alphaplusbeta=t_alpha+t_beta

46 • Instituto Nacional de Estadística e Informática


b. Calcular la proporción recortada del soporte común:

sum comsup
scalar trimming=1-r(mean) /*Trimming*/

c. Determinación del tamaño de muestra para diseño aleatorio

Se calcula el tamaño de muestra para un diseño aleatorio balanceado (P=0,5), dado un poder de
0,8 y un EMD conservador de 0,2.

*Sample size
scalar N_1=(1/emd)^2*(t_alphaplusbeta^2)*(1/(p*(1-p)))
display round(N_1)

d. Calculo del tamaño de muestra para PSM

A partir del tamaño de muestra para un diseño aleatorio se obtiene el número de individuos tratados,
definido como nTreat=N_1. El tamaño del grupo control lo determinaremos como el tamaño del
grupo tratado dividido entre el porcentaje de la muestra recortada por el soporte común, definido
como nControl=N_1/trim. La muestra total de la evaluación será nTOTAL=nTreat+nControl.

scalar N_1=round(N_1)
scalar N_2=round(N_1/trimming)
disp N_total=round(N_1)+round(N_2)

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 47


10. Bibliografía
Angrist, J. y Pischke, J. (2008). “Mostly Harmless Econometrics: An Empiricist’s Companion”.
Princeton Press.

Bernal, R. y Peña, X. (2012). “Guía práctica para la evaluación de impacto”. Universidad de los
Andes.

Bloom, H. (1995). “Minimum Detectable Effects: A Simple Way to Report the Statistical Power of
Experimental Designs”. Evaluation Review, 19: 547

Bloom, Howard S. (2005) “Randomizing Groups to Evaluate Place-Based Programs,” in Howard


S. Bloom, editor, Learning More From Social Experiments: Evolving Analytic Approaches (New
York: Russell Sage Foundation).

Bloom, H, Richburg-Hayes, L. y Rebeck A. (2007). “Using Covariates to Improve Precision for


Studies That Randomize Schools to Evaluate Educational Interventions”. Educational
Evaluation and Policy Analysis, Vol. 29(1), pp. 30–59

Buddelmeyer, H. y E. Skoufi (2004). “An Evaluation of the Performance of Regression Discontinuity


Design on PROGRESA”, Policy Research Working Paper 3386, IZA Discussion Paper 827.
Washington DC: Banco Mundial.

Caliendo, M. y S. Kopeining (2008). “Some Practical Guidance for the Implementation of Propensity
Score Matching”. Journal of Economics Surveys.

Chow, S., Shao, J, y Wang, H. (2008) “Sample size calculations in Clinical Research” 2nd Edition.
Chapman & Hall/CRC.

Duflo, E., Glennerster R., Kremer, M. (2008). “Using Randomization in Development Economics
Research: A Toolkit” Handbook of Development Economics, vol. 4 - Chapter 61.

Fizbein, A. y Schady, N. (2009) “Conditional cash transfers: reducing present and future poverty”
Banco Mundial.

Frison, L., Pocock, S. (1992). “Repeated measures in clinical trials: analysis using mean summary
statistics and its implications for design”. Statistics in medicine, vol. 11, pp.1685-1704.

Gertler, P., Martinez, S., Premand, P. Rawlings, L. y Vermeersch, C. (2011) “Impact evaluation in
practice”. The World Bank

Goldberger, A. (1972). Selection Bias in Evaluating Treatment Effects: Some Formal Illustrations.
Working Paper, Economics Department, University of Wisconsin

Hedges, L. y Heberg, E. (2007). “Intraclass Correlation Values for Planning Group-Randomized


Trials in Education”. Educational Evaluation and Policy Analysis, Vol. 29(1), pp.60-87.

Jacob, R.; Zhu, P. y Bloom, H. (2010) “New Empirical Evidence for the Design of Group Randomized

48 • Instituto Nacional de Estadística e Informática


Trials in Education. Journal of Research on Educational Effectiveness, Vol. 3, pp. 157–198.

Jo, B. (2002). “Statistical Power in Randomized Intervention Studies with Noncompliance”.


Psychological Methods, Vol. 7(2), pp. 178–193

Lechner, M. (2001) “Identification and estimation of causal effects of multiple treatments under the
conditional independence assumption,” in Econometric Evaluation of Labour Market Policies,
ed. by M. Lechner, and F. Pfeiffer, pp. 1–18.

McKenzie, D. (2012). “Beyond baseline and follow-up: The case for more T in experiments,” Journal
of Development Economics, Elsevier, vol. 99(2), pp.210-221.

Piaggio, G., Carroli, G., Villar, J, Pino, A. (2001) “Methodological considerations on the design and
analysis of an equivalence stratified cluster randomization trial”. Statistics in Medicine,.vol. 20,
pp. 401–416.

Raudenbush, S., Martinez, A. y Spybrook, J. (2007). “Strategies for Improving Precision in Group-
Randomized Experiments”. Educational Evaluation and Policy Analysis, Vol. 29(1), pp. 5–29

Rosenbaum P. y Rubin D. (1983). “The Central Role of the Propensity Score in Observational
Studies for Causal Effects”. Biometrika

Rhoads, C. (2011). “The implications of Contamination for Experimental Design in Education”.


Journal of Educational and Behavioral Statistics. Vol 36(1) pp 76-114.

Schochet, P. (2008a) “Technical Methods Report: Statistical Power for Regression Discontinuity
Designs in Education Evaluations” National Center for Educational Evaluation and Regional
Assistance.

Schochet, P. (2008b) “Statistical Power for Random Assignment Evaluations of Education


Programs”. Journal of Educational and Behavioral Statistics, vol. 33 (1), pp.62-87.

Teerenstra, S., Eldridge, S., Graff, M, De Hoop, E., y Borm, G. (2012). “A simple sample size for
analysis of covariance in cluster randomized trials. Statistics in Medicine, vol 31, pp.2169-2178.

Tecnicas de muestreo y tamaños de muestra para evaluaciones de impacto • 49

You might also like