Cette tude de cas est base sur un programme de lutte contre la pauvret hypothtique PROSCOL, qui fournit des transferts d'argent des familles pauvres avec des enfants d'ge scolaire dans une rgion d'un pays en dveloppement. Le cas est destin illustrer les tapes analytiques impliques dans l'excution d'une valuation d'impact et les options auxquelles un analyste peut faire face avec le processus applicable n'importe quel type de programme de lutte contre la pauvret. En explorant comment procder pour valuer l'impact du programme, l'analyste politique commet plusieurs erreurs le long du parcours, cherchant des informations sur des sujets spcifiques partir des comptences spcialises des collgues-un statisticien, un conomiste, un professeur d'conomtrie et un sociologue. Parmi les tapes analytiques que l'analyste parcourt dans ce cas, il y a lidentification des questions trait er dans l'valuation d'impact, l'valuation des ressources de donnes, un premier aperu sur les donnes, une comprhension des distorsions des variables de contrle, une information sur les revenus prvus, la combinaison de variables, la comprhension de l'importance de l'exognit, l'exploration des meilleures faons de former un groupe de comparaison (harmonisation du score de propension), information sur les distorsions et examens de ce qui pourrait avoir t fait avec une enqute de donnes de base (des diffrences doubles), l'utilisation des variables instrumentales, l'essai des diverses mthodologies, l'intgration des ressources venant du terrain et la planification du travail venir.
Description du programme hypothtique PROSCOL
Le programme PROSCOL identifie des familles ligibles la participation en utilisant les diverses manifestations de pauvret qui comprennent le nombre des personnes dans les mnages, l'ducation du chef de famille et les diverses caractristiques du logement. PROSCOL paye une somme fixe par enfant d'ge scolaire tous les mnages choisis condition que les enfants aient un taux d'assiduit de 80 pour cent ce qui doit tre vrifi par une note de l'cole. Les mnages doivent garder leurs enfants l'cole jusqu' 18 ans. Ce programme initi il y a 12 mois est financ par la Banque Mondiale et fonctionne en dehors du Ministre du Dveloppement Social. Dans un effort
* Ce chapitre a t dvelopp dans les dtails dans un document prpar par Martin Ravallion, The Mystery of the Vanishing Benefits : Ms. Speedy Analysts Introduction to Evaluation, Policy Research Working Paper No. 2153, 1999.
40
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 41
pour valuer l'impact du PROSCOL sur la pauvret en vue d'aider dterminer si le programme doit tre gnralis pour inclure le reste du pays ou tre abandonn, la Banque Mondiale a demand une valuation d'impact au Ministre des Finances. La demande tait adresse au Ministre des Finances afin d'aider assurer une valuation indpendante et aider dvelopper la comptence pour ce type d'valuation dans une unit centrale du Gouvernement prs du centre dallocations budgtaires.
Identifier les Questions Traiter dans l'Evaluation d'Impact
La premire tape pour l'analyste au Ministre des Finances assign la tche d'effectuer l'valuation PROSCOL consiste clarifier les objectifs du projet examiner dans l'valuation de l'impact. Le projet a deux buts politiques : les transferts d'argent visent rduire la pauvret actuelle, et en insistant pour que les destinataires de transferts gardent leurs enfants l'cole ; le programme vise rduire la pauvret dans l'avenir en levant les niveaux d'ducation parmi la population actuelle des enfants pauvres. Deux lments d'information seraient donc ncessaires pour valuer l'impact. D'abord, les transferts d'argent vont ils principalement aux familles faible revenu ? Et ensuite quelle augmentation des taux d'inscription scolaire le programme entrane-t-il ?
Evaluer les Ressources de Donnes
Pour effectuer l'valuation, l'analyste a deux ressources principales. La premire est un rapport bas sur des interviews qualitatives avec des administrateurs de programme et les groupes cibles de participants. Il n'est pas vident, cependant, que ceux qui taient interviews soient reprsentatifs des participants au programme PROSCOL et si leur pauvret tait plus prononce par rapport ceux qui n'ont pas t choisis pour le programme et n'ont pas t interviews. Le rapport indique que les enfants sont alls l'cole mais il est possible qu'ils aient pu aussi aller l'cole si le programme n'avait pas exist. Bien que ce rapport soit un dbut important, il ne dit pas l'analyste comment les participants du PROSCOL sont pauvres et quel impact le programme a sur la scolarisation. La deuxime ressource est une enqute nationale indpendante rcente, effectue par le Bureau des Statistiques du pays sur les mnages dnomme Enqute des niveaux de vie (ENV). La ENV a port sur un chantillon alatoire de 10.000 mnages et a interrog sur les revenus des mnages par source, lemploi, les dpenses, ltat de sant, les rsultats d'ducation et les caractristiques dmographiques et autres de la famille. L'enqute avait incorpor une question pour savoir si lchantillon de mnage avait particip ou non PROSCOL et une ligne pour l'argent reu du PROSCOL dans la liste des sources de revenu.
42 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Premier Aperu sur les Donnes
L'analyste continue par obtenir les donnes brutes de ENV pour se concentrer valuer des bnficiaires du programme. Lanalyste emploie un logiciel statistique comme SPSS ou SAS pour raliser une tabulation croise de la moyenne des sommes dargent reus du PROSCOL par les "dciles" de mnages (les dciles sont forms en classant tous les mnages de l'chantillon selon leur revenu par personne). Dans le calcul de ce dernier, l'analyste dcide d'extraire toutes les sommes d'argent reues du PROSCOL comme une bonne mesure de revenu en l'absence du programme avec l'intention d'identifier qui a gagn par rapport son revenu avant l'intervention. La tabulation croise suggre que les transferts d'argent au titre du programme soient tout fait bien alls aux pauvres. Selon le seuil de pauvret officiel du pays, environ 30 pour-cent de la population dans le Nord-ouest sont pauvres. A partir du tableau, les calculs montrent que les 30 pour cent les plus pauvres de l'chantillon d'enqute reoivent 70 pour cent des transferts de PROSCOL. A premire vue cela semble tre un rsultat positif. La question suivante concerne l'impact sur la scolarisation. Cela est examin travers une tabulation croise des taux d'inscription scolaire moyens des tranches d'ge diverses pour des familles PROSCOL en comparaison avec les familles non PROSCOL. Cette comparaison ne rvle presque aucune diffrence entre les deux ; le taux d'inscrip tion moyen pour des enfants gs de 6 18 ans est environ 80 pour - cent dans les deux cas. L'analyste calcule alors les annes moyennes d'tudes chaque ge et les rsultats sont reprsents par graphique sparment pour des familles PROSCOL et des familles non PROSCOL. Cela montre que les deux figures ne sont pas identiques mais elles sont trs proches. A cette tape, l'analyste se demande s'il n'y avait vraiment aucun impact sur la scolarisation ou si l'approche est fausse.
Comprendre les Distorsions
Avec cette incertitude, l'analyste cherche ensuite l'assistance d'un statisticien confirm pour explorer pourquoi les rsultats dmontrent que les enfants PROSCOL ne sont probablement pas plus scolariss que les enfants non PROSCOL. Le statisticien formule une hypothse que les rsultats peuvent prsenter une srieuse distorsion. Pour valuer l'impact du programme, nous devons savoir ce qui serait arriv sans le programme. Cependant l'analyste ne l'a pas expliqu ; au lieu de cela les familles non PROSCOL sont utilises comme groupe de comparaison pour dduire ce que la scolarisation des participants PROSCOL aurait t si le programme n'avait pas exist. Autrement dit, P i dnote la participation PROSCOL de l'enfant i . Cela peut prendre deux valeurs possibles savoir P i = 1 si l'enfant participe PROSCOL et P i = 0 s'il ou elle ne participe pas. Si le i me enfant ne participe pas alors son niveau de scolarit est donc S oi' , soit S pour la scolarisation et i pour l'enfant i lorsque P = 0 si l'enfant ne participe pas. Si lenfant participe, alors sa scolarisation est S 1i . Son
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 43
gain en scolarisation d PROSCOL est S 1I S 0i . Le gain du i me enfant qui participe (P = 1) est alors :
G i = S 1i S 0i P i = 1.
La barre signifie "tant donn que" ou " condition que" et est ncessaire pour dire clairement que le calcul est le gain pour un enfant qui a rellement particip au programme. Si on veut connatre le gain moyen, c'est simplement la moyenne de tous les G, qui donne le gain moyen type de scolarisation parmi tous ceux qui ont particip PRO SCOL. Tant que cette moyenne est calcule correctement (en utilisant les poids types appropris de l'enqute), il fournira une valuation exacte du vrai gain moyen. Ce dernier est "la valeur attendue " de G et il peut tre crit :
G = E (S 1i S 0i P i = 1).
C'est une autre faon de dire "moyen". Cependant, cela n'a pas besoin d'tre exactement gal la moyenne calcule partir des donnes types, entendu qu'il y aura des erreurs d'chantillonnage. Dans lexpos sur lchantillonnage de lvaluation, E(S 1I S 0i P 1 = 1) est parfois appel "l'effet de traitement" ou "l'effet de traitement moyen sur le trait". Dans ce cas PROSCOL est considr comme le traitement. Le statisticien fait remarquer l'analyste qu'elle n'a pas calcul G, mais plutt la diffrence de scolarisation moyenne entre des enfants des familles PROSCOL et ceux des familles non PROSCOL. C'est lestimation de lchantillon en :
D = E(S 1i P = 1) E ( S 0i P = 0).
Il y a une identit simple liant D G, savoir :
D = G + B.
Ce terme "B" est la distorsion dans l'valuation et est donn par :
B = E(S 0i P i = 1) E(S 0i P i = 0).
Autrement dit, la distorsion est la diffrence attendue dans la scolarisation sans PROSCOL entre les enfants qui ont rellement particip au programme et ceux qui n'y ont pas particip. Cette distorsion pourrait tre corrige si E(S 0i P i = 1) taient connus, mais il n'est pas possible mme de pouvoir lestimer. On ne peut pas observer ce que la scolarisation aurait t pour des enfants qui ont
44 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
rellement particip au programme PROSCOL, s'ils n' avaient pas particip ; cela constitue des donnes manquantes appeles aussi moyenne "contre factuelle". Cette distorsion prsente une proccupation principale. En l'absence du programme PROSCOL des parents peuvent envoyer leurs enfants l'cole moins que d'autres parents. S'il en est ainsi alors il y aura une distorsion dans le calcul. Retournant aux questions d'valuation originale, nous nous sommes intresss au surplus de scolarisation d au programme PROSCOL. Vraisemblablement, ceci affecte seulement des familles qui participent en ralit. En d'autres termes, nous avons besoin de savoir combien de personnes devraient tre scolarises sil ny avait pas le programme. S'il n'y a aucune distorsion, donc le surplus de scolarisation au titre du programme est la diffrence en scolarisation moyenne entre ceux qui ont particip et ceux qui n'ont pas particip au programme. Ainsi la distorsion surgit s'il y a une diffrence en scolarisation moyenne entre des parents PROSCOL et des parents non PROSCOL en l'absence du programme. Pour liminer cette distorsion, la meilleure approche serait dattribuer le programme de faon alatoire. Alors les participants et les non participants auront la mme chance de scolarisation en labsence du programme c'est--dire E(S 0i P i = 1) =E(S 0i P i = 0). La scolarisation des familles non participantes indiquera alors correctement la comparaison contre factuelle c'est--dire la scolarisation que nous aurions observe pour des participants s'ils n'avaient pas eu accs au programme. En effet la nomination alatoire galisera toute la distribution, pas seulement les moyennes. Il y aura une distorsion suite une erreur d'chantillonnage mais pour des chantillons assez importants on peut sans risque supposer que chaque diffrence statistiquement significative dans la distribution de la scolarisation entre des participants et des non participants est attribuable au programme. Dans la conception actuelle du programme, il est clair que la participation n'est pas alatoire. En effet, ce serait une critique srieuse du programme PROSCOL de constater qu'elle l'est. Le fait mme de son ciblage intentionnel des familles pauvres, qui sont prsumes envoyer moins vraisemblablement leurs enfants l'cole crerait la distorsion. Cela soulve la question que si PROSCOL marche bien alors nous devons nous attendre ce que des participants aient une scolarisation pire en labsence du programme. Alors E(S 0i P i = 1) < E(S 0i P i = 0) et le calcul original des analystes sous-estimera le gain du programme. Nous pouvons trouver un minimum de profit ou non bien que le programme marche en ralit bien. L'analyste se rend maintenant compte que l'ampleur de cette distorsion pourrait tre norme. Supposons que des familles pauvres envoient leurs enfants travailler plutt que d'aller l'cole ; qu'elles sont pauvres et ne peuvent pas emprunter facilement, elles ont besoin d'argent frais supplmentaire maintenant. Des familles non pauvres envoient leurs enfants l'cole. Le programme choisit des familles pauvres qui envoient alors leurs enfants l'cole. Une diffrence ngligeable existe en scolarisation moyenne entre des familles PROSCOL et des familles non PROSCOL ; en effet, on espre que E(S1i / Pi = 1) = E(S0i / Pi = 0). Mais l'impact du programme est positif et est donn par E(S0i / Pi = 0) E(S0i / Pi = 1). La dfaillance du ciblage intentionnel du programme ax sur les pauvres prendre en compte pourrait bien avoir conduit une
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 45
sous estimation des bnfices du PROSCOL provenant de la comparaison par l'analyste de la scolarisation moyenne entre des familles PROSCOL et des familles non PROSCOL.
Information sur les revenus du pass
Lanalyste montre ensuite les rsultats de sa tabulation croise des montants reus du programme PROSCOL par rapport au revenu un autre collgue, un conomiste, du Ministre des Finances. Lconomiste soulve une proccupation majeure- que les gains octroys aux pauvres du programme PROSCOL ont t clairement su-estims parce que le revenu pass a t ignor. Les enfants doivent aller lcole si la famille doit percevoir le transfert ; ainsi ils ne pourront pas travailler, soit dans lentreprise familiale soit sur le march du travail. Par exemple, des enfants gs de 15 18 ans peuvent gagner les deux- tiers ou plus du salaire de ladulte en agriculture ou en construction. Des familles PROSCOL perdront ce revenu du travail de leurs enfants. Ce revenu abandonn devrait tre pris en compte quand des gains de revenu net provenant du programme sont calculs. Et ce revenu net devrait tre dduit, non du transfert brut, pour faire ressortir le revenu avant intervention. Il importera aussi de dterminer la pauvret de la famille en labsence du transfert PROSCOL. Le prsent tableau, par consquent, pourrait considrablement exagrer les gains du programme pour le pauvre. Lanalyste se demande pourquoi elle devrait dduire le revenu du travail de lenfant, avec lhypothse que le travail des mineurs nest pas recommandable. Lconomiste relve quelle devrait considrer les gains dus la rduction du travail de lenfant dont le gain principal est la scolarisation complmentaire et par consquent des revenus futurs plus levs, pour des familles prsentement pauvres. Lanalyste a produit des tableaux qui refltent les deux principales voies de rduction de la pauvret par PROSCOL : en augmentant les revenus prsents des pauvres et en augmentant leurs revenus futurs. Limpact sur le travail des enfants est important dans les deux sens mais dans des directions opposes; ainsi PROSCOL fait face un dilemme. Cela dmontre pourquoi il est important davoir une bonne estimation de limpact sur la scolarisation ; seulement alors il sera possible de dterminer le manque gagner. Il est par exemple possible que le temps supplmentaire lcole vienne en dduction du temps de travail. En considrant la deuxime tabulation croise, la principale proccupation souleve par lconomiste est quil ny a pas de prime pour tous les autres dterminants de la scolarisation en dehors de la participation au PROSCOL. Lconomiste suggre de mener une rgression des annes de scolarisation sur un jeu de variables de contrle aussi bien que de savoir si la famille de lenfant est couverte par PROSCOL ou non. Pour lenfant i me dans lchantillon nous avons :
S i = a + bP i + cX i + ? i
46 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Ici a, b et c sont des paramtres ; x reprsente les variables de contrle comme l'ge de l'enfant, l'ducation de la mre et du pre, la taille et la composition dmographique des mnages et les caractristiques scolaires ; et ? est un rsiduel qui comprend d'autres dterminants de scolarisation et d'erreurs de mesure. La valeur estime de b vous donne l'impact de PROSCOL sur la scolarisation. Notez que si la famille de l'enfant i participe PROSCOL donc P = 1 et ainsi sa scolarisation sera a + b + cX i + ? i . S'il ne participe pas, donc P = 0 et ainsi sa scolarisation sera a + cX i +? i . La diffrence entre les deux est le gain en scolarisation en raison du programme, qui est juste b.
Addition de variables de contrle
Comme suggr, l'analyste opre une rgression avec ou sans les variables de contrle. Quand elle est rentre sans les variables les rsultats montrent que la valeur estime, de b n'est pas significativement diffrente de 0 (en utilisant le test standard-t donn par le paquet statistique). Ces rsultats prsentent une configuration semblable aux premiers rsultats, prenant la diffrence des moyennes entre les participants et les non participants suggrant que PROSCOL n'a pas d'impact sur la scolarisation. Cependant, quand plusieurs variables de contrle sont intgrs la rgression, il y a un coefficient positif et significatif sur la participation au programme PROSCOL. Le calcul montre qu' 18 ans le programme a ajout deux ans la scolarisation. L'analyste se demande pourquoi ces variables de contrle font une telle diffrence. Et les bons contrles sont- ils faits ? Elle visite ensuite son ancien professeur d'conomtrie et lui montre ses rgressions. Sa premire proccupation lie la rgression de la scolarisation sur P et X est que cela ne permet pas l'impact du programme de varier avec x ; l'impact est le mme pour chacun, ce qui ne semble pas trs probable. Les parents plus scolariss devraient tre plus nombreux vraisemblablement envoyer les enfants l'cole, donc les bnfices dont ils jouiront du programme PROSCOL seront infrieurs. Pour permettre aux bnfices de varier avec X, laissons les tudes moyennes de non participants, soit a o + c o X i tandis que celle des participants est a1 + c1Xi' , ainsi le niveau observ de scolarisation est
Si = (? 1 + c 1 X i + ? 1i ) P i + (a o + c o x i + ? 0i ) (1- P i )
o ? o et ? 1 sont des erreurs alatoires, chacun avec des moyennes de zro et sans
corrlation avec X. Pour valuer ce modle il est ncessaire d'ajouter un terme complmentaire pour les effets d' interaction entre la participation au programme et des caractristiques observes la rgression dj mene. Ainsi la rgression augmente est :
Si = a o + (a 1 a o ) P i + C o X i + (C 1 C o ) P i X i + ? I
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 47
o ? i = ? 1 i P i + ? oi ( 1 P i ). Alors (a 1 a o ) + (C 1 C o ) X est l'impact moyen du programme pour n'importe qu'elle valeur donne de X. Si la moyenne X dans l'chantillon des participants est utilise, elle donnera donc le gain moyen provenant du programme.
Comprhension de l'importance de l'exognit
Une deuxime proccupation releve par le professeur d'conomtrie est de savoir comment la rgression a t estime. Dans l'utilisation du contrle de rgression dans le paquet statistique, les moindres carrs ordinaires (MCO), il y a une source de proccupation parce que les estimations MCO des paramtres seront biaises mme avec de grands chantillons mo ins que les variables de droite ne soient exognes. L'exognit signifie que les variables de droite sont dtermines indpendamment des choix de scolarisation et ne sont ainsi pas en corrlation avec le terme d'erreur dans la rgression de la scolarisation. Parce que la participation au programme t intentionnellement cible, la participation au programme PROSCOL n'est pas exogne. Cela peut affecter le calcul de l'impact du programme comme suit : l'quation pour les annes de scolarisation est :
S i = a + bP i + Cx i + ? i .
La valeur a + b + cX i + ? i a t utilise comme estimation de la scolarisation du mnage i quand il participe au programme PROSCOL alors que a + cX i + ? i a t utilise pour estimer la scolarisation s'il ne participe pas. Ainsi la diffrence, b, est le gain provenant du programme. Cependant, en faisant ce calcul, lhypothse est que ? i
tait le mme de toute faon. Autrement dit, l'hypothse tait que ? i tait indpendant de P, ce qui affecterait le calcul de l'impact du programme. Cela met en vidence la distorsion relative au placement du programme non alatoire qui peut aussi affecter lestimation base sur le modle de rgression suggr auparavant par l'conomiste (S i = a + bP i + cX i + ? i ). Ceci peut cependant, ne pas vouloir dire que les rsultats seront compltement faux. Le professeur d'conomtrie le clarifie avec une quation explicite de P savoir :
P i = d + eZ i + V i
o Z reprsente plusieurs variables qui comprennent toutes les " variables auxiliair es de pauvret " de ciblage du programme PROSCOL. Il y aura certainement le terme d'erreur purement alatoire qui influence la participation ; ce sont les variables auxiliaires de pauvret qui ne sont pas dans les donnes et il y aura aussi des erreurs dans la slection des participants qui figurent dans le terme V. Cette quation est linaire, cependant P peut seulement prendre deux valeurs possibles, 0 et 1. Les valeurs comprises entre zro et un sont acceptables mais un modle linaire ne peut pas exclure
48 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
la possibilit des valeurs prvus ngatives, ou des valeurs au-dessus de 1. Il existe des modles non linaires qui peuvent traiter ce problme mais pour simplifier le dbat, le plus facile sera de se concentrer sur les modles linaires. Il y a un cas spcial dans lequel la rgression des MCO susmentionnes de S sur P et X donnera une estimation exacte de b. C'est quand X comprend toutes les variables dans Z qui influence la slection et le terme d'erreur Vest non corrl avec le terme d'erreur ? dans la rgression de la scolarisation. Cela est parfois appel "le choix sur des observables" dans lexpos d'valuation. Supposons que les variables de contrle X dans la rgression prcdente pour la scolarisation comprennent toutes les variables observes Z qui influencent la participation P et que V est non corrl avec ? (de telle sorte que les variables non observes affectant le P du programme n'influencent pas la scolarisation conditionne par X) ; cela a alors limin nimporte quelle possibilit que P soit corrl avec ?. Il sera maintenant exogne dans la rgression pour la scolarisation. Autrement dit, l'ide principale de la slection des variables observables est qu'il y a un observable X tel que la distorsion annule la conditionnalit sur X. L'addition des variables de contrle la rgression de la scolarisation sur la participation au programme PROSCOL a fait une grande diffrence parce que X doit comprendre les variables qui taient parmi les variables auxiliaires de la pauvret pour le ciblage ou taient corrles avec elles et sont des variables qui ont aussi une influence sur la scolarisation. Cela, cependant, marche seulement si les hypothses sont valables. Il faudra tre conscient qu'il y a deux problmes. D'abord la mthode sus mentionne s'croule s'il ny a pas de dterminants de participation non observe ; autrement dit, si le terme d'erreur v a une variance 0 et que tous les dterminants de participation affectent aussi la scolarisation. Alors il n'y a aucune variation indpendante dans la participation au programme pour permettre d'identifier son impact sur la scolarisation; il est possible de prvoir parfaitement P partir de X et donc la rgression nestimera pas. Ce problme ne va pas surgir probablement souvent, tant donn qu'il y a presque toujours des dterminants non observs du placement du programme. Le deuxime problme est plus courant et plus proccupant dans ce cas. Le terme d'erreur ? dans la rgression de la scolarisation contient probablement des variables qui n'ont pas t trouves dans l'enqute, mais pourraient bien influencer la participation au programme, c'est--dire quelles pourraient tre corrles avec le terme d'erreur i dans l'quation de la participation. Si c'est le cas, alors E(? X,P) ?0, et des mthodes de rgression ordinaires seront toujours biaises quand les rgressions de la scolarisation seront estimes. Ainsi le problme clef est la mesure de la corrlation entre le terme d'erreur dans l'quation pour la participation et celui dans l'quation pour la scolarisation.
Exploration de meilleures voies pour former un groupe de comparaison harmonisation du score de Propension
Avec de nouvelles informations du professeur, l'analyste apprend qu'il y a de meilleures faons de former un groupe de comparaison. L'objectif est de comparer
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 49
des niveaux de scolarisation conditionnels par les caractristiques observes. Si les groupes types sont rpartis en groupes de familles avec les mmes valeurs ou des valeurs semblables de X, on compare les groupes conditionnels pour des familles PROSCOL et non PROSCOL. Si la scolarisation en l'absence du programme est indpendante de la participation, tant donn X, alors la comparaison donnera une estimation non biaise de l'impact du PROSCOL. Cela est parfois appel "l'indpendance conditionnelle" et c'est l'hypothse cl faite par toutes les mthodes de groupe de comparaison. Ainsi, une meilleure faon de choisir un groupe de comparaison, compte tenu les donnes existantes, est d'employer comme contrle pour chaque participant un non participant avec les mmes caractristiques observes. Cela pourrait, cependant, tre trs difficile parce que le jeu des donnes pourrait prsenter beaucoup de ces variables. Il ne peut y avoir personne parmi les non participants prsentant exactement les mmes valeurs de toutes les caractristiques observes que n'importe quel participant PROSCOL. Une approche statistique, l'harmonisation du score de propension, fournit des techniques pour simplifier normment le problme. Au lieu de chercher s'assurer que le contrle harmonis pour chaque participant ait exactement la mme valeur X, le mme rsultat peut tre atteint en harmonisant la valeur prvue de P compte tenu de X qui est appel le score de propension de X. Rosenbaun et Rubin (1983) dmontrent que si (dans ce cas) la scolarisation sans PROSCOL est indpendante de la participation tant donn X donc les participants sont aussi indpendants de la participation compte tenu du score de propension de X. Puisque le score de propension est juste un nombre, il est beaucoup plus facile de le contrler que X, qui pourrait avoir beaucoup de variables. Et cependant le score de propension harmonis est suffisant pour liminer la distorsion puisqu'il y a l'indpendance conditionnelle compte tenu de X. En d'autres termes, on rgresse d'abord P sur X pour obtenir la valeur prvue de P pour chaque valeur possible de X, qui est alors estim pour l'chantillon entier. Pour chaque participant, il faut trouver le non participant avec la valeur la plus proche de cette probabilit prvue. La diffrence dans la scolarisation est alors le gain estim du programme pour ce participant. On peut alors prendre la moyenne de toutes ces diffrences pour estimer l'impact ou bien prendre la moyenne pour les diffrents groupes de revenus. Cependant, cela, ncessite des prcautions dans la faon dont le modle de participation est estim. Un modle linaire pourrait donner des probabilits prvues irrgulires au-dessus de 1 ou ngatives. Il vaut mieux utiliser la commande de rgulation LOGIT du paquet statistique. Cela suppose que le terme d'erreur v dans l'quation de la participation a une distribution logique et on estime les paramtres compatibles avec cette hypothse par des mthodes de probabilit maximale. Ceci est bas sur les principes de l'estimation de probabilit maximale de modles de rponse binaire. Une autre question dont il faut tre conscient est que certains des non participants peuvent avoir t exclus comme correspondants potentiels ds le dpart. En fait, il y a quelques rsultats rcents dans le trait de l'conomtrie indiquant que l'chec de la comparaison des participants et des contrles, des valeurs communes de variables d'harmonisation,
50 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENTSUR LA PAUVRETE
est une source majeure de distorsion dans les valuations (voir Heckman et d'autres, 1998). L'intuition est que l'on veut que le groupe de comparaison soit aussi semblable que possible au groupe de traitement en termes observables, comme rcapitul par le score de propension. Nous pourrions constater que certains chantillons de non participants ont un score de propension infrieur n'importe lequel d'entre ceux de l'chantillon de traitement. Il est parfois appel "le manque d'appui commun". Dans la formationdu groupe de comparaison, il faut liminer ces observations du jeu de non participants pour s'assurer que seulement les gains de la mme gamme de scores de propension sont compars. Il faut aussi exclure ces non participants dont la probabilit de participation est zro. Il est recommand de retirer une petite proportion de l'chantillon, par exemple deux pour cent, en haut et en bas de la distribution des non participants en terme de scores de propension. Une fois que les participants ont t identifis et les non participants aussi sur une rgion d'harmonisation commune, il est recommand de prendre une moyenne, disons environ 5 ou les nombres les plus proches, en terme de diffrence absolue dans les scores de propension (Encadr 3.1).
Encadr 3.1 Etapes de l'harmonisation du score de propension
Le but de l'harmonisation consiste trouver le groupe de comparaison le plus proche d'un chantillon de non participants l'chantillon de participants au programme. "Le plus proche" est mesur en termes de caractristiques observables. S'il y a seulement une ou deux de ces caractristiques, alors l'harmonisation doit tre facile. Mais pratiquement, il y a beaucoup de caractristiques potentielles. Les principales tapes dans l'harmonisation base sur le plus grand nombre de propensions sont les suivantes : Etape 1 : Vous avez besoin d'une enqute par sondage reprsentative pour les non participants ligibles aussi bien que pour les participants. Plus grand est l'chantillon de non participants ligibles, mieux sen faut pour faciliter une bonne harmonisation. Si les deux chantillons proviennent denqutes diffrentes, elles doivent tre des enqutes hautement comparables (le mme questionnaire, les mmes intervieweurs ou la mme formation d'intervieweur, la mme priode d'enqute, etc. Etape 2 : Regroupez les deux chantillons et estimez un modle de rgulation LOGIT de la participation au programme comme une fonction de toutes les variables dans les donnes qui vont probablement dterminer la participation. Etape 3 : Crez les valeurs prvues de la probabilit de la participation partir de la rgression de la rgulation LOGIT ; celles-ci sont appeles "les scores de propension". Vous aurez un score de propension pour chaque participant et non participant de lchantillon.
(Lencadr continue sur la page suivante ) APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 51
Encadr 2.2 (suite) Etape 4 : Certains de l'chantillon de non participants devraient tre exclus du jeu au dbut parce qu'ils ont un score de propension qui est l'extrieur de la gamme (typiquement trop bas) observe pour l'chantillon de traitement. La gamme de scores de propension estime pour le groupe de traitement devrait correspondre de prs celle du sous chantillon retenu de non participants. Vous pouvez aussi vouloir limiter des harmonisations potentielles d'autres faons selon le contexte. Par exemple, vous pouvez vouloir permettre seulement des harmonisations dans le mme secteur gographique pour s'assurer que les parties d'harmonisation viennent du mme environnement conomique. Etape 5 : Pour chaque individu dans l'chantillon de traitement, vous voulez maintenant trouver l'observation dans l'chantillon de non participants qui a le score de propension le plus proche, comme mesur, par la diffrence absolue dans les scores. Cela est appel "le voisin le plus proche". Vous pouvez trouver disons les 5 voisins les plus proches. Etape 6 : Calculez la valeur moyenne de l'indicateur de rsultat (ou chacun des indicateurs) s'il y a eu plus d'un pour les cinq voisins les plus proches. La diffrence entre cette moyenne et la valeur relle pour l'observation traite est l'estimation du gain en raison du programme pour cette observation. Etape 7 : Calculez la moyenne de ces bnfices individuels pour obtenir le gain moyen gnral. Cela peut tre stratifi par quelque variable d'intrt, comme le revenu, dans l'chantillon de non participants. C'est la forme la plus simple de l'harmonisation du score de propension. Des complications peuvent surgir en pratique. Par exemple, s'il y a un surnombre de lchantillonnage de participants, vous pouvez employer des mthodes de prlvement des chantillons base de slection pour le corriger (Manski et Lerman 1977) ; alternativement vous pouvez utiliser le ratio de chance (p/(1 - p) o p est le score de propension) pour l'harmonisation. Au lieu de compter sur le voisin le plus proche, vous pouvez plutt employer tous les participants comme des parties potentielles mais il faut les pondrer diffremment selon leur degr de proximit (Heckman et d'autres, 1998).
Ensuite, toutes les variables dans le jeu des donnes qui sont ou pourraient tre des variables auxiliaires pour les indicateurs de la pauvret qui ont t utilises dans la slection des participants au programme PROSCOL devraient tre incluses. De nouveau, X doit comprendre les variables dans Z. Cela, cependant, rvle une faiblesse de l'harmonisation du score de propension. Avec l'harmonisation, X diffrent fournira une valuation diffrente d'impact. Avec la slection alatoire, l'exprience idale, les rsultats ne dpendent pas de quel X vous choisissez. La randomisation ne ncessite pas non plus que l'on spcifie un modle pour la participation ou d'une mesure de rgulation LOGIT ou autre. L'encadr 3.1 rcapitule les tapes suivre pour procder l'harmonisation du score de propension 52 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Apprendre les distorsions dues aux variables inobservables Mme aprs la formation du groupe de comparaison, l'analyste ne peut pas tre sr dobtenir une meilleure valuation de l'impact des programmes. Les mthodes dcrites ci-dessus limineront seulement la distorsion s'il y a l'indpendance conditionnelle, telle que les dterminants inobservables de la scolarisation non-compris dans le champ des variables de contrle X ne sont pas corrls avec le placement du programme. Il y a deux sources distinctes de distorsion, celles dues aux diffrences dans les variables observables et celles dues aux diffrences dans les variables non observables la dernire est souvent appele "distorsion de slection. L'encadr 3.2 traite de cette diffrence. Un rappel de la dernire quation du professeur montre que l'indpendance conditionnelle tiendra si P est exogne, donc E (? i X i' P i ) = 0. Cependant, le placement du programme endogne en raison du ciblage intentionnel bas sur des variables non observables laissera toujours une distorsion. Cela est parfois appel la slection des observables. Ainsi les conditions ncessaires pour justifier la mthode examine auparavant par l'conomiste ne sont pas moins restrictives que celles ncessaires pour justifier une version de la premire mthode base sur la comparaison des familles PROSCOL avec des familles non PROSCOL pour des mnages avec des valeurs semblables de X. Toutes les deux reposent sur la croyance que ces variables non observables n'influencent pas conjointement la scolarisation et la participation au programme, conditionne par X. Intuitivement, on pourrait penser qu'une harmonisation soigne rduit la distorsion mais il nen va pas ncessairement ainsi. L'harmonisation limine une partie de la distorsion dans la premire valuation brute de l'impact du PROSCOL. Cela laisse la distorsion due certaines ennuyeuses variables non observes. Cependant, ces deux sources de distorsion pourraient se compenser - une positive, l'autre ngative. Heckman et d'autres (1998) ont trait ce point. Donc lharmonisation de l'valuation pourrait bien avoir plus de distorsion que l'valuation premire. On ne peut pas savoir sur des bases prtablies de combien meilleure l'une est, mme avec un groupe de comparaison bien choisi, ce qui est une question empirique. Examiner ce qui pourrait avoir t fait avec une enqute de donne s de base Estimation de la diffrence double
L'analyste cherche savoir ensuite s'il y aurait une mthode autre que la slection alatoire qui peut contrecarrer ces non observables variables gnantes. Cela ncessiterait la collecte des donnes de base tant pour les participants que pour les non participants avant le dmarrage du PROSCOL. L'ide est que les donnes collectes sur les rsultats et leurs dterminants aussi bien avant qu'aprs que le programme ne fut introduit, avec des donnes pour un groupe de comparaison non trait aussi bien que le groupe de traitement. Il est alors possible de soustraire tout simplement la diffrence entre la scolarisation du groupe des participants et de groupe de comparaison avant le programme de la diffrence aprs le programme. APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 53
Encadr 3.2 Sources de distorsion dans les valuations premires de l'impact du PROSCOL
La distorsion dcrite par le statisticien est la diffrence attendue de la scolarisation sans PROSCOL entre des familles choisies le programme et celles qui n'ont pas t choisies. Cela peut tre rparti en deux sources de distorsion : Distorsion en raison des diffrences de caractristiques observables. Cela peut provenir de deux faons. D'abord, il ne peut pas y avoir de support commun. "Le support" est l'ensemble des valeurs des variables de contrle pour lesquelles les rsultats et la participation au programme sont observs. Si le support est diffrent entre l'chantillon de traitement et le groupe de comparaison alors cela biaisera les rsultats. En effet, on ne compare pas des choses de mme nature. Deuximement, mme avec le support commun ; la rpartition des caractristiques observables peut tre diffrente dans la rgion d'appui commun, en effet les donnes du groupe de comparaison sont mal pondres. Un choix judicieux du groupe de comparaison peut liminer cette sour ce de distorsion. Distorsion due aux diffrences dans les variables non observables. Le terme distorsion de slection est parfois limit seulement cette composante (quoique certains auteurs emploient ce terme pour la distorsion totale dans une valuatio n non exprimentale). Cette source de distorsion apparat quand, pour les valeurs donnes de X, il y a un rapport systmatique entre la participation au programme et les rsultats en l'absence du programme. Autrement dit, il y a des variables non observs qui influencent conjointement la scolarisation et la participation au programme conditionne par les variables observes dans les donnes.
Rien ne garantit que ces deux sources de distorsion fonctionneront dans la mme direction. Ainsi liminer l'une ou l'autre d'entre elles ne signifie pas en soi que toute la distorsion est rduite en valeur absolue. C'est une question empirique. Dans l'une des rares tudes qui traitent de cette question, le vrai impact, tel que mesur par une exprience bien conue a t compar avec des valuations non exprimentales varies (Heckman et d'autres 1998). La distorsion dans l'valuation premire tait norme, mais une harmonisation judicieuse du groupe de comparaison bas sur des variables observables a normment rduit les distorsions.
54 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
On lappelle lestimation de la "diffrence double" ou la "diffrence dans des diffrences". Cela traitera les variables non observes ennuyeuses pourvu qu'elles ne varient avec le temps. On peut lexpliquer en ajoutant des indices l'quation prcdente de telle sorte que la scolarisation aprs lintroduction du programme :
S ia = a + bP i + cX i a + ? i a
Avant le programme, dans l'enqute de base la frquentation scolaire est plutt
S ib = a + cX i b + i b
(Bien sr P = 0 avant que le programme ne soit initi). Les termes d'erreur comprenant un effet invariant de temps supplmentaire, ainsi nous pouvons les crire comme
? it = ? i + it (avec t = a,b)
o ? i est l'effet non variant de temps, ce que l'on peut corrler avec P i , et it est une erreur d'innovation, qui n'est pas corrle avec P i (ou X i ). L'ide essentielle ici est d'employer les donnes de base pour rvler ces problmatiques variables non observables. Remarquez que lorsque l'enqute de base est pour les mmes mnages que ceux que nous avons maintenant, le mnage i dans l'quation de S i a est le mme dans l' quation de S ib . Nous pouvons alors prendre la diffrence entre l'quation "aprs" et l'quation "avant".
S ia - S i b = bP i + c(X i a - X i b ) + i a - i b .
Il est maintenant possible de rgresser le changement dans la scolarisation sur la participation au programme et des changements de X. Les OMC vous donneront une valuation exacte de l'impact du programme. Les variables non observables - celles avec la participation au programme - ont t limines. Etant donn que si le placement du programme tait bas seulement sur des variables tant observes que non observes qui taient connues au moment de l'enqute, alors il serait raisonnable de supposer que les ?s ne changent pas entre les deux enqutes. Cela ncessiterait une bonne connaissance du programme aussi longtemps que les variables non observables problmatiques sont invariantes. Les changements dans la scolarisation au cours du temps pour le groupe de comparaison rvleront ce qui serait arriv au groupe de traitement sans le programme. Cela ncessiterait de bien connatre le programme et la capacit de chronomtrer les temps des enqutes d'valuation afin de les coordonner avec le programme. Autrement il subsistera vraisemblablement des variables non observs des changements aprs l'enqute de base qui influence celui qui
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 55
obtient un programme. Cela crerait 0s qui a chang entre les deux enqutes. Cette dernire quation peut tre interprte comme la signification que l'enfant et les caractristiques des mnages dans X sont sans rapport avec le changement dans la scolarisation, si ces caractristiques ne changent pas dans le temps. Mais le gain dans la scolarisation peut dpendre de l'ducation des parents (et non juste quelque changement dans leur ducation), et probablement de l'endroit o vit le mnage, parce que cela dterminerait l'accs aux coles. Il peut aussi y avoir des situations dans lesquelles les changements dans le temps de l'indicateur de rsultat sont sous l'influence des conditions initiales. Alors on voudra aussi contrler pour des diffrences dans les conditions initiales. Cela peut se faire en ajoutant simplement X a
et X b dans la rgression sparment pour que la rgression prenne la forme :
S ia - S ib = bP i + c a X i a + c b X ib + i a - i b .
Mme si certaines (toutes les) variables dans X ne varient pas dans le temps on peut toujours permettre X d'affecter les changements dans le temps de la scolarisation. Le score de propension correspondant la mthode traite ci-dessus peut aider assurer que le groupe de comparaison est semblable au groupe de traitement avant de faire la double diffrence. Dans une tude intressante d'un programme d'emploi amricain, il a t constat que la dfaillance assurer que les comparaisons avaient t faites dans une rgion d'appui communautaire tait une source principale de distorsion dans l'valuation de la double diffrence en comparaison d'un groupe tmoin alatoirement slectionn. Dans la rgion d'appui communautaire, cependant, la distorsion conditionne par X n'a pas vari beaucoup dans le temps. Ainsi, il a du sens de prendre la double diffrence aprs que l'harmonisation a t faite (voir Heckman et d'autres 1998). Cependant, en pratique, le suivi des mnages dans des enqutes peut tre difficile. Il peut ne pas tre facile de trouver tous les mnages qui ont t l'origine inclus dans l'enqute de base. Certaines personnes qui ont particip l'enqute de base peuvent ne pas vouloir tre interviewes de nouveau ou elles peuvent s'tre dplaces vers un endroit inconnu. Si les abandons au sein de l'chantillon sont purement alatoires, l'enqute complmentaire sera toujours reprsentative de la mme population que dans l'enqute de base. Cependant, il y a problme lorsquil y a quelque tendance systmatique pour des gens ayant certaines caractristiques abandonner l'chantillon. Ceci est appel la "distorsion d'usure". Par exemple PROSCOL pourrait aider quelques familles pauvres avoir un meilleur logement. Et mme, quand le choix du participant tait seulement bas sur l'information disponible ou autour de la date de dpart des donnes de base (effet invariant du temps 0 i ), les participants slectionns peuvent bien partir volontairement sur la base de changements aprs cette date. Une telle usure du groupe de traitement biaisera nettement une valuation d'une diffrence double de l'impact du programme. Lencadr 3.3 souligne les tapes pour raliser une double diffrence.
56 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Encadr 3.3 Raliser une diffrence double
La mthode de diffrence double entrane la comparaison d'un groupe de traitement avec un groupe de comparaison (comme cela pourrait idalement tre dtermin par la mthode de l'harmonisation dans l'encadr 3.2) tant avant qu'aprs l'intervention. Les principales tapes sont les suivantes : Etape 1 : Vous avez besoin d'une enqute de base avant que l'intervention ne soit mise en place et l'enqute doit couvrir tant des non participants que des participants. Si vous ne savez pas qui participera l'enqute, vous devez faire une supposition avise. Parlez aux administrateurs du programme. Etape 2 : Vous avez alors besoin d'une ou plusieurs enqutes complmentaires aprs la mise en place du programme. Celle-ci doit tre trs comparable aux les enqutes de base (en termes de questionnaire, d'interview et ainsi de suite). Idalement, les enqutes complmentaires doivent avoir les mmes observations dchantillons que l'enqute de base. Si ce n'est pas possible, alors elles doivent tre des mmes groupes gographiques ou strates en termes de certaines autres variables. Etapes 3 : Calculez la diffrence moyenne entre les valeurs antrieure et postrieure de l'indicateur du rsultat pour chacun des groupes de comparaison et de traitement. Etape 4 : Calculez la diffrence entre ces deux diffrences moyennes. C'est votre estimation de l'impact du programme. C'est la version la plus simple de la diffrence double. Vous pouvez aussi faire un contrle des diffrences de conditions initiales exognes ou des changements de variables exognes, permettant probablement des effets d'interaction avec le programme (pour que le gain de l'intervention soit fonction des variables observables). Un modle de rgression appropri peut permettre ces variations.
Utilisation des variables instrumentales
Etant donn quil ny a aucune enqute de base sur les mmes mnages pour faire la mthode de diffrence double, le professeur recommande une autre mthodologie pour obtenir une valuation consistante pour les variables non observables gnantes - une variable instrumentale . Une variable instrumentale est la solution classique pour le problme de rgression endogne. Une variable instrumentale est une source observable de variation exogne dans la participation au programme. Autrement dit, elle est
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 57
corrle avec P mais nest pas dj dans la rgression pour la scolarisation et nest pas corrle avec le terme der reur dans lquation de scolarisation e. Donc il faut avoir au moins une variable dans Z qui nest pas dans X et nest pas corrle avec e. Alors lestimation des variables instrumentales de limpact du programme est obtenue en remplaant P avec sa valeur prvue conditionne par Z. Parce que cette valeur prvue dpend seulement de Z (qui est exogne) et que Z est non corrl avec e il est maintenant raisonnable dappliquer les OMC cette nouvelle rgression. Puisque les valeurs prvues dpendent seulement de la variation exogne en raison de la variable instrumentale et des autres variables exognes, les variables non observables ne sont pas ennuyeuses parce quelles ne seront pas corrles avec le terme derreur dans la rgression de la scolarisation. Cela suggre aussi une autre faon, plus efficace, de traiter le problme. Il faut se rappeler que la source de distorsion dans lvaluation prcdente de limpact du programme tait la corrlation entre le terme derreur dans lquation de scolarisation et celui dans lquation de participation. Cest ce qui cre la corrlation entre la participation et le terme derreur dans lquation de scolarisation. Ainsi une faon naturelle de se dbarrasser du problme quand on a une variable instrumentale est dajouter les rsidus de lquation de ltape premire de la participation lquation de la scolarisation mais en gardant la participation relle dans la rgression de la scolarisation. Cependant, puisque nous avons maintenant ajout la rgression de la scolarisation la valeur estime du terme derreur de lquation de la participation, il est possible de traiter la participation comme exogne et diriger les OMC. Ceci marche seulement sil y a un instrument valable. Sinon la rgression ne permettra pas destimer parce que la participation rsiduelle sera parfaitement prvisible partir de la participation relle et de X dans un modle linaire. Une variable instrumentale peut aussi aider sil y a une erreur de mesure apprciable dans les donnes de la participation au programme, une autre source possible de la distorsion. Lerreur de mesure signifie quil y a la possibilit que la participation au programme varie plus quelle ne lest en ralit. Cette surestimation dans P mne naturellement une sous-estimation de son coefficient b. Ceci est appel attnuation de distorsion parce que cette distorsion attnue le coefficient de rgression. Bien quune variable instrumentale puisse tre extrmement utile, en pratique il est ncessaire dtre prudent. Quand la participation relle est tout juste remplace par sa valeur prvue et que les OMC sont mens, cela nindiquera pas les vraies erreurs standard parce que lordinateur ne saura pas que des paramtres prcdemment estims devraient tre utiliss pour obtenir les valeurs prvues. Une correction des erreurs standard des OMC est ncessaire quoi quil y ait les outils statistiques qui permettent de le faire facilement, du moins pour des modles linaires. Sil y avait une variable dpendante, cependant , qui pourrait seulement prendre une valeur possible, lcole ou pas lcole par exemple, alors on devrait employer un modle de rponse binaire non linaire, comme le modle probit ou de rgulation LOGIT. Le principe
58 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PEUVRETE
de contrle de lexognit de la participation au programme est semblable dans ce cas. Il y a une documentation par Rivers et Vuong (1988) qui traite le problme pour de tels modles ; Blundell et Smith (1993) fournissent une vue densemble utile de divers modles non linaires dans lesquels il y a un rgresseur endogne.
Tester les mthodologies
Quand lanalyste commence rflchir lidentification dune variable instrumentale, elle se rend compte que ce nest pas un processus facile. Chaque possibilit quelle a invente pourrait aussi tre associe aux variables dans X. Le problme consiste trouver une restrictiondexclusion valable qui justifie linclusion de quelques variables dans lquation de la participation mais pas dans celle de la scolarisation. Lanalyste dcide dessayer la mthode de lharmonisation du score de propension. Le modle LOGIT de la participation semble tout fait sensible et suggre que PROSCOL soit bien cibl. Pratiquement toutes les variables que lon sattendait voir associes la pauvret ont des coefficients positifs et significatifs. Lanalyste ralise alors lharmonisation du score de propension. Dans une comparaison des taux moyens dinscription scolaire harmoniss, les rsultats montrent que les enfants du groupe de la comparaison- harmonise avait un taux dinscription de 60 pour cent par rapport 80 pour cent pour des familles PROSCOL. Tenant compte de la question de revenu prvu, lanalyste fait appel une enqute existante sur le travail denfant qui a interrog sur leurs revenus. (Dans ce pays en dveloppement, il y a une interdiction officielle du travail des enfants avant lge de 16 ans, mais le gouvernement arrive difficilement mettre en application cette interdiction ; nanmoins les revenus du travail des enfants sont une question sensible). A partir de cette enqute, les gains quun enfant aurait faits si il ou elle ntait pas parti lcole peuvent tre dtermins. Il est alors possible de soustraire du paiement comptant du PROSCOL aux participants la somme du revenu prvu et mettre ainsi au point le transfert du revenu net. En soustrayant ce transfert net du revenu total, il est possible de localiser do viennent les participants PROSCOL la rpartition du revenu pr-intervention. Ils ne sont pas tout fait aussi pauvres que nous les avons imagins de prime abord (ignorant le revenu) mais ils sont toujours pauvres ; par exemple, les deux tiers dentre eux vivent en dessous du seuil de pauvret officiel du pays. Ayant calcul le revenu net de tous les participants, il est maintenant possible de calculer le taux de pauvret avec et sans PROSCOL. Le taux de pauvret aprs intervention (avec le programme) est simplement expos, la proportion de la population vivant dans des mnages avec un revenu par personne en dessous du seuil de pauvret, o le revenu est le revenu observ (incluant les recettes) des transferts bruts de PROSCOL. Ceci peut tre calcul directement partir de lenqute sur les mnages. En soustrayant le gain de revenu net des transferts montaires de PROSCOL moins le revenu attendu du travail des enfants attribu PROSCOL
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 59
de tous les revenus observs, les rsultats indiquent une nouvelle rpartition des revenus avant intervention. Le taux de pauvret sans le programme est alors la proportion des gens vivant dans des mnages pauvres bass sur cette rpartition. Lanalyste constate que le taux de pauvret observ dans le Nord-Ouest de 32 pour cent aurait t 36 pour cent si PROSCOL navait pas exist. Le programme permet 4 pour cent de la population dchapper maintenant la pauvret. Les gains en scolarisation signifient quil y aura aussi des gains tant pcuniaires que non pcuniaires chez le pauvre lavenir. Dans le processus de mesure de la pauvret, lanalyste se rappelle la leon que la proportion des gens en dessous du seuil de pauvret est seulement une mesure de base parce quelle ne nous dit rien des changements au dessous de la ligne (voir encadr 3.4). Elle calcule ensuite aussi bien lindice dcart de pauvret que lindice dcart de pauvret relev et les rsultats suggrent que celui-ci a aussi chut suite PROSCOL.
Encadr 3.4 Mesures de la pauvret
La mesure de pauvret la plus simple et la plus frquente est lindice de recensement. Dans ce cas, cest la proportion de la population vivant dans des mnages avec le revenu par personne en dessous du seuil de pauvret. (Dans dautres pays, cest une mesure base de consommation, qui prsente quelques avantages ; pour le trait et les rfrences, voir Ravallion 1994). Lindice du recensement ne nous dit rien de la rpartition des revenus en dessous du seuil de pauvret : une personne pauvre peut tre dans une situation pire mais lindice du recensement ne changera pas, il ne refltera pas non plus des gains parmi les pauvres moins quils ne franchissent le seuil de pauvret. Une alternative trs utilise de lindice du recensement est lindice dcart de pauvret (IEP). Lcart de pauvret pour chaque mnage est la diffrence entre le seuil de pauvret et le revenu du mnage ; pour ceux au-dessus du seuil de pauvret, lcart est de zro. Quand lcart de pauvret est normalis par le seuil de pauvret et on calcule sa moyenne pour tous les mnages (pauvre ou non), on obtient lindice de lcart de pauvret. Lindice dcart de pauvret donne le degr de limpact que le programme a eu sur la gravit de la pauvret mais il ne refltera pas les changements de la rpartition parmi les pauvres dus au programme. Par exemple, si le programme entrane un petit gain une personne pauvre qui est au-dessus du revenu moyen du pauvre, en compensation dune perte gale pour quelquun au-dessous de cette moyenne, alors lindice dcart de pauvret ne changera pas. (Lencadr continue sur la page suivante)
60 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Encadr 3.4 (suite)
Il y a diverses mesures distribution-sensible qui reflteront de tels changements de la distribution parmi les pauvres. Une telle mesure est lcart de pauvret relev (Foster, Greer, et Thorbecke 1984). Ceci est calcul de la mme manire que lindice dcart de pauvret sauf que les carts de la pauvret individuels comme proportion du seuil de pauvret sont relevs avant de prendre la moyenne (de nouveau tant sur les pauvres que les non-pauvres). Un autre exemple dune mesure de pauvret distribution sensible est lindice de Watts. Cest la moyenne circulaire du ratio du seuil de pauvret par rapport au revenu, o ce ratio est fix 1 pour le non- pauvre. Atkinson (1987) dcrit dautres exemples dans lexpos.
Dans ce calcul, lanalyste reconnat aussi quil y a quelques incertitudes relatives au seuil de pauvret du pays. Pour tester les rsultats, elle rpte le calcul sur une grande gamme de seuils de pauvret, constatant que sur un seuil de pauvret pour lequel 50 pour cent de la population sont pauvres quand on se base sur les revenus observs aprs intervention, la proportion aurait t de 52 pour cent sans PROSCOL. Sur un seuil de pauvret que 15 pour cent narrivent pas atteindre avec le programme, la proportion aurait t de 19 pour cent sans cela. En rptant ces calculs sur la gamme entire des revenus, lensemble des courbes dincidence de la pauvret a t trac avec et sans le programme. Il est aussi appel la fonction de la distribution cumulative (voir encadr 3.5).
Encadr 3.5 Comparaison de la pauvret avec ou sans le programme
En utilisant les mthodes dcrites dans le texte principal et les encadrs prcdents, on obtient une estimation du gain pour chaque mnage. Dans les valuations les plus simples, cela constitue juste un chiffre. Mais il est mieux de le laisser varier avec les caractristiques du mnage. On peut alors rcapituler cette information en forme de courbes dincidence de la pauvret (CIP), avec et sans le programme. Etape 1 : Le revenu aprs intervention (ou un autre indicateur du bien tre) pour chaque mnage dans lchantillon global (comprenant tant des participants que des non-participants) doit dj exister ; ce sont des donnes. Vous savez aussi le nombre de personnes qui sont dans chaque mnage. Et bien sr,
vous connaissez le nombre total des personnes dans lchantillon (N ; ou cela pourrait tre la taille de la population estime si des taux dchantillonnage inverses ont t utiliss pour puiser chaque observation de lchantillon). Etape 2 : Vous pouvez tracer cette information en forme de CIP. Cela donne (sur laxe des ordonnes) le pourcentage de la population vivant dans des mnages avec un revenu moindre ou gal cette valeur sur laxe des abscisses. Pour faire ce graphique, vous pouvez commencer par le mnage le plus pauvre, marquer son revenu sur laxe des abscisses et augmenter sur laxe des ordonnes 100 fois le nombre des gens dans ce mnage divis par N. Le point suivant est la proportion des personnes vivant dans les deux mnages les plus pauvres, etc. Cela donne la CIP post intervention. Etape 3 : Calculez maintenant la distribution des revenus pr- intervention. Pour lobtenir, il faut soustraire le gain estim pour chaque mnage de son revenu post intervention. Vous avez alors une liste de revenus post intervention, une pour chaque mnage chantillonn. Rptez ensuite ltape 2. Vous aurez alors la CIP de pr- intervention. Si nous considrons un niveau de revenu donn sur laxe des abscisses comme un seuil de pauvret, donc la diffrence entre les deux CIP ce point donne limpact sur lindice de recensement pour ce seuil de pauvret (encadr 3.4). Alternativement, un regard horizontal vous donne le revenu correspondant ce centile. Si aucun des gains nest ngatif alors la CIP post intervention doit se situer en dessous de celle de pr- intervention. La pauvret aura baiss peu importe la ligne de pauvret employe. En effet cela tient aussi pour une trs large classe de mesure de pauvret ; voir Atkinson (1987). Si quelques gains sont ngatifs donc les CIP se croiseront. La comparaison de la pauvret est alors ambigu ; la rponse dpendra de quelles lignes de pauvret et de quelles mesures de pauvret on utilise (pour un expos approfondi voir Ravallion 1994). Vous pourriez alors employer des restrictions a priori de la gamme de seuils de pauvret admissibles. Par exemple, vous pouvez tre confiant que le seuil de la pauvret nexcde pas nimporte quelle valeur maximale et si lintersection arrive au-dessus de cette valeur, la comparaison de la pauvret est alors ambigu. Si le point dintersection (il peut en avoir plus dun) est en dessous du seuil de pauvret admissible maximal, donc une solide comparaison de la pauvret est seule possible pour un jeu limit de mesures de la pauvret. Pour vrifier comment le jeu doit tre limit, vous pouvez calculer les courbes de profondeur de pauvret (CPP). Celles ci sont obtenues en formant simplement la somme cumulative en haut de chaque point sur la CIP. (Donc le deuxime point sur la CPP est le premier point sur la CIP plus le deuxime point, etc.).
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 61
62 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Encadr 3.5 (suite)
Si les CPP ne se croisent pas alors limpact du programme sur la pauvret est sans quivoque tant que lon limite lattention lindice de lcart de pauvret ou nimporte laquelle des mesures de la pauvret ou de la distribution sensible dcrite lencadr 3.4. Si les CPP se croisent alors vous pouvez calculer les courbes de svrit de la pauvret avec ou sans le programme en formant les sommes cumulatives sous les CPP. Si celles-ci ne se croisent pas au-dessus de la gamme des seuils de pauvret admissibles, donc limpact sur nimporte laquelle des mesures de la pauvret distribution sensible dans lencadr 3.4 est sans quivoque.
Incorporation des donnes du terrain
Dans la mise en uvre de chaque programme, le point de vue des bnficiaires et des administrateurs du programme peut tre reflt dans les donnes du programme. Par exemple, dans ce cas la perception de ceux qui travaillent sur le terrain est que la majorit des familles PROSCOL est pauvre et que le programme est en effet utile. Quand lanalyste le discute avec un sociologue travaillant avec le programme, elle se rend compte de lincertitude dans la ralit du manque gagner et de la question de travail. Le sociologue discute le fait que sur le terrain on observe beaucoup denfants de familles pauvres qui travaillent aussi bien quils vont lcole et que certains des enfants plus jeunes qui ne sont pas lcole ne semblent pas travailler. Lanalyste se rend compte que cela ncessite quelques vrifications pour savoir sil y a quelque diffrence entre la quantit du travail denfants fournie par des enfants PROSCOL et celle fournie par un groupe de comparaison harmonis. Ces donnes, cependant, ne sont pas disponibles dans lenqute sur les mnages quoi quil soit possible de prsenter les rsultats avec et sans la dduction pour le revenu attendu.
Le sociologue a aussi remarqu que pour quune famille accde PROSCOL, cela dpendra du secteur du conseil scolaire (SCS) o la famille vit importe peu. Tous les secteurs obtiennent une allocation PROSCOL du centre (SCS), mme les SCS qui ont trs peu de familles pauvres. Si on est pauvre mais vivant dans un SCS ais, on a probablement plus de chance dobtenir de laide du PROSCOL que lorsquon vit dans un pauvre SCS. Ce qui importe vraiment donc est la pauvret relative aux autres dans le secteur o lon vit quimporte beaucoup plus que le niveau absolu de vie.
Cette allocation influencerait la participation au PROSCOL mais on ne sattendrait pas ce que cela compte pour la scolarisation, qui dpendrait
APPLICATION DE METHODES ANALYTIQUES POUR L'EVALUATION D'IMPACT 63
plus du niveau absolu de vie, des conditions de famille et caractristiques de lcole. Ainsi lallocation du budget PROSCOL travers les SCS peut tre employes comme variable instrumentale pour supprimer la distorsion dans les valuations dimpact du programme. Il y a linformation sur le secteur (SCS) auquel chaque mnage appartient dans lenqute sur les mnages, les rgles employes par le centre dans lallocation PROSCOL des fonds travers les SCS et combien le centre a allou chaque SCS. Les allocations de fonds sont bases sur le nombre denfants dge scolaire avec un facteur dajustement pour le degr de pauvret o le secteur est sens tre. Cependant la rgle est quelque peu vague.
Lanalyste essaye de prendre ces points en considration et reprend la rgression pour la scolarisation mais en remplaant la participation relle au PROSCOL par sa valeur prvue (le score de propension partir de la rgression pour la participation qui inclut maintenant lallocation du budget au SCS. Cela aide voir dj autant de caractristiques scolaires que possible dans la rgression pour lassid uit). Bien que les caractristiques scolaires ne semblent pas importer officiellement pour la faon dont les ressources PROSCOL sont alloues, toutes caractristiques scolaires omises qui influencent conjointement les allocations PROSCOL par le SCS et les rsultats de scolarisation individuels laisseront une distorsion dans les estimations de variables instrumentales de lanalyste. Bien quil y ait toujours la possibilit de distorsion, avec beaucoup de variables de contrle gographiques, cette mthode doit au moins offrir un lment de comparaison crdible pour lharmonisation de lestimation.
A partir des rsultats, il est dtermin que lallocation du budget au SCS a en effet un coefficient positif, significatif dans la rgression LOGIT pour la participation au PROSCOL maintenant (prvue). La participation au PROSCOL est significative dans une rgression pour linscription scolaire dans laquelle toutes les mmes variables de la rgression LOGIT sont incluses sauf lallocation budgtaire au SCS. Le coefficient implique que le taux dinscription est de 15 points en pourcentage plus lev pour les participants au PROSCOL que cela naurait autrement t le cas. Une rgression est aussi ralise pour les annes de scolarisation des garons et des filles sparment. Aussi bien pour les garons que pour les filles de 18 ans, les rsultats indiquent quils auraient abandonn lcole presque 2 ans plutt sans lintervention du PROSCOL. Cette rgression, cependant, soulve des questions, savoir si les bonnes erreurs standards vont tre utilises et si des modles linaires devaient tre employs.
Planification du travail futur
Finalement, lanalyste est prte publier les rsultats des valuations. Ils montrent que PROSCOL fonctionne tout fait bie n et en consquence, les dcideurs manifestent leur lintrt pour une extension du programme. Du processus par lequel lanalyste est passe pour lexcution de lvaluation, ressortent quelques observations importantes. 64 EVALUATION DE LIMPACT DES PROJETS DE DEVELOPPEMENT SUR LA PAUVRETE
Lvaluation dimpact peut tre beaucoup plus difficile que prvu Il est possible daboutir une gamme destimations proccupantes selon les dtails de la mthodologie employe. Il est bon demployer des mthodes alternatives dans les situations frquentes de donnes peu satisfaisantes, bien que chaque mthode un pige ; et . On doit tre clectique au sujet des donnes.
En plus des leons que lanalyste a tires, elle a quelques recommandations cls pour le travail dvaluation future de PROSCOL. Dabord, il serait souhaitable dexclure de faon alatoire quelques familles PROSCOL ligibles dans le reste du pays et de faire ensuite une enqute complmentaire tant sur les participants rels que sur ceux alatoirement exclus de la participation. Cela donnerait une valuation plus prcise des bnfices. Ce serait cependant politiquement sensible dexclure certains. Cependant si le programme na pas assez de ressources pour couvrir tout le pays en une fois, et que le programme ait choisir les premiers participants, il serait en effet prfrable de faire cette slection alatoirement, parmi les participants potentiels. Alternativement, il serait possible de choisir les coles ou des secteurs scolaires alatoirement, dans la premire vague. Une cole ou un secteur scolaire serait une bonne variable instrumentale pour le placement du programme individuel. Deuximement, si ce nest pas faisable, il est recommand deffectuer une enqute de base dans les secteurs o il y aurait dimportantes concentrations de participants au PROSCOL avant le dmarrage du programme au sud. Cela pourrait tre fait en mme temps que la prochaine tape de lenqute nationale qui a t utilise pour valuer le programme PROSCOL. Il serait aussi bon dajouter quelques questions lenqute sur le travail rmunr des enfants. Et troisimement, il serait utile dinclure un travail qualitatif qui aidera formuler des hypothses tester et qui permettraient dvaluer la plausibilit des hypothses cls faites dans lanalyse quantitative.
Note
1. Se rfrer Heckman, Lalonde, et Smith (1999), et Abadie, Angrist, et Imbens(1998) pour lexpos sur les effets de traitement quartiles.