97 01 Champ Entrepreneuriat

Introduction à l’économétrie
appliquée sous STATA

Mémoire de politiques du développement
Master 1
Olivia Bertelli– Victoire Girard
Février 2014
Plan de la séance
• Introduction: statistique et économétrie,

quelques définitions
• 1. Visualisation des données (graphiques)
• 2. Exploration des données: statistiques
descriptives
• 3. Modélisation: économétrie linéaire
• Conclusion: autres modèles rencontrés dans la
littérature 2
INTRODUCTION:
Statistique et économétrie,
quelques définitions
3
Statistique: quelques définitions
La statistique, c’est l’art de collecter les données, de les

organiser, de les décrire et de faire des projections pour
expliquer ou prévoir.
Les méthodes statistiques sont l’ensemble des outils

qui permettent d’analyser des faits représentés par des
données.
4
Démarche en statistique
• John Wilder TUKEY (1915-2000):

– 1977: exploratory data analysis.
– 1980: “We need both exploratory
and confirmatory statistics.”
Analyse des données
Analyse exploratoire Analyse confirmatoire

des données des données
idées/découverte vérifier des hypothèses/confirmer
5
Rappel: distinction théorique-
empirique
• La recherche en économie repose sur deux
piliers :
– la production de théories visant à expliquer la
réalité
• modélisation des phénomènes étudiés (choix,
interactions) avec les outils de la microéconomie et
de la macroéconomie
– l'étude de la validité de ces théories lorsqu'on
les confronte aux données réelles
• étude des prédictions théoriques sur données
6
statistiques
Démarche en statistique
Définir une problématique
Question 
 Elaborer un questionnaire
 Choisir une méthode de sondage
 Tirer un échantillon
Phase
préparatoire  Recueillir des informations
 Chiffrer, saisir des questionnaires
 Contrôler
 Corriger
Collecte
 Recoder des variables
Analyse  Elaborer des tableaux (moyennes,
corrélations,…)
 Mettre à l’épreuve des hypothèses
 Modéliser
 Utiliser une règle de décision
Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne

donnent jamais une réponse exacte au 100%. Vous êtes en
mesure de fournir des résultats moyens avec un certain niveau de
certitude.
7
Définitions
● Une variable aléatoire est une application qui associe

une information simple (observation) à un événement
particulier.
● Un échantillon est un ensemble fini d’observations.
● La distribution d’échantillonage d’une variable

aléatoire G est la distribution des différentes valeurs
que peut prendre G, pour les différents échantillons
d’effectif fixé qu’il serait possible d’extraire de la
population.
8
Types de variables
VARIABLES
Qualitatives Quantitatives
Nominales Ordinales Intervalle Ratio

Ex: sexe Ex: opinion Ex: température Ex: revenu
Données Catégorielles Discrètes ou Continues
Si Recodage en tranches
9
Types de données (ensemble
d’observations)
• Soit N le nombre d’individus et T le nombre de
périodes:
1. Si T=1 et N>1: Cross-section: transversal (même
année ‘à travers’ les individus)
2. Si N>1 et T>1 et N_i=N_i(t+1): Time series:
longitudinal (mêmes individus à travers les
années)
3. Si T>1 et N>1 et N_i≠N_i(t+1): : Time series:
cross-section
10
Types de données
• Exemples de format de base de données en

panel: Format Long Format Large
Id Time Var1 Var1- Var1-
Id 2000 2001 …
1 2000 140
1 140 120 …
1 2001 120
2 130 110 …
2 2000 130
… … … …
2 2001 110
… … …
L’analyse et la modélisation économétrique que vous

choisirez dépendra en partie de la nature des variables
et du type de données dont vous disposerez.
11
Stata:
créer sa base de données et
l’observer
• Commode de partir d’un fichier excel qu’on copie et colle
dans un fichier .dta de Stata
• Quelques commandes pour observer la base de données
– edit
– list
– describe
• Pour nommer des variables: label
• Pour générer des variables: gen
12
1. Visualisation des données:
graphiques
13
La « boite à moustaches »
outliers
max
4ème quart
Q3
médiane
Q1 1er quart
min
graph box gdp_capita
14
Histogrammes
histogram gdp_capita, percent title ("Histogramme")
15
Nuage de points
graph twoway scatter opennessrate gdp_capita

16
2. Exploration des données:
statistiques descriptives
17
Expliquer une variable DEPENDENTE
(Y) par des variables INDEPENDENTES
(X)
coefficient
Terme
paramètre d’erreur
intercepte
18
Terminologie
Source: Wooldridge (2003)

19
Les commandes classiques
– summarize <variables>: pour des variables numériques,

donne (nbre obs, moy, écart-type, min, max)
– tabulate <nom d’une variable>: donne le tri à plat de

la variable (fréquence et % par modalité)
– tabulate <nom de 2 variables>, ro col: donne le

tableau croisé, les % lignes, les % colonnes, et le test
d’indépendance du chi2.
– correlate <variables> : donne la matrice des coefficients

de corrélation
20
La corrélation (1)
y y y
. . . .. . .
. . . . .. . . . .
... . . .. . .
.. . . . . ..
.. . . . .
. .. . . . . ..
. . ... .. .. . . . .
. . . .
.
x x x
Corrélation Corrélation Corrélation

positive négative parfaite
21
La corrélation (2)
y y
. . .
.. .. . . .
. .. . .
. .. . . . . .. . .
. .. . . . . .. . . . .
. .. . . . . .. . . . . . .
x x
Absence de
Corrélation
y y .
. . . . .
. .
.. . . . .
. . .
.
. . . .
x x
Corrélation forte Corrélation faible

22
Calcul du coefficient de
corrélation linéaire
• La représentation graphique ne donne qu’une
impression.
• Pour avoir une idée précise de l’intensité de la
liaison on calcule le coefficient de corrélation
linéaire simple (compris entre -1 et 1):
r
 ( X  X ).(Y  Y )
 
2
( X  X )  (Y  Y ) 2
23
Exemples
24
Limites du coefficient de
corrélation
• Dans la pratique r est rarement proche de -
1, 1 ou 0 :
– Il est donc difficile de proposer une
interprétation fiable à la simple lecture du
coefficient surtout en économie où les variables
sont toutes plus ou moins reliées entre elles.
– Il n’est calculé que sur un échantillon
• La théorie des tests statistiques (t de
Student empirique) nous permet de lever
cette indétermination:
– Sous STATA: pwcorr <variables>, sig
25
Limites du coefficient de
corrélation
 La relation testée est linéaire.

Pour pallier cette limite, on peut transformer
les variables
 Corrélation ne veut pas dire causalité:

« corrélations fortuites ». La modélisation permet
d’aller plus loin.
26
Correlations folles:
http://www.tylervigen.com/
r=
0.992
r=
0.947
27
3. Modélisation:
économétrie linéaire
28
Le rôle de l’économétrie
L’économétrie rassemble l’ensemble des outils statistiques

de validation des théories économiques.
L’économétrie est aussi un outil d’investigation.
29
Recherche de liaisons
X X
Intervalle/ Ordinale/
Ratio Nominale
Y Intervalle/Ratio Régression Analyse de
linéaire variance (Anova)
Y Ordinale/Nominale Régression Régression

logistique/probit logistique/probit
30
La régression linéaire
La régression linéaire se classe parmi les méthodes

d’analyses multivariées qui traitent des données
quantitatives.
C'est une méthode d'investigation sur données

d'observations, ou d’expérimentations, où l'objectif
principal est de rechercher une liaison linéaire entre
une variable Y quantitative et une ou plusieurs variables
X également quantitatives.
31
Expliquer
• Problème:
– Y et =[X1,…,Xn] sont des variables aléatoires.
– Nous disposons d’observations de Y et de .
– On souhaite étudier comment  permet d’expliquer Y.
• On peut chercher à approcher E(Y| =[X1,…,Xn] )

– En se cantonnant à des fonctions linéaires par rapport aux
paramètres: économétrie linéaire
– En utilisant des fonctions non linéaires par rapport aux
paramètres: économétrie non linéaire
– En n’imposant pas de contraintes paramétriques (on ne fait plus
d’hypothèse sur la distribution des résidus): économétrie non
paramétrique 32
• C’est la méthode la plus utilisée pour deux
raisons majeures :
– c’est une méthode ancienne,
– c’est l'outil de base de la plupart des
modélisations plus sophistiquées.
• Rappel: On recherche la droite affine qui
passe au plus près de l’ensemble des points.
• Ceci nous permet d’avoir une idée de la
relation linéaire qui existe entre deux ou 33
34
• Comment trouver la droite qui passe au plus près des
points?
– Critère d’ajustement: le critère des moindres carrés.
– Pourquoi?
• Pour des raisons de simplicité de calcul.
• Pour les propriétés de l’estimateur des moindres carrés.
35
36
La régression linéaire: tableau
d’analyse de la variance
Non expliqué par le modèle
Expliqué par le modèle
37
Exemple: The Phillips Curve
Données1958–1969 (USA) suggèrent un
trade-off entre inflation et chomage.
Unemploymentt  0.06 - 0.55·Inflationt
ˆ0  0.06
ˆ1  0.55
38
Exemple: The Phillips Curve (cont.)
Unemploymentt  0.06 - 0.55·Inflationt
• Comment les interpréter?
• Si l’inflation est 0, le chômage augmente de 0.06
points de pourcentage.
• Si l’inflation augmente de 1 points de
pourcentage le chômage diminue de 0.55 points
de pourcentage.
39
U.S.A. Chomage et Inflation, 1958–1969
40
Transformation en log et interprétation
log(Y )  0  1 ·log(X)  
• Le coefficient estimé ne dit plus l’effet d’un
changement d’une unité de X sur Y.
Il montre le changement unitaire de log(X) on log(Y).
• Les changements unitaires de log-X se traduisent en
changement de pourcentage de X.
41
Exemple: The Phillips Curve
• Si chômage et inflation sont en forme
logarithmique, on prédit le changement de
pourcentage de chômage déterminé par un
changement de l’1% de l’inflation
• Attention! Les changements de pourcentage ne
son pas linéaires:
– Si l’inflation augmente de 0.01 a 0.02 =>100%
augmentation
– Si l’inflation augmente de 0.02 a 0.03 => 50%
augmentation
42
Figure 4.6 A Logarithmic Phillips Curve
6-43
Transformation en log et interprétation

44
Correlation ou causalité?
• OLS ne va pas donner une relation causale si:
– Variables manquantes (omitted variables bias)
– Causalité inverse
– Erreur de mesure
• Pour s’approcher d’une relation causale:
– Données Panel => séquence temporelle et effets
fixes
– Variation exogène
– Eviter données qualitatives (bien-être)
45
CONCLUSION:
l’économetrie comme utile pour
mieux comprendre les
phénomènes empiriques
46
Dans votre analyse:
• Bien définir la régression d’interet
• D-stat des variables: trends, means-test
• Pourquoi juste de la corrélation et pas de la
causalité? Pourquoi de la causalité?
• Interprétation des coefficients estimés:
direction et magnitude de l’effet
47
Merci!
NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et
SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils
économétriques).
A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous.
Olivia.bertelli@ehess.fr
48
ANNEXES
49
Biais possibles de variables omises

50
Autres transformations possibles
51
La régression linéaire: tableau
d’analyse de la variance
52
La régression linéaire:
Estimation et inférence.
• Jusqu’ici aucune supposition n’était nécessaire.
• Si on veut utiliser les résultats obtenus sur l’échantillon
pour inférer sur la population, il faut faire appel à des
notions de probabilité et de statistique.
• Pour cela, changement de point de vue:
– Il n’y a plus une valeur unique associée à une valeur Xi mais une
distribution de valeurs. Yi est une variable aléatoire qui a une
distribution de probabilité p(Yi|Xi)
– Le résidu observé n’est qu’une estimation de l’erreur
inobservable.
• La régression linéaire suppose que les E(Yi|Xi) sont alignés
sur la vraie droite de régression qui est inconnue.
53
Rappel sur les Estimateurs MCO:
Hypothèses (1)
Hypothèses du modèle de régression multiple en cross-section
(Wooldridge (2003)):
H1: On raisonne en supposant que le modèle linéaire postulé est le
véritable modèle dans la population.
Y = 0 + 1 X1 + … + k Xk +  (=erreur)
H2: Nous disposons d’un échantillon aléatoire de n observations de
coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit
en H1.
H3: L’espérance mathématique de l’erreur est nulle: en moyenne le
modèle est bien spécifié et donc l’erreur moyenne est nulle.
E( | X1, X2 ,…, Xk )=0
54
Rappel sur les Estimateurs MCO:
Hypothèses (2)
H4: Dans l’échantillon (et donc dans la population), aucune des variables
indépendantes n’est constante et il n’y a pas de relation exactement
linéaire entre les variables indépendantes.
H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur,
conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou
« indépendantes » est la même:V( | X1, X2 ,…, Xk )=2
55
Le Théorème de Gauss Markov:
H1 à H5
 Si les hypothèses H1 à H5 sont vérifiées l’estimateur

MCO est BLUE (Best linear unbiased estimator):
 Sans biais: E(^)=  (H1 à H4)
 A variance minimale (estimateur le plus efficace
(H5)): ^ est l’estimateur qui possède la variance
la plus faible parmi l’ensemble des estimateurs
linéaires et sans biais.
56
Quid si certaines hypothèses
sont relâchées?
1. Relâche de H1: transformer les variables Y ou X de façon à
rétablir cette relation linéaire (voir annexes)
2. Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est
être conscient que les résultats obtenus ne peuvent être
généralisables
3. Relâche de H3: cela signifie qu’il y a un problème
d’endogénéité (causalité inverse, variable omise, erreur de
mesure): il faut instrumenter
4. Relâche de H4: il faut essayer d’augmenter la taille de
l’échantillon pour diminuer l’hyper corrélation/covariance
entre les variables explicatives
5. Relâche de H5: il faut corriger l’hétéroscédasticité en
utilisant les MCG (Moindre Carrés Généralisés). Plus
57
simplement, utilisez la commande ro.
Econométrie linéaire
• Liste (quasi-exhaustive) des modèles

rencontrés dans la littérature:
– OLS
– 2SLS
– GLS:
• WLS
• 3SLS
• Panel Data
– GMM
– Séries temporelles (Time-series)
• ARIMA
• GARCH
58
Econométrie non linéaire
• Liste (quasi-exhaustive) des modèles rencontrés dans la

littérature:
– GLM
– Probit/Logit
– Poisson
– Maximum Likelihood:
• Politomic variables
• Ordered Probit/Logit
• Conditional Logit/Multinomial Logit
– Tobit Selection Models
– Biprobit
– Duration Models
– Modèles structurels
59

97 01 Champ Entrepreneuriat

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

97 01 Champ Entrepreneuriat

Uploaded by

Copyright:

Available Formats

Introduction à l’économétrie

appliquée sous STATA

Olivia Bertelli– Victoire Girard

• Introduction: statistique et économétrie,

La statistique, c’est l’art de collecter les données, de les

Les méthodes statistiques sont l’ensemble des outils

• John Wilder TUKEY (1915-2000):

Analyse exploratoire Analyse confirmatoire

 Choisir une méthode de sondage

 Utiliser une règle de décision

Réponse Ne pas promettre la lune! Les statistiques et l’économétrie ne

● Une variable aléatoire est une application qui associe

● Un échantillon est un ensemble fini d’observations.

● La distribution d’échantillonage d’une variable

Nominales Ordinales Intervalle Ratio

Données Catégorielles Discrètes ou Continues

• Exemples de format de base de données en

L’analyse et la modélisation économétrique que vous

graph box gdp_capita

histogram gdp_capita, percent title ("Histogramme")

graph twoway scatter opennessrate gdp_capita

Source: Wooldridge (2003)

– summarize <variables>: pour des variables numériques,

– tabulate <nom d’une variable>: donne le tri à plat de

– tabulate <nom de 2 variables>, ro col: donne le

– correlate <variables> : donne la matrice des coefficients

Corrélation Corrélation Corrélation

Corrélation forte Corrélation faible

 La relation testée est linéaire.

 Corrélation ne veut pas dire causalité:

L’économétrie rassemble l’ensemble des outils statistiques

L’économétrie est aussi un outil d’investigation.

Y Ordinale/Nominale Régression Régression

La régression linéaire se classe parmi les méthodes

C'est une méthode d'investigation sur données

• On peut chercher à approcher E(Y| =[X1,…,Xn] )

Non expliqué par le modèle

Expliqué par le modèle

Unemploymentt  0.06 - 0.55·Inflationt

Source: Wooldridge (2003)

Source: Wooldridge (2003)

 Si les hypothèses H1 à H5 sont vérifiées l’estimateur

• Liste (quasi-exhaustive) des modèles

• Liste (quasi-exhaustive) des modèles rencontrés dans la

You might also like