Professional Documents
Culture Documents
Février 2014
Plan de la séance
3
Statistique: quelques définitions
4
Démarche en statistique
Elaborer un questionnaire
Tirer un échantillon
Phase
préparatoire Recueillir des informations
Chiffrer, saisir des questionnaires
Contrôler
Corriger
Collecte
Recoder des variables
Analyse Elaborer des tableaux (moyennes,
corrélations,…)
Mettre à l’épreuve des hypothèses
Modéliser
Qualitatives Quantitatives
Si Recodage en tranches
9
Types de données (ensemble
d’observations)
• Soit N le nombre d’individus et T le nombre de
périodes:
1. Si T=1 et N>1: Cross-section: transversal (même
année ‘à travers’ les individus)
2. Si N>1 et T>1 et N_i=N_i(t+1): Time series:
longitudinal (mêmes individus à travers les
années)
3. Si T>1 et N>1 et N_i≠N_i(t+1): : Time series:
cross-section
10
Types de données
… … …
12
1. Visualisation des données:
graphiques
13
La « boite à moustaches »
outliers
max
4ème quart
Q3
médiane
Q1 1er quart
min
14
Histogrammes
15
Nuage de points
17
Expliquer une variable DEPENDENTE
(Y) par des variables INDEPENDENTES
(X)
coefficient
Terme
paramètre d’erreur
intercepte
18
Terminologie
20
La corrélation (1)
y y y
. . . .. . .
. . . . .. . . . .
... . . .. . .
.. . . . . ..
.. . . . .
. .. . . . . ..
. . ... .. .. . . . .
. . . .
.
x x x
21
La corrélation (2)
y y
. . .
.. .. . . .
. .. . .
. .. . . . . .. . .
. .. . . . . .. . . . .
. .. . . . . .. . . . . . .
x x
Absence de
Corrélation
y y .
. . . . .
. .
.. . . . .
. . .
.
. . . .
x x
r
( X X ).(Y Y )
2
( X X ) (Y Y ) 2
23
Exemples
24
Limites du coefficient de
corrélation
• Dans la pratique r est rarement proche de -
1, 1 ou 0 :
– Il est donc difficile de proposer une
interprétation fiable à la simple lecture du
coefficient surtout en économie où les variables
sont toutes plus ou moins reliées entre elles.
– Il n’est calculé que sur un échantillon
• La théorie des tests statistiques (t de
Student empirique) nous permet de lever
cette indétermination:
– Sous STATA: pwcorr <variables>, sig
25
Limites du coefficient de
corrélation
26
Correlations folles:
http://www.tylervigen.com/
r=
0.992
r=
0.947
27
3. Modélisation:
économétrie linéaire
28
Le rôle de l’économétrie
29
Recherche de liaisons
X X
Intervalle/ Ordinale/
Ratio Nominale
Y Intervalle/Ratio Régression Analyse de
linéaire variance (Anova)
30
La régression linéaire
31
Expliquer
• Problème:
– Y et =[X1,…,Xn] sont des variables aléatoires.
– Nous disposons d’observations de Y et de .
– On souhaite étudier comment permet d’expliquer Y.
34
La régression linéaire
• Comment trouver la droite qui passe au plus près des
points?
– Critère d’ajustement: le critère des moindres carrés.
– Pourquoi?
• Pour des raisons de simplicité de calcul.
• Pour les propriétés de l’estimateur des moindres carrés.
35
La régression linéaire
36
La régression linéaire: tableau
d’analyse de la variance
37
Exemple: The Phillips Curve
Données1958–1969 (USA) suggèrent un
trade-off entre inflation et chomage.
ˆ0 0.06
ˆ1 0.55
38
Exemple: The Phillips Curve (cont.)
Unemploymentt 0.06 - 0.55·Inflationt
• Comment les interpréter?
• Si l’inflation est 0, le chômage augmente de 0.06
points de pourcentage.
• Si l’inflation augmente de 1 points de
pourcentage le chômage diminue de 0.55 points
de pourcentage.
39
U.S.A. Chomage et Inflation, 1958–1969
40
Transformation en log et interprétation
log(Y ) 0 1 ·log(X)
• Le coefficient estimé ne dit plus l’effet d’un
changement d’une unité de X sur Y.
Il montre le changement unitaire de log(X) on log(Y).
• Les changements unitaires de log-X se traduisent en
changement de pourcentage de X.
41
Exemple: The Phillips Curve
• Si chômage et inflation sont en forme
logarithmique, on prédit le changement de
pourcentage de chômage déterminé par un
changement de l’1% de l’inflation
• Attention! Les changements de pourcentage ne
son pas linéaires:
– Si l’inflation augmente de 0.01 a 0.02 =>100%
augmentation
– Si l’inflation augmente de 0.02 a 0.03 => 50%
augmentation
42
Figure 4.6 A Logarithmic Phillips Curve
6-43
Transformation en log et interprétation
45
CONCLUSION:
l’économetrie comme utile pour
mieux comprendre les
phénomènes empiriques
46
Dans votre analyse:
• Bien définir la régression d’interet
• D-stat des variables: trends, means-test
• Pourquoi juste de la corrélation et pas de la
causalité? Pourquoi de la causalité?
• Interprétation des coefficients estimés:
direction et magnitude de l’effet
47
Merci!
NB: certaines diapositives de cette séance sont issues de notes du cours de Monique Leguen (AED et
SAS/INSIGHT) et d’une présentation de R. Bazillier et Lionel Page (Une introduction générale aux outils
économétriques).
A travers les années, ces slides ont bénéficié des apports des chargés de TD successifs, merci à tous.
Olivia.bertelli@ehess.fr
48
ANNEXES
49
Biais possibles de variables omises
51
La régression linéaire: tableau
d’analyse de la variance
52
La régression linéaire:
Estimation et inférence.
• Jusqu’ici aucune supposition n’était nécessaire.
• Si on veut utiliser les résultats obtenus sur l’échantillon
pour inférer sur la population, il faut faire appel à des
notions de probabilité et de statistique.
• Pour cela, changement de point de vue:
– Il n’y a plus une valeur unique associée à une valeur Xi mais une
distribution de valeurs. Yi est une variable aléatoire qui a une
distribution de probabilité p(Yi|Xi)
– Le résidu observé n’est qu’une estimation de l’erreur
inobservable.
• La régression linéaire suppose que les E(Yi|Xi) sont alignés
sur la vraie droite de régression qui est inconnue.
53
Rappel sur les Estimateurs MCO:
Hypothèses (1)
Hypothèses du modèle de régression multiple en cross-section
(Wooldridge (2003)):
H1: On raisonne en supposant que le modèle linéaire postulé est le
véritable modèle dans la population.
Y = 0 + 1 X1 + … + k Xk + (=erreur)
H2: Nous disposons d’un échantillon aléatoire de n observations de
coordonnées {(Xi1, Xi2 ,…, Xik , Yi): i = 1,2,…,n} pour le modèle décrit
en H1.
H3: L’espérance mathématique de l’erreur est nulle: en moyenne le
modèle est bien spécifié et donc l’erreur moyenne est nulle.
E( | X1, X2 ,…, Xk )=0
54
Rappel sur les Estimateurs MCO:
Hypothèses (2)
H4: Dans l’échantillon (et donc dans la population), aucune des variables
indépendantes n’est constante et il n’y a pas de relation exactement
linéaire entre les variables indépendantes.
H5: Hypothèse d’homoscédasticité. La variance du terme d’erreur,
conditionnellement aux variables X1, X2 ,…, Xk « explicatives » ou
« indépendantes » est la même:V( | X1, X2 ,…, Xk )=2
55
Le Théorème de Gauss Markov:
H1 à H5
56
Quid si certaines hypothèses
sont relâchées?
1. Relâche de H1: transformer les variables Y ou X de façon à
rétablir cette relation linéaire (voir annexes)
2. Relâche de H2: il n’y a pas grand-chose à faire… si ce n’est
être conscient que les résultats obtenus ne peuvent être
généralisables
3. Relâche de H3: cela signifie qu’il y a un problème
d’endogénéité (causalité inverse, variable omise, erreur de
mesure): il faut instrumenter
4. Relâche de H4: il faut essayer d’augmenter la taille de
l’échantillon pour diminuer l’hyper corrélation/covariance
entre les variables explicatives
5. Relâche de H5: il faut corriger l’hétéroscédasticité en
utilisant les MCG (Moindre Carrés Généralisés). Plus
57
simplement, utilisez la commande ro.
Econométrie linéaire
59