You are on page 1of 10

14/09/2013

1. Dfinition et modlisation conomtrique


a) Prsentation du modle
Une rgression conomtrique permet de dcrire et
dvaluer la relation entre une variable dpendante (y) et
une ou plusieurs variables indpendantes (xk).
Introduction lconomtrie Dans le modle de rgression simple, k = 1.
Dans le modle de rgression multiple, k > 1.
II. Modle de rgression linaire simple Afin dobtenir des information des variables pour
lensemble dune population, on fait de linfrence
Claudio Araujo statistique.
CERDI, Universit dAuvergne Infrence statistique : consiste obtenir des informations sur
Clermont-Ferrand, France
la population partir de lchantillon.
www.cerdi.org
http://www.cerdi.org/claudio-araujo/perso/ Echantillon : sous-ensemble de la population tudie.
Licence 3

1. Dfinition et modlisation conomtrique 1. Dfinition et modlisation conomtrique

Lestimation du modle peut tre ponctuelle Dans une rgression, la variable y et la (ou les) variable(s) x
(obtention dune valeur spcifique du paramtre) ou est (sont) traite(s) de manire asymtrique.
par intervalle (la vraie valeur du paramtre est La variable y est suppose tre alatoire ou stochastique.
La (ou les) variable(s) x est (sont) suppose(s), au sens strict, avoir
comprise dans un intervalle de confiance). des valeurs fixes dun chantillon lautre.
Le plus souvent, on sintresse aux proprits En raison du caractre alatoire de y, les valeurs observes
dune variable conditionnellement dautres dvient de leur esprance conditionnelle. Cette dviation est
variables. qualifie dcart alatoire ().
Proprit conditionnelle : esprance dune variable y Cas dune rgression linaire simple :
conditionnelle la variable x. E(y|x) = f(x) yi = ( yi xi , i ) = 1 + 2 xi + i
1 : ordonne lorigine (constante - intercept)
Dpendante, endogne, explique, Indpendante, exogne, explicative, 2 : pente, mesure limpact marginal, ceteris paribus, de x sur y.
rgressant, de rponse rgresseur, de contrle
Licence 3 Licence 3

Claudio Araujo, CERDI 1


14/09/2013

1. Dfinition et modlisation conomtrique 1. Dfinition et modlisation conomtrique

b) Rle des erreurs stochastiques On remarque que la relation spcifie entre y et x ne


Calculer la valeur thorique de y, sachant que : peut pas tre dterministe.
1 = 1000 et 2 = 0,8 ; dans le cas dune rgression linaire.
Le processus de gnration des donnes (PGD) est
inconnu.
Revenu Consommation Consommation Cobs Cth
disponible (x) observe (y) thorique Il est souvent impossible dobserver la totalit des
9 000 8 170 8 200 30 variables y et x de la population.
9 500 8 800 8 600 200 On doit ajouter un terme alatoire, (terme derreur ou
11 000 9 700 9 800 100 perturbation stochastique) au processus.
12 000 10 500 10 600 100 On peut obtenir une estimation de ; le estim est
13 500 11 200 11 800 600
appel rsidu.
11 000 9 674 Moyenne y i = 1 + 2 x i + i
Licence 3 Licence 3

1. Dfinition et modlisation conomtrique 1. Dfinition et modlisation conomtrique

Interprtation de lcart alatoire : c) Mthodes destimation


Du point de vue statistique : ralisation dune variable Mthode des moments
alatoire, ayant sa propre distribution de probabilit pour Principe : lestimation des moments de la population doivent
chaque i (ou t, dans le cas des TS). tre estim par les moments de lchantillon (moyenne,
variance, ).
Du point de vue conomique :
On estime plusieurs paramtres. Il doit y avoir autant de
Erreur de spcification : la seule variable explicative nest pas
conditions sur les moments que de paramtres estimer.
suffisante pour rendre compte de la totalit du phnomne
expliqu. Dans le cas o le nombre de conditions sur le moments est
suprieur au nombre de paramtres estimer, le modle est
Erreur de mesure : les donnes ne reprsentent pas sur-identifi : utilisation de la mthode des moments
exactement le phnomne.
gnraliss (GMM).
Erreur de fluctuation dchantillonnage : les observations
Estimateurs robuste (problme des points aberrants).
comprises dans lchantillon, et donc les estimations, peuvent
tre diffrentes. Aucune hypothse particulire concernant la distribution des
carts alatoires est ncessaire.
Consquences des termes alatoires
Licence 3 Licence 3

Claudio Araujo, CERDI 2


14/09/2013

1. Dfinition et modlisation conomtrique 1. Dfinition et modlisation conomtrique

Mthode du maximum de vraisemblance Mthode des moindres carrs


Principe : des populations diffrentes engendrent des Principe : estimation des moments de la distribution de
chantillons diffrents. Il est plus vraisemblable quun la population autours de zro.
chantillon donn provienne dune population particulire.
La mthode consiste estimer les paramtres inconnus Soit la rgression suivante :

yi = 1 + 2 xi + i
de manire maximiser la probabilit dobserver les yi
sachant la valeur de xi.
On suppose que les yi (i) sont distribus normalement et
indpendamment (nid) de moyenne 1 + 2 xi et de On cherche les valeurs des coefficients 1 et 2 qui
variance . minimisent la somme des carrs des carts alatoires.

Licence 3 Licence 3

Exercices pratiques 2. Lestimation des paramtres par les MCO


Calculer la valeur thorique de demande
dessence sachant que : 1 = 0.117 et a) La mthode des moindres carrs ordinaires (MCO
2 = 0,168 ; dans le cas dune rgression linaire. / OLS)
Prix de Demande Demande Dobs Dth Cette mthode consiste ajuster le nuage de points
lessence dessence thorique laide dune droite en minimisant la distance au carr
0.054 0.011 Travailler avec la source des entre chaque valeur observe et la droite destimation.
0.061 0.049 donnes qui est sur la Cette distance mesure le rsidu () pour chaque
plateforme pdagogique. observation :
0.073 0.077
Donnes en log ; priode de
0.166 0.115 1960 1995.
0.469 0.054 D = f (P) ei = i = yi y i
Moyenne
Licence 3
Licence 3

Claudio Araujo, CERDI 3


14/09/2013

2. Lestimation des paramtres par les MCO 2. Lestimation des paramtres par les MCO

b) Calcul des estimateurs


y
Les estimateurs des coefficients sont obtenus en
y4 . ^ ^ minimisant la somme du carr des rsidus (SCR)
4 { E(y) = 1 + 2x
( )
N N 2
Min i2 = Min yi 1 2 xi = Min
1 , 2
i =1 i =1
y3 .} 3
Conditions de 1er ordre Conditions de 2nd ordre
y2 2 { . 2 2
=0 ; =0 >0 ; >0
1 2 2 1 22

y1 .} 1 2 xi yi 1 xi 2 xi2 = 0
i i i quations normales
x1 x2 x3 x4 x 2 yi n1 2 xi = 0
i i
Licence 3 Licence 3

2. Lestimation des paramtres par les MCO 2. Lestimation des paramtres par les MCO

On obtient les estimateurs 1 et 2 partir des quations normales : En utilisant les donnes de consommation et revenu,
( x x )( y y ) x y nx y
n n
on obtient les valeurs suivantes pour les estimateurs :
i i i i
2 = ^1 = 2 373,26 (ordonne lorigine) ;
= 1 = y 2 x
i =1 i =1
^2 = 0,66 (pente de la droite)
(x x )
n n
nx
2 2 2
i x i
i =1 i =1 Le coefficient 2 mesure limpact dune variation du
C Cm (y) R - Rm (x) (R Rm) (C Cm) * (R Rm) revenu sur la consommation (2 = y / x).
1 504 2 000 4 000 000 3 008 000 Interprtation (en supposant que x et y soient mesurs
874 1 500 2 250 000 1 311 000 en ) : Si x varie d1 point de %, y varie de 0,66 .
26 Ne pas confondre rgression et corrlation.
826 1 000 1 000 000 826 000 Dans une rgression, les variables sont traites de manire
1 526 2 500 6 250 000 3 815 000 asymtrique (y : alatoire ; x : fixe).
Quant la corrlation, les variables sont traites de manire
SOMME 13 500 000 8 960 000
symtrique (x et y : alatoires).
Licence 3 Licence 3

Claudio Araujo, CERDI 4


14/09/2013

2. Lestimation des paramtres par les MCO 2. Lestimation des paramtres par les MCO

c) La corrlation Ce coefficient est calcul partir dun chantillon


Lorsque deux phnomnes ont une volution commune, ils dobservations et non pas sur la population.
sont corrls . On peut tester la significativit de ce coefficient
La corrlation simple (multiple) mesure le degr de liaison laide de la thorie des tests statistiques (t de
existant entre ces deux (plusieurs) phnomnes.
Student empirique).
La corrlation entre les variables peut tre positive, ngative Soit H0 : x,y = 0 ; HA : x,y 0
ou non corrles. Linaire ou non linaire.
On rejette H0 ( est significativement diffrent de 0) au
Le coefficient de corrlation linaire simple permet de seuil ( = 0,05) et N 2 ddl, si : *
calculer lintensit de la liaison. Il varie entre 1 et 1.
Soit :
t > t n 22
N x, y
cov( x, y ) (x x )( y y )
i i
t* =
(1 ) 2
x, y = = i =1 x, y
x y N N
n2
(x x ) ( y y )
2 2
i i
i =1 i =1 Licence 3
Licence 3

2. Lestimation des paramtres par les MCO

Limites de la corrlation Exercices pratiques


La relation teste est linaire.
Calculer le coefficient de corrlation.
Par exemple : lquation dun cercle donn par :
Liaison entre rendement de mas (x) dune parcelle de terre et la
(x x) + (y y) = R
quantit dengrais (y)
Les variables x et y sont lies entre elles, mais leur Tracer le nuage de points, commenter, calculer le coefficient de
covariance est nulle, est donc = 0. corrlation et tester sa signification ( = 5%)
Une corrlation diffrente de 0, nimplique pas une Rendement Engrais Rendement Engrais Rendement Engrais
liaison dordre conomique (ou physique ou autre)
corrlation fortuite. 16 20 28 32 32 41
Par exemple : nombre de taches solaires et taux de
18 24 29 28 34 41
criminalit. 23 28 26 32
24 22 31 36
Licence 3 Licence 3

Claudio Araujo, CERDI 5


14/09/2013

3. Identification et proprit des estimateurs

3. Identification et proprits des estimateurs Proprits sur petit Proprits sur chantillon de taille
chantillon infinie (proprits asymptotiques)
a) Notion dun estimateur
Soit les variables alatoires x et y, leurs distributions sont Sans biais si
()
E =
Asymptotiquement sans biais si
()
limn E =
caractrises par .
La population originale est compose de toutes les valeurs de x et Efficace si les 2 conditions Convergent si
y. suivantes sont satisfaites: p lim =
Le paramtre est une des caractristiques paramtrique de cette Non-biais
population. (consistant en franglais )
Variance minimale
x et/ou y peuvent tre continu ou discret.
Meilleur Estimateur linaire Efficience asymptotique, si les 3
Lestimation de dpend de linformation de lchantillon, on peut conditions sont satisfaites
la dcrire par une formule destimation : lestimateur sans biais (BLUE) si les 3

( )
conditions sont satisfaites: Distribution asymptotique avec

=
y , y ,L , y ; x , x , L , x
1 2 N 1 2 N
Fonction linaire des
moyenne et variance finies
observation de lchantillon Convergent
Lestimateur a des proprits que lon distingue selon la taille de Non-biais Variance asymptotique minimale
lchantillon. Licence 3 Variance minimale Licence 3

3. Identification et proprit des estimateurs 3. Identification et proprit des estimateurs

b) Proprits sur petits chantillons Lestimateur est sans biais


Lestimateur existe Lerreur (conditionnelle) est, en moyenne, nulle.
E( | x) = 0 E() = 0
Modle linaire par rapport ses paramtres.
E( | x) = 0 = E() Cov( , x) = 0 E( . x) = 0
Fonction couramment utilis pour linariser un modle par
La variable x doit tre strictement exogne par rapport au terme
rapport ses paramtres : logarithme nprien (ou naturel).
derreur :
Proprit importante : approximation dune variation en x et ne sont pas corrls au temps :
proportion. E(t | xt) = 0 Cov(t , xt) = 0
Diffrents types de fonctions et interprtation de 2 x na aucun effet dcal sur le terme derreur :
Niveau niveau : y = 2 x E(t | xt-s) = 0 Cov(t , xt-s) = 0, s > 0
Log niveau : % y (100 2) x Le terme derreur na aucun effet dcal sur x :
E(t | xt+s) = 0 Cov(t , xt+s) = 0 Cov(t-s , xt) = 0, s > 0
Niveau log : y = ( 2 / 100) % x
Log log : % y ( 2) % x Sous ces hypothses la valeur moyenne des estimations est
gale la valeur vraie du paramtre : E ( ) =

Licence 3 Licence 3

Claudio Araujo, CERDI 6


14/09/2013

3. Identification et proprit des estimateurs 3. Identification et proprit des estimateurs

Lestimateur est BLUE (best linear unbiased estimator) Illustrations graphiques ()


f
La variance de lerreur est constante (ou homoscdastique)
Elle ne dpend pas de x et ne varie pas au cours du temps Non-biais
V( | x) = V() = E( ) =

( )
Il ny a pas de corrlation srielle dans les erreurs
(indpendance srielle des carts) = E
Efficience
Corr(t , s | x) = 0

()
Il ny a pas de corrlation entre les erreur linstant t et une erreur
suivante (s > t) ou prcdente (s < t). f
Sous lhypothses de Gauss Markov (existence, sans
biais et efficience), lestimateur MCO est BLUE
Si une hypothse est viole, lestimateur nest pas BLUE.

Licence 3 Licence 3

3. Identification et proprit des estimateurs 3. Identification et proprit des estimateurs

c) Proprits sur grandes


chantillons de taille infinie
d) Caractristiques de base de la distribution de
(proprit asymptotiques)
Lestimateur est consistant
Moyenne ()
E
(convergent)
Un estimateur sans biais
est ncessairement
Variance () [
Var = E E ( )] = E( ) [E( )]
2
2
2

convergent, mais linverse


nest pas vrai.
()
Erreur dchantillonnage
Pour les donnes
f
temporelles, il suffit que
E(t | xt) = 0 pour quun
estimateur soit convergent.
Biais ()
E
Il peut avoir conflit entre
Un estimateur efficient ne absence de biais et variance
garantit pas, non plus, la
convergence dun
Erreur Quadratique
Moyen (MSE)
(
E )2
minimale. La minimisation de
lEQM (MSE) est un moyen
estimateur.
Licence 3
Licence 3
darbitrer

Claudio Araujo, CERDI 7


14/09/2013

3. Identification et proprit des estimateurs


4. Infrence statistique
Variance minimale Biais
Erreur a) Normalit des erreurs
()
Quadratique
Les caractristiques de lchantillon refltent, avec
Moyen (MSE) f une certaine marge derreur, celles de la population.
Non-biais Pour pouvoir induire les paramtres inconnus ()
( )
Dispersion
2 dune population sur un chantillon issu de cette
MSE = E leve
population, on pose lhypothse de normalits des
erreurs

[ () () ]
MSE = E E + E
2 Soit i N(0,)

{[ ( )] [ ( ) ]}
Sous les hypothses du modle de rgression linaire classique :
2
= E E + E
= E[ E( )] + E[E( ) ] + 2E[ E( )][E( ) ]
i i i
N (0,1) i t n 2 , i = (1,2 )
2 2

V ( i ) i

Variance (Biais) Licence 3 =0 Licence 3

4. Infrence statistique 4. Infrence statistique

b) Test sur un seul coefficient : t ratio 5. Utiliser la table statistique (Student) pour obtenir la valeur
Soit lquation suivante : yi = 1 + 2 xi + i critique (quantile de la distribution, au-del duquel
lhypothse nulle est rejete).
Etapes pour effectuer un test sur un seul coefficient: Pour un test bilatral, avec k = 2, = 10% et N = 30 ;
1. Estimation de 1 , 2 , 1 , 2 par MCO ddl = N K = 28
2. Calcul de la statistique t de Student empirique t * = 2
2*
H0 : 2 = 2*
2* : valeur de 2 sous H0 2 Rgion de non Pour un test unilatral :
HA : 2 2* rejet (H0) H0 : 2 = 2*
Lorsque 2 = 0 et que le test est bilatral, t* est appel le
*

RATIO t de Student (t-ratio test). f(t) HA soit : 2 > 2*, si partie droite

3. Prciser les H0 et HA et choisir un seuil de significativit (taille H0


HA soit : 2 < 2*, si partie gauche
du test, ). Seuil frquent : 10%, 5% ou 1%.
(1)
4. Sous les hypothses du modle de rgression classique, la
(%) (%)
statistique du t de Student empirique suit une loi de Student 90 %
N K degrs de libert (cte comprise ds k). HA
- t/2 + t/2
HA
t

Licence 3 2* Licence 3

Claudio Araujo, CERDI 8


14/09/2013

4. Infrence statistique 4. Infrence statistique

6. Utiliser la rgle de dcision suivante : c) Intervalle de confiance


Pour un test bilatral, H0 est rejete si 1. Estimation de 1 , 2 , 1 , 2 par MCO
2. Choix du seuil de significativit, , pour obtenir un
2 2*
> t N 2K intervalle de confiance (1 ) %. Par exemple si =
S 2 0,05, intervalle de confiance = 95%.
Pour un test unilatral dans la partie droite , H0 est rejete si 3. Utiliser la table statistique de Student pour obtenir la
2 2* valeur critique, ddl = N K.
> tN K 4. Lintervalle de confiance est donne par :
S 2
{( 2 ) ( )
t N K S 2 , 2 + t N K S 2 }
Pour un test unilatral dans la partie gauche, H0 est rejete si
5. On rejette H0, si 2* se trouve lextrieur de lintervalle
2 2* de confiance
< t N K
S 2 Le test bilatral sur coefficient et lintervalle de confiance
aboutissent toujours aux mmes conclusions.
Licence 3 Licence 3

4. Infrence statistique 4. Infrence statistique

d) Interprtation et observations Schmatiquement : 2 sous-rgions


Les tests dhypothses permettent dvaluer la robustesse dun modle
Rejet de H0
estim.
Les tests dhypothses conomiques sont conditionns au non rejet de la
spcification conomtrique.
Le principe consiste comparer des paramtres. Confrontation dune
hypothse nulle (ou restreinte) H0 une hypothse alternative (HA).
Rappel : Aucune hypothse ne peut tre dfinitivement infirme. Elle est test Non rejet de H0
en liaison avec dautres hypothses auxiliaires.
Ne pas rejeter H0 contre HA signifie que H0 est provisoirement accepte .
Cela ne signifie nullement lacceptation de H0. Erreur de premire espce
Si une hypothse nulle est rejete %, cela signifie que le rsultat est
qualifi de significatif % . Taille du test
Si H0 est rejete 1 %, elle sera aussi rejete 5 % et 10 %. seuil de signification est la probabilit de
Un rsultat peut tre significatif au niveau statistique mais marginal sur le plan rejeter H0 sachant quelle
p-value
conomique. est vraie

Licence 3 Licence 3

Claudio Araujo, CERDI 9


14/09/2013

4. Infrence statistique

Il nest pas exclu daccepter H0 sachant quelle est fausse 5. ANOVA (ANalysis Of VAriance)
Erreur de deuxime espce ()
a) Equation fondamentale
La dcision se traduit par 2 erreurs : et antagonistes
N N
SCT = ( yi y ) SCR = ( yi y i ) = i2
Dcision 2 2

H0 HA i =1 i =1 i

N
SCE = ( y i y )
Hypothses H0 Pas derreur 2
vraies HA
Puissance i =1
dun test Somme des carrs des rsidus
(1 ) : puissance dun test. Mesure de la probabilit de
rejeter H0 sachant quelle est fausse SCT = SCE + SCR
Plus la rgion dacceptation est grande plus est leve
Lerreur de premire espce est plus grave que lerreur de Cf. dmonstration dans Somme des carrs explique
lABC dE page 55
deuxime espce
Obs : ne pas confondre ici et Licence
avec les3 paramtres du modle Licence 3

5. ANOVA

b) Coefficient de dtermination Exercices pratiques


Lajustement par la droite des MCO est meilleur quand
SCE est proche de SCT
Pour mesurer la qualit dajustement (goodness-of-fit) Calculer le coefficient de dtermination pour les
on utilise le coefficient de dtermination, R. modle de consommation.
SCE SCR Vous devez calculer : SCT, SCE et SCR partir du
R2 == 1
SCT SCT tableau contenant, le revenu disponible et la
Le R varie entre 0 et 1. consommation observe.
Plus le R est proche de 1, mieux est lajustement de la Calculer le coefficient de dtermination pour les
droite de rgression. Mais lobjectif nest pas de modle de demande dessence en fonction du
maximiser le R. prix.
Licence 3 Licence 3

Claudio Araujo, CERDI 10

You might also like