Professional Documents
Culture Documents
Chapitre 4 : RGRESSION
4.3
4.3.1
4.3.2
4.3.3
4.3.4
Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications
Chapitre 4.3
Rgression linaire multiple
1 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4 : RGRESSION
4.3
4.3.1
4.3.2
4.3.3
4.3.4
Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications
Chapitre 4.3
Rgression linaire multiple
2 / 50
Statistique
1e anne bachelor, 2009-10
E ( y ) = 0 + 1x1 + 2 x2 + ... + K xK ,
E ( y x1, x2 ,..., xK ) = 0 + 1x1 + 2 x2 + ... + K xK ,
o 0 , 1, 2 ,..., K sont les paramtres du modle, et le terme
derreur est une variable alatoire.
Chapitre 4.3
Rgression linaire multiple
3 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
4 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
5 / 50
Statistique
1e anne bachelor, 2009-10
Lquation estime
Les statistiques dchantillon b0 , b1, b2 ,..., bK servent
destimations de 0 , 1, 2 ,..., K .
Ainsi, lquation estime de la rgression est donne par :
y = b0 + b1x1 + b2 x2 + ... + bK xK ,
Chapitre 4.3
Rgression linaire multiple
6 / 50
Statistique
1e anne bachelor, 2009-10
Processus
destimation
Chapitre 4.3
Rgression linaire multiple
7 / 50
Statistique
1e anne bachelor, 2009-10
b0 ,b1,b2 ,...bK i =1
8 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4 : RGRESSION
4.3
4.3.1
4.3.2
4.3.3
4.3.4
Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications
Chapitre 4.3
Rgression linaire multiple
9 / 50
Statistique
1e anne bachelor, 2009-10
o Les coefficients estims b0 , b1, b2 ,..., bK sont des estimations nonbiaises des paramtres 0 , 1, 2 ,..., K .
o Lestimateur MCO implique les variances des coefficients
estims sb2 , sb2 , sb2 ,..., sb2 les plus petites de tous les estimateurs
linaires et non-biaiss concevables.
0
Chapitre 4.3
Rgression linaire multiple
10 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
bk
11 / 50
Statistique
1e anne bachelor, 2009-10
Puisque t0.05
= 1.96 , une faon de tester la significativit statistique
5% dun coefficient estim dune rgression multiple base sur
un grand chantillon est de vrifier si t k > 1.96 . Pour tester la
significativit 1%, on vrifie si t k > 2.58 .
Chapitre 4.3
Rgression linaire multiple
12 / 50
Statistique
1e anne bachelor, 2009-10
Test du F de Fisher
Si les hypothses sur sont satisfaites, on peut se servir de la loi
du F de Fisher pour dterminer sil existe une relation significative
entre y et lensemble des variables indpendantes ; on parle du
test de signification globale.
H0 : 1 = 2 = ... = k = 0
H1 : au moins un des paramtres nest pas gal zro
SCReg
K
Statistique de test : F =
F (K , n K 1)
SCRes
n K 1
Chapitre 4.3
Rgression linaire multiple
13 / 50
Statistique
1e anne bachelor, 2009-10
Multicolinarit (1)
Il est possible quaucun des coefficients estims bk soit
individuellement statistiquement significatif (selon le test du t de
Student), mais que le modle soit quand mme globalement
statistiquement significatif (selon le test du F de Fisher).
Lexplication de ce phnomne apparemment paradoxal est la
multicolinarit : le fait que les variables indpendantes xk, tout en
tant indpendantes de y, peuvent parfaitement tre corrles
entre elles.
Plus les variables indpendantes sont corrles, plus il devient
difficile de dterminer leffet propre dune variable indpendante
particulire sur la variable dpendante. Autrement dit, quand la
multicolinarit est forte, les erreurs type des coefficients sbk sont
grands, et le risque peut tre fort que les coefficients estims
prennent le signe oppos celui du vrai paramtre.
Chapitre 4.3
Rgression linaire multiple
14 / 50
Statistique
1e anne bachelor, 2009-10
Multicolinarit (2)
En pratique il peut tre utile dinspecter la matrice de corrlation
entre les variables indpendante. Comme valeur pratique (trs)
approximative, on utilise parfois un seuil de x x = 0.7 pour
k
15 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4 : RGRESSION
4.3
4.3.1
4.3.2
4.3.3
4.3.4
Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications
Chapitre 4.3
Rgression linaire multiple
16 / 50
Statistique
1e anne bachelor, 2009-10
R-carr (1)
La dfinition du R-carr (aussi : coefficient de dtermination
multiple ) est identique celle pour la rgression linaire simple :
n
R =
2
( y i y )
( yi y )
i =1
n
SCReg
SCReg
=
=
SCReg + SCRes SCTot
i =1
= 1
( y i y i )
i =1
n
( yi y )
i =1
Chapitre 4.3
Rgression linaire multiple
2
u
i
s
e
R
C
S
= 1
i =1
( yi y )
= 1
SCTot
i =1
17 / 50
Statistique
1e anne bachelor, 2009-10
R-carr (2)
Le R-carr exprime le pourcentage de la somme des carrs totaux
expliqu (dans le sens dune explication gomtrique et non
causale !) par lquation estime de la rgression.
Le R-carr ne peut pas tre dcompos en contributions
explicatives de chacune des K variables explicatives.
Exception : cas de zro colinarit entre les variables
explicatives (qui sont donc orthogonales )
Exemple : vecteurs de variables binaires par pays et par
anne dans un modle des diffrences de taux de chmage
dcomposition du R-carr en une composante
conjoncturelle (contribution au R-carr des diffrences
temporelles) et une composante structurelle (contribution
au R-carr des diffrences inter-pays)
Chapitre 4.3
Rgression linaire multiple
18 / 50
Statistique
1e anne bachelor, 2009-10
1
R
(
)
K
F=
=
SCRes
K (1 R 2 )
n K 1
tant donn n et K, un R-carr lev implique une statistique F
leve.
De plus, la statistique F varie en fonction de n et de K. Pour un Rcarr donn, plus n K est grand, plus la statistique F est leve.
Intuitivement, cela reprsente le fait que plus il y a dobservations
par rapport au nombre de variables indpendantes, plus il semble
invraisemblable quune certaine qualit dajustement du modle
(cd un certain R-carr) se soit produit alatoirement.
Chapitre 4.3
Rgression linaire multiple
19 / 50
Statistique
1e anne bachelor, 2009-10
s
e
R
C
S
20 / 50
Statistique
1e anne bachelor, 2009-10
s
e
R
C
S
21 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
ind.
1
2
3
4
5
6
7
8
9
10
11
12
Moyenne
Ecart type
revenu
52125.0
50955.9
53382.9
51286.9
55243.6
53384.7
53488.2
54134.1
52706.4
42144.3
52665.2
51656.7
51931.2
3314.9
ge
48.1
38.7
48.6
37.5
54.7
40.7
50.1
45.9
55.9
25.1
36.9
34.5
43.1
9.1
exprience
5.5
2.5
18.9
13.5
25.5
7.3
2.3
18.8
19.0
5.5
5.0
15.5
11.6
7.8
22 / 50
Statistique
1e anne bachelor, 2009-10
R2
R2
su
SCRes
RAPPORT DTAILL
Statistiques de la rgression
Coefficient de dtermination multiple
Coefficient de dtermination R^2
Coefficient de dtermination R^2
Erreur-type
Observations
0.766580532
0.587645712
0.496011426
2353.302134
12
ANALYSE DE VARIANCE
Rgression
Rsidus
Total
Coefficients
Constante
ge
exprience
Chapitre 4.3
Rgression linaire multiple
40034.4147
269.9022708
23.47323377
Erreur-type
3500.343207
89.3203627
103.1785424
Statistique t
Limite infrieure
Probabilit
pour seuil de
confiance = 95%
11.43728267 1.158E-06
3.021732813 0.0144387
0.227501118 0.8251181
32116.08826
67.84557296
-209.9328446
Limite suprieure
pour seuil de
confiance = 95%
47952.74114
471.9589687
256.8793121
23 / 50
Statistique
1e anne bachelor, 2009-10
24 / 50
Statistique
1e anne bachelor, 2009-10
25 / 50
Statistique
1e anne bachelor, 2009-10
269.9*
(89.3)
exprience
23.4
(103.2)
Constante
40034.4*
(3500.3)
R-carr
R-carr ajust
Erreur type de la rgression
Observations
0.59
0.50
2353.3
12
26 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4 : RGRESSION
4.3
4.3.1
4.3.2
4.3.3
4.3.4
Equation et Estimation
Infrence
Coefficients de dtermination
Spcifications
Chapitre 4.3
Rgression linaire multiple
27 / 50
Statistique
1e anne bachelor, 2009-10
Bases
Par spcification , on entend la formulation du modle
empirique, cd de lquation de la rgression.
La spcification linaire est suffisamment flexible pour permettre
lestimation dune large gamme de modles thoriques, dont
certains sont non linaires la base (mais intrinsquement
linaires ). Nous prsenterons quelques spcifications
particulires trs utiles :
o spcification polynomiale
o variables indpendantes binaires
o spcification logarithmique
o interactions
Il existe des modles thoriques non linaires qui ne peuvent tre
transforms en une spcification linaire et ncessitent donc
lutilisation dun estimateur non linaire (pas trait dans ce cours).
1
Exemple : y = 0 + 1 ( x + 3 )
Chapitre 4.3
Rgression linaire multiple
28 / 50
Statistique
1e anne bachelor, 2009-10
Spcification polynomiale
La spcification de base de la rgression linaire multiple peut tre
considre comme un cas particulier dune classe de fonctions
plus large, les fonctions polynomiales :
y = 0 + 1x + 2 x 2 + 3 x 3 + ... + K x K +
K : le degr du polynme
K = 2 : polynme du deuxime degr (ou parabole )
Si satisfait les hypothses du modle des MCO, cette
spcification peut tre estime avec la mthode des moindres
carrs :
y = E ( y x ) = b0 + b1x + b2 x 2 + b3 x 3 + ... + bK x K
Chapitre 4.3
Rgression linaire multiple
29 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
30 / 50
Statistique
1e anne bachelor, 2009-10
0.956286456
0.914483786
0.882415205
1136.692321
12
ANALYSE DE VARIANCE
Degr de libert
Rgression
Rsidus
Total
3
8
11
Coefficients
Constante
ge
ge^2
exprience
3932.56245
2077.513837
-22.07705908
97.9923741
Erreur-type
6744.300766
329.7370239
3.992584707
51.6272887
Statistique t
0.583094169
6.300517339
-5.529515516
1.89807322
Valeur critique de
F
28.5165036
0.000127026
F
Probabilit
0.57589379
0.00023266
0.00055414
0.09424716
31 / 50
Statistique
1e anne bachelor, 2009-10
y
x
=
10
=
3932.6
+
2077.5
*
x
22.1*
x
( 2
)
1
1 + 98 * 10
56000
Chapitre 4.3
Rgression linaire multiple
52000
revenu
Prdiction de lge
auquel le revenu est
maximal, x1max :
y
= b1 + 2b2 x1max = 0
x1
x1max = b1 2 b2
2077.5
max
x1 =
= 47
2 * ( 22.1)
48000
44000
40000
25
30
35
40
45
50
55
ge
32 / 50
Statistique
1e anne bachelor, 2009-10
33 / 50
Statistique
1e anne bachelor, 2009-10
revenu
52125.0
50955.9
53382.9
51286.9
55243.6
53384.7
53488.2
54134.1
52706.4
42144.3
52665.2
51656.7
51931.2
3314.9
Chapitre 4.3
Rgression linaire multiple
ge
48.1
38.7
48.6
37.5
54.7
40.7
50.1
45.9
55.9
25.1
36.9
34.5
43.1
9.1
exprience
5.5
2.5
18.9
13.5
25.5
7.3
2.3
18.8
19
5.5
5
15.5
11.6
7.8
femme
1
0
1
0
1
0
0
1
1
0
0
0
0.42
0.51
34 / 50
Statistique
1e anne bachelor, 2009-10
0.973087042
0.946898391
0.916554614
957.5655371
12
ANALYSE DE VARIANCE
Degr de libert
Rgression
Rsidus
Total
4
7
11
Coefficients
Constante
ge
ge^2
exprience
femme
3468.379446
2038.603283
-20.82811623
148.3984189
-2054.157981
Erreur-type
5685.929397
278.4121524
3.417246482
49.86108402
993.7297586
Statistique t
0.609993407
7.322249642
-6.094999684
2.976237317
-2.067119318
Valeur critique de
F
31.2056868
0.000148858
F
Probabilit
0.56113791
0.00015968
0.00049351
0.02062455
0.07754583
35 / 50
Statistique
1e anne bachelor, 2009-10
y
x
=
10,
x
=
1
=
3468
+
2038.6
*
x
20.8
*
x
( 2
)
3
1
1 + 148 * 10 2054.2
o pour un homme avec dix ans dexprience :
( y x2 = 10, x3 = 0 ) = 3468 + 2038.6 * x1 20.8 * x12 + 148 * 10
56000
revenu
52000
b3 = 2054.2
femmes
hommes
48000
44000
40000
25
Chapitre 4.3
Rgression linaire multiple
30
35
40
ge
45
50
55
36 / 50
Statistique
1e anne bachelor, 2009-10
1
0.765032264
0.69672771
0.411455189
0.422675732
ge
1
0.993137906
0.482058499
0.738416719
ge^2
1
0.50549735
0.75563342
exprience
1
0.667095592
femme
!
Chapitre 4.3
Rgression linaire multiple
37 / 50
Statistique
1e anne bachelor, 2009-10
38 / 50
Statistique
1e anne bachelor, 2009-10
k =1
39 / 50
Statistique
1e anne bachelor, 2009-10
= ( ln y )
y
y
y
y
y xk
ln y
y
o lasticit de y par rapport xk :
=
=
= k
ln xk
xk y xk
xk
40 / 50
Statistique
1e anne bachelor, 2009-10
1 1
2 2
version stochastique (K = 2) : y = e + x + x
les cinq hypothses du modle des MCO
0
1 1
2 2
, o satisfait
Chapitre 4.3
Rgression linaire multiple
41 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
42 / 50
Statistique
1e anne bachelor, 2009-10
Constante
ln(ge)
9.92017321
0.25009325
Erreur-type
0.202446229
0.054033481
F
21.422889
Valeur critique de F
0.000938341
Statistique t
Probabilit
43 / 50
Statistique
1e anne bachelor, 2009-10
Constante
ge
10.60757468
0.005758884
Erreur-type
0.069273957
0.001576753
Valeur critique de F
0.004444832
Statistique t
Probabilit
44 / 50
Statistique
1e anne bachelor, 2009-10
revenu
45000
y = 39885 + 279.7 x
35000
y = exp(10.61 + 0.006 x )
25000
15000
0
Chapitre 4.3
Rgression linaire multiple
10
20
30
ge
40
50
60
45 / 50
Statistique
1e anne bachelor, 2009-10
Interactions (1)
Lquation de rgression linaire multiple implique des effets isols
y
de chaque variable indpendante :
= k k
xk
En ajoutant des produits de variables indpendantes ( termes
dinteraction ), on peut modliser des interdpendances entre
les effets des variables indpendantes :
y = 0 + 1x1 + 2 x2 + 3 x1x2 +
y
y
= 1 + 3 x2 ,
= 2 + 3 x1
x1
x2
Chapitre 4.3
Rgression linaire multiple
46 / 50
Statistique
1e anne bachelor, 2009-10
Interactions (2)
1 (2) reprsente leffet de x1 (x2) sur y quand x2 (x1) est gal
zro. Puisque une valeur de zro nest souvent pas trs raliste ou
informative (p.ex. dans une estimation des dterminants
salariaux), on estime souvent une spcification transforme :
y = 0 + 1x1 + 2 x2 + 3 ( x1 x1 )( x2 x2 ) + .
47 / 50
Statistique
1e anne bachelor, 2009-10
Chapitre 4.3
Rgression linaire multiple
ind.
commune revenu
ge
ge*commune
1
0
52125.0 48.11629
0
2
0
50955.9
38.7
0
3
0
53382.9
48.6
0
4
0
51286.9
37.5
0
5
0
55243.6
54.7
0
6
0
53384.7
40.7
0
7
0
53488.2
50.1
0
8
0
54134.1
45.9
0
9
0
52706.4
55.9
0
10
0
42144.3
25.1
0
11
0
52665.2
36.9
0
12
0
51656.7
34.5
0
moyenne
0
51931.2
43.1
0
cart type
0
3314.9
9.1
0
13
1
52115.3
42.4
42.4
14
1
44234.5
36.5
36.5
15
1
55381.3
42.7
42.7
16
1
56091.4
41.1
41.1
17
1
52160.0
33.9
33.9
18
1
46920.1
35.9
35.9
19
1
49522.2
34.7
34.7
20
1
53446.7
44.1
44.1
21
1
50557.1
28.5
28.5
22
1
51202.0
48.7
48.7
23
1
51905.6
49.8
49.8
24
1
46352.9
25.4
25.4
moyenne
1
49977.9
38.6
38.6
cart type
0
3576.0
7.5
7.5
48 / 50
Statistique
1e anne bachelor, 2009-10
Constante
commune
ge
ge*commune
39885.01609
1476.081811
279.6979321
-34.74704321
Erreur-type
4046.721199
5953.907628
92.10788803
144.3440856
Statistique t
Probabilit
9.856131452 4.03454E-09
0.247918158 0.80672532
3.036633865 0.006515058
-0.240723706 0.812219723
Valeur critique de F
0.009414488
revenu
ge
49 / 50
Statistique
1e anne bachelor, 2009-10
54000
revenu
52000
50000
48000
46000
44000
42000
25
30
35
40
45
50
55
60
ge
Chapitre 4.3
Rgression linaire multiple
50 / 50