Professional Documents
Culture Documents
2/6
3/6
4/6
5/6
6/6
12. R
egression lin
eaire simple
MTH2302D
A2013
(v1)
MTH2302D: r
egression
1/45
1/6
2/6
3/6
4/6
5/6
6/6
Plan
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
2/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
3/45
1/6
2/6
3/6
4/6
5/6
6/6
R
egression lin
eaire : introduction
But : etablir un lien entre une variable dependante Y et une
variable independante X pour pouvoir ensuite faire des previsions
sur Y lorsque X est mesuree.
Exemple 1
Lanalyse de la temperature de fonctionnement dun procede
chimique sur le rendement du produit a donne les valeurs suivantes
pour la temperature Xi et le rendement correspondant Yi :
Temperature C
100
110
120
130
140
MTH2302D: r
egression
Rendement %
45
51
54
61
66
Temperature C
150
160
170
180
190
Rendement %
70
74
78
85
89
4/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
Le graphe ci-dessous represente les points (Xi , Yi ) pour ces
donnees et sugg`ere une relation lineaire entre X et Y .
rendement
vs
temprature
90
85
80
75
70
65
60
55
50
45
40
90
MTH2302D: r
egression
110
130
150
170
190
5/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
6/45
1/6
2/6
3/6
4/6
5/6
6/6
Mod`
ele lin
eaire
D
efinition
Un mod`ele de regression lineaire simple est de la forme
Y = 0 + 1 X +
o`
u
I
MTH2302D: r
egression
7/45
1/6
2/6
3/6
4/6
5/6
6/6
Mod`
ele lin
eaire (suite)
Lesperance de Y pour chaque X est le point sur la droite
dequation E(Y |X) = 0 + 1 X.
On suppose que
I
N(0, 2 ).
On cherche `
a
I
MTH2302D: r
egression
8/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
9/45
1/6
2/6
3/6
4/6
5/6
6/6
Param`
etres 0 et 1
Supposons que n paires dobservations (X1 , Y1 ), (X2 , Y2 ), . . .,
(Xn , Yn ) ont ete faites. Substituant dans le mod`ele lineaire, on
obtient
Yi = 0 + 1 Xi + i
i = Yi 0 1 Xi .
n
X
(Yi 0 1 Xi )2 .
i=1
10/45
1/6
2/6
3/6
4/6
5/6
6/6
Param`
etres 0 et 1 (suite)
L(0 , 1 ) = 0
Y 1 X
Pn
i=1 Xi Yi n X Y
2
2
i=1 Xi nX
Pn
avec
1
n
Pn
X=
SXX =
SY Y =
SXY
i=1 Xi
Pn
et Y =
i=1 (Xi
Pn
1
n
SXY
SXX
Pn
i=1 Yi .
X)2 =
Y )2 =
Pn
2
i=1 Xi
Pn
2
i=1 Yi
nX = (n 1)S 2 .
2
nY .
Pn
Pn
= i=1 (Xi X)(Yi Y ) = i=1 Xi Yi n X Y .
i=1 (Yi
11/45
1/6
2/6
3/6
4/6
5/6
6/6
Droite de r
egression pour lexemple 1
90
85
80
75
70
donnes
65
droite
de
rgression
60
55
50
45
40
90
110
130
150
170
190
12/45
1/6
2/6
3/6
4/6
5/6
6/6
Propri
et
es de 0 et 1
La droite de regression estimee est Y = 0 + 1 X.
Les variables aleatoires 0 et 1 sont des estimateurs de lordonnee
`a lorigine 0 et de la pente 1 .
Th
eor`
eme
1. E(0 ) = 0 et E(1 ) = 1 (estimateurs non biaises).
#
"
2
X
2
1
2
+
et V(1 ) =
.
2. V(0 ) =
n SXX
SXX
3. Cov(0 , 1 ) =
MTH2302D: r
egression
2X
.
SXX
13/45
1/6
2/6
3/6
4/6
5/6
6/6
Param`
etre 2
Rappel : le mod`ele de regression est Y = 0 + 1 X + avec
N(0, 2 ).
La difference entre la valeur estimee Yi = 0 + 1 Xi et la valeur
observee Yi est appelee residu et est denotee Ei = Yi Yi .
On definit
I La somme des carr
es d
ue `a lerreur par
SSE =
n
X
i=1
Ei2 =
n
X
(Yi Yi )2 .
i=1
n
X
i=1
MTH2302D: r
egression
S2
(Yi Y )2 = 12 SXX = XY .
SXX
14/45
1/6
2/6
3/6
4/6
5/6
6/6
Param`
etre 2 (suite)
La quantite SY Y represente la variabilite totale des Yi . On peut la
decomposer par
SY Y = SST = SSE + SSR .
Th
eor`
eme
1. E(SSE ) = (n 2) 2 .
2.
2 =
MTH2302D: r
egression
SSE
M SE est donc un estimateur sans biais de 2 .
n2
15/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
Lanalyse de la temperature de fonctionnement dun procede
chimique sur le rendement du produit a donne les valeurs suivantes
pour la temperature Xi et le rendement correspondant Yi :
Temperature C
100
110
120
130
140
Rendement %
45
51
54
61
66
Temperature C
150
160
170
180
190
Rendement %
70
74
78
85
89
MTH2302D: r
egression
16/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
17/45
1/6
2/6
3/6
4/6
5/6
6/6
Distributions pour 0 et 1
Th
eor`
eme
La statistique
0 0
r
h
i
2
M SE n1 + SXXX
suit une loi de Student `a n 2 degres de liberte.
Th
eor`
eme
La statistique
1
p 1
M SE /SXX
suit une loi de Student `a n 2 degres de liberte.
MTH2302D: r
egression
18/45
1/6
2/6
3/6
4/6
5/6
6/6
v
#
"
u
2
u
X
1
+
= 0 t/2;n2 tM SE
n SXX
= 1 t/2;n2
M SE
.
SXX
19/45
1/6
2/6
3/6
4/6
5/6
6/6
MTH2302D: r
egression
20/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
Le calcul de lintervalle de confiance `a 95% en chaque point
x0 = Xi , i = 1, 2, . . . , 10 donne le tableau suivant :
x0
100
110
120
130
140
y0
45.56
50.39
55.22
60.05
64.88
limites
1.30
1.10
0.93
0.79
0.71
x0
150
160
170
180
190
y0
69.72
74.55
79.38
84.21
89.04
limites
0.71
0.79
0.93
1.10
1.30
21/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
`a partir des donnees du tableau precedent, on a trace lintervalle de
confiance pour la droite de regression :
89
84
79
74
donnes
69
droite
de
rgression
sous-approx.
64
sur-approx.
59
54
49
44
95
105
MTH2302D: r
egression
115
125
135
145
155
165
175
185
195
22/45
1/6
2/6
3/6
4/6
5/6
6/6
Intervalles de pr
evision
Soit x0 une valeur quelconque. La valeur correspondante de Y est
Y0 = Y |x0 = 0 + 1 x0 + 0 . On estime ponctuellement Y0 par
Y0 = 0 + 1 x0 .
La statistique
r
Y0 Y0
h
M SE 1 + n1 +
(Xx0 )2
SXX
x
)
0
Y0 = Y0 t/2;n2 M SE 1 + +
.
n
SXX
MTH2302D: r
egression
23/45
1/6
2/6
3/6
4/6
5/6
6/6
Remarques : IC vs IP
I
I
I
MTH2302D: r
egression
24/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
`a partir des donnees du tableau precedent, on a trace lintervalle de
prevision pour = 5% :
118
98
78
donnes
droite
de
rgression
sous-approx.
sur-approx.
58
38
18
50
70
MTH2302D: r
egression
90
110
130
150
170
190
210
230
250
25/45
1/6
2/6
3/6
4/6
5/6
6/6
Tests dhypoth`
eses pour 0
La distribution
0 0,0
t0 = r
h
i Tn2
2
1
X
M SE n + SXX
permet de tester des hypoth`eses du type
H0 :
H1 :
0 = 0,0
0 6= 0,0
MTH2302D: r
egression
26/45
1/6
2/6
3/6
4/6
5/6
6/6
Tests dhypoth`
eses pour 1
La distribution
1 1,0
t0 = p
Tn2
M SE /SXX
1 = 1,0
1 6= 1,0
MTH2302D: r
egression
27/45
1/6
2/6
3/6
4/6
5/6
6/6
Somme
des carres
Nombre
de d.d.l.
Regression
SSR
M SR =
SSR
1
Residus
SSE
n2
M SE =
SSE
n2
SST = SY Y
n1
Total
MTH2302D: r
egression
Moyenne
des carres
F0
M SR
M SE
28/45
1/6
2/6
3/6
4/6
5/6
6/6
Signification de la r
egression
Il sagit de tester les hypoth`eses
H0 :
H1 :
1 = 0
1 6= 0
29/45
1/6
2/6
3/6
4/6
5/6
6/6
Source de
variation
Somme
des carres
Nombre
de d.d.l.
Regression
SSR = 1924.88
Residus
Total
Moyenne
des carres
F0
M SR = 1924.88
2131.57
SSE = 7.22
M SE = 0.90
SST = 1932.10
MTH2302D: r
egression
30/45
1/6
2/6
3/6
4/6
5/6
6/6
Siginification de la r
egression (suite)
On ne rejette pas H0 :
y
MTH2302D: r
egression
31/45
1/6
2/6
3/6
4/6
5/6
6/6
Siginification de la r
egression (suite)
On rejette H0 :
y
MTH2302D: r
egression
32/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
33/45
1/6
2/6
3/6
4/6
5/6
6/6
MTH2302D: r
egression
34/45
1/6
2/6
3/6
4/6
5/6
6/6
^
yi
MTH2302D: r
egression
35/45
1/6
2/6
3/6
4/6
5/6
6/6
^
yi
MTH2302D: r
egression
36/45
1/6
2/6
3/6
4/6
5/6
6/6
^
yi
MTH2302D: r
egression
37/45
1/6
2/6
3/6
4/6
5/6
6/6
^
yi
MTH2302D: r
egression
38/45
1/6
2/6
3/6
4/6
5/6
6/6
Test de la normalit
e des r
esidus
Un histogramme.
MTH2302D: r
egression
39/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
Graphe des points (Yi , Ei ) :
Predicted vs. Residual Scores
Dependent variable: Rend
1,4
1,2
1,0
0,8
0,6
0,4
Residuals
0,2
0,0
-0,2
-0,4
-0,6
-0,8
-1,0
-1,2
-1,4
-1,6
40
45
50
55
60
65
70
Predicted Values
MTH2302D: r
egression
75
80
85
90
95
0,95 Conf.Int.
40/45
1/6
2/6
3/6
4/6
5/6
6/6
Exemple 1 (suite)
Graphe de probabilite normal des Ei :
Normal Probability Plot of Residuals
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-1,5
-2,0
-1,6
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
Residuals
MTH2302D: r
egression
41/45
1/6
2/6
3/6
4/6
5/6
6/6
Coefficient de d
etermination
Le coefficient de determination du mod`ele de regression lineaire est
R2 =
SSR
2 SXX
SSE
= 1
=1
.
SY Y
SY Y
SY Y
MTH2302D: r
egression
42/45
1/6
2/6
3/6
4/6
5/6
6/6
1. Introduction
2. R
egression lin
eaire simple
3. Estimation des param`
etres
4. Intervalles de confiance et tests
5. Analyse des r
esidus
6. Corr
elation
MTH2302D: r
egression
43/45
1/6
2/6
3/6
4/6
5/6
6/6
Coefficient de corr
elation
Rappel : La correlation entre deux variables aleatoires X et Y est
mesuree par le coefficient
Cov(X, Y )
= p
.
V(X)V(Y )
D
efinition
Le coefficient de correlation echantillonnal est
r=
SXY
.
SXX SY Y
44/45
1/6
2/6
3/6
4/6
5/6
6/6
Interpr
etation du coefficient de corr
elation
On peut montrer que 1 r 1.
I
MTH2302D: r
egression
45/45