Professional Documents
Culture Documents
Nicolas Turenne
INRA
nicolas.turenne@jouy.inra.fr
2005
Plan
● Régression multiple
● Coefficient de détermination R2
Questions :
comment relier les dépenses publicitaires aux ventes ?
Quelles sont les ventes espérées si le coût en frais de publicité sont de 2.2 millions ?
Quelle confiance apporter à l'estimation ?
Quel est la qualité de l'ajustement ?
Le modèle fondamental : régression linéaire
Données: (x1,y1),(x2,y2),...,(xn,yn)
Modèle de population: yi = β0 + β1 . xi + εi
Commentaires:
E(yi|xi) = β0 + β1 . xi
SD(yi|xi) = σ
La relation est linéaire – décrite par une droite
β0 = valeur « baseline » de y (quand x vaut 0)
β1 = pente de x (variation de y par rapport à une variation de x)
Comment choisir la ligne qui s'ajuste le mieux aux données ?
Meilleurs choix:
b0=13.82
b1=48.60
Soient les variables (vecteurs) indépendantes: x1, x2, ..., xk (k parmi elles)
Données: (y1, x11, x21, ..., xk1), ... , (yn, x1n, x2n, ..., xkn)
Modèle de population: yi = β0 + β1 . x1i + β2 . x2i +...+ βk . xki + εi
ε1, ε2,..., εn sont des variables aléatoires indépendantes, de distribution
normale N(0,σ)
Coefficients de régression : b0, b1,..., bk sont des estimations de β0, β1 ,..., βk
Estimation de la régression pour Y à xi: y i =b0 b1 . x 1i ...b k . x ki
Objectif: choisir b0, b1,..., bk pour minimiser la somme des carrés des résidus
n n
SCR=∑ e =∑ y i − y i
2 2
i
i=1 i=1
Exemple de sortie d'une régression (sous Excel)
Compréhension de la sortie de la régression
Exemple:
5- coefficient de détermination : R2
R2 quelle est sa signification ?
n n
i=1
La variation résiduelle (non expliquée) dans Y : ∑ e =∑ yi− yi
2
i
2
i=1 i=1
variation expliquée par les variable x
R2 =
variation totale
variation non expliquée par les variable x
R 2 =1 −
variation totale
n
∑ i i
y −
y
2
i=1
R2 =1 − n
∑ yi− yi 2
i=1
Coefficient de détermination R2
●Un R2 élevé signifie que la plupart de la variation que nous observons dans les
données yi peut être attribué à leurs valeurs x correspondantes – une propriété
désirée.
●Dans une régression simple, le R2 est plus élevé si les points de données sont
mieux alignés le long d'une ligne. Mais on trouve des extrêmes.
● Les utilisateurs de la régression tendent à se focaliser sur R2, mais ce n'est pas le
fin mot de l'histoire. Il est important que le modèle de régression soit « valide ».
Coefficient de détermination R2
1- linéarité
2- normalité de εi
●
Est ce que les termes d'erreur ont une variance constante ? (i.e. SD(εi) = σ
pour tout i)
● Vérifier l'affichage des résidus versus l'affichage de Y avec X
1) surspécification
● inclusion de trop de variables x pour faire R2 fictivement élevé
3) multicolinéarité
● Signes rapporteurs
- coefficients de régression (bi) ont le « mauvais » signe
- addition / suppression d'une variable indépendante peut changer
subtantiellement la valeur des coefficients de régression
- coefficients (bi) non significativement différents de zéro
On élimine GMAT
Modèles de régression
b j − j
● Fait : avant d'observer bj et sbj , obéit à une distribution de
s bj
Student (t-test) avec dof = (n - k - 1), de même que pour le dof résiduel
●Si nous pensons que le fait que la possession d'un MBA affecte la prime pour
un cadre alors on crée une variable factice en lui donnant 1 si le cadre possède
un MBA et 0 sinon
●Si nous pensons que la saison de l'année influence les ventes, comment allons
nous créer une variable factice ? Combien ?
2) Checklist résiduel