CoursDM Regression

Régression linéaire
Nicolas Turenne
INRA
nicolas.turenne@jouy.inra.fr
2005
Plan
● Régression linéaire simple
● Régression multiple
● Compréhension de la sortie de la régression
● Coefficient de détermination R2
● Validation du modèle de régression

Un exemple
Questions :
comment relier les dépenses publicitaires aux ventes ?
Quelles sont les ventes espérées si le coût en frais de publicité sont de 2.2 millions ?
Quelle confiance apporter à l'estimation ?
Quel est la qualité de l'ajustement ?
Le modèle fondamental : régression linéaire
Données: (x1,y1),(x2,y2),...,(xn,yn)
Modèle de population: yi = β0 + β1 . xi + εi
ε1, ε2,..., εn sont des variables aléatoires indépendantes, de

distribution normale N(0,σ). Ceci est la vraie relation entre x et y
mais nous ne connaissons pas les paramètres β0 et β1 que nous
devons estimer à partir des données.
Commentaires:
E(yi|xi) = β0 + β1 . xi
SD(yi|xi) = σ
La relation est linéaire – décrite par une droite
β0 = valeur « baseline » de y (quand x vaut 0)
β1 = pente de x (variation de y par rapport à une variation de x)
Comment choisir la ligne qui s'ajuste le mieux aux données ?
Meilleurs choix:
b0=13.82
b1=48.60
Coefficients de régression : b0 et b1 sont des estimations de β0 et β1

Estimation de la régression pour Y à xi: y i =b0b1 . x i
erreur résiduelle : e i = y i − y i
La « meilleure » ligne de régression est celle qui choisit b0 et b1 pour
minimiser les erreurs totales (somme des résidus au carré):
n n
SCR=∑ e =∑  y i − y i 
2 2
i
i=1 i=1
Exemple: Ventes de Nature-Bar en millions de $
Régression multiple
En général, il y a beaucoup de facteurs qui influencent les ventes en plus

des frais de publicité
La régression multiple permet de gérer plus d'une variable x
Soient les variables (vecteurs) indépendantes: x1, x2, ..., xk (k parmi elles)
Données: (y1, x11, x21, ..., xk1), ... , (yn, x1n, x2n, ..., xkn)
Modèle de population: yi = β0 + β1 . x1i + β2 . x2i +...+ βk . xki + εi
ε1, ε2,..., εn sont des variables aléatoires indépendantes, de distribution
normale N(0,σ)
Coefficients de régression : b0, b1,..., bk sont des estimations de β0, β1 ,..., βk
Estimation de la régression pour Y à xi: y i =b0 b1 . x 1i ...b k . x ki
Objectif: choisir b0, b1,..., bk pour minimiser la somme des carrés des résidus
n n
SCR=∑ e =∑  y i − y i 
2 2
i
i=1 i=1
Exemple de sortie d'une régression (sous Excel)
Compréhension de la sortie de la régression
1- coefficients de régression : b0, b1, ... , bk sont des estimations de

β0, β1, ... , βk basées sur les données de l'échantillon. Un fait: E[bj]=βj
Exemple:
b0 = 65.705 (son interprétation est dépendant du contexte)
b1 = 48.979 (l'ajout d'1 million $ en publicité est supposé rendre 49 millions $

de ventes)
b2 = 59.654 (l'ajout d'1 million $ en promotions est supposé rendre 60 millions

$ de ventes)
b3 = -1.838 (l'augmentation d'1 million $ en ventes concurrentielles fait

diminuer les ventes de 1.8 million $)
Compréhension de la sortie de la régression
2- erreur standard : une estimation de s, la variance de chaque εi.

C'est une mesure de la quantité de « bruit » dans le modèle.
Exemple : s = 17.60
3- degré de liberté : nombre de cas – nombre de paramètres

lié au phénomène d' overfitting (surajustement ou surapprentissage).
4- erreur standard des coefficients : sb0, sb1, ... , sbk

Ce sont les variances des estimations b0, b1, ... , bk
Ils sont utiles pour évaluer la qualité de l'estimation des coefficients

et pour valider le modèle.
5- coefficient de détermination : R2
R2 quelle est sa signification ?
Le paramètre R2 prend des valeurs

entre 0 et 1, c'est un pourcentage.
Dans l'exemple sa valeur est 0.833
R2=1; les valeurs de x expliquent R2=0; les valeurs de x n'expliquent

toutes les variations des valeurs pas toutes les variations des valeurs
de Y de Y
Le coefficient de détermination est :
- une mesure de la qualité générale de la régression

- spécifiquement c'est le pourcentage de la variation totale exhibée
dans les données yi qui est expliqué par la partie de la ligne de régression
La moyenne de l'échantillon de Y : y = y 1 y 2... y n /n

n
La variation totale dans Y : ∑ i 

 y − y 2
n n
i=1
La variation résiduelle (non expliquée) dans Y : ∑ e =∑  yi− yi 
2
i
2
i=1 i=1
variation expliquée par les variable x
R2 =
variation totale
variation non expliquée par les variable x
R 2 =1 −
variation totale
n
∑ i i
 y − 
y 
2
i=1
R2 =1 − n
∑  yi− yi 2
i=1
Coefficient de détermination R2
●Un R2 élevé signifie que la plupart de la variation que nous observons dans les
données yi peut être attribué à leurs valeurs x correspondantes – une propriété
désirée.
●Dans une régression simple, le R2 est plus élevé si les points de données sont
mieux alignés le long d'une ligne. Mais on trouve des extrêmes.
● La façon dont R2 est suffisamment « correct » dépend de la situation (par

exemple, l'utilisation souhaitée de la régression, et la complexité du problème).
● Les utilisateurs de la régression tendent à se focaliser sur R2, mais ce n'est pas le
fin mot de l'histoire. Il est important que le modèle de régression soit « valide ».
Coefficient de détermination R2
● On ne devrait pas inclure des variables x non reliées à y dans le modèle,

juste pour faire un R2 fictivement élevé. (Avec plus de variables x il y aurait
plus de liberté à choisir les bi pour faire la variation résiduelle plus proche
de 0).
● Le R multiple est la racine carrée de R2.

Validation du modèle de régression
Hypothèses sur la population :

yi = β0 + β1.x1i + ... + βk.xki + εi (i=1,...,n)
ε1, ε2, ... , εn sont des variables indépendantes, ~N(0,σ)
1- linéarité
● si k=1 , cas de la régression simple, on peut vérifier visuellement par un

affichage en nuage
● vérification sanitaire: le signe des coefficients, raison de non-linéarité ?
2- normalité de εi
●Affichage de l'histogramme des résidus e= y i − y i 

● D'habitude les résultats sont vraiment robustes en respectant cette
hypothèse
3- hétéroscédasticité
●
Est ce que les termes d'erreur ont une variance constante ? (i.e. SD(εi) = σ
pour tout i)
● Vérifier l'affichage des résidus versus l'affichage de Y avec X
Pas d'évidence d'hétéroscédasticité Évidence d'hétéroscédasticité
● Peut être réglé en introduisant une transformation

● Peut être réglé en introduisant ou en éliminant des variables indépendantes
4- auto-corrélation : est-ce que les termes d'erreur sont indépendants?
On affiche les résidus de façon à vérifier les régularités
Pas d'évidence d'auto-corrélation Évidence d'auto-corrélation
● L'autocorrélation peut être présente si les observations ont un ordre

séquentiel naturel (par exemple, le temps).
● Peut être réglé en introduisant ou en transformant une variable.

Pièges et problèmes
1) surspécification
● inclusion de trop de variables x pour faire R2 fictivement élevé
● règle du pouce (rule of thumb): on doit veiller à avoir n >= 5.(k+2)
2) extrapolation au delà de la plage des données

Pièges et problèmes
3) multicolinéarité
● Apparaît quand deux variables x sont très fortement corrélées
● Peut donner de très mauvaises estimations pour les bi
● Signes rapporteurs
- coefficients de régression (bi) ont le « mauvais » signe
- addition / suppression d'une variable indépendante peut changer
subtantiellement la valeur des coefficients de régression
- coefficients (bi) non significativement différents de zéro
● peut être réglé par suppression d'une ou plusieurs variables indépendantes

Exemple
Sortie de régression
Que s'est-il passé ?
College GPA et GMAT sont

hautement corrélés
On élimine GMAT
Modèles de régression
● En régression linéaire, on choisit les « meilleurs » coefficients b0, b1, ..., bk

comme des estimateurs de β0, β1, ... , βk .
● On sait qu'en moyenne chaque bj atteint le bon βj
● Cependant on veut savoir comment on peut avoir confiance en nos

estimateurs
Retour à la sortie de régression
Analyse de la sortie de régression
1) Degré de liberté (df ou dof – degree of freedom).
● dof résiduel = n – (k+1) (on a utilisé (k+1) degrés de liberté en formant

(k+1) estimateurs d'échantillons b0, b1, ... , bk )
2) Erreurs standard des coefficients : sb0, sb1, ... , sbk

● ce sont juste les écarts-types des estimateurs b , b , ... , b
0 1 k
b j − j
● Fait : avant d'observer bj et sbj , obéit à une distribution de
s bj
Student (t-test) avec dof = (n - k - 1), de même que pour le dof résiduel
● on utilisera ce fait pour valider la qualité de nos estimateurs bj

- quel est l'intervalle de confiance à 95% pour bj ?
- est-ce que l'intervalle contient 0 ? pourquoi tenons nous compte de cela ?
b
3) t-Statistic t j= s j
bj
● Une mesure de signification statistique de chaque individu xj pour expliquer

la variabilité de y
●Soit c le nombre pour lequel

P( -c < T < c ) = α % (par exemple 95%) où [-c, c] est l'intervalle de
confiance ou CI (confidence intervalle), et T obéit à une t-distribution avec
dof=(n-k-1) ;
● Si |tj| > c alors les α % de CI pour les bj ne contient pas 0.
● Dans ce cas, nous avons α% de confiance que βj est différent de zéro

Exemple : prime pour les cadres
Variables factices
● Souvent, quelques variables explicatives dans une régression sont

catégorielles davantage que numériques.
●Si nous pensons que le fait que la possession d'un MBA affecte la prime pour
un cadre alors on crée une variable factice en lui donnant 1 si le cadre possède
un MBA et 0 sinon
●Si nous pensons que la saison de l'année influence les ventes, comment allons
nous créer une variable factice ? Combien ?
● Que se passe-t-il si nous créons 4 variables factices ?
● En général s'il y a m catégories auxquelles une variable x peut appartenir,

alors on a besoin de créer m-1 variables factices pour celle-ci
Données OILPLUS
La pratique de la régression
● Choisir quelles variables indépendantes inclure dans le modèle, basé sur le

sens commun et les connaissances spécifiques de contexte.
● Collecter les données (créer des variables factices au besoin).
● Faire tourner la régression (partie la plus facile)
● Analyser les résultats de sortie et changer le modèle (c'est là que se trouve

l'action)
● Tester les résultats de sortie sur des données test

Checklist
1) Checklist statistique
●Calculer la corrélation entre paires de variables x – identifier des preuves de

multicolinéarité
● Vérifier le signe des coefficients (ont-ils un sens ?)
●Vérifier 95% de CI (utiliser un statistique-t comme analyse rapide) – est ce

que les coefficients sont significativement différents de 0 ?
● R2 – critère de qualité mais pas la seule
2) Checklist résiduel
● normalité - jeter un oeil sur l'histogramme des résidus
● hétéroscédasticité - afficher les résidus pour chaque variable x
Auto-corrélation : si les données ont un ordre naturel, afficher les résidus et

rechercher des régularités.
Checklist - subsidiaire
1) linéarité : affichage en nuage (scatter plot), bon sens, et bien connaître votre
problème, transformer en incluant des interactions si c'est utile.
2) t-statistique : est-ce que les coefficients sont significativement différents de
zéro ? Regarder la largeur des intervalles de confiance.
3) F-tests pour les sous-ensembles, égalité des coefficients.
4) R2 : raisonnablement élevé dans le contexte.
5) Observations influentes, extrêmes de l'espace des prédicteurs, espace des
variables dépendant
6) Normalité : afficher l'histogramme des résidus
7) Résidus studentisés (t-statistique)
8) Hétéroscédasticité : afficher les résidus avec chaque variable x, transformersi
nécessaire, transformations Box-Cox
9) Auto-corrélation : « affichage en séries temporelles »
10) Multicollinéarité : calculer les corrélations des variables x, est ce que les
signes des coefficients sont en accord avec votre intuition ? Faire une analyse
en composante principale.
11) Valeurs manquantes : quelle influence ?

CoursDM Regression

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

CoursDM Regression

Uploaded by

Copyright:

Available Formats

Régression linéaire

● Régression linéaire simple

● Compréhension de la sortie de la régression

● Validation du modèle de régression

ε1, ε2,..., εn sont des variables aléatoires indépendantes, de

Coefficients de régression : b0 et b1 sont des estimations de β0 et β1

En général, il y a beaucoup de facteurs qui influencent les ventes en plus

1- coefficients de régression : b0, b1, ... , bk sont des estimations de

b0 = 65.705 (son interprétation est dépendant du contexte)

b1 = 48.979 (l'ajout d'1 million $ en publicité est supposé rendre 49 millions $

b2 = 59.654 (l'ajout d'1 million $ en promotions est supposé rendre 60 millions

b3 = -1.838 (l'augmentation d'1 million $ en ventes concurrentielles fait

2- erreur standard : une estimation de s, la variance de chaque εi.

3- degré de liberté : nombre de cas – nombre de paramètres

4- erreur standard des coefficients : sb0, sb1, ... , sbk

Ils sont utiles pour évaluer la qualité de l'estimation des coefficients

Le paramètre R2 prend des valeurs

Dans l'exemple sa valeur est 0.833

R2=1; les valeurs de x expliquent R2=0; les valeurs de x n'expliquent

- une mesure de la qualité générale de la régression

La moyenne de l'échantillon de Y : y = y 1 y 2... y n /n

La variation totale dans Y : ∑ i 

● La façon dont R2 est suffisamment « correct » dépend de la situation (par

● On ne devrait pas inclure des variables x non reliées à y dans le modèle,

● Le R multiple est la racine carrée de R2.

Hypothèses sur la population :

● si k=1 , cas de la régression simple, on peut vérifier visuellement par un

●Affichage de l'histogramme des résidus e= y i − y i 

Pas d'évidence d'hétéroscédasticité Évidence d'hétéroscédasticité

● Peut être réglé en introduisant une transformation

On affiche les résidus de façon à vérifier les régularités

Pas d'évidence d'auto-corrélation Évidence d'auto-corrélation

● L'autocorrélation peut être présente si les observations ont un ordre

● Peut être réglé en introduisant ou en transformant une variable.

● règle du pouce (rule of thumb): on doit veiller à avoir n >= 5.(k+2)

2) extrapolation au delà de la plage des données

● Apparaît quand deux variables x sont très fortement corrélées

● Peut donner de très mauvaises estimations pour les bi

● peut être réglé par suppression d'une ou plusieurs variables indépendantes

Que s'est-il passé ?

College GPA et GMAT sont

● En régression linéaire, on choisit les « meilleurs » coefficients b0, b1, ..., bk

● On sait qu'en moyenne chaque bj atteint le bon βj

● Cependant on veut savoir comment on peut avoir confiance en nos

1) Degré de liberté (df ou dof – degree of freedom).

● dof résiduel = n – (k+1) (on a utilisé (k+1) degrés de liberté en formant

2) Erreurs standard des coefficients : sb0, sb1, ... , sbk

● on utilisera ce fait pour valider la qualité de nos estimateurs bj

● Une mesure de signification statistique de chaque individu xj pour expliquer

●Soit c le nombre pour lequel

● Si |tj| > c alors les α % de CI pour les bj ne contient pas 0.

● Dans ce cas, nous avons α% de confiance que βj est différent de zéro

● Souvent, quelques variables explicatives dans une régression sont

● Que se passe-t-il si nous créons 4 variables factices ?

● En général s'il y a m catégories auxquelles une variable x peut appartenir,

● Choisir quelles variables indépendantes inclure dans le modèle, basé sur le

● Collecter les données (créer des variables factices au besoin).

● Faire tourner la régression (partie la plus facile)

● Analyser les résultats de sortie et changer le modèle (c'est là que se trouve

● Tester les résultats de sortie sur des données test

●Calculer la corrélation entre paires de variables x – identifier des preuves de

● Vérifier le signe des coefficients (ont-ils un sens ?)

●Vérifier 95% de CI (utiliser un statistique-t comme analyse rapide) – est ce

● R2 – critère de qualité mais pas la seule