You are on page 1of 11

Régression linéaire simple

1. Définition de la régression

Dans l’illustration ci-dessus, l’image est une représentation graphique d’une base de
données d’un organisme de crédit automobile.

Cette société veut utiliser ses données afin de prédire le budget qu’un client est prêt à
investir pour l’achat d’une nouvelle voiture.

Les données se regroupent en un ruban assez étroit. Il est possible de faire passer au mieux
une courbe de nuage de points à travers ce nuage de points et de considérer que cette
courbe est un modèle est un modèle approximatif mais satisfait la réalité.

Cette courbe matérialise une fonction :

Budget=f ¿ ( Age )

C’est la fonction de régression de la variable Budget sur la variable Age.

L’astérix présent comme indice de f, signifie que c’est une fonction approximative (juste une
estimation de la fonction).

La fonction est utilisée de la façon suivante :

 La variable Age est portée en abscisse.


 Cette fonction fournit une prédiction de la variable Budget auto pour les clients.

Nous avons provisoirement ignoré la difficulté liée au fait que la base de données ne
contient pas qu’un échantillon de la population (les clients potentiels) et considéré qu’elle
contient l’intégralité de cette population.
De même, nous allons définir la vraie fonction f(x) construite (et non son estimation f*(x)
construite par l’analyse à l’aide d’un échantillon).

Même ces causes d’incertitude levées, la prédiction ne peut être parfaite.

Dans l’exemple précédent, l’âge à lui seul servait à déterminer le comportement d’un client.
D’autres variables pourraient être prises en compte pour minimiser les erreurs sur la
prédiction des valeurs des y (budgets). Ainsi on pourra penser à inclure dans la fonction de
régression des variable comme : le sexe, le revenu annuel, le nombre d’enfants…etc.

Toutes ces grandeurs servent à la prédiction sont appelées « variables explicatives » ou


« prédicateurs », et la variable budget est appelée « variable à expliquer ». Ainsi d’une façon
générale, la fonction de régression est la meilleure fonction :

y=f ( x 1 , x 2 , … , x p )

Elle permet de prédire la variable à expliquer y connaissant les valeurs des prédicateurs,
x i i=1.´. p . Il faut donc définir f ( x 1 , x 2 , … , x p ) de façon à minimiser ses erreurs.

2. Introduction

La régression est une méthode statistique très utilisée pour analyser la relation d’une
variable avec une autre ou avec plusieurs. On a recours à une estimation des paramètres
inconnus du modèle de régression par un ajustement mathématique du modèle spécifié en
fonction des données récoltées à partir d’un ensemble de valeurs expérimentales qui
peuvent être représentées par des points dans un graphe. On cherche à calculer la courbe
qui produit le mieux les variations et la grandeur étudiée.

C'est-à-dire qu’elle s’ajuste au mieux au nuage de points.

La régression est donc l’opération qui consiste à ajuster une droite ou une courbe
mathématique le plus prêt possible d’un certain nombre de points observés.

Il existe deux méthodes principales de calcul des paramètres d’un modèle de régression

2.1. La méthode des moindres carrés

Minimise la somme des carrés des erreurs de prédiction des modèles sur les données
disponibles.

Cette méthode est adoptée par les méthodes de régression simple et multiple.

2.2. La méthode de maximum de vraisemblance

Elle ajuste les valeurs des paramètres de façon à rendre maximal la vraisemblance entre les
données pour le modèle.
3. Régression linéaire simple

La régression linéaire simple permet d’étudier et de mesurer la relation mathématique entre


les variables quantitatives.

La force d’association entre deux variables estimées par un coefficient de corrélation R, ce


coefficient varie de -1 à 1.

Intervalle de |R| Force d’association entre les variables


0.8 à 1 Importante
0.5 à 0.8 Modéré
0.2 à 0.5 Faible
0 à 0.2 Très faible

Signe de R Type de relation


Positif Une association positive, Y croit avec X.
Négatif Une association négative, Y décroit quand X
croit.

La régression linéaire multiple permet d’étudier et de mesurer la relation mathématique qui


peut exister entre plusieurs variables quantitatives.

A partir d’une observation : ( y i , xi ) , i=1.´. p On a présenté dans un graphe l’ensemble des


points représentants la taille par rapport à l’âge.

y i=a . x i +b

En statistiques, étant donné un échantillon aléatoire, ( y i , xi ) , i=1.´. p, un modèle de


régression simple suppose que, y i=a . x i +b. La régression linéaire a pour but de déterminer
une estimation des valeurs de a et de b, et de quantifier la validité de cette relation grâce au
coefficient de corrélation.

Une de ces méthodes est la méthode des moindres carrés.

4. La différence entre la régression linéaire et la corrélation

Le terme corrélation utilisé pour désigner la relation entre deux variables quantitatives (plus
souvent continues).

4.1. Corrélation
4.1.1.Exemple 1 corrélation positive

X : ventes de paires de lunette de soleil en été.

Y : vente de crèmes glacées en été.

Quand X augmente, Y augmente aussi (météo estivale).

Quand X diminue, Y diminue aussi (météo pluvieuse).

La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne
dépend pas non plus de X.

Y ne peut pas être prédite à partir de X.

4.1.2.Exemple 2

X : ventes de paires de lunette de soleil en été.

Y : vente de parapluies en été.

Quand X augmente, Y diminue.

Quand X diminue, Y augmente.


La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne
dépend pas non plus de X.

Y ne peut pas être prédite à partir de X.

4.2. Régression

X : âge de 0 à 15 ans.

Y : taille en centimètres.

Quand X augmente, Y augmente aussi.

Quand X diminue, Y diminue aussi.

La liaison est asymétrique, la taille dépend de l’âge mais l’âge ne dépend pas de la taille.

On ne peut pas permuter les deux axes.

On peut prédire la taille connaissant l’âge à l’aide de l’équation de la droite ou la courbe de


régression (carnet de vaccination).
Corrélation Régression
Variables X et Y quantitatives X et Y quantitatives
Symétrie Des fois oui et d’autres non Non
Liaison X dépend de Y et Y dépend Y dépend de X
de X
Prédiction Non Oui
5. Condition d’application de la corrélation et de la régression linéaire simple

Il faut vérifier empiriquement (graphiquement) que leurs relation est de nature linéaire (Un
nuage représenté par une droite).

5.1. Coefficient de corrélation nul

Qui veut dire que la pente de la droite de régression est nulle.

La nature de la liaison est linéaire. Le nuage est représenté au mieux par une droite
horizontale (Y=b).

5.2. Coefficient de corrélation non nul

Qui veut dire que la pente de la droite de régression est non nulle.
La nature de la relation est linéaire, donc, il est possible d’utiliser le coefficient de corrélation
et la régression linéaire simple pour quantifier la relation entre deux variables.

5.3. Le cas restant

La nature de la relation entre ces deux variables n’est pas de nature linéaire. Le nuage de
points n’est pas résumé pour le mieux par une droite. Donc, on ne peut pas utiliser le
coefficient de corrélation ou la régression linéaire simple pour quantifier leur relation.

6. La régression linéaire simple

Elle s’adresse à un type de problèmes ou les variables quantitatives ont un rôle asymétrique,
donc Y dépend de X et le contraire n’est pas vérifié.

La liaison entre la variable Y dépendante, et la variable X indépendante peut être est


modélisé par une fonction de type Y =α + β . X représenté par graphiquement par des
points.

Y : variable dépendante ou expliquée.


X : variable indépendante ou explicative.

α : ordonnée de l’origine ou la valeur de Y sachant que X=0.

β : variation moyenne de la valeur de Y pour un changement unitaire de X.

7. Estimation par la méthode des moindres carrés

La régression linéaire simple cherche à modéliser le fait que les points expérimentaux sont
approximativement alignés, elle nous fait identifier la meilleure droite passant à travers le
nuage de points. Cette droite s’appelle « droite des moindres carrés » et on la note « DMC ».

Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus
proches, c'est-à-dire, la droite qui passe à la plus faible distance de chaque coin du nuage en
moyenne.

La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé
et l’ordonnée du point correspondant à ce point dans la droite.

Cette distance peut être positive comme elle peut être négative.

Et la somme des distances à la droite s’annule pour s’affranchir du signe, on calcule la


somme des carrés des distances de chaque point à la droite.

La droite de régression est la droite qui minimise la somme des carrés des écarts.

Une particularité de la droite de régression est de passer par le point moyen théorique des
coordonnées ( X́ , Ý ).

7.1. La méthode des moindres carrés

Le problème de la régression consiste à chercher une relation qui existe entre la variable X et
la variable Y, c'est-à-dire de la forme Y =a . X +b par la régression linéaire. On dit que la
variable Y est la variable à expliquer ou la variable dépendante et la variable X la variable
explicative.
n n n
2
E=∑ ε =∑ ( y i− y ' i ) =∑ ( y i− ( a . x i +b ) )
i
i=0 i=0 i=0

ε i : Résidu ou écart
n

∑ ( ( X i− X́ ) . (Y i −Ý ) )
a= i=0 n

∑ ( X i− X́ )
i=0

b=Ý −a . X́

7.2. Evaluation de la qualité de régression

Pour mesurer la qualité de l’approximation d’un nuage de points grâce à la droite des
moindres carrés, on calcule son coefficient de corrélation linéaire :

Cov ( X , Y )
R X ,Y =
σ X . σY

C’est un nombre compris entre -1 et 1. Il vaut 1 (respectivement -1) si les points du nuage
sont alignés sur la droite ayant une pente positive (respectivement négative).
Ce coefficient est une mesure de dispersion d’un nuage. On considère l’approximation de la
droite des moindres carrés est de bonne qualité si la valeur absolue du coefficient de
corrélation se rapproche de 1. Et médiocre s’il s’éloigne de cette valeur, c'est-à-dire
s’approche de 0.

En pratique, on estime souvent la bonne qualité de la régression lorsque le coefficient

dépasse
√3 .
2

8. La régression linéaire multiple

Corrélation Régression
Variables Quantitatives symétriques Quantitatives asymétriques
ou non symétriques
Test −1 ≤r ≤ 1 Pente de la droite des
régression
Prédiction Non Oui
Conditions Indépendances des Distribution conditionnelle
observations et liaison normale et de variables
linéaire constantes

8.1. Principe

Le problème traité par la régression linéaire multiple est le même que la régression linéaire
simple si ce n’est qu’il recherche à expliquer les valeurs de la variable Y non pas par les
valeurs de la variable X mais plusieurs variables X i.

En changeant légèrement la notation :

Y =a0 +a1 . X 1 +a2 . X 2+ …+a 3 . X 3 +ε ( X )


On suppose donc que la variable Y et les variables X j sont reliées par une relation linéaire.

p :nombre de variables explicatives

ε ( X ) :bruit aléatoire

Nous allons préciser à chaque fois la valeur de ε(X), elle dépend du point X de l’espace des
données définies par les valeurs des Xj. la régression linéaire simple cherche à faire passer
une droite au mieux à travers le nuage de points dans le plan (X, Y).

Il va en être de même pour la régression linéaire multiple, si ce n’est que la représentation


visuelle devient impossible sauf de justesse quand il y’a deux variables explicatives X 1 et X2
(dans l’espace). La régression linéaire multiple va alors faire passer un plan à travers le nuage
de points représentants les données dans l’espace (X 1, X2, Y).

Le plan des moindres carrés est celui qui minimise la somme des carrés des longueurs des
segments en bleu par rapport à l’axe (Y) (projection verticale). Ces longueurs s’appellent
« les résidus des modèles ». Le plan des moindres carrés est celui qui minimise la somme des
carrés des résidus.

En dimension supérieur, il faut se contenter de dire que la régression linéaire multiple va


déterminer un hyperplan de dimension p minimisant la somme des carrés des écarts
(mesurées parallèlement à l’axe Y) entre les points des données et ceux dans l’hyperplan.

You might also like