Régression Linéaire Simple

Régression linéaire simple
1. Définition de la régression
Dans l’illustration ci-dessus, l’image est une représentation graphique d’une base de
données d’un organisme de crédit automobile.
Cette société veut utiliser ses données afin de prédire le budget qu’un client est prêt à
investir pour l’achat d’une nouvelle voiture.
Les données se regroupent en un ruban assez étroit. Il est possible de faire passer au mieux
une courbe de nuage de points à travers ce nuage de points et de considérer que cette
courbe est un modèle est un modèle approximatif mais satisfait la réalité.
Cette courbe matérialise une fonction :
Budget=f ¿ ( Age )
C’est la fonction de régression de la variable Budget sur la variable Age.
L’astérix présent comme indice de f, signifie que c’est une fonction approximative (juste une
estimation de la fonction).
La fonction est utilisée de la façon suivante :
 La variable Age est portée en abscisse.

 Cette fonction fournit une prédiction de la variable Budget auto pour les clients.
Nous avons provisoirement ignoré la difficulté liée au fait que la base de données ne
contient pas qu’un échantillon de la population (les clients potentiels) et considéré qu’elle
contient l’intégralité de cette population.
De même, nous allons définir la vraie fonction f(x) construite (et non son estimation f*(x)
construite par l’analyse à l’aide d’un échantillon).
Même ces causes d’incertitude levées, la prédiction ne peut être parfaite.
Dans l’exemple précédent, l’âge à lui seul servait à déterminer le comportement d’un client.
D’autres variables pourraient être prises en compte pour minimiser les erreurs sur la
prédiction des valeurs des y (budgets). Ainsi on pourra penser à inclure dans la fonction de
régression des variable comme : le sexe, le revenu annuel, le nombre d’enfants…etc.
Toutes ces grandeurs servent à la prédiction sont appelées « variables explicatives » ou

« prédicateurs », et la variable budget est appelée « variable à expliquer ». Ainsi d’une façon
générale, la fonction de régression est la meilleure fonction :
y=f ( x 1 , x 2 , … , x p )
Elle permet de prédire la variable à expliquer y connaissant les valeurs des prédicateurs,
x i i=1.´. p . Il faut donc définir f ( x 1 , x 2 , … , x p ) de façon à minimiser ses erreurs.
2. Introduction
La régression est une méthode statistique très utilisée pour analyser la relation d’une
variable avec une autre ou avec plusieurs. On a recours à une estimation des paramètres
inconnus du modèle de régression par un ajustement mathématique du modèle spécifié en
fonction des données récoltées à partir d’un ensemble de valeurs expérimentales qui
peuvent être représentées par des points dans un graphe. On cherche à calculer la courbe
qui produit le mieux les variations et la grandeur étudiée.
C'est-à-dire qu’elle s’ajuste au mieux au nuage de points.
La régression est donc l’opération qui consiste à ajuster une droite ou une courbe
mathématique le plus prêt possible d’un certain nombre de points observés.
Il existe deux méthodes principales de calcul des paramètres d’un modèle de régression
2.1. La méthode des moindres carrés
Minimise la somme des carrés des erreurs de prédiction des modèles sur les données
disponibles.
Cette méthode est adoptée par les méthodes de régression simple et multiple.
2.2. La méthode de maximum de vraisemblance
Elle ajuste les valeurs des paramètres de façon à rendre maximal la vraisemblance entre les
données pour le modèle.
3. Régression linéaire simple
La régression linéaire simple permet d’étudier et de mesurer la relation mathématique entre

les variables quantitatives.
La force d’association entre deux variables estimées par un coefficient de corrélation R, ce

coefficient varie de -1 à 1.
Intervalle de |R| Force d’association entre les variables

0.8 à 1 Importante
0.5 à 0.8 Modéré
0.2 à 0.5 Faible
0 à 0.2 Très faible
Signe de R Type de relation

Positif Une association positive, Y croit avec X.
Négatif Une association négative, Y décroit quand X
croit.
La régression linéaire multiple permet d’étudier et de mesurer la relation mathématique qui

peut exister entre plusieurs variables quantitatives.
A partir d’une observation : ( y i , xi ) , i=1.´. p On a présenté dans un graphe l’ensemble des

points représentants la taille par rapport à l’âge.
y i=a . x i +b
En statistiques, étant donné un échantillon aléatoire, ( y i , xi ) , i=1.´. p, un modèle de

régression simple suppose que, y i=a . x i +b. La régression linéaire a pour but de déterminer
une estimation des valeurs de a et de b, et de quantifier la validité de cette relation grâce au
coefficient de corrélation.
Une de ces méthodes est la méthode des moindres carrés.
4. La différence entre la régression linéaire et la corrélation
Le terme corrélation utilisé pour désigner la relation entre deux variables quantitatives (plus
souvent continues).
4.1. Corrélation
4.1.1.Exemple 1 corrélation positive
X : ventes de paires de lunette de soleil en été.
Y : vente de crèmes glacées en été.
Quand X augmente, Y augmente aussi (météo estivale).
Quand X diminue, Y diminue aussi (météo pluvieuse).
La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne
dépend pas non plus de X.
Y ne peut pas être prédite à partir de X.
4.1.2.Exemple 2
X : ventes de paires de lunette de soleil en été.
Y : vente de parapluies en été.
Quand X augmente, Y diminue.
Quand X diminue, Y augmente.

La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne
dépend pas non plus de X.
Y ne peut pas être prédite à partir de X.
4.2. Régression
X : âge de 0 à 15 ans.
Y : taille en centimètres.
Quand X augmente, Y augmente aussi.
Quand X diminue, Y diminue aussi.
La liaison est asymétrique, la taille dépend de l’âge mais l’âge ne dépend pas de la taille.
On ne peut pas permuter les deux axes.
On peut prédire la taille connaissant l’âge à l’aide de l’équation de la droite ou la courbe de

régression (carnet de vaccination).
Corrélation Régression
Variables X et Y quantitatives X et Y quantitatives
Symétrie Des fois oui et d’autres non Non
Liaison X dépend de Y et Y dépend Y dépend de X
de X
Prédiction Non Oui
5. Condition d’application de la corrélation et de la régression linéaire simple
Il faut vérifier empiriquement (graphiquement) que leurs relation est de nature linéaire (Un
nuage représenté par une droite).
5.1. Coefficient de corrélation nul
Qui veut dire que la pente de la droite de régression est nulle.
La nature de la liaison est linéaire. Le nuage est représenté au mieux par une droite
horizontale (Y=b).
5.2. Coefficient de corrélation non nul
Qui veut dire que la pente de la droite de régression est non nulle.
La nature de la relation est linéaire, donc, il est possible d’utiliser le coefficient de corrélation
et la régression linéaire simple pour quantifier la relation entre deux variables.
5.3. Le cas restant
La nature de la relation entre ces deux variables n’est pas de nature linéaire. Le nuage de
points n’est pas résumé pour le mieux par une droite. Donc, on ne peut pas utiliser le
coefficient de corrélation ou la régression linéaire simple pour quantifier leur relation.
6. La régression linéaire simple
Elle s’adresse à un type de problèmes ou les variables quantitatives ont un rôle asymétrique,
donc Y dépend de X et le contraire n’est pas vérifié.
La liaison entre la variable Y dépendante, et la variable X indépendante peut être est

modélisé par une fonction de type Y =α + β . X représenté par graphiquement par des
points.
Y : variable dépendante ou expliquée.

X : variable indépendante ou explicative.
α : ordonnée de l’origine ou la valeur de Y sachant que X=0.
β : variation moyenne de la valeur de Y pour un changement unitaire de X.
7. Estimation par la méthode des moindres carrés
La régression linéaire simple cherche à modéliser le fait que les points expérimentaux sont
approximativement alignés, elle nous fait identifier la meilleure droite passant à travers le
nuage de points. Cette droite s’appelle « droite des moindres carrés » et on la note « DMC ».
Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus
proches, c'est-à-dire, la droite qui passe à la plus faible distance de chaque coin du nuage en
moyenne.
La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé
et l’ordonnée du point correspondant à ce point dans la droite.
Cette distance peut être positive comme elle peut être négative.
Et la somme des distances à la droite s’annule pour s’affranchir du signe, on calcule la

somme des carrés des distances de chaque point à la droite.
La droite de régression est la droite qui minimise la somme des carrés des écarts.
Une particularité de la droite de régression est de passer par le point moyen théorique des
coordonnées ( X́ , Ý ).
7.1. La méthode des moindres carrés
Le problème de la régression consiste à chercher une relation qui existe entre la variable X et
la variable Y, c'est-à-dire de la forme Y =a . X +b par la régression linéaire. On dit que la
variable Y est la variable à expliquer ou la variable dépendante et la variable X la variable
explicative.
n n n
2
E=∑ ε =∑ ( y i− y ' i ) =∑ ( y i− ( a . x i +b ) )
i
i=0 i=0 i=0
ε i : Résidu ou écart
n
∑ ( ( X i− X́ ) . (Y i −Ý ) )
a= i=0 n
∑ ( X i− X́ )
i=0
b=Ý −a . X́
7.2. Evaluation de la qualité de régression
Pour mesurer la qualité de l’approximation d’un nuage de points grâce à la droite des
moindres carrés, on calcule son coefficient de corrélation linéaire :
Cov ( X , Y )
R X ,Y =
σ X . σY
C’est un nombre compris entre -1 et 1. Il vaut 1 (respectivement -1) si les points du nuage
sont alignés sur la droite ayant une pente positive (respectivement négative).
Ce coefficient est une mesure de dispersion d’un nuage. On considère l’approximation de la
droite des moindres carrés est de bonne qualité si la valeur absolue du coefficient de
corrélation se rapproche de 1. Et médiocre s’il s’éloigne de cette valeur, c'est-à-dire
s’approche de 0.
En pratique, on estime souvent la bonne qualité de la régression lorsque le coefficient
dépasse
√3 .
2
8. La régression linéaire multiple
Corrélation Régression
Variables Quantitatives symétriques Quantitatives asymétriques
ou non symétriques
Test −1 ≤r ≤ 1 Pente de la droite des
régression
Prédiction Non Oui
Conditions Indépendances des Distribution conditionnelle
observations et liaison normale et de variables
linéaire constantes
8.1. Principe
Le problème traité par la régression linéaire multiple est le même que la régression linéaire
simple si ce n’est qu’il recherche à expliquer les valeurs de la variable Y non pas par les
valeurs de la variable X mais plusieurs variables X i.
En changeant légèrement la notation :
Y =a0 +a1 . X 1 +a2 . X 2+ …+a 3 . X 3 +ε ( X )

On suppose donc que la variable Y et les variables X j sont reliées par une relation linéaire.
p :nombre de variables explicatives
ε ( X ) :bruit aléatoire
Nous allons préciser à chaque fois la valeur de ε(X), elle dépend du point X de l’espace des
données définies par les valeurs des Xj. la régression linéaire simple cherche à faire passer
une droite au mieux à travers le nuage de points dans le plan (X, Y).
Il va en être de même pour la régression linéaire multiple, si ce n’est que la représentation

visuelle devient impossible sauf de justesse quand il y’a deux variables explicatives X 1 et X2
(dans l’espace). La régression linéaire multiple va alors faire passer un plan à travers le nuage
de points représentants les données dans l’espace (X 1, X2, Y).
Le plan des moindres carrés est celui qui minimise la somme des carrés des longueurs des
segments en bleu par rapport à l’axe (Y) (projection verticale). Ces longueurs s’appellent
« les résidus des modèles ». Le plan des moindres carrés est celui qui minimise la somme des
carrés des résidus.
En dimension supérieur, il faut se contenter de dire que la régression linéaire multiple va

déterminer un hyperplan de dimension p minimisant la somme des carrés des écarts
(mesurées parallèlement à l’axe Y) entre les points des données et ceux dans l’hyperplan.

Régression Linéaire Simple

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Régression Linéaire Simple

Uploaded by

Copyright:

Available Formats

Régression linéaire simple

Cette courbe matérialise une fonction :

C’est la fonction de régression de la variable Budget sur la variable Age.

La fonction est utilisée de la façon suivante :

 La variable Age est portée en abscisse.

Même ces causes d’incertitude levées, la prédiction ne peut être parfaite.

Toutes ces grandeurs servent à la prédiction sont appelées « variables explicatives » ou

C'est-à-dire qu’elle s’ajuste au mieux au nuage de points.

2.1. La méthode des moindres carrés

2.2. La méthode de maximum de vraisemblance

La régression linéaire simple permet d’étudier et de mesurer la relation mathématique entre

La force d’association entre deux variables estimées par un coefficient de corrélation R, ce

Intervalle de |R| Force d’association entre les variables

Signe de R Type de relation

La régression linéaire multiple permet d’étudier et de mesurer la relation mathématique qui

A partir d’une observation : ( y i , xi ) , i=1.´. p On a présenté dans un graphe l’ensemble des

En statistiques, étant donné un échantillon aléatoire, ( y i , xi ) , i=1.´. p, un modèle de

Une de ces méthodes est la méthode des moindres carrés.

4. La différence entre la régression linéaire et la corrélation

X : ventes de paires de lunette de soleil en été.

Y : vente de crèmes glacées en été.

Quand X augmente, Y augmente aussi (météo estivale).

Quand X diminue, Y diminue aussi (météo pluvieuse).

Y ne peut pas être prédite à partir de X.

X : ventes de paires de lunette de soleil en été.

Y : vente de parapluies en été.

Quand X augmente, Y diminue.

Quand X diminue, Y augmente.

Y ne peut pas être prédite à partir de X.

X : âge de 0 à 15 ans.

Y : taille en centimètres.

Quand X augmente, Y augmente aussi.

Quand X diminue, Y diminue aussi.

On ne peut pas permuter les deux axes.

On peut prédire la taille connaissant l’âge à l’aide de l’équation de la droite ou la courbe de

5.1. Coefficient de corrélation nul

Qui veut dire que la pente de la droite de régression est nulle.

5.2. Coefficient de corrélation non nul

5.3. Le cas restant

6. La régression linéaire simple

La liaison entre la variable Y dépendante, et la variable X indépendante peut être est

Y : variable dépendante ou expliquée.

α : ordonnée de l’origine ou la valeur de Y sachant que X=0.

β : variation moyenne de la valeur de Y pour un changement unitaire de X.

7. Estimation par la méthode des moindres carrés

Et la somme des distances à la droite s’annule pour s’affranchir du signe, on calcule la

7.1. La méthode des moindres carrés

7.2. Evaluation de la qualité de régression

En pratique, on estime souvent la bonne qualité de la régression lorsque le coefficient

8. La régression linéaire multiple

En changeant légèrement la notation :

Y =a0 +a1 . X 1 +a2 . X 2+ …+a 3 . X 3 +ε ( X )

p :nombre de variables explicatives

Il va en être de même pour la régression linéaire multiple, si ce n’est que la représentation

En dimension supérieur, il faut se contenter de dire que la régression linéaire multiple va

You might also like