Professional Documents
Culture Documents
1. Définition de la régression
Dans l’illustration ci-dessus, l’image est une représentation graphique d’une base de
données d’un organisme de crédit automobile.
Cette société veut utiliser ses données afin de prédire le budget qu’un client est prêt à
investir pour l’achat d’une nouvelle voiture.
Les données se regroupent en un ruban assez étroit. Il est possible de faire passer au mieux
une courbe de nuage de points à travers ce nuage de points et de considérer que cette
courbe est un modèle est un modèle approximatif mais satisfait la réalité.
Budget=f ¿ ( Age )
L’astérix présent comme indice de f, signifie que c’est une fonction approximative (juste une
estimation de la fonction).
Nous avons provisoirement ignoré la difficulté liée au fait que la base de données ne
contient pas qu’un échantillon de la population (les clients potentiels) et considéré qu’elle
contient l’intégralité de cette population.
De même, nous allons définir la vraie fonction f(x) construite (et non son estimation f*(x)
construite par l’analyse à l’aide d’un échantillon).
Dans l’exemple précédent, l’âge à lui seul servait à déterminer le comportement d’un client.
D’autres variables pourraient être prises en compte pour minimiser les erreurs sur la
prédiction des valeurs des y (budgets). Ainsi on pourra penser à inclure dans la fonction de
régression des variable comme : le sexe, le revenu annuel, le nombre d’enfants…etc.
y=f ( x 1 , x 2 , … , x p )
Elle permet de prédire la variable à expliquer y connaissant les valeurs des prédicateurs,
x i i=1.´. p . Il faut donc définir f ( x 1 , x 2 , … , x p ) de façon à minimiser ses erreurs.
2. Introduction
La régression est une méthode statistique très utilisée pour analyser la relation d’une
variable avec une autre ou avec plusieurs. On a recours à une estimation des paramètres
inconnus du modèle de régression par un ajustement mathématique du modèle spécifié en
fonction des données récoltées à partir d’un ensemble de valeurs expérimentales qui
peuvent être représentées par des points dans un graphe. On cherche à calculer la courbe
qui produit le mieux les variations et la grandeur étudiée.
La régression est donc l’opération qui consiste à ajuster une droite ou une courbe
mathématique le plus prêt possible d’un certain nombre de points observés.
Il existe deux méthodes principales de calcul des paramètres d’un modèle de régression
Minimise la somme des carrés des erreurs de prédiction des modèles sur les données
disponibles.
Cette méthode est adoptée par les méthodes de régression simple et multiple.
Elle ajuste les valeurs des paramètres de façon à rendre maximal la vraisemblance entre les
données pour le modèle.
3. Régression linéaire simple
y i=a . x i +b
Le terme corrélation utilisé pour désigner la relation entre deux variables quantitatives (plus
souvent continues).
4.1. Corrélation
4.1.1.Exemple 1 corrélation positive
La liaison est symétrique. X est liée à Y et Y est liée à X. Mais X ne dépend pas de Y et Y ne
dépend pas non plus de X.
4.1.2.Exemple 2
4.2. Régression
La liaison est asymétrique, la taille dépend de l’âge mais l’âge ne dépend pas de la taille.
Il faut vérifier empiriquement (graphiquement) que leurs relation est de nature linéaire (Un
nuage représenté par une droite).
La nature de la liaison est linéaire. Le nuage est représenté au mieux par une droite
horizontale (Y=b).
Qui veut dire que la pente de la droite de régression est non nulle.
La nature de la relation est linéaire, donc, il est possible d’utiliser le coefficient de corrélation
et la régression linéaire simple pour quantifier la relation entre deux variables.
La nature de la relation entre ces deux variables n’est pas de nature linéaire. Le nuage de
points n’est pas résumé pour le mieux par une droite. Donc, on ne peut pas utiliser le
coefficient de corrélation ou la régression linéaire simple pour quantifier leur relation.
Elle s’adresse à un type de problèmes ou les variables quantitatives ont un rôle asymétrique,
donc Y dépend de X et le contraire n’est pas vérifié.
La régression linéaire simple cherche à modéliser le fait que les points expérimentaux sont
approximativement alignés, elle nous fait identifier la meilleure droite passant à travers le
nuage de points. Cette droite s’appelle « droite des moindres carrés » et on la note « DMC ».
Intuitivement, il s’agit de la droite dont les points du nuage sont en moyenne les plus
proches, c'est-à-dire, la droite qui passe à la plus faible distance de chaque coin du nuage en
moyenne.
La distance d’un point à la droite est la distance verticale entre l’ordonnée du point observé
et l’ordonnée du point correspondant à ce point dans la droite.
Cette distance peut être positive comme elle peut être négative.
La droite de régression est la droite qui minimise la somme des carrés des écarts.
Une particularité de la droite de régression est de passer par le point moyen théorique des
coordonnées ( X́ , Ý ).
Le problème de la régression consiste à chercher une relation qui existe entre la variable X et
la variable Y, c'est-à-dire de la forme Y =a . X +b par la régression linéaire. On dit que la
variable Y est la variable à expliquer ou la variable dépendante et la variable X la variable
explicative.
n n n
2
E=∑ ε =∑ ( y i− y ' i ) =∑ ( y i− ( a . x i +b ) )
i
i=0 i=0 i=0
ε i : Résidu ou écart
n
∑ ( ( X i− X́ ) . (Y i −Ý ) )
a= i=0 n
∑ ( X i− X́ )
i=0
b=Ý −a . X́
Pour mesurer la qualité de l’approximation d’un nuage de points grâce à la droite des
moindres carrés, on calcule son coefficient de corrélation linéaire :
Cov ( X , Y )
R X ,Y =
σ X . σY
C’est un nombre compris entre -1 et 1. Il vaut 1 (respectivement -1) si les points du nuage
sont alignés sur la droite ayant une pente positive (respectivement négative).
Ce coefficient est une mesure de dispersion d’un nuage. On considère l’approximation de la
droite des moindres carrés est de bonne qualité si la valeur absolue du coefficient de
corrélation se rapproche de 1. Et médiocre s’il s’éloigne de cette valeur, c'est-à-dire
s’approche de 0.
dépasse
√3 .
2
Corrélation Régression
Variables Quantitatives symétriques Quantitatives asymétriques
ou non symétriques
Test −1 ≤r ≤ 1 Pente de la droite des
régression
Prédiction Non Oui
Conditions Indépendances des Distribution conditionnelle
observations et liaison normale et de variables
linéaire constantes
8.1. Principe
Le problème traité par la régression linéaire multiple est le même que la régression linéaire
simple si ce n’est qu’il recherche à expliquer les valeurs de la variable Y non pas par les
valeurs de la variable X mais plusieurs variables X i.
ε ( X ) :bruit aléatoire
Nous allons préciser à chaque fois la valeur de ε(X), elle dépend du point X de l’espace des
données définies par les valeurs des Xj. la régression linéaire simple cherche à faire passer
une droite au mieux à travers le nuage de points dans le plan (X, Y).
Le plan des moindres carrés est celui qui minimise la somme des carrés des longueurs des
segments en bleu par rapport à l’axe (Y) (projection verticale). Ces longueurs s’appellent
« les résidus des modèles ». Le plan des moindres carrés est celui qui minimise la somme des
carrés des résidus.