You are on page 1of 21

Statistique descriptive : cas bivarié

Université Hassan Premier


Faculté des sciences et techniques Settat
P. 1 / 20

Statistique descriptive : cas bivarié


P. 2 / 20 Variable conjointe

On dispose de deux séries x et y représentant l’observation des variables


X et Y sur les mêmes n individus : on a une série bidimensionnelle (x, y )
de taille n :
individu 1 2 ... i ... n
Valeurs de X x1 x2 ... xi ... xn
Valeurs de Y y1 y2 ... yi ... yn

Statistique descriptive : cas bivarié


P. 3 / 20 Distribution conjointe

On représente les deux séries sur le tableau suivant appelé table de


contingence ou la table de la distribution conjointe de (X , Y )

X \Y y1 y2 ... yj ... yq Total


x1 n11 n12 ... n1j ... n1q n1.
..
.
xi ni1 ni2 ... nij ... niq ni.
..
.
xp np1 np2 ... npj ... npq np.
Total n.1 n.2 ... n.j ... n.q n
nij
nij est l’effectif de (xi , xj ) et sa fréquence est fij = n

Statistique descriptive : cas bivarié


P. 4 / 20 Distributions marginales
 On a
q
X p
X
ni. = nij , n.j = nij
j=1 i=1
 Par ailleur,
p
X p X
X q q
X q X
X p
ni. = nij = n.j = nij = n
i=1 i=1 j=1 j=1 j=1 i=1

 La distribution des effectifs de X est appelée la première distribution


marginale de (X , Y ) est donnée par les valeurs de la dernière
colonne. La distribution des fréquence est donnée par
ni.
fi. =
n
 La distribution des effectifs de Y est appelée la deuxième
distribution marginale de (X , Y ) est donnée par les valeurs de la
dernière ligne. La distribution des fréquence est donnée par
n.j
f.j =
n
Statistique descriptive : cas bivarié
P. 5 / 20 Distributions conditionnelles

 Sachant X = xi , la distribution des effectifs de Y est donnée par


Y y1 y2 . . . yj . . . yq Total
Effectif ni1 ni2 . . . nij . . . niq ni.
 Les fréquences conditionnelles de Y sachant X = xi sont données
par
nij
fj|i =
ni.
 De même pour la distribution conditionnelles des effectifs de X
sachant Y = yj , on selectionnant la colonne correspondant à Y = yj .

Statistique descriptive : cas bivarié


P. 6 / 20 Profiles

On appelle i ème profil ligne, le vecteur de dimension q des fréquences de


la variable Y conditionnellement à la valeur xi de X :
ni1 nij niq
,..., ,..., .
ni. ni. ni.

On appelle j ème profil colonne, le vecteur de dimension p des fréquences


de la variable Y conditionnellement à la valeur xi de X :
n1j nij npj
,..., ,..., .
n.j n.j n.j

Statistique descriptive : cas bivarié


P. 7 / 20 Indépendance

On dit que X et Y sont indépendantes si


nij ni. n.j
= . ∀ i, j
n n n

 Lorsque tous les profils lignes (ou colonne) sont égaux, il y a indépendance entre
X et Y : la connaissance de X ne change pas les distributions de Y
conditionnellement à X .
 Représentation des profils-lignes ou des profils colonnes par des diagrammes en
barres parallèles, ce qui donne une idée assez précise de la variation conjointe de
X et Y : Si il n’y a pas de relation, les diagrammes des différents profils devraient
identiques.

Statistique descriptive : cas bivarié


P. 8 / 20 analyse de l’indépendance

Exemple : on observe le sexe et la qualité de vue sur 1000 individus. on a


la table de contingence
X \Y Homme Femme Total
Voyant 442 514 956
Aveugle 38 6 44
Total 480 520 1000
Table des profiles
X \Y Homme Femme
Voyant 0.4623431 0.5376569
Aveugle 0.8636364 0.1363636

Statistique descriptive : cas bivarié


P. 9 / 20 Analyse de l’indépendance

Exemple

Statistique descriptive : cas bivarié


P. 10 / 20 Indicateur de liaison :Chi-deux

La mesure de la liaison entre X et Y va se faire en évaluant l’écart entre


la situation observée et la situation qu’on observerait si il y avait
indépendance statistique. Dans ce cas, on aurait :
nij ni. n.j
= . ∀ i, j
n n n
La distance de chi-2 est définie par
X (nij − ni. n.j 2
2 n )
d = ni. n.j
i,j n

où
ni. n.j
dij = nij −
n
Si d 2 = 0, il ya indépendance
Au plus d 2 est grande, au plus les variables son liées.

Statistique descriptive : cas bivarié


P. 11 / 20 Indicateur de liaison :Chi-deux
Exemple précédent
Table des effectifs obsevées

X \Y Homme Femme Total


Voyant 442 514 956
Aveugle 38 6 44
Total 480 520 1000
ni. n.j
Table des effectifs théoriques (les cases n
)

X \Y Homme Femme
Voyant 458,88 497,12
Aveugle 21,12 22,88
n n
(nij − i.n .j )2
Table des cases ni. n.j
n

X \Y Homme Femme
Voyant 0,62093445 0,57317026
Aveugle 13,4912121 12,4534266

Chi2==27,1387434

Statistique descriptive : cas bivarié


P. 12 / 20 ı̂ndicateur de liaison entre deux variables
quantitative : Covariance

La covariance caractérise la relation entre deux variables statistiques, elle


est définie par
n
1X
S(x, y ) = (xi − x̄)(yi − ȳ )
n
i=1
ou
n
1 X
S ∗ (x, y ) = (xi − x̄)(yi − ȳ )
n−1
i=1

Statistique descriptive : cas bivarié


P. 13 / 20 Propriétés de la covariance

La covariance
 est positive quand la relation entre X et Y est positive
 négative quand la relation est négative
 si X et Y sont linéairement indépendantes alors S(X , Y ) = 0
 l’inverse n’est pas vrai : S(X , Y ) = 0 n’implique pas absence de lien
entre X et Y

Statistique descriptive : cas bivarié


P. 14 / 20 Propriétés

La covariance S est une forme bilinéaire symétrique qui peut prendre


toute valeur réelle et dont la variance est la forme quadratique associée.
On a ( idem pour S ∗ ) telle que
 S(aX + bY , Z ) = aS(X , Z ) + bS(Y , Z ) pour tout a, b ∈ R et pour
toutes variables statistiques X , Y , Z
 S(X , Y ) = S(Y , X ) et
 La variance associée est S(X , X ) = S 2 (X )
 Formule de Koenig generalisée :
n−1 ∗ ¯ − X̄ Ȳ
S(X , Y ) = S (X , Y ) = XY
n

Statistique descriptive : cas bivarié


P. 15 / 20 Coéfficient de corrélation

 Le coefficient de corrélation est égal à la covariance des des séries X


et Y divisées par le produit des écarts types de X et Y

S(X , Y )
r (X , Y ) =
SX SY
 Soient
X − X̄ Y − Ȳ
X∗ = et Y∗ =
SX SY
les séries centrées réduites de X et Y . Alors le coefficient de
corrélation est égal à

r (X , Y ) = S ∗ (X ∗ , Y ∗ )

Statistique descriptive : cas bivarié


P. 16 / 20 Propriétés du coéfficient de corrélation

 Symétrie : r (X , Y ) = r (Y , X )
 Le coefficient de corrélation est compris entre -1 et 1
 Il y a corrélation positive lorsque les variations de x et y se
produisent dans le même sens, corrélation négative sinon.
 Plus les points sont étroitement alignés, plus la corrélation est
proche de 1.
 r = 1 si l’on a une relation de type linéaire entre les variables.
 r = 0 si il n’existe aucun lien linéaire entre X et Y. On dit que les
variables sont non corrélées.
Important : La covariance et le coefficient de corrélation ne permettent
de mettre en évidence qu’une relation linéaire entre X et Y .

Statistique descriptive : cas bivarié


P. 17 / 20 Exemples

Statistique descriptive : cas bivarié


P. 18 / 20 Régression simple

On s’intéresse ici à une liaison causale éventuelle entre deux variables


statistiques quantitatives X et Y.Plus exactement, on cherche à expliquer
les variations d’une variable Y (variable dépendante) par celles d’une
fonction linéaire de X (variable explicative).

Y = aX + b + 

où a et b sont des paramètres inconnus


 est une variable aléatoire de moyenne nulle et de variance inconnue σ 2 .
Objectif : Prévoir Y à partir de X

Statistique descriptive : cas bivarié


P. 19 / 20 Régression simple

Méthode Sur une série bidimensionnelle de n réalisations de X et de Y,


on cherche à valider un modèle de type :

yi = axi + b + i i = 1, . . . , n

avec i , i = 1, . . . , n est de moyenne nulle

Statistique descriptive : cas bivarié


P. 20 / 20 Régression simple

On commence par chercher le  meilleur  ajustement linéaire sur nos


données, au sens des moindres carrés :
n
X
min (yi − âxi − b̂)2
â,b̂
i=1

La solution de ce problème de minimisation, donne


Pn
i=1 (xi − x̄)(yi − ȳ ) S(x, y )
â = Pn = , b̂ = ȳ − âx̄
i=1 (xi − x̄)2 Sx2

 La droite d’équation y = âx + b̂ s’appelle la droite de régression.


 La valeur ŷ = âx + b̂ s’appelle la i eme valeur estimée. C’est la valeur
i i
moyenne de Y lorsque X=xi . C’est aussi la prévision de Y pour une
observation telle que X=xi.
La valeur ei = ŷi − yi s’appelle le i eme résidu. Ces valeurs vérifie i ei = 0
P


Statistique descriptive : cas bivarié

You might also like