Professional Documents
Culture Documents
i I lB'l l I I I II r
Q U E S A I S - J E ?
JEAN-MARIE BOUROCHE
PriklSDt dn Dlrtetoli* d oORcr
G I L B E R T SAPORTA
Professeur RU Conaervatolrs National des Aite et MtieiB
35' mille
DES MMES AUTEURS
J.-ltf. B O U n O C R E E T P. BERTIR
J.-M. BOUROCHE
O. SAPORTA
l U H a 18 0450S3 0
(1) 1 1 . H u T U L i . i N c , A n u l y s j s o l a c o m p l e x o f s t a t i s t l c a l v a r i a b l e s
i i i t o p r i n c i p a l c o n i p i m c n l s , Journal of Eaucatioiial Payehology, 1933,
v o l . 24, 417-441, 498-520.
(2) H . H i i T E L L i N G , H e l a t i o n s b e l w e r n t w o s e t s o f v a r i t e s , Uio-
metrika, 1936, v o l .2 8 , 129-149.
<3) C . S P B A R M A N , G e n e r a l I n t e l l i g e n c e o b j e c l i v e i y d e l c r m l n e d a n d
i n e a s u r e d , American Journal of Psuchologu, 1904, vol. 1 5 , 201-292.
( 4 ) K . P E A R S O N , O n i i n e s a n d p l a n e s o c l o s e s t fit t o S y s t e m of
p o i n t s i n s p a c e , Phil. Mag., 1 9 0 1 , v o l . 2 , n 1 1 , 5 5 9 - 5 7 2 .
3
r e s s e m b l e n t l o r s q u e l e u r s p r o f i l s s e l o n les d i f f r e n t s c a r a c -
tres s o n t v o i s i n s ; i l est p o s s i b l e T a i d e d ' u n e m t h o d e f a c -
t o r i e l l e d e r e p r s e n t e r ces p r o x i m i t s e n t r e i n d i v i d u s s u r u n
g r a p h i q u e . L e s m t h o d e s de c l a s s i f i c a t i o n p e r m e t t e n t de les
r e g r o u p e r e n c a t g o r i e s h o m o g n e s . L a d e s c r i p t i o n des r e l a -
tions entre caractres p e u t tre u n a u t r e o b j e t de l'analyse :
d e u x c a r a c t r e s s o n t c o n s i d r s c o m m e lis o u c o r r l s s ' i l s
v a r i e n t d e l a m m e f a o n s u r les d i f f r e n t s i n d i v i d u s . O n p e u t
p a r e x e m p l e privilgier u n o u plusieurs caractres et chercher
e x p l i c i t e r ses v a r i a t i o n s e n f o n c t i o n d e c e l l e s d e s a u t r e s .
L o r s q u e t o u s les c a r a c t r e s j o u e n t u n r l e i d e n t i q u e o n c h e r c h e
u n i q u e m e n t m e t t r e e n v i d e n c e les g r o u p e s d e c a r a c t r e s s o i t
corrls, soit indpendants. P o u r cela, on plonge i n d i v i d u s e t
v a r i a b l e s d a n s des espaces g o m t r i q u e s t o u t en f a i s a n t l a p l u s
g r a n d e c o n o m i e d ' h y p o t h s e s e t o n t r a n s f o r m e les d o n n e s
p o u r les v i s u a l i s e r d a n s u n p l a n o u les classer e n g r o u p e s h o m o -
gnes et ceci t o u t en p e r d a n t le m i n i m u m d ' i n f o r m a t i o n .
S e l o n le t y p e d e p r o b l m e e t l a n a t u r e des d o n n e s o n c h o i s i t
ta m t h o d e approprie.
Cette approche multidimensionnelle a c o n n u depuis son
a p p a r i t i o n oprationnelle une m u l t i t u d e d'applications dans
t o u s les d o m a i n e s o l ' o b s e r v a t i o n de p h n o m n e s c o m p l e x e s
est ncessaire : sciences n a t u r e l l e s , sciences h u m a i n e s , p h y -
siques, etc.
L a diversit des e x e m p l e s traits d a n s c e t o u v r a g e d o n n e r a
a u l e c t e u r u n e ide d e l a varit des a p p l i c a t i o n s p o s s i b l e s .
L e c h a p i t r e p r e m i e r c o n t i e n t u n e p r s e n t a t i o n des d o n n e s
analyses et quelques rappels. L e s c h a p i t r e s I I et I V sont res-
p e c t i v e m e n t consacrs l'analyse en composantes principales
et l'analyse canonique, deux mthodes fondamentales depuis
H o t e l l i n g . L e c h a p i t r e V p o r t e s u r l ' a n a l y s e des c o r r e s p o n -
dances, trs utihse e n F r a n c e a c t u e l l e m e n t . L e s c h a p i t r e s I I I
e t V I s o n t r e s p e c t i v e m e n t des i n t r o d u c t i o n s a u x m t h o d e s
de c l a s s i f i c a t i o n e t de d i s c r i m i n a t i o n . L e c h a m p trait est
d o n c r e s t r e i n t , l ' a c c e n t t a n t m i s s u r les m t h o d e s les p l u s
intressantes soit p o u r l e u r fcondit thorique, soit p o u r l a
richesse de leurs a p p l i c a t i o n s .
4
CHAPITRE PREMIER
5
mal, une ville, etc. I l s'agit toujours de l'entit de
base sur laquelle l'observateur ralise un certain
nombre de mesures. L'ensemble des individus ob-
servs peut provenir d'un chantillonnage dans une
population (dans le cas d'un sondage) ou i l peut
s'agir de la population entire. I l faut souligner i c i
un aspect spcifique de l'analyse des donnes. E n
statistique classique, on s'efforce de travailler sur
un chantillon d'individus tirs alatoirement dans
line population. Les caractristiques observes sur
l'chantillon permettent d'induire les caractris-
tiques de la population entire : on prvoit les
intentions de vote des Franais partir des inten-
tions exprimes par un chantillon de 1 000 inter-
views. L'chantillon doit tre tir selon des rgles
prcises si l'on dsire que les inductions efifectues
aient quelques chances de se raliser. E n analyse
des donnes on s'intresse la structure de l'en-
semble des individus observs sans chercher nces-
sairement en dduire des lois valables pour la popu-
lation dont ils sont issus ; en ceci, l'analyse des
donnes se rapproche davantage de la statistique
descriptive que de la statistique infrentielle.
6
caractre les oprations algbriques habituelles :
addition, multiplication par une valeur constante,
calcul de moyenne, etc. U n caractre est qualitatif
lorsqu'il prend des modalits non numriques :
sexe, profession, diplme, rgion, niveau hirar-
chique, etc.
Les modalits d'un caractre qualitatif peuvent
tre ordonnes {niveau hirarchique, niveau de sa-
tisfaction), on d i t alors que le caractre est qua-
l i t a t i f ordinal. Sinon, on d i t q u ' i l est qualitatif
nominal {sexe, couleur, rgion). Remarquons que
sur un caractre qualitatif reprsent par ses moda-
lits les oprations algbriques n'ont plus de sens.
Prcisons l'aide de quelques exemples les grands
types de tableaux de donnes que l'on analyse dans
la pratique.
CARACTRES
2
1 4 x^
2 4 xl
en
> i *? 4 xP
Q
n X% 4
7
Dans Texemple prcdent p caractres quantita-
tifs ont t observs sur n individus. Les p caractres
sont nots ge, . . . , = salaire b r u t , . .
= anciennet.
Sur le i-me i n d i v i d u , les caractres ge ,
ff salaire et anciennet prennent les valeurs
numriques i , xl et xf.
Sur les mmes individus, on aurait pu observer
les caractres sexe , niveau hirarchique ,
<c situation matrimoniale .
Pour leur traitement numrique, ces caractres
quahtatifs sont reprsents sous forme d'un tableau
de variables indicatrices prenant les valeurs 0 ou 1.
On d i t alors que les donnes sont reprsentes sous
forme disjonctive complte.
CARACTRES
Niveau Situation
Sext hirarchique matrimoniale
'i> il
1 11 1
.s
H
en 1 1 0 0 1 0 1 0 0
P
2 0 1 1 0 0 1 0 0
a
> t 1 0 0 0 1 0 1 0
a
h1 n 0 1 1 0 0 1 0 0
8
les assimiler des caractres quantitatifs prenant
les valeurs 0 et 1. Cette pratique sera justifie par
la suite ; on en verra galement la fcondit puisque
tout tableau de donnes contenant simultanment
des caractres quantitatifs et qualitatifs peut tre
reprsent ainsi. E n eifet u n caractre q u a n t i t a t i f
peut tre rendu qualitatif par dcoupage en classes
de ses valeurs {classes de revenu, classes d'ge, etc.),
puis reprsent sous forme de variables indicatrices.
Notons que, sur les caractres qualitatifs ainsi
transforms en variables indicatrices les oprations
algbriques deviennent licites.
9
Exemple
1 0 0 1 0
0 1 0 1 0
0 1 0 0 1
1 0 0 1 0 2 0
0 0 1 0 1 'X, X , = 2 1
0 0 1 1 2
0 1
0 1 0 1 0
0 0 1 1 0
10
I I . Rduction des donnes
La statistique nous a habitus des reprsenta-
tions synthtiques des donnes {!), tout au moins
lorsque l'on s'intresse u n caractre unique. Les
termes d'histogrammes, de moyenne, de variance,
d'cart type sont (presque) passs dans le langage
commun. Rappelons rapidement leurs dfinitions
qui nous seront utiles par la suite.
Lorsque l'on observe un caractre qualitatif sur
un ensemble d'individus, la premire tche consiste
compter le nombre d'individus dans chaque mo-
dalit. Par exemple, 6 800 individus sont classs
par Anemon (Zur Anthropologie der Badener) sui-
vant la couleur de leurs cheveux :
X = S Pi Xi.
i-1
n
C a r a c t r i e e r u n e n s e m b l e d e n o m b r e s p a r sa m o y e n n e e s t
insuffisant.
A i n s i les d i x v a l e u r s s u i v a n t e s 3 100, 2 5 0 0 , 2 8 0 0 , 3 2 0 0 ,
4 0 0 0 , 2 5 0 0 , 3 0 0 0 , 2 7 0 0 , 3 0 0 0 , 2 9 0 0 r e p r s e n t a n t les sa-
l a i r e s d e d i x i n d i v i d u s o n t p o u r m o y e n n e 2 9 7 0 . M a i s les
d i x valenirs s u i v a n t e s l 800, 2 000, 1 900, 4 500, 6 000, 5 0 0 0 ,
1 600, 2 400, 2 500, 2 000 o n t aussi p o u r m o y e n n e 2 970. I I
est c l a i r c e p e n d a n t q u e l a d e u x i m e srie n ' e s t pas s e m b l a b l e
l a premire. L e s v a l e u r s s o n t p l u s disperses. P o u r q u a n -
t i f i e r l a d i s p e r s i o n des v a l e u r s , o n u t i l i s e l a v a r i a n c e :
J n
- 2 ( * i x)- ou s= = L p;(.j x)^.
n i-1 i-1
s* = 168 100
s =410
8 = 2 2 4 6 100
s = 1 498,70.
12
surface : x
2 8 ; 5 0 ; 5 5 ; 6 0 ; 4 8 ; 35 ; 8 6 ; 6 5 ; 32 ; 52 ;
prix : y
130 ; 2 8 0 ; 268 ; 320 ; 2 5 0 ; 250 ; 350 ; 300 ; 155 ; 2 4 5 .
L e n u a g e d e s 10 p o i n t s s e m b l e e f f i l l e l o n g d ' u n e d r o i t e
e t i l parat r a i s o n n a b l e , si l ' o n v e u t p r v o i r le p r i x e n f o n c t i o n
d e l a s u r f a c e , d e p o s e r u n e f o r m u l e y = ax -\- b -\- u o u
est u n e v a r i a b l e d'erreur. Les coefficients a et s o n t obtenus
p a r l a m t h o d e des m o i n d r e s carrs, c'est--dire choisis d e
n
faon rendre m i n i m a l e la somme (ui)'*
i-1
.g
4 l I ; I I 1 I I ' , , 1 ,,, i . . .
0 10 20 30 40 50 60 70 80 90 100
Surtac en mtrs cor ras
U e passe p a r le p o i n t c e n t r e de gravit de c o o r d o n n e s :
* = 51,1 et y = 254,8.
O n m o n t r e que le r a p p o r t ;
n n
S u?/ (viy)* est t o u j o u r s infrieur 1 .
i - l i-1
13
Dans cet exemple, les caractres y (prix) et x
(surface) ne jouent pas des rles symtriques ; on
montre cependant facilement que la rgression de x
sur y conduit la mme valeur de r.
Cette symtrie entre x et y dans le calcul de r
apparat de faon vidente si l'on introduit une
autre interprtation du coefficient de corrlation
linaire.
Pour cela, on dfinit la covariance entre les
caractres x fit y par :
1 _
S x v = - S {Xi~x){y^y)
sv= 2 pAxix){y,y)
r{xiy) =
s, s.
Origine sociale
<n
3 <n
"3 w^
.2
4 C
i l
a t-.
Niveau hirarchique :
Ouvrier, employ II 14 107 75 207
Matrise 1 10 60 31 210
Cadre 23 2 16 40 SI
Total 35 26 183 146 390
15
probabilits marginales PiPj d'avoir la modalit i
et la modalit j . On aura en fait " P i X Pj*
ou PijPiPi = 0.
Sur nos donnes, est estim par n y / n , pi
par jiiJn et pj par ra.j/n.
Si les deux caractres sont indpendants on voit
que les numrateurs de : [n^j f^i.^.il^)^ seront
voisins de 0.
E n fait, on montre que dans ce cas, si Tchantillon a t
tir au hasard I ) ^ suit une loi du k (p l)(q 1) degrs
de libert, o p et g sont les nombres de mod^its des deux
caractres.
L a lecture d'ime table d u 6 degrs de libert nous
montre que, s'il y a indpendance, a 99 % de chances
d'tre compris entre 0 et 16,81. Or nous avons = 69,2
et nous sommes donc amens rejeter l'hypothse d'ind-
pendance.
16
CHAPITRE I I
L'ANALYSE
EN COMPOSANTES PRINCIPALES
I . Prsentation de la mthode
Lorsqu'il n ' y a que deux caractres et x^^ i l
est facile de reprsenter, sur u n graphique plan
l'ensemble des donnes : chaque individu est
alors un point de coordonnes x] et xf et le simple
examen visuel de l'allure du nuage permet d'tudier
l'intensit de la liaison entre x^ et x^ et de reprer
les individus ou groupes d'individus prsentant des
caractristiques voisines :
X X
n X X
XX
Trou g'oiipat h o m o g i n s i
17
La structure fonctionnelle des dpenses de TEtat (1872-1971) (en % )
if 2 2 o a ~a.
. 8 ^
Ci S" 5"
t2 3 1 ~ 3
1872 18.0 0,5 0.1 6,7 0,5 2.1 2.0 26,4 41.5 2.1 100
18K0 14,1 0.8 0,1 153 1.9 3,7 0,5 29.8 31.3 2,5 100
1890 13.0 0,7 0.7 6,8 0,6 7.1 0.7 33,8 34.4 1,7 100
1900 14.3 1.7 1,7 6.9 1.2 7.4 0.8 37,7 26.2 2.2 100
1903 10.3 1,5 0,4 9,3 0,C 8.5 0,9 38,4 27.2 3.0 100
1906 13,4 1.4 0,5 ,1 0,7 8 ,6 1,8 38,5 25.3 1.9 100
1909 13,5 1.1 0.5 9,0 0,6 9,0 3,4 36,8 23.5 2,6 lOO
1912 12.9 1,4 0.3 9,4 0,6 9,3 4,3 41,1 19.4 1,3 100
1920 12,3 0,3 0,1 11,9 2,4 3.7 1,7 1,9 42,4 23,1 0.2 100
1923 7.6 1,2 3.2 5,1 0 6 5.6 1,8 10,0 29.0 35,0 0,9 100
1926 10,5 0,3 0.4 4.5 1.8 6,6 2,1 10,1 19.9 41,6 2,3 100
1929 10.0 0,6 0,6 9,0 1,0 S.l 3,2 11,8 28.0 25.8 2,0 100
1932 10,6 0.8 0,3 8,9 3,0 10,0 6,4 13.4 27,4 19,2 0 100
1935 8,8 2,6 1,4 7,8 1,4 12.4 6,2 11,3 29.3 18,5 0,4 100
1938 10,1 1,1 1.2 5,9 1,4 9,5 6,0 5,9 40.7 18,2 0 OO
1947 15,6 1.6 10.0 11,4 7.6 8.8 4,8 3.4 32.2 4.6 0 100
1950 11,2 1,3 16,5 12,4 13.8 8,1 4,9 3.4 20,7 4,2 1,5 100
1953 12.9 1,5 7,0 7,9 12,1 8,1 5,3 3,9 36.1 5.2 0 100
1956 10,9 5,3 9.7 7,6 9,6 9,4 ,5 4,6 28.2 6,2 0 100
1959 13,1 4,4 7,3 5,7 9,8 12,5 8,0 5,0 26.7 7.5 0 100
1962 12,8 4.7 7,5 6.6 6,8 15,7 9,7 5.3 24,5 6,4 0.1 100
1965 12,4 4,3 8.4 9,1 6.0 19,5 10.6 4,7 19,8 3,5 1.8 100
1968 11,4 6.0 9.5 5.9 5,0 21,1 10.7 4,2 20,0 4.4 1,9 100
1971 12,8 2,8 7,1 8,5 4,0 23,8 11,3 3,7 18.8 7.2 0 100
19
I l faudra videmment choisir le plan de projection
sur lequel les distances seront en moyenne le mieux
conserves : comme l'opration de projection rac-
courcit toujours les distances d(ii ; fj) ^ ( / { C J ; C J ) ,
on se fixera pour critre de rendre maximale la
moyenne des carrs des distances entre les projec-
tions f, ; f2 ; . . . ; f .
Pour dterminer ce plan que l'on appelle le plan
principal, i l sufht de trouver deux droites A^^ et A2
Si A l et A2 sont perpendiculaires on a :
20
La meilleure reprsentation des donnes au moyen
de q caractres seulement {q < p) s'obtient alors
en prenant les q premires composantes principales.
Tel est le schma de l'analyse en composantes
principales (en abrg ACP) qui est donc une m-
thode de rduction du nombre de caractres per-
mettant des reprsentations gomtriques des i n d i -
vidus et des caractres. Cette rduction ne sera
possible que si les p caractres initiaux ne sont pas
indpendants et ont des coefficients de corrlation
non nuls.
L ' A C P est une mthode factorieUe car la rduction
du nombre des caractres ne se fait pas par une
simple slection de certains d'entre eux, mais par
la construction de nouveaux caractres synthtiques
obtenus en combinant les caractres initiaux au
moyen des facteurs . C'est une mthode linaire
car i l s'agt de combinaisons linaires.
L'analyse des correspondances, l'analyse cano-
nique, l'analyse factorielle discriminante sont aussi
des mthodes factorielles conduisant des repr-
sentations graphiques et auront de ce fait des traits
communs avec I'ACP. Ce qui fait la spcificit de
l'analyse en composantes principales est qu'elle
traite exclusivement de caractres numriques jouant
tous le mme rle alors que l'analyse des corres-
pondances traite des caractres qualitatifs et qu*en
analyse canonique comme en analyse discrimi-
nante les caractres sont rpartis en groupes bien
distincts.
L'utiUsation des notions de combinaison linaire,
de distances, de projection conduit alors raisonner
selon le modle suivant : on considre que les i n d i -
vidus et les caractres sont des lments de deux
espaces vectoriels euclidiens k p et n dimensions
respectivement. Les outils mathmatiques utiliss
21
seront donc ceux de l'algbre linaire et du calcul
matriciel (1).
Comment calculer la distance entre deux indi-
vidus, entre deux variables ? Comment rsumer les
caractristiques du tableau de donnes ? Telles sont
les proccupations du paragraphe suivant.
32
L'ensemble des variances et des covariances est
regroup dans un tableau V appel matrice de
variance dos p caractres o le terme situ l'inter-
section de la j-ime ligne et de la A;-ime colonne
est la covariance Sjj^. Les termes diagonaux sont
alors les variances s| des p caractres.
/si Sy. . . . .S-j,,'^
V =
^11
De mme l'ensemble des coefficients de corr-
lation est regroup dans la matrice de corrla-
tion R dont les termes diagonaux valent 1 puisque
r{x'\x') = 1.
li = 1
\ l /
R et V sont des matrices carres d'ordre p,
symtriques car Sjj. = s^^ et r^^. r^.^. On jiourra
donc se contenter d'crire seulement la moiti des
termes de ces matrices.
Si on note D,/, la matrice diagonale suivante :
\ * ' VsJ
on a la relation matricielle :
R-D.,.VDi/,.
Ainsi la matrice de corrlation des 11 caractres
de notre exemple est :
23
1-1
-H o o o
.-( o o o
I I
,H o <=> o o
eo irt 0 "t
N t-;
o' O O
t~ ^ H ^ 0
"t.
>0
c-l e-l
-I O ' ' O
r - H O O 0
i - l 0 0 0 0
25
o
D = />2
O
\ I
AxeJ
26
avec son unit particulire : comment calculer la
distance entre deux individus dcrits par les trois
caractres : ge, salaire, nombre d'enfants ?
La formule de Pythagore est alors aussi arbitraire
qu'une autre. Si on veut donner des importances
diffrentes chaque caractre, pourquoi ne pas
prendre une formule du type :
= a,{x\ xir + a^{xl - xl)^ + ... + a,{xf - x^f
ce q u i revient multiplier par "x/^ chaque carac-
tre (on prendra bien sr des positifs).
De plus la formule de Pythagore n'est valable
que si les axes sont perpendiculaires, ce que l'on
conoit aisment dans l'espace physique. Mais en
statistique ce n'est que par pure convention que
l'on reprsente les caractres par des axes perpen-
diculaires : on aurait pu t o u t aussi bien prendre
des axes obliques d'angle 0 :
<l Axe j
( \ i ^ A'e k
t - l J-1
27
M peut tre n'importe quelle matrice symtrique
dfinie positive. La formule de Pythagore revient
choisir pour M la matrice unit L
Ceci revient dfinir le produit scalaire de deux
vecteurs et de l'espace des individus par :
< e i ; e2>M = 'ci Me^
on d i t que l'on a muni l'espace des individus d'une
structure euclidienne, la matrice M s'appelle alors
la mtrique de l'espace. Le produit scalaire de
jar lui-mme est not H c j l i et ||ei||u, qui est
'analogue de la longueur du vecteur e^, s'appelle
la M-norme de .
Les mtriques les plus utilises en ACP sont les
mtriques diagonales qui reviennent pondrer les
caractres ; en particulier on utilise trs frquem-
ment la mtrique :
'2
28
divers 12,2 % pour le caractre dette ,
rutilisation de M = I conduirait privilgier les
valeurs du caractre dette , puisque c'est celui
pour lequel les diffrences entre individus sont les
plus fortes, et ngliger les diffrences entre les
autres caractres. La mtrique D^/gt rtablit alors
l'quilibre entre les caractres en donnant tous
la variance 1.
E u caractres centrs rduits l'anne 1872 est
reprsente par le point de coordonnes :
(2,64; 0,94; 0,84; 0,64; 0,83;
1,5 ; 0,82 ; 1,02 ; 0,53 ; 1,84 ; 0,9)
\ ' - a j
ractres par et utiliser ensuite la mtrique
usuelle M = I . Ce rsultat se gnralise une
mtrique M quelconque de la manire suivante :
on dmontre que pour toute matrice symtrique
dfinie positive M i l existe une matrice T (en fait
i l en existe une infinit) telle que M = ' T T . Le
produit scalaire <ei ; e2>M = '^i peut s'crire
alors 'e^'TTca = ' ( T e i ) ( T e 2 ) = < T e i ; Te2>i. Tout
se passe donc comme si on avait transform les
donnes par la matrice T et utilis ensuite le pro-
duit scalaire ordinaire.
Ceci revient remplacer le tableau de donnes X
par Y = X ' T et prendre comme mtrique l a
matrice unit I .
B) Comment calculer les coordonnes des individus
sur un nouvel axe. Considrons le systme d'axes
29
orthonorms reprsentant les caractres initiaux x^^
x^, x". E n projetant les individus sur une
droite quelconque A on cre u n nouveau caractre c
dont les valeurs C j , Cg, c sont les mesures
algbriques des projections des points sur cette
droite.
30
Cette quantit caractristique du nuage mesure
d'une certaine manire l'loignement des points par
rapport leur centre de gravit, c'est--dire la
dispersion globale du nuage. Une inertie nulle ou
voisine de zro signifie que tous les individus sont
identiques ou presque et sont confondus avec leur
centre de gravit g.
O n p eut m o n t r e r que J est gale l a moyenne des carrs
i
est relie J p a r l a formule de H u y g h e n s :
A = > + d^(g, h )
> ) , est donc t o u j o u r s suprieure J, l a valeur m i n i m u m
tant a t t e i n t e lorsque h = g .
O n en dduit alors que l a recherche d ' u n p l a n r e n d a n t
m a x i m u m Tinertie des projections des n p o i n t s est quivalente
l a recherche d u p l a n passant a u plus prs de Tensemble
des pointe d u nuage a u sens o l a moyenne des carrs de
distance des pointa d u nuage a u p l a n est m i n i m a l e .
Soit h l a p r o j e c t i o n de g sur le p l a n q u i est alors le
centre de gravit de p r o j e c t i o n des p o i n t s d u nuage. L e
triangle ; ; h est rectangle en , d'o :
d^(ei;fi)-d^(ei;h)-d^{fi;h)
et S p i d'(e.- ; f;) = - / h - Sp. \)
fi/
31
Comme = ^ + d^(g ; h ) on v o i t que rendre m i n i m a l e l a
moyenne des carrs des distances entre les et les s'obtient
lorsque g = h et q u a n d l ' i n e r t i e d u nuage projete S p j ' i ' C i ; h )
est m a x i m a l e .
Dsormais on supposera t o u j o u r s que le p l a n p r i n c i p a l , et
p l u s gnralement les axes p r i n c i p a u x , passent p a r g .
Ou m o n t r e que J s'exprime p a r l a forniole :
J = . Trace ( M V )
32
Le produit scalaire de deux caractres et x*
n
qui vaut 'x^ Dx* 2 Pi ^ xl n'est autre que l a
covariance Sj^ car les caractres sont centrs.
La norme d'un caractre ^st alors : J J X * | | D
11x^11 ||x*|| = i 7 i ;
33
J . - M , BOUROCHB E T O. SAPOBTA 2
fabriquer par un tel procd forme alors un sous-
espace vectoriel W de l'espace des caractres. S'il
n'existe aucune relation linaire entre les carac-
tres x\e sous-espace est de dimension p, sinon
i l est de dimension infrieure : dans l'exemple des
II
dpenses de l ' E t a t comme ^ 100 la dimen-
j-i
sion de W est au plus gale 10 (au plus car i l
peut exister d'autres relations qui n'ont pas t
remarques).
Nous avons v u que tout caractre c, combinaison
linaire des caractres de dpart, peut s'obtenir par
la formule c = X u , o u est le facteur associ
c.
I l est alors facile d'en dduire sa variance :
si = *c De = ' u ' X D X u
si = 'uVu
Ca Cl !
r ^ J -
C3 I
34
choisit de faire passer A par le centre de gravit
du nuage.
A l est l'axe d'allongement principal du nuage en
ce sens que, sur cet axe, les sont le plus disperss
possible, en d'autres termes :
c est combinaison linaire des x* de variance
maximale.
Pour t r o u v e r e x p l i c i t e m e n t facteuis et composantes p r i n -
ripales et p o u r allger les dmonstrations, on peut t o u j o u r s
se ramener a u cas M I en raisonnant sur le t a b l e a u de
donnes transform Y = X ' T avec M = ' T T . E n effet,
la premire composante p r i n c i p a l e de Y sera l a mme que
celle de X puisque les combinaisons linaires des y ' sont
lies combinaisons linaires des x ' : l a combinaison des y ' de
\ariance m a x i m a l e dfinira donc a u t o m a t i q u e m e n t l u c o m b i -
naison des de variance m a x i m a l e . Si c est cette composante
exprime sous l a forme c = Y v puisque Y X ' T on aura
c = X u avec u = ' T v .
Soit V l a m a t r i c e de variance associe a u tableau Y q u i
est gale T ' X D X ' T = T V ' T o V est l a m a t r i c e de
variance de X . L a composante p r i n c i p a l e c a p o u r v a -
riance ' v V j , v et le vecteur Y est alors gal au vecteur u n i t a i r e
de l'axe p r i n c i p a l . I l f a u t donc t r o u v e r Y de norme 1 t e l
que 'vVy T soit m a x i m a l . Ceci est quivalent rendre m a x i m a l
le q u o t i e n t ' T V T / ' W . L e m a x i m i m i est a t t e i n t lorsque les
drives par r a p p o r t chacune des p composantes sont nulles.
L'ensemble des drives de 'vV^ v par r a p p o r t aux c o m p o -
santes f j , , . . . , p forme u n vecteur gal 2Vy v. D'aprs
les formules de drivation usuelles on en dduit que l a drive
de q u o t i e n t est n u l l e si :
2{'yv) V y v 2 ( ' y V y V ) v - 0
soit :
V ^ v = ( V V y T ) v = Xv
35
Les axes et les facteurs principaux V j , T J , . . . , Vp
lorsque M = I sont les vecteurs propres de la matrice
de variance associs aux valeurs propres X j , Xg, . . X j ,
crites en ordre dcroissant.
Prendre comme nouveaux axes de l'espace des
individus les vecteurs de la matrice de variance
revient diagonaliser l'oprateur linaire associ
. L a matrice variance des composantes p r i n -
cipales, Vf., est gale :
36
Le quotient "Kj^ est appel part d'inertie (ou de
variance) explique par l'axe n " k. (X^ + X^j./^ ou
pnrt d'inertie cumule des deux premiers axes, mesure
l'aplatissement du nuage sur le plan principal. Plus
cette part est grande, et meilleure est la reprsen-
i.ation du nuage sur ce plan.
Le nombre des valeurs propres non nidles donne
la dimension de l'espace dans lequel sont rellement
1rs observations. Une valeur propre nulle montre
(jii'il existe une relation linaire entre les caractres
initiaux.
A.vec M = D i / ( i , l e s c o m p o s a n t e s p r i n c i p a l e s sont l e s c a r a c -
I V . Les rsultats
et leur interprtation
37
Valeur o/ o/
/o /o
propre d'inertie cumul
38
Les deux premiers vecteurs propres Vj et Vg de R
sont ici les suivants :
^1 a
0,08 0,52
0,37 0,00
0,37 0,24
0,06 0,44
0,32 0,28
0,35 0,10
0,42 0,07
0.13 0,56
0,27 0,15
0,40 0,21
0,25 0,08
39
Les composantes Cj e t d o n n e n t les coordonnes des
i n d i v i d u s sur le p l a n p r i n c i p a l et on o b t i e n t l a configuration
suivante.
O n v o i t immdiatement apparatre quatre groupes d ' i n d i -
v i d u s bien spars :
1923
1926
1935
1932
1B29
1938
196S
1962
1971
1830 1959 1956
1903
1965
1906
1900, 1312
1672 19201309
1953
1947
1950
41
A) Le cercle des corrlations. Le calcul des cor-
rlations entre les composantes principales et les
caractres initiaux est trs simple effectuer, dans
le cas de la mtrique Dj/g : on montre que le
coefficient de corrlation linaire entre x^ et c^^ ^st
gal la y-me composante du fc-ime vecteur
propre v^^ multiplie par \ / \ On en dduit que
la somme des carrs dv.s corrlations de C;^ avec
les X ' ' vaut "k^.
On trouve ici :
r(c, ; X ' )
42
avec des valeurs infrieures la moyenne des ca-
ractres D E T et D E F . A u x points situs gauche
du graphique correspondent videmment des ph-
nomnes inverses.
La deuxime composante principale dont T i m -
portance est prs de 2,5 fois moindre traduit essen-
tiellement l'opposition entre le budget des anciens
combattants et celui des pouvoirs pubUcs.
Si on reprsente chaque caractre par u n point
dont les coordonnes sont ses corrlations avec Cj
et Cg, les caractres initiaux s'inscrivent alors
l'intrieur d'un cercle de rayon 1 appel cercle des
corrlations car Cj et Cg tant non corrles on montre
que :
r2(cj;xO + r 2 ( c 2 ; x O ^ L
4S
les caractres le mme rle que le plan principal
pour les individus : on montre en eflfet que l'on
obtient exactement cette figure en projetant dans
l'espace des caractres, les caractres centrs r-
duits sur le plan engendr par et Co.
44
tantes la formation d'un des premiers axes p r i n -
cipaux peut alors tre un grave dfaut car le fait
de retirer ces individus risque de modifier profon-
dment les rsultats : i l y a alors t o u t intrt
effectuer I'ACP en liminant cet individu quitte
le faire figurer ensuite sur les graphiques en point
supplmentaire (car i l est facile de calculer ses
coordonnes), condition qu'il ne s'agisse pas d'une
donne aberrante qui a ainsi t mise en vidence.
Notons enfin la possibiUt de reprsenter sur les
plans principaux des groupes d'individus possdant
un t r a i t particulier, par exemple l'ensemble des
annes reprsentant la I V ^ Rpublique. Ceci s'ef-
fectue trs simplement en plaant sur le graphique
le centre de gravit des individus concerns dont
les coordonnes se calculent aisment. Cette pro-
cdure qui permet de faire figurer les modalits
d'un caractre qualitatif illustratif (ici le numro
de la Rpublique) sera reprise lors de l'analyse des
correspondances multiples (points supplmentaires).
Dans l'tat actuel de la technique informatique
on peut traiter des tableaux oii le nombre de carac-
tres est de quelques centaines pour u n nombre
d'individus en principe illimit, puisque la phase
essentielle de calcul se rduit la diagonalisation
d'une matrice d'ordre p,
45
concurrentes. Le problme est alors de reprsenter
graphiquement les proximits entre marques qui
constituent autant d'individus.
Les donnes sont donc le tableau des distances
entre les n individus. Supposons que ces distances
soient euclidiennes, cela veut dire que les n i n d i -
vidus peuvent tre considrs comme des points
dans un espace de dimension p (inconnu) muni
d'une mtrique M . Si on connaissait leurs coor-
donnes sur des axes orthogonaux arbitraires de
cet espace on aurait alors un tableau individus-
caractres X et on pourrait effectuer une ACP. Nous
avons v u que les composantes principales c qui
constituent les listes de coordonnes sur les axes
principaux sont les vecteurs propres de la ma-
trice X M *X D . Or cette matrice peut se calculer en
connaissant uniquement les distances entre individus.
I l suffit alors de calculer ses vecteurs propres
pour obtenir une reprsentation des individus sur
un plan ou u n espace de dimension q dont on mesu-
rera la quaUt au moyen du pourcentage d'inertie
expUque.
L a m a t r i c e X M ' X est l a m a t r i c e d o n t l e s lments ivjj
sont les p r o d u i t s scalaires ^e,-; J ^ M , e t wn = En
a p p l i q u a n t la relation d u triangle :
o :
i-i ^ ^
et d?. = 2 2 P i P j d V i ; j) = 2 J '
46
L'application de I ' A C P ce type de donnes porte le nom
(l'analyse factorielle d'un tableau de distances.
Si la distance d est rellement euclidienne, toutes les valeurs
]iropres de X M ' X sont positives ou nulles. Si on trouve des
valeurs propres ngatives on ne peut plus admettre que les
individus sont dans un espace euclidien. F o u r obtenir quand
mme des reprsentations graphiques on fait appel des
techniques de positionnement multidimensionnel qui revien-
nent chercher une modification des dissimlarits les trans-
fi)rmant en distances euclidiennes en respectant certaines
cintraintea d'ordre : si d est la dissimilarit et f(d) sa modi-
l'kation on exigera que si dij < d^j on ait f{d^) ^ fik-
Divers algorithmes sont alors possibles : les uns cherchant
d'abord cette transformation / pour procder ensuite une
aniilyse factorielle du tableau des distances euclidiennes ainsi
rn'-es, les autres (mthode de K r u s k a l ) cherchant directement
la meilleure configuration de n points dans u n espace de
dimension fixe.
Sur le plan pratique le nombre d'individus traiter est
limit quelques centaines par les possibilits actuelles de
ralcul.
L e lecteur dsireux de complments dans ce domaine se
reportera avec profit aux ouvrages cits en bibliographie, en
particulier ceux de J . - M . Bouroche qui a introduit ces
mthodes en France.
47
CHAPITRE III
LA CLASSIFICATION
48
Le tableau de donnes analys est soit le tableau
des distances ou des dis similarits entre n individus,
soit le tableau des coordonnes des individus sur
p axes (tableau individus-caractres numriques ou
coordonnes sur les axes d'une analyse des corres-
pondances lorsque les caractres sont qualitatifs).
Dans ce dernier cas on peut videmment obtenir
un tableau de distance en choisissant une mtrique.
Depuis quelques annes, avec le dveloppement
des gros calculateurs, d'innombrables algorithmes
de classification ont v u le jour. I l n'est pas question
de les passer tous en revue ici renvoyant le lecteur
intress l'ouvrage de Cailliez et Pages ; nous
nous contenterons d'examiner les mthodes les plus
(fricaces et les plus utilises en insistant plus par-
ticulirement sur le cas o les distances sont eueU-
diennes car i l existe alors des critres non arbitraires.
49
1. Inertie interclasse et inertie intraclasse. Si
on peut considrer les individus comme des points
d'un espace euclidien le problme de la classification
peut se dcrire comme la recherche d'une partition
d'un nuage de n points en k sous-nuages. A u cha-
pitre prcdent, nous avons caractris la dispersion
d'un nuage de points par son inertie qui est la
moyenne des carrs des distances au centre de gra-
vit. Une classe sera donc d'autant plus homogne
que son inertie sera faible. Appelons - -A
les inerties de chaque classe, calcules par rapport
leurs centres de gravit respectifs g j , gg, ,gk- La
somme de ces inerties est appele inertie intraclasse
et est note :
k
Af^ = ^
50
Rendre maximale J^g est donc quivalent rendre
minimale J * ^ puisque leur somme est constante. D u
point de vue de l'inertie i l suffira donc de carac-
triser les meilleures partitions possibles en k classes
{il en existe ventuellement plusieurs) comme celles
([ui rendent minimale .
I I faut prendre garde ici que ce critre ne permet
pas de comparer deux partitions ayant des nombres
de classes diffrents : en eifet, la meilleure partition
en k classes aura toujours une inertie intraclasse
suprieure celle de la meilleure partition en
^ + 1 classes et sera donc moins bonne . A la
limite, la meilleure partition possible est celle o
chaque individu constitue une classe car alors
= 0 puisque chaque point est confondu avec
le centre de gravit de sa classe !
Nous chercherons dsormais obtenir une par-
tition en k classes o A: a t fix a priori. La plu-
part des techniques procdent par amliorations
successives d'une partition de dpart : nous d-
crirons d'abord celle des centres mobiles puis la
mthode des nues dynamiques qui en est une
variante.
51
On calcule ensuite les centres de gravit ,
82' S* classes que l'on vient de former.
On effectue alors une deuxime partition en regrou-
pant les individus autour des qui prennent alors
la place des centres Cj de la premire tape. On
calcule les centres de gravit g^''', g^^', . . . . g?* de
ces nouvelles classes, on regroupe les individus
autour d'eux et ainsi de suite jusqu' ce que la
qualit de la partition mesure par l'inertie i n t r a -
classe ne s'amliore plus. Comme i l suffit chaque
tape de calculer les nk distances entre les individus
et les centres, i l n'est pas ncessaire de conserver
52
D ' u n e p a r t i t i o n l ' a u t r e l a composition des classes change :
dans l a p a r t i t i o n n 2 on ne t r o u v e dans l a premire classe
que les p o i n t s d u nuage plus proches de g^ que des autres g; ;
la moyenne des carrs des distances g, est donc infrieure
la moyenne correspondante de la premire classe de ta p r e -
mire p a r t i t i o n ( moins que ces deux classes ne soient i d e n -
tiques) q u i v a u t ^ i ^ ' . L ' i n e r t i e de chaque classe de la deuxime
p a r t i t i o n est donc infrieure l ' i n e r t i e de l a classe corres-
pondante de l a premire p a r t i t i o n , i l en sera de mme p o u r
leurs moyennes et . / w ^ ^w'-
S8
l a premiie q u i calcule l a distance d*uu i n d i v i d u u n
noyau ;
la deuxime q u i une p a r t i t i o n en k classes associe les
k n o y a u x de q p o i n t s , reprsentatifs de ces classes ;
l a troisime q u i mesure l a qualit d'une p a r t i t i o n .
Connaissant ces trois fonctions, le n o m b r e de classes e t
l'effectif des n o y a u x , l ' a l g o r i t h m e est entirement dtermin.
Comme pour l a mthode des centres mobiles, la p a r t i t i o n
finale dpend d u choix i n i t i a l des n o y a u x . A f i n de l i m i t e r cet
inconvnient on procde plusieurs tirages a u sort des n o y a u x
de dpart et on compare les p a r t i t i o n s finales obtenues : les
i n d i v i d u s q u i o n t toujours t classs ensemble dfinissent des
formes fortes q u i sont en quelque sorte les parties v r a i m e n t
homognes de l'ensemble des i n d i v i d u s car elles o n t rsist a u x
alas des tirages des n o y a u x . L e n o m b r e de formes fortes est
gnralement diffrent de k.
Les mthodes de p a r t i t i o n n e m e n t p e r m e t t e n t de t r a i t e r
rapidement de grands ensembles d ' i n d i v i d u s mais elles sup-
posent que le n o m b r e k de classes est fix. Si ce n o m b r e ne
correspond pas l a configuration vritable d u nuage des
i n d i v i d u s on risque d ' o b t e n i r des p a r t i t i o n s de valeur douteuse.
I l f a u t alors souvent essayer diverses valeurs de k, ce q u i
augmente te temps de calcul. Lorsque le nombre des i n d i v i d u s
n'est pas t r o p lev o n recourra plutt des mthodes
hirarchiques.
I I . ClaBBfication hirarchique
M
dans une classe de la partition suivante. La suite
des partitions obtenues est usuellement reprsente
sous la forme d'un arbre de classification analogue
l'organigramme d'une entreprise.
La figure ci-dessous reprsente la suite de p a r t i -
tions de l'ensemble a, b, c, d, e :
- albjcldle
P4 = abjcldje
Pj = abjcdje
P2 = ahjcde
0,5
Pj = abcde. 0
a b c d e
SS
et on continue jusqu' ce qu'il n ' y ait plus qu'une
seule classe.
1. Le critre de l'inertie : la mthode de Ward.
Lorsque les individus sont des points d'un espace
euclidien nous avons vu que l'on dfinissait la qua-
ht d'une partition par son inertie intraclasse ou
son inertie interclasse. Une bonne partition est celle
pour laquelle l'inertie interclasse est forte (inertie
intraclasse faible). Lorsque l'on passe d'une par-
t i t i o n en fc + 1 classes une partition en k classes
en regroupant deux classes en une seule, nous allons
voir que l'inertie interclasse ne peut que diminuer.
Le critre de regroupement sera donc le suivant :
fusionner les deux classes pour lesquelles la perte
d'inertie est la plus faible. Ceci revient runir
les deux classes les plus proches en prenant comme
distance entre deux classes la perte d'inertie que
l'on encourt en les regroupant.
L ' i n e r t i e interclasse est, rappelons-le, la moyenne des carrs
des distances des centres de gravit de chaque classe au
centre de gravit t o t a l . Appelons A et B les deux classes que
l ' o n v e u t runir, g^, gg leurs centres, et et Pg leurs poids.
A v a n t runion on t r o u v e dans la formule de l'inertie i n t e r -
classe la somme des deux termes : P^ (^^(8* g) 4- P B d^Cge ! )
Aprs runion i l n ' y a plus qu'une classe de poids -f P^
de centre de gravit, 6 ' q^' contribue l ' i n e r t i e interclasse
par le terme unique { P ^ + P^) d^igj,^ ; g).
L a perte d ' i n e r t i e interclasse est l a diffrence :
P A d'(g. ; g) + P B dHe. ; g) - (P* + Pn) ^a^ ; g)
P . g. + P B ga
comme g^a = p on t r o u v e que cette perte est :
SA g.
56
TJn calcul lmentaire m o n t r e en effet qne :
8(A,B)=J^^rf''(g,;gB)
S7
47 et sont constitues de la manire suivante :
ce sont les annes 1900 et 1906 qui sont les plus
proches, puis 1959 et 1962, ensuite on rattache 1909
la classe 1900-1906 et ainsi de suite.
Les rsultats sont alors consigns dans le tableau
suivant.
On remarque que la somme des niveaux d'agr-
gation est gale 11 : en effet chaque niveau est
gal la perte d'inertie rsultant de la fusion des
deux lments runis ; la somme des pertes d'inertie
est donc gale l'inertie totale du nuage de points
qui est ici gale au nombre de caractres puisque
l'on a pris Dj/^ comme mtrique.
JVo Niveau
de la classe Elments runis d^agrgation
SB
De ce tableau on dduit l'arbre de classification.
Son examen montre l'vidence l'existence de quatre
classes relativement homognes obtenues en coupant
l'arbre au niveau 0,5 environ. La classe n'' 40 re-
groupe les annes 1947-1950-1953, la classe n42 les
annes 1950 1971, la classe n 43 les annes 1880
1912 et la classe n 44 les annes 1923 1935.
59
fera apparatre trois classes, puis deux classes : la
partition en deux classes sparant ici l'avant- et
l'aprs-deuxime guerre.
Rappelons enfin qu' chaque tape on n'obtient pas
forcment la meilleure partition en k classes, mais
seulement la meilleure de celles obtenues par runion
de deux classes de la partition en + 1 classes.
d(A,B).=:p^2 d(e,;e,).
60
La distance du sup remdie, mais un peu b r u -
talement, au dfaut de la mthode du saut minimal,
car elle exige que les points les plus loigns, donc
tous les points, soient proches.
La distance moyenne offre un compromis entre
les deux prcdentes.
L'ennui est que selon la formule choisie on abou-
t i r a une hirarchie ou une autre.
Ainsi considrons le tableau de distance suivant
entre cinq individus ; on voit que cette distance
n'est pas euclidienne puisque :
d{c,e)>d{c, d) + d(d.e)
6 > 2 + 1/2.
3 A
4 1
2 6
0 1/2
1/2 0
4,75
3,3
n
Si chaque arbre commence par la runion de d
et de (t e en une seule classe / , i l y a tout de
61
s u i t e d ' i m p o r t a n t e s diffrences q u a n d o n calcule les
distances de / a u x a u t r e s i n d i v i d u s :
d inf (6,/) = i n f {d{h ; d) ; d{h ; e)) 1
d sup ( 6 , / ) sup {d{h ; d) ; d{h ; e)) 4
rfmoy (6,/) = 2,5.
I l est r e c o m m a n d e de procder p l u s i e u r s t y p e s
de classification sur le m m e ensemble en u t i l i s a n t
diverses f o r m u l e s : si les birarcbies c o m p l t e s s o n t
en gnral diffrentes, i l ne d o i t pas y a v o i r de
t r o p grandes v a r i a t i o n s lorsque l ' o n regarde u n i -
q u e m e n t le h a u t de l ' a r b r e , c'est--dire les p a r t i -
t i o n s f a i b l e n o m b r e de classes. S i o n c o n s t a t e de
grosses diffrences c'est peut-tre q u e l ' e n s e m b l e
des i n d i v i d u s se prte m a l t o u t e classification.
N o t o n s e n f i n q u e l ' u n e des p r i n c i p a l e s difficults
en c l a s s i f i c a t i o n consiste dfinir des distances o u
des dis similarits e n t r e i n d i v i d u s , s u r t o u t q u a n d
c e u x - c i s o n t dcrits p a r des caractres q u a l i t a t i f s .
62
CHAPITRE I V
L'ANALYSE CANONIQUE
63
d o n n e l ' a n a l y s e c a n o n i q u e , c o m p t e t e n u de sa
fcondit thorique. Les a p p h c a t i o n s les plus e n r i -
chissantes seront obtenues sur des donnes p a r t i -
culires, c o m m e nous le v e r r o n s dans les d e u x c h a -
pitres suivants.
L Prsentation de l a m t h o d e
64
P a r a i l l e u r s , u n j u r y a n o t les athltes selon l a
qualit de leurs p e r f o r m a n c e s . Q u a t r e critres o n t
t r e t e n u s :
y i = N S A U : note de saut sur 20 (moyenne des notes don-
nes par trois juges sur le style d u saut dans
son ensemble) ;
y2 = N E L A : note d'lan sur 20 (moyenne des notes donnes
par trois juges sur le style de l'lan) ;
y* = N I M P : note d'impulsion sur 20 (moyenne des notes
donnes par trois juges) ;
y* = N S U R : note de suspension rception sur 20 (moyenne
des notes donnes par trois juges).
O n c h e r c h e r a les coefficients :
'a= (oi, ....Oj, ...,ap)
et ' b ^ (6i,
65
J . - H . BOUROCBB B T O. t A M B T A 8
O n appelle caractres canoniques les v e c t e u r s
e t TT] e R", facteurs canoniques les v e c t e u r s de coeffi-
cients a G RP et b F R ' et corrlation canonique
le coefficient de corrlation e n t r e et ].
L ' e n s e m b l e des caractres combinaisons l i -
naires des x^, x\, f o r m e u n sous-
espace v e c t o r i e l de R" que l ' o n appelle p o t e n -
t i e l de prvision d u p r e m i e r g r o u p e . De m m e ,
a u second g r o u p e , o n associe W j , sous-espace vec-
t o r i e l de R".
I I s'agit donc de t r o u v e r d e u x v e c t e u r s e W j
et if) G W g f a i s a n t u n angle m i n i m u m , p u i s q u e l ' o n
a v u en analyse en composantes p r i n c i p a l e s l ' i d e n -
tit e n t r e cosinus et corrlation p o u r les caractres
centrs.
66
a t o b t e n u , o n recherche, dans u n deuxime t e m p s ,
u n a u t r e couple de caractres et Y]'^ tels q u e
r{%\ soit m a x i m u m et tels q u e et (res-
p e c t i v e m e n t Tf)^ et T)^) aient u n e corrlation n u l l e
et a i n s i de s u i t e , et Y)*, etc.
L e p r o b l m e de l ' a n a l y s e c a n o n i q u e p e u t tre
rapproch de celui de l a rgression m u l t i p l e . S u p -
posons que nous cherchions prvoir l a v a r i a b l e a;',
saut en l o n g u e u r , l ' a i d e des notes donnes p a r
le j u r y . D a n s ce cas l'espace W j n ' a p l u s q u ' u n e
seule d i m e n s i o n , t a n d i s q u e est inchang. O n
obtient le graphique suivant :
O n recherche le v e c t e u r de W g :
>) = 6 x y ^ - h . . . +&4y*
f a i s a n t u n angle m i n i m u m avec le caractre x ' .
C o m m e n o u s le v e r r o n s dans le p a r a g r a p h e s u i -
v a n t , r\t u n vecteur colinaire avec l a p r o j e c t i o n
o r t h o g o n a l e de x ' sur
IL F o r m u l a t i o n gomtrique
1. P r o j e c t i o n o r t h o g o n a l e siu* un sous-espace
vectoriel,
A ) Le problme de la rgression multiple, A v a n t de r-
soudre le problme de l'analyse canonique, il est ncessaire
67
d'effectuer quelques rappela sur la rgression multiple, et en
particidier sur la projection orthogonale d'un vecteur sur u n
sous-espace vectoriel.
Considrons le cas d'un caractre expliquer n y et de
p caractres explicatifs x^, . . x ' , . . x V .
Nous supposons que ces p + 1 caractres sont observs
sur le mme ensemble de n individus, chaque individu tant
muai du poids pi > 0 avec : S p f = 1.
Il s'agit de trouver une combinaison linaire des p caractres
explicatifs
= C i X l + . . . + f l j X ' + ... + O p X P
yi eR" et x = eR j = h
J^P4yi = o ^ipi*/ = o j = l p
... xi .. . x;
... xi, ... xt
est gal p.
68
E n notation abrge, on pose :
W = {eR''/ = X,ii6RP}
O \
D = Pi
o
it'ii'=*;
L a distance entre deux caractres est donne par :
d\xKx^)= ||x'-~x*)|'
= ((xi 1 * ) D(x' x " ' )
69
Dans la suite, nous noterons f le point de W le plus pioche
de y : y est la projection orthogonale de y sur W .
70
y est donc le vecteur de W maximisant
71
A u x v e c t e u r s x^ et nous associons r e s p e c t i -
v e m e n t les sous-espaces v e c t o r i e l s de R " et W j :
Wi^CeR-'/-Xa^aeR"}
W 2 = {)GRVl = Yb, bGR=}
o X p e t Yg s o n t les m a t r i c e s c o n t e n a n t r e s p e c t i -
v e m e n t e n colonnes les v e c t e u r s x^, y = 1 , . .
et y*, k= 1, ...,q.
Les v e c t e u r s x^ (et y*) tant centrs, les sous-
espaces v e c t o r i e l s (et Wg) c o n t i e n n e n t des vec-
t e u r s centrs, c o m b i n a i s o n s linaires de v e c t e u r s
centrs.
L encore, nous supposons q u e les (les y*)
f o r m e n t u n e base de W j (de W j ) et donc q u e :
d i m ( W i ) = p, d i m (W^) = q
r a n g ( X ) = p, rang (Y) =q
G o m t r i q u e m e n t , le problme de l ' a n a l y s e c a n o -
n i q u e p e u t tre formul de l a faon s u i v a n t e :
I l s'agit de t r o u v e r e et yj e W g t e l q u e :
soit m a x i m u m .
72
B ) Recherche des caractres canoniques. S u p p o -
sons q u e les caractres et YJ^ soient s o l u t i o n d u
problme.
P u i s q u e T a n g l e e n t r e e t ) ne dpend pas de
l e u r n o r m e , o n suppose q u e = j T)|| = 1 .
V)^ d o i t tre colinaire avec l a p r o j e c t i o n o r t h o -
gonale de sur W g q u i est le v e c t e u r de
f a i s a n t u n angle m i n i m u m avec j^ d'aprs l e p a r a -
graphe I l . 1 .C.
Cette c o n d i t i o n s'crit :
o Xl = r? = cos" ( ^ V ) .
O n en dduit q u e et Y)^ sont r e s p e c t i v e m e n t
v e c t e u r s p r o p r e s des oprateurs A ^ A 2 e t A g A ^ as-
73
socie l a m m e p l u s g r a n d e v a l e u r p r o p r e X^,
gale l e u r cosinus carr ( l e u r corrlation carre).
Les caractres et Y)^ se dduisent l ' u n de
l ' a u t r e p a r u n e s i m p l e a p p l i c a t i o n linaire :
- a i x l 4- . . . + a , x^ + . .. + p
De mme ir) = Yb
74
L e s facteurs canoniques a et b peuvent tre calculs
directement.
E n posant :
Ai = X ( ' X D X ) ~ ' X D
Aa = Y ( ' Y DY)-i'YD
posons :
Vil = ' X D X
V = 'YDY
V = ' X D Y = 'V
75
E n f i n a et b se dduisent Tun de l'autre par transformation
et en simplifiant :
b = 4r'^'V,i
de mme :
1
= -^vri^vb
E n i n t r o d u c t i o n , n o u s a v o n s soulign les d i f f i -
cults rencontres dans l ' u t i l i s a t i o n de l ' a n a l y s e
c a n o n i q u e . T o u t e f o i s , sur l ' e x e m p l e des s a u t e u r s de
T h o m a s , nous a l l o n s t e n t e r d'interprter les rsul-
tats o b t e n u s .
Les caractristiques des caractres tudis taient
les s u i v a n t e s :
iVfoyenne Ecart typt
76
Matrice des corrlations du groupe 1 = V,i
TAIL POID DTH DTV FJAM VIT SAUL 3SAU
lAlL 1,00
pOlD 0,77 1,00
l>TiI 0,51 0.27 1,00
I)TV 0,16 0,04 0,62 1.00
I JAM 0,47 0,74 0.36 0.23 1,00
VIT 0,23 -0,09 0,43 0,33 0,05 1,00
SAUL 0.29 0.05 0,59 0,39 0,06 0,63 1.00
:!SAU 0,31 -0,02 0.64 0,47 0,05 0,54 0,67
NSAU 1,00
NELA 0,83 1,00
NIMP 0,80 0.79 1,00
NSUR 0,82 0,69 0,77 1,00
77
Les corrlations canoniques sont reportes dans
le t a b l e a u s u i v a n t .
1 0,707 0.841
2 0,309 0,556
3 0.177 0.421
4 0.060 0.246
V- 5' i'
78
Variablei canoniques i^u groupe 2
yf
y/ 1 /
r
79
C o m p t e t e n u de l a faiblesse des corrlations o n
ne r e t i e n d r a c e t t e interprtation q u ' a v e c p r u d e n c e ,
de p l u s l ' e x a m e n de V j g ne semble pas l a c o n f i r m e r
de faon v i d e n t e .
L ' e n s e m b l e des caractres i n i t i a u x p e u t tre r e -
prsent sur les p l a n s des d e u x caractres et
(ou H j l , 7 ) 2 ) . ^ , t
L a c o o r d o n n e d ' u n caractre n o r m e x^ ( o u y')
est d o n n e p a r le cosinus e n t r e x^ et "- o u ^.
On obtient le graphique suivant :
80
a u x p e r f o r m a n c e s et a u x n o t e s , le t r i p l e saut
semble p l u s li l a n o t e d ' i m p u l s i o n q u ' l a n o t e
d'lan. Ces quelques rsultats a u r a i e n t p u tre
o b t e n u s en e x a m i n a n t de p l u s prs les corrlations
e n t r e caractres.
I V . Conclusion
o ,eW,.
O n m o n t r e aisment que z est s o l u t i o n de
m
( 2 A J Z = ti z
i-l
81
D a n s le cas o m = 2 , o n o b t i e n t le s c h m a
s u i v a n t a u carr :
62
CHAPITRE V
L'ANALYSE FACTORIELLE
DES CORRESPONDANCES
I . Prsentation de a mthode
C o m m e nous l ' a v o n s v u a u c h a p i t r e p r e m i e r , u n
t a b l e a u de c o n t i n g e n c e , o u t a b l e a u crois, est u n
t a b l e a u N d'effectifs n^j c o r r e s p o n d a n t l a v e n t i -
l a t i o n des i n d i v i d u s selon d e u x caractres q u a l i t a t i f s .
A i n s i le t a b l e a u s u i v a n t d o n n e l a rpartition
des n 202 100 baccalaurats dlivrs en 1976
83
s- r
g o fi i-l
c Ae i l
(93 S S cl g
NonAre de baccaaurate (197$)
ILDF Ile-de-France 9 724 5 650 8 679 9 432 839 3 353 5 355 83 43 l i s
CHAH Champagne-Ardennes 924 464 567 984 132 423 736 12 4 242
PICA Picardie 1 081 490 830 1 222 118 410 743 13 4 907
HNOR Hante-Noimandie 1 135 587 686 904 83 629 813 13 4 850
CENT Centre 1 482 667 1 020 I 535 173 629 989 26 6 521
BNOR Baue-Nonaandie 1 033 509 553 1 063 100 433 742 13 4446
BOUR BooTgonie 1 272 527 861 1 116 219 769 1 232 13 6 009
NOPC Nord - Pw^^e-Calais 2 549 1 141 2 164 2 752 587 I 660 1 951 41 12 845
LORR Lorraine 1 828 681 1 364 1 741 302 1 289 1 683 15 8 903
ALSA Alsace 1 076 443 880 1 121 145 917 1 091 15 5 688
FRAC Franche- Comt 827 333 481 892 137 451 618 18 3 757
PAYL Paya de U Loire 2 213 809 1 439 2 623 269 990 14
1 783 10 140
BRET Bretagne 2 158 1 271 1 633 2 352 350 950 1 509 22 10 245
PCHA Poiton-Charentes 1 358 503 639 1 377 164 495 959 10 5 505
AQUI Aquitaine 2 757 873 1466 2 296 215 789 1 459 17 9 872
MU)I Midi-Pyrnes 2 493 1 120 1 494 2 329 254 855 1 565 28 10 138
LIMO Limousin 551 297 386 663 67 334 378 12 2 688
RHOA Rhne-AJpet 3 951 2 127 3 218 4 743 545 2 072 3 018 36 19 170
AUVE Auvergne 1 066 579 724 1239 126 476 649 12 4 871
LARO Languedoc-RoussilloD 1 844 816 1 154 I 839 156 469 993 16 7 287
PROV Provence-Alpea-Cte d'Azur 3 944 1645 2 415 3 616 343 1 236 2 404 22 15 625
CORS Corse 327 31 85 178 9 27 79 0 736
Eiuemblfl 45 593 2156S 32 738 46 017 S339 19 656 30 749 451 202 lOO
KSBmmmmmmim
selon l a rgion (p = 22 modalits) et l a section
(g 8 modalits).
L e s d e u x caractres ne s o n t v i s i b l e m e n t pas i n d -
p e n d a n t s car o n s'aperoit aisment q u e l a rpar-
t i t i o n des baccalaurats selon l a section diffre n o -
t a b l e m e n t d ' u n e rgion l ' a u t r e . L e p r o b l m e est
alors d ' a n a l y s e r l a s t r u c t u r e de c e t t e d p e n d a n c e
et d ' e n f a i r e r e s s o r t i r les t r a i t s p r i n c i p a u x .
R e m a r q u o n s t o u t d ' a b o r d q u ' u n t a b l e a u de
c o n t i n g e n c e p e u t se l i r e de d e u x manires diff-
rentes : selon ses lignes o u selon ses colonnes. Cela
r p o n d d e u x proccupations diffrentes.
a) Si o n dsire s a v o i r p o u r c b a q u e rgion c o m -
m e n t se rpartissent les bacheliers selon les diff-
rentes sections o n c a l c u l e r a les p o u r c e n t a g e s en
l i g n e e n d i v i s a n t les effectifs n^j de l a l i g n e n ^ i
p a r le t o t a l n^, de l a l i g n e .
O n o b t i e n t ce q u ' o n a p p e l l e les p r o f i l s des l i g n e s .
L e p r o f i l de l a rgion L o r r a i n e est ainsi l e s u i v a n t ;
L O R R (en % ) A B C D E F G H
20,5 7,6 15,3 19,6 3,4 14,5 18,9 0,2
O n c o n s t a t e en L o r r a i n e u n e surreprsentation
des bacs t e c h n i q u e s E , F , G , et u n e sous-repr-
s e n t a t i o n des bacs classiques p a r r a p p o r t l a
moyenne nationale.
L e p r o f i l m a r g i n a l est aussi le p r o f i l m o y e n car
i l est l a m o y e n n e des p r o f i l s des lignes pondres
p a r l e p o i d s n^. de c h a q u e l i g n e .
6^ Si r c i p r o q u e m e n t o n v e u t s a v o i r de quelle
rgion p r o v i e n n e n t les bacheliers de chaque section
85
o n calculera les profils des colonnes en d i v i s a n t les
efiectifs fijj de l a colonne j p a r n,j t o t a l de l a
colonne.
A u s s i le p r o f i l d u b a c est d o n n dans l e t a b l e a u
s u i v a n t (eu % ) :
Ce p r o f i l d o i t tre c o m p a r a u p r o f i l m a r g i n a l
des 22 rgions, t o u s baccalaurats c o n f o n d u s , q u i
mesure l a p a r t p r i s e p a r cbaque rgion dans l a
<( p r o d u c t i o n n a t i o n a l e de bacheliers.
On constate ainsi q u ' i l p r o v i e n t nettement plus
de bacheliers de l a P r o v e n c e , d u L a n g u e d o c -
R o u s s i l l o n et d u Midi-Pyrnes q u e ne l ' e x p U q u e
l a seule i m p o r t a n c e numrique de ces rgions.
o o
D,= 1.
O O
le tableau renfermant hs p proflB des lignes est le produit
matriciel :
87
Rappelons qae cette opration consiste clater chaqm
caractre qualitatif en autant de caractres numriques (pnii
nant uniquement les valeurs 1 et 0) qu'il y a de modalits,
Ainsi dans notre exemple le caractre rgion est reprsenta
par un tableau n lignes et 22 colonnes et le caract:
a section par un tableau n lignes et 8 colonnes
Rgion Section
1 2 ... 22 1 2 ... 8
0 1 0 0...0 x , = 1 0 0 0
88
n o n i q u e s (, V)) les p l u s corrls possible. O n a
= X j a e t V] = X 2 b o a e t b s o n t les f a c t e u r s
canoniques.
E x a m i n o n s p o u r q u o i r e v i e n t c e t t e opration
l o r s q u e X j est u n t a b l e a u d ' i n d i c a t r i c e s e t p r e n o n s
p o u r xer les ides le t a b l e a u s u i v a n t 6 l i g n e s
e t 3 colonnes :
100
010
a =
010
001 0
Vooi;
89
dicatrices et X 2 n o n centres, ce q u i n e p r -
sente a u c u n i n c o n v n i e n t m a t h m a t i q u e b i e n a u
c o n t r a i r e : en effet a s o m m e des i n d i c a t r i c e s d ' u n
m m e caractre v a u t t o u j o u r s 1 ( u n e m o d a l i t et
u n e seule est p r i s e p a r u n i n d i v i d u ) , l a s o m m e des
v e c t e u r s colonnes de X^^ est alors gale l a s o m m e
des v e c t e u r s colonnes de X g : c'est le v e c t e u r 1 d o n t
t o u t e s les c o m p o s a n t e s s o n t gales 1 .
90
E n t r e les f a c t e u r s b et les f a c t e u r s a existe l a
relation :
h 1 - V - l V
soit I C I :
b=4=I>r^'Na et a=4=I>r^Nb
V A ^/k
Ces f o r m u l e s s o n t appeles f o r m u l e s de t r a n -
s i t i o n . Sous f o r m e d v e l o p p e o n t r o u v e :
6j S i et a,= ~-Y,fbi
D a n s n o t r e e x e m p l e , c o m m e q = 8 et p = 22
o n c b e r c h e r a d ' a b o r d les f a c t e u r s b et o n en dduira
ensuite les f a c t e u r s a p a r l a f o r m u l e de t r a n s i t i o n .
L a s o m m e des v a l e u r s p r o p r e s possde alors u n e
proprit intressante :
+ Xl + X2 + ...
Puisque XQ = 1 o n t r o u v e f a c i l e m e n t que :
Xl + Xa - f . . . - S 2 ^ ' - ^ - ^ = ^-
ce q u i n ' e s t a u t r e q u e l a mesure de d p e n d a n c e
d u X* e n t r e d e u x caractres q u a l i t a t i f s divise
par n (voir chapitre premier).
Les v a l e u r s p r o p r e s Xj tant les carrs des coeffi-
cients de corrlation c a n o n i q u e , les caractres ca-
91
n o n i q u e s s o n t alors les couples de caractres n u m -
r i q u e s e x p l i q u a n t p a r o r d r e dcroissant l a d p e n -
dance e n t r e les d e u x caractres q u a l i t a t i f s d u
t a b l e a u de c o n t i n g e n c e .
E n a d o p t a n t l a mtrique e u c l i d i e n n e usuelle o n
risque de f a v o r i s e r les diffrences e n t r e les sections
f o r t e f f e c t i f o des v a r i a t i o n s f o r t e s s o n t fr-
q u e n t e s e t de nghger les sections f a i b l e e f f e c t i f
telles E e t H o o n n ' o b s e r v e q u e de f a i b l e s v a r i a -
t i o n s d ' u n e rgion l ' a u t r e .
Si o n v e u t viter ce p h n o m n e i l f a u t pondrer
c h a q u e caractre en t e n a n t c o m p t e de son i m p o r -
t a n c e sur l ' e n s e m b l e des rgions.
O n appelle mtrique d u p o u r les l i g n e s l a
mtrique diagonale
M,
92
dfinie p a r l ' i n v e r s e d u p r o f i l m a r g i n a l des colonnes
de N .
On pondre chaque a caractre p a r l'inverse de son i m p o r -
tance sur l'ensemble des i n d i v i d u s :
;.,.)= S - ^ ( ^ - ^ ) '
'^^ " j_in.j\ni. nkJ
ainsi d J . ( L O R R ; I L D F ) = 13,0 (1).
L a distance d u entre lignes possde entre autres p r o -
prits celle de ne pas tre modifie si on regroupe deux
colonnes a y a n t mme p r o f i l .
On peut de l a mme manire dfinir l a distance d u
entre les p r o f i l s des colonnes, p a r = n Dj" ^
Les f a c t e u r s p r i n c i p a u x s o n t d o n c i d e n t i q u e s a u x
f a c t e u r s c a n o n i q u e s b.
Les composa nt es p r i n c i p a l e s c o u c o o r do nn e s des
profils-lignes s ' o b t i e n n e n t en prmultipliant b p a r l e
t a b l e a u de donnes ( c = X u ) , s o i t c = D ^ ^ N b ;
d'aprs les f o r m u l e s de t r a n s i t i o n c n ' e s t donc
a u t r e q u e le f a c t e u r c a n o n i q u e o u p r i n c i p a l a m u l -
tipli p a r y/'X.
O n s'aperoit alors q u e I ' A C P d u n u a g e des p r o f i l s
93
des l i g n e s est quivalente I'ACP d u nuage des
p r o f i l s des colonnes : les f a c t e u r s p r i n c i p a u x d'une
a n a l y s e s o n t " v / x prs les c o m p o s a n t e s p r i n c i p a l e s
de l ' a u t r e e t les v a l e u r s p r o p r e s s o n t les mmes.
Il y a dualit e n t r e les d e u x a n a l y s e s .
L e s valeurs propres que nous avions interprtes comme
des carres de corrlation sont donc aussi des variances : leur
somme ( l a valeur triviale prs) est gale l'inertie totale
de chacun des nuages de profils.
On peut alors reconstituer le tableau de contingence
l'aide de l a formule :
"2 0
94
i l c o n v i e n t a v a n t t o u t de b i e n c o m p r e n d r e l e u r
m o d e de c o n s t r u c t i o n , d ' a u t a n t que diverses c o n v e n -
t i o n s s o n t possibles.
^2 bJ
y/X,b] a]
95
B ) Optique ACP. S i on conaidre lea profila des lignes
comme dea individus ( 1 " A C P ) i l est naturel de repraenter
les modalita d u premier caractre par les coordonnes de
ces profils sur les axes principaux. O r , les composantes prin-
cipales s'obtiennent en multipliant les facteurs canoniques
par : les modalita d u premier caractre sont alora ds-
poaea aelon la mme figiu'e qu'avec la reprsentation au
moyen des caractres canoniques n''. (On peut alors repr-
senter les modalits du deuxime caractre en lments sup-
plmentaires comme centres de gravit des individus les
possdant.)
Inversement l a deuxime A C P sur les profils des colonnes
conduit reprsenter lea modalita du deuxime caractre
qualitatif selon la figure obtenue avec les k''. O n obtient alors
deux reprsentations spares dea modalits de chaque
caractre.
96
O n c o n s t a t e alors q u e T a x e 1 oppose T l l e - d e -
France l'Alsace et l a Lorraine d'une p a r t ; e t
d ' a u t r e p a r t les sections classiques ( A f i C D ) a u x
sections t e c h n i q u e s ( E F G H ) . O n m e t i c i e n v i -
dence u n p r e m i e r f a c t e u r de diffrenciation e n t r e
rgions : l a spciahsation t e c h n i q u e o u classique.
AM2
34K
ALSA NOPC
e
ILDF
AUVE Aa'l t
C ptCA M X
FRAC
CHAM MIQI
PROV
PAVL
Aaul
KHA
J . - H . BOVROCBB B TO . SA01ITA 4
tance du faible). A i n s i TAlsace et l a Lorraine
q u i o c c u p e n t des p o s i t i o n s voisines sur le p l a n p r i n -
c i p a l o n t p e u prs l a m m e rpartition des bacca-
laurats. L'interprtation de l a p r o x i m i t e n t r e xme
m o d a l i t i d ' u n caractre e t u n e modalit j de
l ' a u t r e est p l u s prilleuse : o n p e u t s e u l e m e n t d i r e
q u e les i n d i v i d u s possdant l a m o d a l i t i o n t le
m m e c e n t r e de gravit que c e u x q u i possdent l a
modalit / . S o u v e n t , m a i s pas t o u j o u r s , c e t t e p r o x i -
mit rvle u n t r a i t caractristique : ainsi le p o i n t
Alsace est trs p r o c h e d u p o i n t F e t c'est
e f f e c t i v e m e n t en Alsace q u e l ' o n observe l a p l u s
g r a n d e p r o p o r t i o n de bacs F ( 1 6 , 1 % ) de m m e
p o u r le bac B e t l ' I l e - d e - F r a n c e (13,1 % ) ; m a i s
b i e n q u e le p o i n t E s o i t p r a t i q u e m e n t c o n f o n d u
avec le p o i n t L o r r a i n e , c'est dans l a rgion
N o r d - Pas-de-Calais q u e l a p r o p o r t i o n en est l a
p l u s g r a n d e (4,6 % c o n t r e 3,4 % ) .
98
Contributions
Al A2 A3 A4
Points colonnes
Points lignes
99
se d c o m p o s e r selon les modalits d u p r e m i e r ca-
ractre o u celles d n second :
*-i i~\
L a p a r t de \e l a m o d a l i t i est donc piX'^^Y :
c'est l a c o n t r i b u t i o n de l a modalit i l ' a x e k ( 1 ) .
V o i c i e n p o u r c e n t a g e l a l i s t e des c o n t r i b u t i o n s des
p o i n t s a u x q u a t r e p r e m i e r s axes ( v o i r t a b l e a u p . 9 9 ) .
P o u r interprter les axes, o n recherche les c o n t r i -
b u t i o n s les p l u s i m p o r t a n t e s (en italique). L'inter-
prtation des d e u x p r e m i e r s axes a y a n t t d o i m e
p l u s h a u t , nous n ' y r e v i e n d r o n s pas. A f i n que l e
l e c t e u r ne s ' i m a g i n e pas q u e seuls d e u x axes o n t
u n intrt, e x a m i n o n s les renseignements apports
p a r le 3^ e t le 4^ axe. I l est c o u r a n t en p r a t i q u e
d'interprter j u s q u ' 5 axes.
L e 3^ axe reprsente essentiellement l e bac D e t
m e t e n v i d e n c e l e rle p a r t i c u l i e r de l a rgion
H a u t e - N o r m a n d i e : o n c o n s t a t e en r e t o u r n a n t a u x
donnes q u e c e t t e rgion prsente en effet l e p l u s
f a i b l e p o u r c e n t a g e de bacs D (18,6 % ) .
L ' a x e 4 q u i est li a u x bacs B e t E isole l a rgion
N o r d - Pas-de-Calais caractrise l a fois p a r i m
trs f o r t p o u r c e n t a g e de bacs E e t u n f a i b l e p o u r -
centage de bacs B .
B ) Proximits entre points et axes principaux (2).
C o m m e e n A C P o n u t i h s e l e cosinus carr de
l ' a n g l e e n t r e les i n d i v i d u s i c i p r o f i l s l i g n e e t les
profils colonne et l'axe p r i n c i p a l p o u r mesurer l a
qualit de l a reprsentation d a n s les p l a n s p r i n c i -
p a u x . L a s o m m e de ces cosinus carrs p o u r u n
m m e i n d i v i d u e t s u r tous les axes est gale 1.
100
Cosinus carrs avec les axes
1. L e s donnes* O n relve s u r n i n d i v i d u s n o n
p l u s d e u x m a i s p caractres q u a l i t a t i f s . C'est en
p a r t i c u l i e r le cas des enqutes p a r q u e s t i o n n a i r e o
101
chaque question dfinit u n caractre dont les moda-
lits sont les diffrentes rponses possibles (une
seule rponse pouvant tre donne une question).
Ainsi dans une enqute (1) portant sur les films
regards la tlvision en 1978 6 083 individus (des
tlspectateurs) sont dcrits pur p = 92 caractres,
totalisant 298 modalits : 72 concernent des films
et comportent 3 modalits (non v u , v u en totalit,
v u partiellement), les 20 autres caractrisant l'inter-
view (ge, niveau d'instruction, rgion d'habi-
tation, etc.).
A chaque caractre j on associe alors l'ensemble
des indicatrices de ses modalits : les donnes
constituent alors le tableau disjonctif X n lignes
et m j -f- m 2 + . . . + "ip colonnes :
1 / \
X, X.
/
2. L a mthode. L'analyse des correspondances
simples consistait appliquer l'analyse cano-
nique deux tableaux d'indicatrices. Puisqu'il y a
maintenant p tableaux d'indicatrices, on utilise la
gnralisation de l'analyse canonique propose par
J . D . Carroll (voir chap. I V , fin) qui consiste
reprsenter les individus au moyen de nouveaux
caractres z^, z^..., solutions de l'quation :
S A: Z == OZ
i-1
(1) Les rsultais utiliss Ici sont reproduits avec l'aimable auto-
risation du Centre d'Etudes d'Opinion (maison de Radio-France)
charg des enqutes d'audience auprs des tlspectateurs. Cette
tude a t ralise par D. Ralmondi et C. Chappe.
102
Pour des tableaux d'indicatrices, cette gnrali-
sation possde la proprit remarquable suivante :
Rechercher les valeurs propres et les vecteurs propres
de S A j revient effectuer une analyse des correspon-
dances sur le tableau disjonctif considr comme un
tableau de contingence.
D e maniie prcise, si on effectue l'analyse des correspon-
dances sur X , les coordonnes des individus-lignes sur les
axes p r i n c i p a u x et les valeurs propres associes sont les vec-
1 v
teurs propres et les valeurs propres de ~
L a dmonstration se f a i t en recourant l'criture e x p l i c i t e
des projecteurs A j :
Ai = Xi{%DXi)-i'XiD
m
d i r e It n o m b r e m o y e n de modalits m o i n s 1 . Chaque v a l e u r
propre tant infrieure I , le premier facteur reprsente une
p a r t d ' i n e r t i e ncessairement infrieure l'inverse de
Si les p caractres o n t 5 modalits en moyenne le p r e -
m i e r facteur ne pourra j a m a i s dpasser 25 % de l ' i n e r t i e .
L e tableau de contingence des baccalaurats d o n n a i t
une premire valeur propre reprsentant 56 % de l ' i n e r t i e .
L e passage l a f o r m e d i s j o n c t i v e d o n n e r a i t une trace de
( 22 4- 8
\
1j et le premier facteur ne p e u t e x t r a i r e
104
lyse n*a pas besoin d'tre effectue sur la totalit des
tableaux des rponses mais seulement sur une partie.
Le diplme (4 modalits)
DIO DU DI2 DIS
sans infrieur bac ou encore
diplme au bac suprieur l'cole
Le sexe (2 modalits)
H I F
L*inertie t o t a l e v a l a i t donc 1 = 3,42.
iz
Les premires valeurs propres sont ;
0,340 (9,96 % )
0,285 (8,35 % )
0,249 (7.30 % ) .
105
n se limitant au plan principal 1-2, on inter-
prte les axes de la manire suivante (les contri-
butions ne sont pas reproduites ici).
L'axe 1 spare, gauche du graphique, les
tlspectateurs de plus de 65 ans (G5), retraits
(CI9), seuls ( A l ) des tlspectateurs de 15 24 ans
( A G I ) , lves ou tudiants (CI7) encore l'cole
(DI3) qui sont droite du graphique.
L'axe 2 isole en haut les tlspectateurs d'ins-
truction suprieure ( D I 2 ) , cadres ou professions
librales (CI2, CI3), de 25 34 ans (AG2), de l'en-
semble des autres catgories, en particiJier des
agriculteurs (CIO) et des sans diplmes (DIO).
L* (lti
nclunt*
A3 CM Un* AngiliM
ramwiuqui
cil
ig liniifi
Monywowl"
,Un iur
' l f l l *
106
A u centre du graphique on trouve le tlspecta-
teur moyen de l'chantillon qui correspond aux
ouvriers {CI5, C6).
Le sexe du tlspectateur ne semble pas tre u n
caractre trs discriminant. Sur cette grille d'inter-
prtation qui permet de structurer l'chantillon
selon deux axes (ge, niveau culturel), i l suffit
maintenant de projeter les rponses concernant l a
vision des diffrents films (centre de gravit des
individus prenant la modalit v u en totalit )
pour caractriser rapidement leur public. Bien en-
tendu une tude dtaille doit prendre en compte
les axes 3, 4, etc. (l'axe 4 tait ici caractristique
des agricidteurs). Les films tous publics se situant
au centre du graphique tandis que les films q u i
intressent seulement certaines catgories de tl-
spectateurs se dtachent nettement : ainsi La Flte
enchante^ opra film, se situe dans le quart nord-
ouest du graphique (tlspectateurs cultivs et
gs). Sous les yeux d'Occident, d'Y. Allgret avec
P. Fresnay (1936), et Nana avec Martine Carole
(1955) sont situs dans le quart sud-ouest (tl-
spectateurs moins cultivs et gs), tandis que Un
jour la fte, comdie musicale avec M . Fugain (1975),
semble caractristique des tlspectateurs jeunes
d'un milieu peu cultiv et le Zinzin d'Hollywood
de Jerry Lewis sur l'axe 1 droite a d tre v u
par des jeimes de tous les milieux.
I V . Conclusion
vers Fanalyse non linaire dea donnes
107
page en classes de ses valeurs (ex. : le caractre
ge dcoup en classes d*ge), i l est possible d'tu-
dier des tableaux comportant u n mlange de carac-
tres numriques et qualitatifs : i l suflBt de t o u t
Tendre qualitatif et d'effectuer une analyse des cor-
respondances multiples. A la limite u n tableau
individus-caractres numriques que l'on tudie
usuellement par l'analyse en composantes princi-
pales peut tre rendu qualitatif, mis sous forme
disjonctive et soumis une analyse des correspon-
dances. Une telle dmarche peut surprendre puis-
qu' premire vue on perd de l'information en ren-
dant qualitatif u n caractre numrique. L'intrt
est qu'en procdant ainsi on peut prendre en
compte des liaisons non linaires ventuelles entre
caractres. E n effet, I'ACP repose essentiellement
sur l'tude des corrlations ; or le coefficient de
corrlation ne mesure que la forme plus ou moins
linaire de la dpendance entre deux caractres.
U n coefficient de corrlation voisin de zro ne si-
gnifie pas forcment q u ' i l y a indpendance ; i l peut
exister ime relation non linaire, paraboUque par
exemple. De plus, la recherche des composantes
principales est Umite par principe aux combinai-
sons linaires des caractres initiaux.
108
CHAPITRE V I
L'ANALYSE DISCRIMINIVT
109
titatifs ? Le b u t de l'analyse factorielle discrimi-
nante (AFD) est de rpondre cette question. Mais
prcisons ce problme l'aide d'un exemple.
Dans une exprience ralise par J.-C. Amiard,
23 poissons sont rpartis dans trois aquariums sou-
mis diffrents niveaux de contamination.
On dsire dterminer dans quelle mesure la conta-
mination des poissons est lie l'intensit de la
radiocontamination. Le caractre qualitatif prend
ici trois modalits : l'appartenance l ' u n des trois
aquariums. On mesure les quinze caractres quan-
titatifs suivants :
*> YEU Radioactivit des y e u x
BR Radioactivit dea branchies
OP Radioactivit des opercules
X* N A G Radioactivit des nageoires
x^ F O I Radioactivit d u foie
TUB Radioactivit d u t u b e digestif
x' EC Radioactivit des cailles
X* M U S Radioactivit des muscles
X* P O I Poids
x"> L O N Longueur
LONS Longueur staudard
LART L a r g e u r de l a tte
LAR Largeur
x" LARM Largeur d u museau
x" DYEU Diamtre des y e u x
110
Ainsi sur l'exemple suivant, trois groupes sont
reprsents sur le plan des deux caractres et x^.
c
111
Dans l'espace dea individus R ' , chaque observa-
t i o n est repre par u n vecteur {x}, .. .^xf, ..., xf).
Les caractres tant centrs, le centre de gravit
du nuage des individus est confondu avec l'origine.
Comme en analyse en composantes principales, on
calcule la matrice de variance (totale) note :
V = 'X D X
Coasidrons u n n o u v e a u caractre c = Xn dont la va-
riance est gale :
Il c 11' = 'c D e = "u ' X D X u = ' u V u
k-l
W est appele matrice de variance intraclasse.
Soit enfin B la matrice de variance des p carac-
tres calcule sur le nuage des q centres de gravit
munis de leurs poids respectifs. B est appele matrice
de variance interclasse.
On montre alors facilement l a relation :
V = W + B.
La variance d u caractre c s'crit donc :
Il c||* = HiVa = W n + HiBn
US
Ainsi l a variance d'un caractre se dcompose en
ime somme de deux termes :
' u B u , variaase interclasse lie l a dispersion
des centres de gravit des classes autour de
l'origine ;
h i W u , variance intraclasse lie l a dispersion
des observations appartenant une classe autour
de leurs centres de gravit respectifs.
b) Recherche des facteurs discriminants, Soit
un caractre c = X u . Nous considrons que ce
caractre est parfaitement discriminant s'il prend
la mme valeur sur tous les individus d'une mme
classe et des valeurs diffrentes sur des individus
appartenant des classes distinctes.
Dans ce cas, ' u W u = 0 puisque l'intrieur de
chaque classe, le caractre est constant et, par
consquent, ' n V u = hiBu.
Choisir le meilleur caractre discriminant revient
donc maximiser ' u B u , c'est--dire la variance
interclasse de ce caractre.
E n pratique, puisque la somme de la variance
interclasse et de la variance intraclasse est cons-
tante, on maximise le rapport entre la variance
interclasse et la variance totale qui peut alors
s'interprter en terme de pourcentage.
Par dfinition, le premier caractre discriminant
est c = X u t e l que la quantit ^ B u / ' a V u soit
maximum.
Remarquons que, dans l'exemple prcdent ( d i s c r i m i n a t i o n
p a r f a i t e ) , ce r a p p o r t serait gal 1 .
Remarquons galement que
'nBu *nVo
nVu %Vn "
US
minimiaer le second. D e pins ces quantits sont comprises
entre 0 et 1.
E x p l i c i t o n s m a i n t e n a n t le calcul des facteurs discriminants,
n d o i t m a x i m i s e r la quantit :
x = ^ - < O . X . l ) .
2('uVu) B u 2('uBu) V a = 0
V - B u = Xu
lis
x*, . . c e n t r s et y*, . . . . y*, . . y * non centrs.
Les caractres du deuxime ensemble reprsen-
tent les variables indicatrices associes aux q moda-
lits du caractre qualitatif. Four cela nous allons
simplement montrer que les facteurs canoniques
associs aux variables sont identiques aux fac-
teurs discriminants.
Les facteurs canoniques d o i v e n t vrifier (cf. chap. I V )
rquation :
vri'vVB*Vmi = xu
116
L'analyse discriminante peut donc tre prsente
comme une analyse canonicpie entre l'ensemble des
variables indicatrices associes au caractre expli-
quer et l'ensemble des caractres explicatifs.
Une fois de plus, l'analyse canonique apparat
comme une mthode gnrale permettant de d-
crire les liaisons entre deux ensembles de caractres.
117
DYEU
1
LARM
LAR
ssi
LART
sSs-s
LONS
!-IS-S
LON
SlISsS
POI
slISSS
MUS
1 1 1 M 1
EC
2S3llsS-53
1 1 1 1 1 1 1
TUB
:-IS33S33l
mmm-
1 1 11 i1 11 I1
1 1 1 1
FOI
mmmm
1 M 1 1 M
NAG
OP
1 1 11 11i
!-3353l33S-3Ss
1i 1 M 1
1
BR
3Sl3i533S-S3S-3
11 11 11 1I M 1
1 1 1
YEU
2- o o o o cT o o cT o- <= o
1 M 1 1 i 1
On constate que les variables mesurant la radio-
activit sont toutes assez fortement corrles posi-
tivement entre elles et ngativement aux variables
de taille.
Puisque q = i l y a au plus deux facteurs
discriminants. Les pouvoirs discriminants des deux
facteurs sont = 0,979 et Xg = 0,849.
A l'aide des deux caractres discriminants, on
construit comme en analyse en composantes prin-
cipales une reprsentation des individus (les pois-
sons). Les poissons du groupe 1 sont reprsents
par le chiffre 1 et leur centre de gravit par le
point G l (respectivement 2, G2 et 3, G3).
. 2
2
2
2
@ 2
2
119
Facteurs
1 2 1 2
120
groupe 1, les plus gros, se diffrencient sur le pre-
mier facteur et sont les moins contamins.
Les poissons du groupe 2 se diffrencient par une
plus forte contamination des muscles et sont en
position intermdiaire sur la plupart des autres
caractres.
121
caractre avalanche - non-avaanche : ceci revient
partager l'espace R^' en deux rgions et R^.
Si on observe x G R^ on affectera x la classe A
avalanche prvue, si x e R^ on affectera A : l a
classe A .
On peut alors construire u n tableau permettant
d'valuer l'efficacit de la rgle :
Prvision
Non-
Ava- ava-
lanche lanche
Etat Avalanche 38 19
de l a n a t u r e Non-avalanche 247 2 267
122
mandeurs cfui ont la plus forte probabilit d'tre
des bons clients et rejeter les demandeurs qui
ont une bonne chance de terminer au contentieux.
Chaqpie candidat au prt doit remplir u n dossier
dont on extrait les caractres explicatifs. Sur un
chantillon de dossiers accepts, on observe le
comportement des clients qui sont ensuite rpartis
en deux catgories, les bons et les mauvais, ou en
trois catgories : les bons, les douteux, les mauvais.
L'analyse discriminante permet alors d'laborer
une rgle de dcision utilise dans un deuxime
temps pour slectionner les bons demandeurs. No-
tons que dans ce cas, la plupart des caractres
explicatifs sont qualitatifs.
I I I . Conclusions
( 1 ) D u n o m de T h o m a s B a y e s q u i l ' o n d o i t d ' I m p o r t a n t s t r a v a u x
s u r les probabilits c o n d i t i o n n e l l e s ( 1 7 6 3 ) . O n c o n s u l t e r a sur ce
sujet T . W . A N D B R S O N , Introduction to multii/ariate ttalittical ana-
Igsls. W U e y . I 9 5 S .
123
correspondance pour slectionner les clients poten-
tiels les plus intressants, en recherche minire pour
dtecter la prsence des gisements, etc.
Les travaux rcents portent sur Tutih'sation des
variables qualitatives et sur la slection automatique
d'un sous-ensemble des caractres explicatifs (1).
124
BIBLIOGRAPHIE
125
NAKACHE (J.-P.). C H E V A L I E R ( A . ) et MORICE ( V . ) , Exercices com-
ments de mathmatiques pour l'analyse statistique des donnes,
D u n o d , 1981.
RoMEDER ( J . - M . ) , Mthodes et programmes d'analyse discriminante,
D u n o d , 1973.
S A P O R T A ( G . ) , Probabilits, analyse des donnes et statistique, Technfp,
1990.
V o L L E ( M . ) T Analyse des donnes, E c o n o m i c a , 1 9 8 1 , 2* d .
C o l l e c t i f , L'analyse des donnes, 2 t o m e s , Ass. P r o f . M a t h . E n s . P u b . ,
1980.
116
T A B L E DES MATIRES
INTRODUCTION 3
C H A P I T R E I I . L ' a n a l y M en cotnpowuitea p r i n c i p a l e * . . . 17
! . Prsentation de la m t h o d e , 17, I I . G o m t r i e des
caractres et des i n d i v i d u s , 2 2 . I I I . Recherche des c o m p o -
santes, axes et f a c t e u r s p r i n c i p a u x , 34. TV. Les rsultats
et l e u r interprtation, 3 7 . v . L ' a n a l y s e des t a b l e a u x de
proximits, 45.
CHAPITRE I I I . L a claasificatian 48
I , C l a s s i f i c a t i o n n o n hirarchique, 4 9 . 11. C l a s a l f l c a t i o n
hirarchique, 5 4 .
CHAPITRE I V . L ^ a n a l y w canonique 63
I . Prsentation de la m t h o d e , 6 4 . I I . F o r m u l a t i o n g o m -
t r i q u e , 67. I I I , Les rsultats et l e u r Interprtation, 7 6 .
I V . Conclusion, 8 1 .
BIBLIOGRAPHIE 125
127
Imprim en France
Imprimerie des Presses Universitaires de France
73, avenue Ronsard, 41100 Vendme
Novembre 199a N " 38 645
COLLECTION ENCYCLOPDIQUE
fonde par Paul Angoulvent
9 782130 4 5 0 8 3 2
2686 La lgion tiangie
A.-P. COUOH