You are on page 1of 130

^M^ ' l l l ! !

i I lB'l l I I I II r
Q U E S A I S - J E ?

'analyse des donnes

JEAN-MARIE BOUROCHE
PriklSDt dn Dlrtetoli* d oORcr

G I L B E R T SAPORTA
Professeur RU Conaervatolrs National des Aite et MtieiB

CInquIm idttlon eotrigt

35' mille
DES MMES AUTEURS

J.-ltf. B O U n O C R E E T P. BERTIR

Analyse des donnes mulUdimemlontieUei, PUF, 1975.

J.-M. BOUROCHE

A n o I v M dtt dannitt en markeltna, Masson, 1977.

O. SAPORTA

Probabilits, analyse de* donniet et ttatittique, Technlp, 1990.

l U H a 18 0450S3 0

Dipflt l ^ l dition : 19B0


5* dition oonige : 1992, novembre
O Preaww UoiTeraitim d e Pnmoe, 1960
106, boiilSTmrd Sint-Oermla, 76006 Pui
INTRODUCTION

C o n t r a i r e m e n t une ide t r s r p a n d u e , les mthodes d ' a n a -


lyse des d o n n e s ont t l a b o r e s depuis fort longtemps :
H. Hotetling, dans les a n n e s 3 0 , posait les f o n d e m e n t s de
l'analyse en composantes principales ( 1 ) e t d e l ' a n a l y s e cano-
nique ( 2 ) e n d v e l o p p a n t les t r a v a u x de C . S p e a r m a n {3) et
de K . Pearson ( 4 ) qui dataient d u dbut d u sicle.
Jusqu'aux a n n e s 6 0 , ces m t h o d e s t a i e n t perfectionnes
et s ' e n r i c h i E s a i e t i t de variantes mais toutes restaient inabor-
dables pour les praticiens c a r elles n c e s s i t a i e n t une m a s s e
c o n s i d r a b l e d e c a l c u l s . C'est l ' a p p a r i t i o n , p u i s l'extraordinaire
dveloppement des ordinateurs q u i permirent l a vulgarisation
des techniques statistiques d'analyse des d o n n e s .
Mais qu'entend-on p a r analyse des d o n n e s ?
L a statistique c l a s s i q u e s'est a x e s u r l ' t u d e d ' u n n o m b r e
r e s t r e i n t d e caractres m e s u r s sur u n p e t i t e n s e m b l e d'indi-
vidus. Elle a dvelopp lea notions d'estimation e t d e tests
f o n d e s s u r des h y p o t h s e s p r o b a b i l i s t e s trs r e s t r i c t i v e s . Ce-
p e n d a n t , d a n s l a p r a t i q u e , les i n d i v i d u s o b s e r v s s o n t frquem*
m e n t d c r i t s par u n g r a n d n o m b r e d e c a r a c t r e s . L e s m t h o d e s
d'analyse des d o n n e s p e r m e t t e n t u n e t u d e g l o b a l e des i n d i -
vidu e t d e s v a r i a b l e s e n u t i l i s a n t g B r a l e m e n t des reprsen-
tations graphiques suggestives. Les donnes peuvent tre
a n a l y s e s s e l o n p l u s i e u r s points d e v u e . L a r e c h e r c h e des r e s -
semblances o u des d i f f r e n c e s entre individus peut tre u n
des o b j e t s d e l'analyse : o n considre que d e u x i n d i v i d u s se

(1) 1 1 . H u T U L i . i N c , A n u l y s j s o l a c o m p l e x o f s t a t i s t l c a l v a r i a b l e s
i i i t o p r i n c i p a l c o n i p i m c n l s , Journal of Eaucatioiial Payehology, 1933,
v o l . 24, 417-441, 498-520.
(2) H . H i i T E L L i N G , H e l a t i o n s b e l w e r n t w o s e t s o f v a r i t e s , Uio-
metrika, 1936, v o l .2 8 , 129-149.
<3) C . S P B A R M A N , G e n e r a l I n t e l l i g e n c e o b j e c l i v e i y d e l c r m l n e d a n d
i n e a s u r e d , American Journal of Psuchologu, 1904, vol. 1 5 , 201-292.
( 4 ) K . P E A R S O N , O n i i n e s a n d p l a n e s o c l o s e s t fit t o S y s t e m of
p o i n t s i n s p a c e , Phil. Mag., 1 9 0 1 , v o l . 2 , n 1 1 , 5 5 9 - 5 7 2 .

3
r e s s e m b l e n t l o r s q u e l e u r s p r o f i l s s e l o n les d i f f r e n t s c a r a c -
tres s o n t v o i s i n s ; i l est p o s s i b l e T a i d e d ' u n e m t h o d e f a c -
t o r i e l l e d e r e p r s e n t e r ces p r o x i m i t s e n t r e i n d i v i d u s s u r u n
g r a p h i q u e . L e s m t h o d e s de c l a s s i f i c a t i o n p e r m e t t e n t de les
r e g r o u p e r e n c a t g o r i e s h o m o g n e s . L a d e s c r i p t i o n des r e l a -
tions entre caractres p e u t tre u n a u t r e o b j e t de l'analyse :
d e u x c a r a c t r e s s o n t c o n s i d r s c o m m e lis o u c o r r l s s ' i l s
v a r i e n t d e l a m m e f a o n s u r les d i f f r e n t s i n d i v i d u s . O n p e u t
p a r e x e m p l e privilgier u n o u plusieurs caractres et chercher
e x p l i c i t e r ses v a r i a t i o n s e n f o n c t i o n d e c e l l e s d e s a u t r e s .
L o r s q u e t o u s les c a r a c t r e s j o u e n t u n r l e i d e n t i q u e o n c h e r c h e
u n i q u e m e n t m e t t r e e n v i d e n c e les g r o u p e s d e c a r a c t r e s s o i t
corrls, soit indpendants. P o u r cela, on plonge i n d i v i d u s e t
v a r i a b l e s d a n s des espaces g o m t r i q u e s t o u t en f a i s a n t l a p l u s
g r a n d e c o n o m i e d ' h y p o t h s e s e t o n t r a n s f o r m e les d o n n e s
p o u r les v i s u a l i s e r d a n s u n p l a n o u les classer e n g r o u p e s h o m o -
gnes et ceci t o u t en p e r d a n t le m i n i m u m d ' i n f o r m a t i o n .
S e l o n le t y p e d e p r o b l m e e t l a n a t u r e des d o n n e s o n c h o i s i t
ta m t h o d e approprie.
Cette approche multidimensionnelle a c o n n u depuis son
a p p a r i t i o n oprationnelle une m u l t i t u d e d'applications dans
t o u s les d o m a i n e s o l ' o b s e r v a t i o n de p h n o m n e s c o m p l e x e s
est ncessaire : sciences n a t u r e l l e s , sciences h u m a i n e s , p h y -
siques, etc.
L a diversit des e x e m p l e s traits d a n s c e t o u v r a g e d o n n e r a
a u l e c t e u r u n e ide d e l a varit des a p p l i c a t i o n s p o s s i b l e s .
L e c h a p i t r e p r e m i e r c o n t i e n t u n e p r s e n t a t i o n des d o n n e s
analyses et quelques rappels. L e s c h a p i t r e s I I et I V sont res-
p e c t i v e m e n t consacrs l'analyse en composantes principales
et l'analyse canonique, deux mthodes fondamentales depuis
H o t e l l i n g . L e c h a p i t r e V p o r t e s u r l ' a n a l y s e des c o r r e s p o n -
dances, trs utihse e n F r a n c e a c t u e l l e m e n t . L e s c h a p i t r e s I I I
e t V I s o n t r e s p e c t i v e m e n t des i n t r o d u c t i o n s a u x m t h o d e s
de c l a s s i f i c a t i o n e t de d i s c r i m i n a t i o n . L e c h a m p trait est
d o n c r e s t r e i n t , l ' a c c e n t t a n t m i s s u r les m t h o d e s les p l u s
intressantes soit p o u r l e u r fcondit thorique, soit p o u r l a
richesse de leurs a p p l i c a t i o n s .

N o u s e x p r i m o n s t o u t e notre reconnaissance J . Confais du BUHO


( B u r e a u U n i v e r s i t a i r e de R e c h e r c h e Oprationnelle, P a r i s V I ) q u i
a trait s u r ordinateur d e n o m b r e u x exemples prsents dans ce
livre.

4
CHAPITRE PREMIER

LA NATURE DES DONNES


QUELQUES CONCEPTS FONDAMENTAUX

Avant d'aborder la description des principales


ratbodes d'analyse des donnes, i l est indispensable
de prciser les points suivants :
Quels sont les grands types de donnes ?
Comment la statistique traditionnelle les re-
prsente-t-elle ?
Comment mesurer la dpendance entre deux
caractres ?
La plupart des mthodes prsentes dans ce livre
reposent sur l'analyse des liaisons entre caractres
observs. Nous rappellerons brivement les dfi-
nitions des coefiScients classiques corrlation,
largement utiliss dans les chapitres suivants.

L ' Les tableaux de donnes

On distingue gnralement deux ensembles : les


individus et les caractres relatifs ces individus.
Le terme individu peut dsigner, selon les
cas, l'employ d'une entreprise, u n client, u n a n i -

5
mal, une ville, etc. I l s'agit toujours de l'entit de
base sur laquelle l'observateur ralise un certain
nombre de mesures. L'ensemble des individus ob-
servs peut provenir d'un chantillonnage dans une
population (dans le cas d'un sondage) ou i l peut
s'agir de la population entire. I l faut souligner i c i
un aspect spcifique de l'analyse des donnes. E n
statistique classique, on s'efforce de travailler sur
un chantillon d'individus tirs alatoirement dans
line population. Les caractristiques observes sur
l'chantillon permettent d'induire les caractris-
tiques de la population entire : on prvoit les
intentions de vote des Franais partir des inten-
tions exprimes par un chantillon de 1 000 inter-
views. L'chantillon doit tre tir selon des rgles
prcises si l'on dsire que les inductions efifectues
aient quelques chances de se raliser. E n analyse
des donnes on s'intresse la structure de l'en-
semble des individus observs sans chercher nces-
sairement en dduire des lois valables pour la popu-
lation dont ils sont issus ; en ceci, l'analyse des
donnes se rapproche davantage de la statistique
descriptive que de la statistique infrentielle.

Sur les individus on relve u n certain nombre


de caractres. Par exemple, si l'on considre une
enqute, les caractres sont les questions ; s'il s'agit
des employs d'une entreprise, les caractres peu-
vent tre : le salaire, l'anciennet, le diplme, le
sexe, etc. Les caractres observs peuvent tre quan-
titatifs ou qualitatifs. U n caractre est quantitatif
lorsqu'il prend ses valeurs sur une chelle num-
rique : salaire, ge, chiffre d'affaires, taille, poids, etc.
Plus prcisment, i m caractre est quantitatif
lorsque l'ensemble des valeurs qu'il prend sur les
individus est inclus dans l'ensemble des nombres
rels (not R) et que l'on peut effectuer sur le

6
caractre les oprations algbriques habituelles :
addition, multiplication par une valeur constante,
calcul de moyenne, etc. U n caractre est qualitatif
lorsqu'il prend des modalits non numriques :
sexe, profession, diplme, rgion, niveau hirar-
chique, etc.
Les modalits d'un caractre qualitatif peuvent
tre ordonnes {niveau hirarchique, niveau de sa-
tisfaction), on d i t alors que le caractre est qua-
l i t a t i f ordinal. Sinon, on d i t q u ' i l est qualitatif
nominal {sexe, couleur, rgion). Remarquons que
sur un caractre qualitatif reprsent par ses moda-
lits les oprations algbriques n'ont plus de sens.
Prcisons l'aide de quelques exemples les grands
types de tableaux de donnes que l'on analyse dans
la pratique.

1. Tableaux individus X caractres. Les don-


nes peuvent tre reprsentes dans un tableau
explicitant les caractres des individus.

CARACTRES

Revenu Salaire Ancien-


Age imposable brut net
x^ x' xP

2
1 4 x^

2 4 xl
en

> i *? 4 xP
Q

n X% 4

7
Dans Texemple prcdent p caractres quantita-
tifs ont t observs sur n individus. Les p caractres
sont nots ge, . . . , = salaire b r u t , . .
= anciennet.
Sur le i-me i n d i v i d u , les caractres ge ,
ff salaire et anciennet prennent les valeurs
numriques i , xl et xf.
Sur les mmes individus, on aurait pu observer
les caractres sexe , niveau hirarchique ,
<c situation matrimoniale .
Pour leur traitement numrique, ces caractres
quahtatifs sont reprsents sous forme d'un tableau
de variables indicatrices prenant les valeurs 0 ou 1.
On d i t alors que les donnes sont reprsentes sous
forme disjonctive complte.

CARACTRES

Niveau Situation
Sext hirarchique matrimoniale


'i> il
1 11 1
.s

H

en 1 1 0 0 1 0 1 0 0
P
2 0 1 1 0 0 1 0 0
a
> t 1 0 0 0 1 0 1 0
a
h1 n 0 1 1 0 0 1 0 0

Dans le tableau prcdent, trois caractres qua-


litatifs sont observs sur n individus. Ces caractres
ont, au t o t a l , huit modalits. Par exemple, l ' i n d i -
vidu i est u n homme, cadre, clibataire. Cette re-
prsentation des caractres qualitatifs permet de

8
les assimiler des caractres quantitatifs prenant
les valeurs 0 et 1. Cette pratique sera justifie par
la suite ; on en verra galement la fcondit puisque
tout tableau de donnes contenant simultanment
des caractres quantitatifs et qualitatifs peut tre
reprsent ainsi. E n eifet u n caractre q u a n t i t a t i f
peut tre rendu qualitatif par dcoupage en classes
de ses valeurs {classes de revenu, classes d'ge, etc.),
puis reprsent sous forme de variables indicatrices.
Notons que, sur les caractres qualitatifs ainsi
transforms en variables indicatrices les oprations
algbriques deviennent licites.

2. Tableaux de contingence. U n tableau de


contingence contient les frquences d'association
entre les modalits de deux caractres qualitatifs.
On peut par exemple considrer le tableau crois
des catgories socioprofessionnelles {neuf modalits)
avec les arrondissements de Paris (vingt modalits).
Une case de ce tableau contient le nombre
d'individus habitant le quartier i et exerant l a
profession j . Dans un tel tableau les individus ont
t regroups et ne peuvent plus tre distingus.
On peut concevoir une autre reprsentation des
mmes donnes concernant l'entit individuelle
habitant de Paris . chacun des deux caractres
nominaux on associe un tableau de variables i n d i -
catrices (une variable par modalit), en ligne on
reprsente les habitants de Paris.
Une ligne ne contient alors que des 0 sauf dans
les colonnes correspondant respectivement au quar-
tier et la catgorie de l ' i n d i v i d u considr o l'on
trouve des 1. Si nous dsignons par X j et X j les
deux tableaux d'indicatrices, notons que le tableau
de contingence est le rsultat du produit matriciel :
'Xj^ X j oii ' X j est la matrice transpose de X ^ .

9
Exemple

1 0 0 1 0
0 1 0 1 0
0 1 0 0 1
1 0 0 1 0 2 0
0 0 1 0 1 'X, X , = 2 1
0 0 1 1 2
0 1
0 1 0 1 0
0 0 1 1 0

3. Tableaux de proximit. E t a n t donn un


ensemble d'objets, on dispose d'une mesure de
ressemblance ou de dissemblance entre tous les
objets pris deux deux. I l s'agit par exemple du
tableau des distances entre les principales villes de
France ou bien de ressemblances perues par un
sujet entre diflrents stimuli. U n tel tableau est
gnralement symtrique et contient des nombres
positifs analogues des distances (ou des inverses
de distances) bien que n'en possdant pas toujours
les proprits axiomatiqucs, en particulier l'inga-
lit triangulaire. E n effet, au sens mathmatique
du terme, une distance d doit vrifier les trois
proprits :
(i) d(a, b) = Ooa== b;
(ii) d{a, b) = d{b, a) (symtrie) ;
(iii) d(o, b) ^ d{a, c) + d{b, c)
(ingalit triangulaire).

Si (iii) n'est pas vrifie, on d i t plutt que d est


une dissimilarit.

10
I I . Rduction des donnes
La statistique nous a habitus des reprsenta-
tions synthtiques des donnes {!), tout au moins
lorsque l'on s'intresse u n caractre unique. Les
termes d'histogrammes, de moyenne, de variance,
d'cart type sont (presque) passs dans le langage
commun. Rappelons rapidement leurs dfinitions
qui nous seront utiles par la suite.
Lorsque l'on observe un caractre qualitatif sur
un ensemble d'individus, la premire tche consiste
compter le nombre d'individus dans chaque mo-
dalit. Par exemple, 6 800 individus sont classs
par Anemon (Zur Anthropologie der Badener) sui-
vant la couleur de leurs cheveux :

Modalit Blonds Bruns Noirs Roux Total

Frquence 2 829 2 632 1 223 116 6 800


Pourcentage 41 39 18 2 100

Si le caractre observ est quantitatif, i l est habi-


tuel d'en tracer un histogramme afin de synthtiser
les observations recueillies.
O n p e u t g a l e m e n t c a l c u l e r sa v a l e u r m o y e n n e :
F o r m e l l e m e n t , s i le c a r a c t r e x p r e n d les v a l e u r s X j , . . . ,
X,-, . . . , x o n c a l c u l e l a m o y e n n e x p a r :

S i c h a q u e o b s e r v a t i o n e s t m u n i e d ' u n p o i d s pi > 0, tel que


n
S Pi = 1, on a :
j~ 1
n

X = S Pi Xi.
i-1

(1) O n l i r a a v e c p r o f i t l ' o u v r a g e de A . V E S S K H E A U , La statistique,


c o l l . Q u e sais-Je 7 , n 2 8 1 .

n
C a r a c t r i e e r u n e n s e m b l e d e n o m b r e s p a r sa m o y e n n e e s t
insuffisant.
A i n s i les d i x v a l e u r s s u i v a n t e s 3 100, 2 5 0 0 , 2 8 0 0 , 3 2 0 0 ,
4 0 0 0 , 2 5 0 0 , 3 0 0 0 , 2 7 0 0 , 3 0 0 0 , 2 9 0 0 r e p r s e n t a n t les sa-
l a i r e s d e d i x i n d i v i d u s o n t p o u r m o y e n n e 2 9 7 0 . M a i s les
d i x valenirs s u i v a n t e s l 800, 2 000, 1 900, 4 500, 6 000, 5 0 0 0 ,
1 600, 2 400, 2 500, 2 000 o n t aussi p o u r m o y e n n e 2 970. I I
est c l a i r c e p e n d a n t q u e l a d e u x i m e srie n ' e s t pas s e m b l a b l e
l a premire. L e s v a l e u r s s o n t p l u s disperses. P o u r q u a n -
t i f i e r l a d i s p e r s i o n des v a l e u r s , o n u t i l i s e l a v a r i a n c e :
J n
- 2 ( * i x)- ou s= = L p;(.j x)^.
n i-1 i-1

L ' c a r t t y p e est gal l a r a c i n e carre de l a v a r i a n c e . I I


est e x p r i m d a n s l a m m e unit q u e le c a r a c t r e .
L a variance et l'cart t y p e sont d ' a u t a n t plus forts que
les v a l e u r s de * s o n t p l u s disperses. A i n s i , dans n o t r e p r e m i e r
exemple on a ;

s* = 168 100
s =410

tandis que dans le deuxime :

8 = 2 2 4 6 100

s = 1 498,70.

m . Liaison entre deux caractres

L Liaison entre deux caractres quantitatifs.


L a plupart des mthodes prsentes par la suite
reposent sur l'analyse des dpendances linaires
entre les caractres observs.
Pour prciser cette notion de dpendance, nous
allons introduire e coefficient de corrlation linaire
qui mesure l'intensit de la liaison entre deux carac-
tres quantitatifs en raisonnant sur l'exemple
suivant.
O n a r e l e v p o u r n = 10 a p p a r t e m e n t s d e u x c a r a c t r e s
q u i s o n t le p r i x de v e n t e en m i U i e r s de f r a n c s e t l a surface
en mtres carrs :

12
surface : x
2 8 ; 5 0 ; 5 5 ; 6 0 ; 4 8 ; 35 ; 8 6 ; 6 5 ; 32 ; 52 ;
prix : y
130 ; 2 8 0 ; 268 ; 320 ; 2 5 0 ; 250 ; 350 ; 300 ; 155 ; 2 4 5 .

L e n u a g e d e s 10 p o i n t s s e m b l e e f f i l l e l o n g d ' u n e d r o i t e
e t i l parat r a i s o n n a b l e , si l ' o n v e u t p r v o i r le p r i x e n f o n c t i o n
d e l a s u r f a c e , d e p o s e r u n e f o r m u l e y = ax -\- b -\- u o u
est u n e v a r i a b l e d'erreur. Les coefficients a et s o n t obtenus
p a r l a m t h o d e des m o i n d r e s carrs, c'est--dire choisis d e
n
faon rendre m i n i m a l e la somme (ui)'*
i-1

.g
4 l I ; I I 1 I I ' , , 1 ,,, i . . .
0 10 20 30 40 50 60 70 80 90 100
Surtac en mtrs cor ras

La d r o i t e des m o i n d r e s carrs est dfinie p a r l ' q u a t i o n :


y = 3,524* + 74,707.

U e passe p a r le p o i n t c e n t r e de gravit de c o o r d o n n e s :
* = 51,1 et y = 254,8.

O n m o n t r e que le r a p p o r t ;
n n
S u?/ (viy)* est t o u j o u r s infrieur 1 .
i - l i-1

O n pose ce r a p p o r t gal 1 e t r est le c o e f f i c i e n t de


corrlation linaire a v e c p o u r signe c e l u i de l a p e n t e de l a
d r o i t e . Si r = 0, l a d r o i t e est h o r i z o n t a l e , a u t r e m e n t d i t ,
l a v a l e u r de * ne j o u e a u c u n rle p o u r p r v o i r y . S i r = i 1,
l a p r v i s i o n est p a r f a i t e c a r les c a r t sont nuls ; le coeffi-
c i e n t de corrlation r est d ' a u t a n t p l u s g r a n d ( e n v a l e u r
absolue) que l a v a l e u r d ' u n caractre i m p l i q u e celle de l ' a u t r e ,
c o n d i t i o n q u e l a r e l a t i o n e n t r e ces c a r a c t r e s s o i t l i n a i r e .
D a n s l ' e x e m p l e prcdent r v a l a i t 0,89.

13
Dans cet exemple, les caractres y (prix) et x
(surface) ne jouent pas des rles symtriques ; on
montre cependant facilement que la rgression de x
sur y conduit la mme valeur de r.
Cette symtrie entre x et y dans le calcul de r
apparat de faon vidente si l'on introduit une
autre interprtation du coefficient de corrlation
linaire.
Pour cela, on dfinit la covariance entre les
caractres x fit y par :
1 _
S x v = - S {Xi~x){y^y)

ou, lorsque les individus sont pondrs :

sv= 2 pAxix){y,y)

on montre alors que le coefficient de corrlation r


s'obtient par :

r{xiy) =
s, s.

oxi s-g et Sy sont respectivement les carts types des


caractres x et y.

2. Liaison entre deux caractres qualitatifs.


Pour mesurer la dpendance entre deux caractres
qualitatifs, la statistique classique nous propose de
calculer le contingence. Cet indice est lar-
gement utilis en analyse des donnes, principale-
ment en analyse des correspondances. Comme nous
l*avons v u , l'observation de deux caractres quali-
tatifs sur un ensemble d'individus permet de cons-
truire un tableau de contingence. Ainsi, on a observ
sur 390 salaris d'une entreprise le niveau hirar-
chique et l'origine sociale. On obtient le tableau
suivant :

Origine sociale
<n

3 <n

"3 w^
.2
4 C
i l
a t-.

Niveau hirarchique :
Ouvrier, employ II 14 107 75 207
Matrise 1 10 60 31 210
Cadre 23 2 16 40 SI
Total 35 26 183 146 390

Soit Wjj l'efiectif figurant l'intersection de la


lif^ne t et de la colonne j .
Posons i. l ] n i j - , .^ S ^ i j les eflfectifs mar-
j t
giuaux et n l'efiectif t o t a l .
On calcule la quantit :

Dans notre exemple, D* = 69,2.


Supposons que les deux caractres observs soient
indpendants, c'est--dire que la connaissance de
l'un d'entre eux n'apporte rien la connaissance
d*' l'autre.
Dans ce cas, la probabilit d'avoir simulta-
nment les modalits i et j ne dpend que des

15
probabilits marginales PiPj d'avoir la modalit i
et la modalit j . On aura en fait " P i X Pj*
ou PijPiPi = 0.
Sur nos donnes, est estim par n y / n , pi
par jiiJn et pj par ra.j/n.
Si les deux caractres sont indpendants on voit
que les numrateurs de : [n^j f^i.^.il^)^ seront
voisins de 0.
E n fait, on montre que dans ce cas, si Tchantillon a t
tir au hasard I ) ^ suit une loi du k (p l)(q 1) degrs
de libert, o p et g sont les nombres de mod^its des deux
caractres.
L a lecture d'ime table d u 6 degrs de libert nous
montre que, s'il y a indpendance, a 99 % de chances
d'tre compris entre 0 et 16,81. Or nous avons = 69,2
et nous sommes donc amens rejeter l'hypothse d'ind-
pendance.

3. Liaison entre u n caractre quantitatif et u n


caractre qualitatif. U n caractre q u a n t i t a t i f y
est li fonctionnellement u n caractre qualitatif x
si les n-i individus ayant la mme modalit 1 de A:
ont tous l a mme valeur j j ^ de y , les ng individus
ayant la modalit 2 de a: ont tous la mme valeur y2
de y, etc.
Inversement, l'absence de corrlation est dfinie
par l'galit des moyennes y^ty^i de chaque
classe.
L'intensit de la liaison est mesure par le rap-
port de corrlation 7] dfini par :
variance des j
^ variance de y

7j varie de 0 (absence de corrlation) 1 (dpen-


dance fonctionnelle).

16
CHAPITRE I I

L'ANALYSE

EN COMPOSANTES PRINCIPALES

Cette mthode a pour objet la description des


donnes contenues dans u n tableau individus-
caractres numriques : p caractres sont mesurs
sur n individus.
Nous la considrons comme la mthode de base
de l'analyse des donnes ; la lecture de ce chapitre
est donc indispensable pour la suite de l'ouvrage
d'autant plus que c'est ici que sont introduits les
concepts fondamentaux d'espace des individus et
d'espace des caractres.

I . Prsentation de la mthode
Lorsqu'il n ' y a que deux caractres et x^^ i l
est facile de reprsenter, sur u n graphique plan
l'ensemble des donnes : chaque individu est
alors un point de coordonnes x] et xf et le simple
examen visuel de l'allure du nuage permet d'tudier
l'intensit de la liaison entre x^ et x^ et de reprer
les individus ou groupes d'individus prsentant des
caractristiques voisines :

X X
n X X
XX

Trou g'oiipat h o m o g i n s i

17
La structure fonctionnelle des dpenses de TEtat (1872-1971) (en % )

if 2 2 o a ~a.
. 8 ^
Ci S" 5"
t2 3 1 ~ 3

1872 18.0 0,5 0.1 6,7 0,5 2.1 2.0 26,4 41.5 2.1 100
18K0 14,1 0.8 0,1 153 1.9 3,7 0,5 29.8 31.3 2,5 100
1890 13.0 0,7 0.7 6,8 0,6 7.1 0.7 33,8 34.4 1,7 100
1900 14.3 1.7 1,7 6.9 1.2 7.4 0.8 37,7 26.2 2.2 100
1903 10.3 1,5 0,4 9,3 0,C 8.5 0,9 38,4 27.2 3.0 100
1906 13,4 1.4 0,5 ,1 0,7 8 ,6 1,8 38,5 25.3 1.9 100
1909 13,5 1.1 0.5 9,0 0,6 9,0 3,4 36,8 23.5 2,6 lOO
1912 12.9 1,4 0.3 9,4 0,6 9,3 4,3 41,1 19.4 1,3 100
1920 12,3 0,3 0,1 11,9 2,4 3.7 1,7 1,9 42,4 23,1 0.2 100
1923 7.6 1,2 3.2 5,1 0 6 5.6 1,8 10,0 29.0 35,0 0,9 100
1926 10,5 0,3 0.4 4.5 1.8 6,6 2,1 10,1 19.9 41,6 2,3 100
1929 10.0 0,6 0,6 9,0 1,0 S.l 3,2 11,8 28.0 25.8 2,0 100
1932 10,6 0.8 0,3 8,9 3,0 10,0 6,4 13.4 27,4 19,2 0 100
1935 8,8 2,6 1,4 7,8 1,4 12.4 6,2 11,3 29.3 18,5 0,4 100
1938 10,1 1,1 1.2 5,9 1,4 9,5 6,0 5,9 40.7 18,2 0 OO
1947 15,6 1.6 10.0 11,4 7.6 8.8 4,8 3.4 32.2 4.6 0 100
1950 11,2 1,3 16,5 12,4 13.8 8,1 4,9 3.4 20,7 4,2 1,5 100
1953 12.9 1,5 7,0 7,9 12,1 8,1 5,3 3,9 36.1 5.2 0 100
1956 10,9 5,3 9.7 7,6 9,6 9,4 ,5 4,6 28.2 6,2 0 100
1959 13,1 4,4 7,3 5,7 9,8 12,5 8,0 5,0 26.7 7.5 0 100
1962 12,8 4.7 7,5 6.6 6,8 15,7 9,7 5.3 24,5 6,4 0.1 100
1965 12,4 4,3 8.4 9,1 6.0 19,5 10.6 4,7 19,8 3,5 1.8 100
1968 11,4 6.0 9.5 5.9 5,0 21,1 10.7 4,2 20,0 4.4 1,9 100
1971 12,8 2,8 7,1 8,5 4,0 23,8 11,3 3,7 18.8 7.2 0 100

Source : C. A N D R e t R . D K L O R M E , L'volution des dpenses publiques en France (1872-1971)


rapport CORDES, CKPHEMAP, 1976.
S'il y a 3 caractres, l'tude visuelle est encore
possible en faisant de la gomtrie dans l'espace.
Mais ds que le nombre p de caractres devient
suprieur ou gal 4, cela devient impossible.
Ainsi dans le tableau ci-contre chaque anne repr-
sente un individu dcrit par 11 caractres. Les
24 individus forment un nuage (peu visible !) dans u n
espace 11 dimensions, puisqu'il y a 11 coordonnes.
L e fait d'avoir choisi des donnes en pourcentage, plutt
que les valeurs en francs, vite les variations de l'unit mon-
taire au fil des annes, mais entrmne l'existence d'une relation
entre les 11 caractres : leur somme vaut toujours 100.
L e s 24 points se situent donc en ralit dans un sous-espace
de dimension 10, mais ceci ne simplifie gure le problme !

Supposons que l'on veuille quand mme repr-


senter nos 24 individus sur un graphique plan. Ce
que l'on verra sur le dessin sera une reprsentation
dforme de la configuration exacte : les distances
entre les 24 points sur le plan ne peuvent pas tre
toutes gales aux distances entre les 24 individus
dans l'espace complet 11 dimensions ( moins
qu'il n'existe 9 relations linaires exactes entre les
caractres). I I y aura donc forcment des distorsions
que l'on cherchera rendre minimum.
Gomtriquement notre dessin s'obtiendra en
projetant les points individus e^, , . . ., e sur
un plan comme le montre la figure ci-dessous.

19
I l faudra videmment choisir le plan de projection
sur lequel les distances seront en moyenne le mieux
conserves : comme l'opration de projection rac-
courcit toujours les distances d(ii ; fj) ^ ( / { C J ; C J ) ,
on se fixera pour critre de rendre maximale la
moyenne des carrs des distances entre les projec-
tions f, ; f2 ; . . . ; f .
Pour dterminer ce plan que l'on appelle le plan
principal, i l sufht de trouver deux droites A^^ et A2
Si A l et A2 sont perpendiculaires on a :

oii les cCj et les sont les projections des (et


des I") sur A i et Ag respectivement.
La moyenne des carrs des distances entre les
est donc gale la moyenne des carrs des dis-
tances entre les plus la moyenne des carrs de
distances entre les
La mthode consiste alors chercher tout d'abord
A l , rendant maximale la moyenne des d^{ai ; OLJ)
puis A2 perpendiculaire A i , rendant maximale la
moyenne des d^{^i; ^j).
On peut continuer en dehors du plan et on t r o u -
vera alors A 3 , A 4 , . . . Ap perpendiculaires entre
elles : les A j sont les axes principaux du nuage.
E n projetant qui avait pour coordonnes i n i -
tiales {x],xf^ ...,xf) sur les axes principaux on
obtient de nouvelles coordoimes ( c j , cf, . . , , cf). On
construit ainsi de nouveaux caractres (c^, c^, . . . , c*")
que l'on appelle les composantes principales : chaque
composante c*, qui n'est autre que la liste des
coordonnes des n individus sur l'axe A j , est une
combinaison Unare des caractres initiaux :
c * = u x ^ + w|x*+ . . . + u*x
Les coefficients ( u i , u ^ , . . . , u^) forment le
fc-ime facteur principal u*.

20
La meilleure reprsentation des donnes au moyen
de q caractres seulement {q < p) s'obtient alors
en prenant les q premires composantes principales.
Tel est le schma de l'analyse en composantes
principales (en abrg ACP) qui est donc une m-
thode de rduction du nombre de caractres per-
mettant des reprsentations gomtriques des i n d i -
vidus et des caractres. Cette rduction ne sera
possible que si les p caractres initiaux ne sont pas
indpendants et ont des coefficients de corrlation
non nuls.
L ' A C P est une mthode factorieUe car la rduction
du nombre des caractres ne se fait pas par une
simple slection de certains d'entre eux, mais par
la construction de nouveaux caractres synthtiques
obtenus en combinant les caractres initiaux au
moyen des facteurs . C'est une mthode linaire
car i l s'agt de combinaisons linaires.
L'analyse des correspondances, l'analyse cano-
nique, l'analyse factorielle discriminante sont aussi
des mthodes factorielles conduisant des repr-
sentations graphiques et auront de ce fait des traits
communs avec I'ACP. Ce qui fait la spcificit de
l'analyse en composantes principales est qu'elle
traite exclusivement de caractres numriques jouant
tous le mme rle alors que l'analyse des corres-
pondances traite des caractres qualitatifs et qu*en
analyse canonique comme en analyse discrimi-
nante les caractres sont rpartis en groupes bien
distincts.
L'utiUsation des notions de combinaison linaire,
de distances, de projection conduit alors raisonner
selon le modle suivant : on considre que les i n d i -
vidus et les caractres sont des lments de deux
espaces vectoriels euclidiens k p et n dimensions
respectivement. Les outils mathmatiques utiliss

21
seront donc ceux de l'algbre linaire et du calcul
matriciel (1).
Comment calculer la distance entre deux indi-
vidus, entre deux variables ? Comment rsumer les
caractristiques du tableau de donnes ? Telles sont
les proccupations du paragraphe suivant.

I I . Gomtrie des caractres


et des individus

1. Rsums numriques. Ainsi que nous l'avons


vu au chapitre premier on rsume sparment
chacun des p caractres numriques par sa
moyenne x^ et son cart type s^. L'individu, en
gnral fictif, dont les caractres auraient pour
valeurs leurs moyennes respectives, s'appelle le
centre de gravit du nuage g.
g:= {x\x\

Dans l'exemple des dpenses de l'Etat g serait


une anne moyenne oii les pourcentages des diff-
rents postes seraient :
12,2 ; 2 ; 3,9 ; 8,3 ; 4 ; 9,9 ; 4,8 ; 4,3 ; 30,3 ; 19,1 ; 1,2

Les poids des diffrentes annes sont tous gaux


1/24.
Les carts types des 11 caractres sont ici :
2,2 ; 1,6 ; 4,5 ; 2,5 ; 4,2 ; 5,2 ; 3,4 ; 4,2 ; 7,3 ; 12,2 ; 1

Les liaisons entre les p caractres pris deux


deux sont rsumes par leurs covariances S j ^ , ou
plutt par leurs coefficients de corrlation r^^, soit
en tout ^^^2^ coefficients calculer.

( 1 ) L a lecture du Que sals-Ja ? . n" 927, de J . BOUTELOUP,


Calcul mairleiel lmentaire, est vivement recommande.

32
L'ensemble des variances et des covariances est
regroup dans un tableau V appel matrice de
variance dos p caractres o le terme situ l'inter-
section de la j-ime ligne et de la A;-ime colonne
est la covariance Sjj^. Les termes diagonaux sont
alors les variances s| des p caractres.
/si Sy. . . . .S-j,,'^

V =

^11
De mme l'ensemble des coefficients de corr-
lation est regroup dans la matrice de corrla-
tion R dont les termes diagonaux valent 1 puisque
r{x'\x') = 1.

li = 1

\ l /
R et V sont des matrices carres d'ordre p,
symtriques car Sjj. = s^^ et r^^. r^.^. On jiourra
donc se contenter d'crire seulement la moiti des
termes de ces matrices.
Si on note D,/, la matrice diagonale suivante :

\ * ' VsJ
on a la relation matricielle :
R-D.,.VDi/,.
Ainsi la matrice de corrlation des 11 caractres
de notre exemple est :

23
1-1

-H o o o

.-( o o o
I I

,H o <=> o o

eo irt 0 "t
N t-;
o' O O

t~ ^ H ^ 0
"t.
>0
c-l e-l
-I O ' ' O

r - H O O 0

i - l 0 0 0 0

I ' ' ' o' ' ' ' o'

e--< G 6 - J W - < <! O O Q


On peut dj en tirer certains renseignements :
ainsi on voit que le coefficient de corrlation entre
la part des dpenses consacre au logement et celle
consacre au commerce et l'industrie est 0,89.
Cette forte valeur positive signifie que sur les vingt-
quatre annes ces deux pourcentages ont vari dans
le mme sens (quand l'un baisse l'autre baisse,
quand l'un crot l'autre crot) et que la relation
entre les deux est presque linaire. I l faudrait vi-
demment tracer le nuage de points correspondant
ces deux caractres pour confirmer ces conclu-
sions. Comme il y a ici 55 coefficients de corrlation
diffrents considrer, l'tude complte des liaisons
deux deux est un travail de longue haleine. Nous
verrons par la suite comment I ' A C P nous aidera
simplifier considrablement cette tche.
On peut exprimer directement de manire simple
la matrice de variance V partir du tableau des
donnes condition que tous les caractres aient
une moyenne nulle. S'il n'en est pas ainsi on trans-
formera chaque caractre en un caractre centr
en lui retirant sa moyenne x^ xK Ceci revient
placer l'origine des axes du nuage des individus au
centre de gravit g.
Les coordonnes centres de l'anne 1872 sont
ainsi :
(5,8 ; 1,5 ; 3,8 ; 1,6 ; 3,5 ; 7,8 ; 2,8
4 , 3 ; 3 , 9 ; 2 2 , 4 ; 0,9)

Si X est le tableau n lignes et p colonnes des


donnes centres on a les relations matricielles :
V =^ ' X D X

o * X est la matrice transpose de X et D la matrice


(d'ordre n) diagonale des poids :

25
o
D = />2
O
\ I

Nous supposerons pour toute la suite que les


caractres sont centrs.

2. L^espaee des individus. Chaque individu


tant un point dfini par p coordonnes est consi-
dr comme u n vecteur d'un espace vectoriel R "
p dimensions appel l'espace des individus : on
identifie l'individu et le vecteur Cj de compo-
santes (1, * f , . . .,

A) Importance de la mtrique. Comment me-


surer la distance entre deux individus ? Cette ques-
tion primordiale doit tre rsolue avant toute tude
statistique car les rsultats obtenus en dpendent
dans une large mesure.
E n physique, la distance entre deux points de
l'espace se calcule facilement par la formule de
Pythagore : le carr de la distance est la somme
des carrs des diffrences des coordonnes, car les
dimensions sont de mme nature : ce sont des
longueurs que l'on mesure avec la mme unit.

AxeJ

I l n'en est pas de mme en statistique o chaque


dimension correspond un caractre qui s'exprime

26
avec son unit particulire : comment calculer la
distance entre deux individus dcrits par les trois
caractres : ge, salaire, nombre d'enfants ?
La formule de Pythagore est alors aussi arbitraire
qu'une autre. Si on veut donner des importances
diffrentes chaque caractre, pourquoi ne pas
prendre une formule du type :
= a,{x\ xir + a^{xl - xl)^ + ... + a,{xf - x^f
ce q u i revient multiplier par "x/^ chaque carac-
tre (on prendra bien sr des positifs).
De plus la formule de Pythagore n'est valable
que si les axes sont perpendiculaires, ce que l'on
conoit aisment dans l'espace physique. Mais en
statistique ce n'est que par pure convention que
l'on reprsente les caractres par des axes perpen-
diculaires : on aurait pu t o u t aussi bien prendre
des axes obliques d'angle 0 :
<l Axe j

( \ i ^ A'e k

La formule donnant la distance fait alors inter-


venir en plus des carrs des diffrences de coor-
donnes les produits des diffrences :
d^={x^^-x^f + {xi-xir~-2{x\^x^){xi-xi)coBb
sous sa forme la plus gnrale la distance d entre
deux individus peut s'crire :
p V

t - l J-1

soit en notant M la matrice d'lments mj.j :


d2(ej ; e^) = *(ei C j ) M(ei 6 3 )

27
M peut tre n'importe quelle matrice symtrique
dfinie positive. La formule de Pythagore revient
choisir pour M la matrice unit L
Ceci revient dfinir le produit scalaire de deux
vecteurs et de l'espace des individus par :
< e i ; e2>M = 'ci Me^
on d i t que l'on a muni l'espace des individus d'une
structure euclidienne, la matrice M s'appelle alors
la mtrique de l'espace. Le produit scalaire de
jar lui-mme est not H c j l i et ||ei||u, qui est
'analogue de la longueur du vecteur e^, s'appelle
la M-norme de .
Les mtriques les plus utilises en ACP sont les
mtriques diagonales qui reviennent pondrer les
caractres ; en particulier on utilise trs frquem-
ment la mtrique :

'2

ce qui revient diviser chaque caractre par son


cart type : entre autres avantages, la distance
entre deux individus ne dpend plus des units de
mesure puist^ue les nombres x^jsj sont sans dimension.
Ainsi, si reprsente l'ge d'un i n d i v i d u , on peut
utiliser aussi bien comme unit le mois ou l'anne
car si x' est multipli par 12 {passage de l'ge en
annes l'ge en mois), Sj est aussi multipli par 12
et le rapport reste constant. Surtout cette mtrique
donne chaque caractre la mme importance
quelle que soit sa dispersion : ainsi pour les dpenses
de l ' E t a t o on constate de grandes diffrences
entre les carts types, de 1 % pour le caractre

28
divers 12,2 % pour le caractre dette ,
rutilisation de M = I conduirait privilgier les
valeurs du caractre dette , puisque c'est celui
pour lequel les diffrences entre individus sont les
plus fortes, et ngliger les diffrences entre les
autres caractres. La mtrique D^/gt rtablit alors
l'quilibre entre les caractres en donnant tous
la variance 1.
E u caractres centrs rduits l'anne 1872 est
reprsente par le point de coordonnes :
(2,64; 0,94; 0,84; 0,64; 0,83;
1,5 ; 0,82 ; 1,02 ; 0,53 ; 1,84 ; 0,9)

Nous avons v u qu'utiliser une mtrique diagonale


/i O \
Dfl = I '^2 revient multiplier les ca-

\ ' - a j
ractres par et utiliser ensuite la mtrique
usuelle M = I . Ce rsultat se gnralise une
mtrique M quelconque de la manire suivante :
on dmontre que pour toute matrice symtrique
dfinie positive M i l existe une matrice T (en fait
i l en existe une infinit) telle que M = ' T T . Le
produit scalaire <ei ; e2>M = '^i peut s'crire
alors 'e^'TTca = ' ( T e i ) ( T e 2 ) = < T e i ; Te2>i. Tout
se passe donc comme si on avait transform les
donnes par la matrice T et utilis ensuite le pro-
duit scalaire ordinaire.
Ceci revient remplacer le tableau de donnes X
par Y = X ' T et prendre comme mtrique l a
matrice unit I .
B) Comment calculer les coordonnes des individus
sur un nouvel axe. Considrons le systme d'axes

29
orthonorms reprsentant les caractres initiaux x^^
x^, x". E n projetant les individus sur une
droite quelconque A on cre u n nouveau caractre c
dont les valeurs C j , Cg, c sont les mesures
algbriques des projections des points sur cette
droite.

Soit a le vecteur unitaire de A , de M-norme 1 ;


la mesure algbrique de la projection de l ' i n d i -
vidu e^ est alors gale au produit scalaire de e^ par a.
Cj = 'e^ Ma = '(Ma) car M est symtrique ;
en posant u = Ma on peut crire que la compo-
V
sant Cj de sur A vaut 'uej soit 2 "j^i*
Le caractre c dont les valeurs sont les n coor-
donnes C j , Cg, . . c s^obtient alors directement par
la formule : c = X u .
c est donc une combinaison linaire des p carac-
tres initiaux au moyen du facteur u .
Si M = I i l y a gaUt entre le facteur u et
le vecteur unitaire a.
Si l'axe A passe par l'origine, comme celle-ci est
confondue avec le centre de gravit du nuage, le
caractre c est u n caractre centr.
C) Inertie. On appelle inertie totale du nuage
de points la moyenne des carrs des distances des
n points au centre de gravit, c'est--dire l'origine :
. ^ - 2 i > * | | e , | I | , - S A 'e,Me,
i i

30
Cette quantit caractristique du nuage mesure
d'une certaine manire l'loignement des points par
rapport leur centre de gravit, c'est--dire la
dispersion globale du nuage. Une inertie nulle ou
voisine de zro signifie que tous les individus sont
identiques ou presque et sont confondus avec leur
centre de gravit g.
O n p eut m o n t r e r que J est gale l a moyenne des carrs

des distances diffrentes entre les p o i n t s d u nuage.


b
O n p e u t alors interprter le p l a n p r i n c i p a l d u nuage de
points comme tant le p l a n q u i rend m a x i m u m l ' i n e r t i e de
l'ensemble des n p o i n t s projets sur l u i .
O n dfinit aussi l ' i n e r t i e p a r r a p p o r t u n p o i n t h diffrent
du centre de gravit :

i
est relie J p a r l a formule de H u y g h e n s :
A = > + d^(g, h )
> ) , est donc t o u j o u r s suprieure J, l a valeur m i n i m u m
tant a t t e i n t e lorsque h = g .
O n en dduit alors que l a recherche d ' u n p l a n r e n d a n t
m a x i m u m Tinertie des projections des n p o i n t s est quivalente
l a recherche d u p l a n passant a u plus prs de Tensemble
des pointe d u nuage a u sens o l a moyenne des carrs de
distance des pointa d u nuage a u p l a n est m i n i m a l e .
Soit h l a p r o j e c t i o n de g sur le p l a n q u i est alors le
centre de gravit de p r o j e c t i o n des p o i n t s d u nuage. L e
triangle ; ; h est rectangle en , d'o :
d^(ei;fi)-d^(ei;h)-d^{fi;h)
et S p i d'(e.- ; f;) = - / h - Sp. \)

fi/

31
Comme = ^ + d^(g ; h ) on v o i t que rendre m i n i m a l e l a
moyenne des carrs des distances entre les et les s'obtient
lorsque g = h et q u a n d l ' i n e r t i e d u nuage projete S p j ' i ' C i ; h )
est m a x i m a l e .
Dsormais on supposera t o u j o u r s que le p l a n p r i n c i p a l , et
p l u s gnralement les axes p r i n c i p a u x , passent p a r g .
Ou m o n t r e que J s'exprime p a r l a forniole :

J = . Trace ( M V )

o l a t r a c e dsigne l a s o m m e des lments diagonaux d'une


m a t r i c e . O u en dduit alors que :

si M = I l ' i n e r t i e est gale l a Bomme des v a r i a n c e f


des p caractres ;
s i M = Di/gi :

Trace M V = Trace (Di/g. V ) = Trace ( D i / , V D i / , )


= Trace R = p

l ' i n e r t i e est donc gale au n o m b r e de caractres ;


ei M est quelconque o n p e u t t o u j o u r s dire que l ' i n e r t i e
est gale l a somme des variances des caractres t r a n S '
forms p a r l a m a t r i c e T o M = ' T T , E n effet :

Trace M V = Trace ' T T ' X D X = Trace T ' X D X ' T


= Trace ' Y D Y

3. L'espace des caractres. Chaque caractre


est en fait une liste de n valeurs numriques : on
le considrera comme un vecteur d'un espace
n dimensions appel espace des caractres et
not R " .

A) ha mtrique. Pour tudier la proximit des


caractres entre eux i l faut munir cet espace d'une
mtrique, c'est--dire trouver une matrice d'ordre n
dfinie positive symtrique. I c i i l n ' y a pas d'hsi-
tation comme pour l'espace des individus et le
choix se porte sur la matrice diagonale des poids D
pour les raisons suivantes :

32
Le produit scalaire de deux caractres et x*
n
qui vaut 'x^ Dx* 2 Pi ^ xl n'est autre que l a
covariance Sj^ car les caractres sont centrs.
La norme d'un caractre ^st alors : J J X * | | D

e n d'autres termes la longueur d'un caractre


est gale son cart type.
Dans un espace euclidien on dfinit l'angle 0
entre deux vecteurs par son cosinus qui est gal
au quotient du produit scalaire par le produit des
normes des deux vecteurs :

11x^11 ||x*|| = i 7 i ;

Le cosinus de Vange entre deux caractres centrs


n^est donc autre que leur coefficient de corrlation
linaire.
Si dans l'espace des individus on s'intresse aux
distances entre points, dans l'espace des caractres
on s'intressera plutt aux angles en raison de la
proprit prcdente.

B) Caractres engendrs par le tableau de donnes.


Si x^, x^, x" sont les caractres mesurs
sur les n individus, on peut en dduire de nouveaux
caractres par combinaison linaire du type :
c = Ui X * + Ug X ^ + . . . + Uj,X^

Nous avons v u dans un paragraphe prcdent que


ceci revient choisir un nouvel axe dans l'espace
des individus.
L'ensemble de tous les caractres que l'on peut

33
J . - M , BOUROCHB E T O. SAPOBTA 2
fabriquer par un tel procd forme alors un sous-
espace vectoriel W de l'espace des caractres. S'il
n'existe aucune relation linaire entre les carac-
tres x\e sous-espace est de dimension p, sinon
i l est de dimension infrieure : dans l'exemple des
II
dpenses de l ' E t a t comme ^ 100 la dimen-
j-i
sion de W est au plus gale 10 (au plus car i l
peut exister d'autres relations qui n'ont pas t
remarques).
Nous avons v u que tout caractre c, combinaison
linaire des caractres de dpart, peut s'obtenir par
la formule c = X u , o u est le facteur associ
c.
I l est alors facile d'en dduire sa variance :
si = *c De = ' u ' X D X u
si = 'uVu

I I I . Recherche des composantes


axes et facteurs principaux

Nous avons dfini dans l'introduction de ce cha-


pitre le premier axe principal par la proprit
de rendre maximale la moyenne des carrs des dis-
tances entre les projections des points du nuage.

Ca Cl !
r ^ J -
C3 I

Ceci quivaut rendre maximale l'inertie des


projections qui vaut S p i cf, o les sont les mesures
algbriques des projections des sur A, car on

34
choisit de faire passer A par le centre de gravit
du nuage.
A l est l'axe d'allongement principal du nuage en
ce sens que, sur cet axe, les sont le plus disperss
possible, en d'autres termes :
c est combinaison linaire des x* de variance
maximale.
Pour t r o u v e r e x p l i c i t e m e n t facteuis et composantes p r i n -
ripales et p o u r allger les dmonstrations, on peut t o u j o u r s
se ramener a u cas M I en raisonnant sur le t a b l e a u de
donnes transform Y = X ' T avec M = ' T T . E n effet,
la premire composante p r i n c i p a l e de Y sera l a mme que
celle de X puisque les combinaisons linaires des y ' sont
lies combinaisons linaires des x ' : l a combinaison des y ' de
\ariance m a x i m a l e dfinira donc a u t o m a t i q u e m e n t l u c o m b i -
naison des de variance m a x i m a l e . Si c est cette composante
exprime sous l a forme c = Y v puisque Y X ' T on aura
c = X u avec u = ' T v .
Soit V l a m a t r i c e de variance associe a u tableau Y q u i
est gale T ' X D X ' T = T V ' T o V est l a m a t r i c e de
variance de X . L a composante p r i n c i p a l e c a p o u r v a -
riance ' v V j , v et le vecteur Y est alors gal au vecteur u n i t a i r e
de l'axe p r i n c i p a l . I l f a u t donc t r o u v e r Y de norme 1 t e l
que 'vVy T soit m a x i m a l . Ceci est quivalent rendre m a x i m a l
le q u o t i e n t ' T V T / ' W . L e m a x i m i m i est a t t e i n t lorsque les
drives par r a p p o r t chacune des p composantes sont nulles.
L'ensemble des drives de 'vV^ v par r a p p o r t aux c o m p o -
santes f j , , . . . , p forme u n vecteur gal 2Vy v. D'aprs
les formules de drivation usuelles on en dduit que l a drive
de q u o t i e n t est n u l l e si :
2{'yv) V y v 2 ( ' y V y V ) v - 0

soit :
V ^ v = ( V V y T ) v = Xv

V d o i t donc tre vecteur p r o p r e de et sa valeur p r o p r e X


d o i t tre l a plus grande puisqu'elle reprsente l a quantit
maximiser.
L a variance de e v a u t alors X car v est de norme 1. Comme
une m a t r i c e de variaace est symtrique et semi-dfinie posi-
t i v e , elle possde p vecteurs propres o r t h o g o n a u x deux
deux et ses valeurs propres sont toutes positives ou nulles.

35
Les axes et les facteurs principaux V j , T J , . . . , Vp
lorsque M = I sont les vecteurs propres de la matrice
de variance associs aux valeurs propres X j , Xg, . . X j ,
crites en ordre dcroissant.
Prendre comme nouveaux axes de l'espace des
individus les vecteurs de la matrice de variance
revient diagonaliser l'oprateur linaire associ
. L a matrice variance des composantes p r i n -
cipales, Vf., est gale :

Les composantes principales sont donc non cor-


rles deux deux.
UACP remplace les p caractres initiaux par des
caractres non corrls de variance maximale et d'im-
portance dcroissante.
Pour trouver directement axes, facteurs et compo-
santes en fonction de X i l suffit d'crire que
V ^ v = Xv = T V ' T v et de multiplier gauche-
par ' T , d'o *TTV 'Tv = X *Tv soit M V u = Xu.
L'axe a est tel que u = Ma, donc M V M a = XMa,
soit V M a = Xa car M est rgulire.
Les axes principaux sont donc les vecteurs pro-
pres de V M , les facteurs principaux ceux de M V .
Quant aux composantes principales qui s'obtiennent
par c = X u , en remarquant que M V = M *X D X ;
M ' X D X u = Xu montre en multipliant gauche
par X que c est vecteur propre de X M *X D .
L a somme des valeurs propres Xj + X2 H- . . . -|- Xp
est xme constante gale la trace de V^ et de M V :
c'est rinertie totale J^.

36
Le quotient "Kj^ est appel part d'inertie (ou de
variance) explique par l'axe n " k. (X^ + X^j./^ ou
pnrt d'inertie cumule des deux premiers axes, mesure
l'aplatissement du nuage sur le plan principal. Plus
cette part est grande, et meilleure est la reprsen-
i.ation du nuage sur ce plan.
Le nombre des valeurs propres non nidles donne
la dimension de l'espace dans lequel sont rellement
1rs observations. Une valeur propre nulle montre
(jii'il existe une relation linaire entre les caractres
initiaux.

A.vec M = D i / ( i , l e s c o m p o s a n t e s p r i n c i p a l e s sont l e s c a r a c -

t ires l e s pluB lis a u x x ' a n sens o ^ t\c ; x') est m a x i m a l .

I V . Les rsultats
et leur interprtation

Avec l'exemple des dpenses de l ' E t a t prsent


au dbut de ce chapitre nous tenterons ici de donner
quelques principes gnraux d'interprtation des
rsultats numriques et graphiques d'une A C P .
Si les phases de calcul sont effectues automati-
quement par des programmes d'ordinateur, la lec-
ture des documents obtenus ncessite xme certaine
mthode afin d'viter des interprtations errones.
Nous avons choisi pour analyser le tableau des
lpenses de l ' E t a t la mtrique D^/gt ce qui revient
centrer et rduire les 11 caractres. Les facteurs
principaux s'obtiennent donc en diagonalisant la
matrice de corrlation R.

1. Valeurs propres, facteurs et composantes prin*


eipalee. On trouve au moyen d'un programme
standard d'ACP :

37
Valeur o/ o/
/o /o
propre d'inertie cumul

1 4,98 45,3 45,3


2 2,05 18,6 63,9
3 1,29 11,7 75,6
4 0,99 9,0 84,6
5 0,71 6,5 91,1
6 0,56 5,1 96,2
7 0.20 1,8 98
8 0,12 1,1 99,1
9 0,06 0.5 99,6
10 0,04 0,4 100
11 0 0 100

La somme des valeurs propres est gale au


nombre de caractres puisque M ~ Dj/gi, soit
ici 11. On vrifie que la dernire valeur propre est
nulle, ce qui tait attendu puisque les caractres sont
lis par une relation linaire (leur somme vaut 100).
Les deux premires valeurs propres reprsentant
environ 64 % de l'inertie, nous rsumerons les don-
nes par les deux premires composantes principales.
I l est difficile de donner une rponse gnrale
la question : partir de quel pourcentage peut-on
ngliger les composantes principales restantes ? Cela
dpend t o u t d'abord du nombre de caractres : u n
premier axe expliquant 45 % de l'inertie avec
11 caractres est plus intressant que si p avait
t gal 5. Si R ne contient que des termes peu
diffrents de zro, i l ne faut pas s'attendre trouver
des valeurs propres trs leves : on ne peut rduire
efficacement le nombre de caractres que si ceux-ci
taient trs corrls. E n fait, seul l'examen de la
signification des composantes principales, et sur-
tout l'exprience, permettent de savoir quelles sont
les composantes conserver.

38
Les deux premiers vecteurs propres Vj et Vg de R
sont ici les suivants :
^1 a
0,08 0,52
0,37 0,00
0,37 0,24
0,06 0,44
0,32 0,28
0,35 0,10
0,42 0,07
0.13 0,56
0,27 0,15
0,40 0,21
0,25 0,08

L a somme des carrs de leurs composantes v a u t 1 et on


peut vrifier que R v ; = X^v^. Pour obtenir les composantes
principales Cj et on applique l a formule c Y v . A i n s i
pour Tanne 1872, d o n t on a v a i t calcul plus b a u t les valeurs
des coordonnes centres rduites, i l suffit de m u l t i p l i e r
i-haque coordonne par la composante d u premier vecteur
propre et en faire la somme, pour o b t e n i r l a valeur de Cj,
soit ici 2,9.
On p e u t vrifier que Ci et sont de moyenne nulle et o n t
pour variances respectives 4,98 et 2,05 (aux arrondis prs).

2. Reprsentation des individus dans le plan


principal.

1872 2,90 1,02 1932 0,27 1,96
1880 2,77 2,01 1935 0,66 2,30
1890 2,42 0,22 1938 0,40 1,34
1900 2,06 0,75 1947 1,08 2,25
1903 2,34 0,17 1950 2,37 2,17
1906 1,98 0,63 1953 1,20 1,13
1909 1,91 0,81 1956 2,93 0,23
1912 1,43 0,77 1959 2,69 0,14
1920 2,14 0,96 1962 3,06 0,11
1923 1,14 2,88 1965 3,14 0,31
1926 1,67 2,61 196S 3,70 0,47
1929 1,12 1,83 1971 3.24 0,09

39
Les composantes Cj e t d o n n e n t les coordonnes des
i n d i v i d u s sur le p l a n p r i n c i p a l et on o b t i e n t l a configuration
suivante.
O n v o i t immdiatement apparatre quatre groupes d ' i n d i -
v i d u s bien spars :

groupe I : a v a n t l a premire guerre m o n d i a l e ;


groupe 2 : entre les deux guerres ;
groupe 3 : l'aprs-guerre 1947-1950-1953 ;
groupe 4 ; l a priode 1956 1971.

1923
1926
1935

1932
1B29

1938

196S
1962
1971
1830 1959 1956
1903
1965
1906
1900, 1312
1672 19201309
1953

1947
1950

L a figure obtenue tant voie p r o j e c t i o n i l ne f a u t pas


confondre proximits sur le plan p r i n c i p a l et proximits dans
l'espace, une erreur de perspective est toujours possible
comme le m o n t r e la figure ci-dessous.
I l f a u t donc examiner l a qualit de la reprsentation de
chaque p o i n t : ceci se f a i t eu considrant l'angle 6 entre le
vecteur et sa p r o j e c t i o n f,-. L e critre de qualit c o m m u -
nment utilis est le carr d u cosinus de l'angle avec le p l a n :
un cosinus gal 1 indique que e,' et fj sont confondus ; u n
cosinus voisin de zro d o i t m e t t r e en garde l ' u t i l i s a t e u r contre
toute conclusion htive, sauf si est une distance faible
du centre de gravit.
Dans notre exemple on t r o u v e les valeurs suivantes :

18S0 1890 1900 1903 1906 1969 1912

cos' 0 0,52 0,69 0,79 0,69 0,58 0,78 0,76 0,48

1920 1923 1926 1929 1932 1935 1938 1947

roa^ 6 0,73 0,79 0,66 0,63 0,47 0,80 0,30 0,66

1930 1953 1956 1959 1962 1965 1968 1971

vi>s^ 0 0,46 0,35 0,74 0,76 0,89 0.73 0,69 0,65

Dans l'ensemble presque tous les points sont bien repr-


sents sauf peut-tre les annes 1938 et 1953 ( u n cosinus
liur de 0,3 correspond u n angle de 57"),
Lorsque de n o m b r e u x points sont m a l reprsents c'est en
gnral parce que l ' i n e r t i e d u plan p r i n c i p a l est t r o p faible :
il faut alors considrer les composantes principales suivantes
<^t regarder les plans p r i n c i p a u x dfinis p a r les axea 1 , 3 ;
2, 3, etc.

3. L'interprtation des composantes principales et


des axes principaux. Quelle signification concrte
donner des caractres qui sont des combinaisons
des caractres de dpart ? C'est sans doute un des
points les plus dlicats des analyses de donnes. Deux
approches doivent gnralement tre utiUses : on
considre, d'une part, les corrlations avec les carac-
tres initiaux et, d'autre part, des individus typiques.

41
A) Le cercle des corrlations. Le calcul des cor-
rlations entre les composantes principales et les
caractres initiaux est trs simple effectuer, dans
le cas de la mtrique Dj/g : on montre que le
coefficient de corrlation linaire entre x^ et c^^ ^st
gal la y-me composante du fc-ime vecteur
propre v^^ multiplie par \ / \ On en dduit que
la somme des carrs dv.s corrlations de C;^ avec
les X ' ' vaut "k^.
On trouve ici :

r(c, ; X ' )

PVP 0.17 0,74


AGR 0,82 0,01
CMI 0,83 0,34
TRA 0,14 0,63
LOG 0,72 0,40
EDU 0.79 0,14
ACS 0.93 0,10
ACO 0.29 0,81
DEF 0,61 0,22
DET 0,89 0,30
DIV 0,55 0,11

La premire composante principale est trs car-


rele positivement avec les pourcentages du budget
consacr l'action sociale, au commerce et indus-
trie, l'agriculture et trs ngativement avec les
pourcentages consacrs la dfense, au rembour-
sement de la dette.
L'opposition de ces deux groupes de caractres,
que l'on retrouve sur le tableau R, est donc le
t r a i t dominant. Ceci permet d'interprter la posi-
tion des individus sur le plan principal : plus un
point se situe droite sur le graphique plus i l
s'carte de la moyenne par de fortes valeurs des
caractres ACS, C M I , A G R , ce qui est concomitant

42
avec des valeurs infrieures la moyenne des ca-
ractres D E T et D E F . A u x points situs gauche
du graphique correspondent videmment des ph-
nomnes inverses.
La deuxime composante principale dont T i m -
portance est prs de 2,5 fois moindre traduit essen-
tiellement l'opposition entre le budget des anciens
combattants et celui des pouvoirs pubUcs.
Si on reprsente chaque caractre par u n point
dont les coordonnes sont ses corrlations avec Cj
et Cg, les caractres initiaux s'inscrivent alors
l'intrieur d'un cercle de rayon 1 appel cercle des
corrlations car Cj et Cg tant non corrles on montre
que :
r2(cj;xO + r 2 ( c 2 ; x O ^ L

L'examen de cette figure permet d'interprter les


composantes principales et de reprer rapidement
les groupes de caractres lis entre eux ou opposs,
condition toutefois que les points soient proches
de la circonfrence. Cette reprsentation joue pour

4S
les caractres le mme rle que le plan principal
pour les individus : on montre en eflfet que l'on
obtient exactement cette figure en projetant dans
l'espace des caractres, les caractres centrs r-
duits sur le plan engendr par et Co.

B) La place et Vimportance des individus. Si


on remarque que le long de l'axe 1 les annes
s'chelonnent peu prs selon l'ordre chronolo-
gique on met en vidence un phnomne d'volution
temporelle de la structure des dpenses de l ' E t a t
(vers plus de social moins de dettes et une moindre
part la dfense nationale), ce q u i enrichit l'tude
des corrlations. De mme i l n'est peut-tre pas
inintressant de noter que l'axe 2 qui oppose les
dpenses en faveur des anciens combattants celles
des pouvoirs publics oppose en fait les deux aprs-
guerre.
On peut d'ailleurs chercher quels sont les i n d i -
vidus qui caractrisent le plus fortement un axe
en calculant la contribution d'un point l'axe
n " k que l'on dfinit comme PiC^/Xfc, c'est la part
de variance de Cj due l ' i n d i v i d u i. On trouve i c i ,
mais nous ne reproduisons pas le dtail des calculs,
que pour l'axe 1 les contributions dominantes sont
celles de 1968 et 1872 et pour r a x e 2 1923,1926,1947.
Ces considrations ne sont valables que parce que
les individus prsentent dans cet exemple u n intrt
en eux-mmes. Dans d'autres cas, en particulier
ceux oii les individus ont t obtenus par tirage
au hasard pour u n sondage, on a affaire des tres
anonymes n'ayant d'intrt que par leur ensemble
et non par leur individualit ; I'ACP se rsumera
alors souvent l'tude des caractres, c'est--dire
au cercle des corrlations. Le fait que quelques
individus puissent avoir des contributions impor-

44
tantes la formation d'un des premiers axes p r i n -
cipaux peut alors tre un grave dfaut car le fait
de retirer ces individus risque de modifier profon-
dment les rsultats : i l y a alors t o u t intrt
effectuer I'ACP en liminant cet individu quitte
le faire figurer ensuite sur les graphiques en point
supplmentaire (car i l est facile de calculer ses
coordonnes), condition qu'il ne s'agisse pas d'une
donne aberrante qui a ainsi t mise en vidence.
Notons enfin la possibiUt de reprsenter sur les
plans principaux des groupes d'individus possdant
un t r a i t particulier, par exemple l'ensemble des
annes reprsentant la I V ^ Rpublique. Ceci s'ef-
fectue trs simplement en plaant sur le graphique
le centre de gravit des individus concerns dont
les coordonnes se calculent aisment. Cette pro-
cdure qui permet de faire figurer les modalits
d'un caractre qualitatif illustratif (ici le numro
de la Rpublique) sera reprise lors de l'analyse des
correspondances multiples (points supplmentaires).
Dans l'tat actuel de la technique informatique
on peut traiter des tableaux oii le nombre de carac-
tres est de quelques centaines pour u n nombre
d'individus en principe illimit, puisque la phase
essentielle de calcul se rduit la diagonalisation
d'une matrice d'ordre p,

V . L'analyse des tableaux de proximits

Dans certaines applications on ne connat pas les


valeurs prises par les caractres, car i l n ' y a pas
de caractres mesurs ; on connat seulement les
distances entre individus. C'est souvent le cas en
psychologie ou en tude de march : par exemple
on recueille auprs de consommateurs des donnes
de proximits subjectives entre diffrentes marques

45
concurrentes. Le problme est alors de reprsenter
graphiquement les proximits entre marques qui
constituent autant d'individus.
Les donnes sont donc le tableau des distances
entre les n individus. Supposons que ces distances
soient euclidiennes, cela veut dire que les n i n d i -
vidus peuvent tre considrs comme des points
dans un espace de dimension p (inconnu) muni
d'une mtrique M . Si on connaissait leurs coor-
donnes sur des axes orthogonaux arbitraires de
cet espace on aurait alors un tableau individus-
caractres X et on pourrait effectuer une ACP. Nous
avons v u que les composantes principales c qui
constituent les listes de coordonnes sur les axes
principaux sont les vecteurs propres de la ma-
trice X M *X D . Or cette matrice peut se calculer en
connaissant uniquement les distances entre individus.
I l suffit alors de calculer ses vecteurs propres
pour obtenir une reprsentation des individus sur
un plan ou u n espace de dimension q dont on mesu-
rera la quaUt au moyen du pourcentage d'inertie
expUque.
L a m a t r i c e X M ' X est l a m a t r i c e d o n t l e s lments ivjj
sont les p r o d u i t s scalaires ^e,-; J ^ M , e t wn = En
a p p l i q u a n t la relation d u triangle :

t o u s les couples d ' i n d i v i d u s on arrive a l o r s e x p r i m e r 1^,;^


au m o y e n de la f o r m u l e de Torgerson :

o :

i-i ^ ^

et d?. = 2 2 P i P j d V i ; j) = 2 J '

46
L'application de I ' A C P ce type de donnes porte le nom
(l'analyse factorielle d'un tableau de distances.
Si la distance d est rellement euclidienne, toutes les valeurs
]iropres de X M ' X sont positives ou nulles. Si on trouve des
valeurs propres ngatives on ne peut plus admettre que les
individus sont dans un espace euclidien. F o u r obtenir quand
mme des reprsentations graphiques on fait appel des
techniques de positionnement multidimensionnel qui revien-
nent chercher une modification des dissimlarits les trans-
fi)rmant en distances euclidiennes en respectant certaines
cintraintea d'ordre : si d est la dissimilarit et f(d) sa modi-
l'kation on exigera que si dij < d^j on ait f{d^) ^ fik-
Divers algorithmes sont alors possibles : les uns cherchant
d'abord cette transformation / pour procder ensuite une
aniilyse factorielle du tableau des distances euclidiennes ainsi
rn'-es, les autres (mthode de K r u s k a l ) cherchant directement
la meilleure configuration de n points dans u n espace de
dimension fixe.
Sur le plan pratique le nombre d'individus traiter est
limit quelques centaines par les possibilits actuelles de
ralcul.
L e lecteur dsireux de complments dans ce domaine se
reportera avec profit aux ouvrages cits en bibliographie, en
particulier ceux de J . - M . Bouroche qui a introduit ces
mthodes en France.

47
CHAPITRE III

LA CLASSIFICATION

Les mthodes de classification ou de typologie


(dont la science s'appelle la taxinomie) ont pour
b u t de regrouper les individus en un nombre res-
treint de classes homognes. I l s'agit donc de d-
crire les donnes en procdant une rduction du
nombre des individus. I l ne sera question ici que
de (( classification automatique : les classes seront
obtenues au moyen d'algorithmes formaliss et non
par des mthodes subjectives ou visuelles faisant
appel l'initiative du praticien (1).
On distingue deux grands types de mthodes de
classification :
les mthodes non hirarchiques qui produisent
directement une partition en un nombre fix de
classes ;
les mthodes hirarchiques qui produisent des
suites de partitions en classes de plus en plus
vastes l'image des clbres classifications des
zoologistes en espces, genres, familles, ordre, etc.

(1) Au chapitre prcdent on donnait un exemple de classification


visuelle o quatre groupes avaient t reconnus en regardant le
plan principal de I ' A C P du tableau des dpenses de l ' E t a t .

48
Le tableau de donnes analys est soit le tableau
des distances ou des dis similarits entre n individus,
soit le tableau des coordonnes des individus sur
p axes (tableau individus-caractres numriques ou
coordonnes sur les axes d'une analyse des corres-
pondances lorsque les caractres sont qualitatifs).
Dans ce dernier cas on peut videmment obtenir
un tableau de distance en choisissant une mtrique.
Depuis quelques annes, avec le dveloppement
des gros calculateurs, d'innombrables algorithmes
de classification ont v u le jour. I l n'est pas question
de les passer tous en revue ici renvoyant le lecteur
intress l'ouvrage de Cailliez et Pages ; nous
nous contenterons d'examiner les mthodes les plus
(fricaces et les plus utilises en insistant plus par-
ticulirement sur le cas o les distances sont eueU-
diennes car i l existe alors des critres non arbitraires.

I . Classification non hirarchique

I l s'agit de regrouper n individus en k classes


de telle sorte que les individus d'une mme classe
soient le plus semblables possible et que les classes
soient bien spares. Ceci suppose la dfinition d'un
critre global mesurant la proximit des individus
d'une mme classe et donc la qualit d'une p a r t i -
tion. Si on dispose d'un t e l critre on pourrait
imaginer d'examiner toutes les partitions possibles
et de choisir la meilleure. Cette tche est en raUt
impossible, mme avec les plus gros ordinateurs,
ds que le nombre des individus dpasse quelques
dizaines : pour 14 individus seulement i l y a plus
de 10 millions de partitions possibles en 4 classes !
I I est donc peu prs exclu de trouver la meilleure
partition possible et i l faudra se contenter d'algo-
rithmes aboutissant des solutions approches.

49
1. Inertie interclasse et inertie intraclasse. Si
on peut considrer les individus comme des points
d'un espace euclidien le problme de la classification
peut se dcrire comme la recherche d'une partition
d'un nuage de n points en k sous-nuages. A u cha-
pitre prcdent, nous avons caractris la dispersion
d'un nuage de points par son inertie qui est la
moyenne des carrs des distances au centre de gra-
vit. Une classe sera donc d'autant plus homogne
que son inertie sera faible. Appelons - -A
les inerties de chaque classe, calcules par rapport
leurs centres de gravit respectifs g j , gg, ,gk- La
somme de ces inerties est appele inertie intraclasse
et est note :
k
Af^ = ^

I l est donc souhaitable que ^ soit la plus petite


possible pour avoir un ensemble de classes trs
homognes.
Considrons maintenant Pensemble des k centres
de gravit g j , . . . , g^, leur dispersion autour de g,
centre de gravit du nuage total des n individus,
est appele inertie interclasse et est note X^ :

o Pj' est l a somme des poids des individus de la


classe nj.
Une grande valeur de indique une bonne spa-
ration des classes et i l conviendra donc que J ^ B soit
la plus grande possible.
Or . / B '^w ^^^^ relies par une importante for-
mule gnralisant le thorme de Huyghens :

o ^ est l'inertie totale du nuage des n points.

50
Rendre maximale J^g est donc quivalent rendre
minimale J * ^ puisque leur somme est constante. D u
point de vue de l'inertie i l suffira donc de carac-
triser les meilleures partitions possibles en k classes
{il en existe ventuellement plusieurs) comme celles
([ui rendent minimale .
I I faut prendre garde ici que ce critre ne permet
pas de comparer deux partitions ayant des nombres
de classes diffrents : en eifet, la meilleure partition
en k classes aura toujours une inertie intraclasse
suprieure celle de la meilleure partition en
^ + 1 classes et sera donc moins bonne . A la
limite, la meilleure partition possible est celle o
chaque individu constitue une classe car alors
= 0 puisque chaque point est confondu avec
le centre de gravit de sa classe !
Nous chercherons dsormais obtenir une par-
tition en k classes o A: a t fix a priori. La plu-
part des techniques procdent par amliorations
successives d'une partition de dpart : nous d-
crirons d'abord celle des centres mobiles puis la
mthode des nues dynamiques qui en est une
variante.

2. Regroupement autour de centres mobiles.


Le droulement de cet algorithme est le suivant :
dans u n premier temps on regroupe les individus
autour de k centres arbitraires c ^ , C j , . . . , Cj^ de la
manire suivante : la classe associe est consti-
tue de l'ensemble des individus plus proches de Cj
que de t o u t autre centre. Gomtriquement ceci
revient partager l'espace des individus en k zones
dfinies par les plans mdiateurs des segments c^.
La figure ci-aprs donne un exemple d'une partition
associe trois centres dans un plan.

51
On calcule ensuite les centres de gravit ,
82' S* classes que l'on vient de former.
On effectue alors une deuxime partition en regrou-
pant les individus autour des qui prennent alors
la place des centres Cj de la premire tape. On
calcule les centres de gravit g^''', g^^', . . . . g?* de
ces nouvelles classes, on regroupe les individus
autour d'eux et ainsi de suite jusqu' ce que la
qualit de la partition mesure par l'inertie i n t r a -
classe ne s'amliore plus. Comme i l suffit chaque
tape de calculer les nk distances entre les individus
et les centres, i l n'est pas ncessaire de conserver

en mmoire les - ^ distances diffrentes, ce


qui est avantageux si n est grand.

M o n t r o n s que d*ane p a r t i t i o n l ' a u t r e l ' i n e r t i e intraclasse


dcrot, ce q u i entrane l a convergence de Talgoritlune (l'exp-
rience m o n t r e que cette convergence est trs rapide : une
dizaine d'itrations sont en gnral suffisantes).
Appelons l ' i n e r t i e intraclasse de l a premire p a r t i t i o n
et > w ' celle de l a deuxime : i l suffira de dmontrer que
^Iv* > pusqu' l'tape suivante l a p a r t i t i o n n9 2 p r e n d
la place de la p a r t i t i o n n9 1 et ainsi de suite.
est l a moyenne des inerties j ' j " des k classes de la
deuxime p a r t i t i o n . Considrons p a r exemple l a premire
classe de cette p a r t i t i o n d o n t le centre de gravit est g^" ;
son i n e r t i e J ^ ' est infrieure l a moyenne des carrs des
distances des p o i n t s de cette c l a i i e g j en raison de la formule
de H u y g h e n s ( v o i r chap. I I ) .

52
D ' u n e p a r t i t i o n l ' a u t r e l a composition des classes change :
dans l a p a r t i t i o n n 2 on ne t r o u v e dans l a premire classe
que les p o i n t s d u nuage plus proches de g^ que des autres g; ;
la moyenne des carrs des distances g, est donc infrieure
la moyenne correspondante de la premire classe de ta p r e -
mire p a r t i t i o n ( moins que ces deux classes ne soient i d e n -
tiques) q u i v a u t ^ i ^ ' . L ' i n e r t i e de chaque classe de la deuxime
p a r t i t i o n est donc infrieure l ' i n e r t i e de l a classe corres-
pondante de l a premire p a r t i t i o n , i l en sera de mme p o u r
leurs moyennes et . / w ^ ^w'-

L'inconvnient de cette mthode, part le risque


d'obtenir des classes vides, donc d'aboutir moins
de k classes, est de fournir une partition finale qui
dpend de la partition de dpart : on n'atteint pas
l ' o p t i m u m global mais seulement la meilleure par-
t i t i o n possible partir de celle de dpart. De plus,
la partition initiale est souvent arbitraire car i l est
courant de choisir les centres par tirage au sort
de k individus parmi n .

3. L a mthode des nues dynamiques. Sous ce


nom vocateur E. Diday a dvelopp une mthode
efficace de partitionne ment que l'on peut considrer
comme une gnralisation de la mthode des centres
mobiles. La diffrence fondamentale est la suivante :
A u lieu de dfinir une classe par u n seul point,
son centre, qui peut ne pas tre u n des individus
de l'ensemble classer, on la dfinit par q individus
formant u n noyau q u i , s'ils sont bien choisis,
seront plus reprsentatifs de la classe qu'un simple
centre de gravit. Ces noyaux permettront par la
suite d'interprter les classes.
A p a r t i r d*m systme i n i t i a l de k n o y a u x on o b t i e n t une
p a r t i t i o n en r e g r o u p a n t les i n d i v i d u s a u t o u r de ces n o y a u x .
On calcule alors de nouveaux n o y a u x reprsentatifs des
classes ainsi formes et on recommence jusqu' ce que l a
qualit de l a p a r t i t i o n ne s'amliore plus. F o r m e l l e m e n t i l
f a u t donc disposer de t r o i s fonctions :

S8
l a premiie q u i calcule l a distance d*uu i n d i v i d u u n
noyau ;
la deuxime q u i une p a r t i t i o n en k classes associe les
k n o y a u x de q p o i n t s , reprsentatifs de ces classes ;
l a troisime q u i mesure l a qualit d'une p a r t i t i o n .
Connaissant ces trois fonctions, le n o m b r e de classes e t
l'effectif des n o y a u x , l ' a l g o r i t h m e est entirement dtermin.
Comme pour l a mthode des centres mobiles, la p a r t i t i o n
finale dpend d u choix i n i t i a l des n o y a u x . A f i n de l i m i t e r cet
inconvnient on procde plusieurs tirages a u sort des n o y a u x
de dpart et on compare les p a r t i t i o n s finales obtenues : les
i n d i v i d u s q u i o n t toujours t classs ensemble dfinissent des
formes fortes q u i sont en quelque sorte les parties v r a i m e n t
homognes de l'ensemble des i n d i v i d u s car elles o n t rsist a u x
alas des tirages des n o y a u x . L e n o m b r e de formes fortes est
gnralement diffrent de k.
Les mthodes de p a r t i t i o n n e m e n t p e r m e t t e n t de t r a i t e r
rapidement de grands ensembles d ' i n d i v i d u s mais elles sup-
posent que le n o m b r e k de classes est fix. Si ce n o m b r e ne
correspond pas l a configuration vritable d u nuage des
i n d i v i d u s on risque d ' o b t e n i r des p a r t i t i o n s de valeur douteuse.
I l f a u t alors souvent essayer diverses valeurs de k, ce q u i
augmente te temps de calcul. Lorsque le nombre des i n d i v i d u s
n'est pas t r o p lev o n recourra plutt des mthodes
hirarchiques.

I I . ClaBBfication hirarchique

Nous traiterons ici uniquement des mthodes


ascendantes. Leur principe consiste construire
une suite de partitions en n classes, n 1 classes,
n 2 classes..., embotes les unes dans les autres,
de la manire suivante : la partition en k classes
est obtenue en regroupant deux des classes de la
partition en A: H~ classes. I l y a donc au total
n 2 partitions dterminer puisque la partition
en n classes est celle o chaque individu est isol
et la partition en ime classe n'est autre que la
runion de tous les individus.
O n parle de classification hirarchique ou de hi-
rarchie, car chaque classe d'une partition est incluse

M
dans une classe de la partition suivante. La suite
des partitions obtenues est usuellement reprsente
sous la forme d'un arbre de classification analogue
l'organigramme d'une entreprise.
La figure ci-dessous reprsente la suite de p a r t i -
tions de l'ensemble a, b, c, d, e :

- albjcldle
P4 = abjcldje
Pj = abjcdje
P2 = ahjcde
0,5
Pj = abcde. 0
a b c d e

L a hirarchie prcdente est indice car


chaque partition correspond une valeur numrique
reprsentant le niveau auquel ont lieu les regrou-
pements ; plus l'indice est lev plus les parties re-
groupes sont htrognes. Cet indice est aussi
appel niveau d'agrgation.
Connaissant l'arbre de classification i l est facile
d'en dduire des partitions en un nombre plus ou
moins grand de classes, i l suffit pour cela de couper
l'arbre u n certain niveau et de regarder les
i( branches qui tombent.
Ainsi dans l'arbre ci-dessus on obtient une par-
t i t i o n en trois classes en dcoupant l'arbre selon
le pointill : (a, b) (c, d) (e).
Le principal problme des mthodes de classifi-
cation hirarchique consiste dfinir le critre de
regroupement de deux classes, ce qui revient
dfinir une distance entre classes. Tous les algo-
rithmes de classification hirarchique se droulent
de la mme manire : on recherche chaque tape
les deux classes les plus proches, on les fusionne.

SS
et on continue jusqu' ce qu'il n ' y ait plus qu'une
seule classe.
1. Le critre de l'inertie : la mthode de Ward.
Lorsque les individus sont des points d'un espace
euclidien nous avons vu que l'on dfinissait la qua-
ht d'une partition par son inertie intraclasse ou
son inertie interclasse. Une bonne partition est celle
pour laquelle l'inertie interclasse est forte (inertie
intraclasse faible). Lorsque l'on passe d'une par-
t i t i o n en fc + 1 classes une partition en k classes
en regroupant deux classes en une seule, nous allons
voir que l'inertie interclasse ne peut que diminuer.
Le critre de regroupement sera donc le suivant :
fusionner les deux classes pour lesquelles la perte
d'inertie est la plus faible. Ceci revient runir
les deux classes les plus proches en prenant comme
distance entre deux classes la perte d'inertie que
l'on encourt en les regroupant.
L ' i n e r t i e interclasse est, rappelons-le, la moyenne des carrs
des distances des centres de gravit de chaque classe au
centre de gravit t o t a l . Appelons A et B les deux classes que
l ' o n v e u t runir, g^, gg leurs centres, et et Pg leurs poids.
A v a n t runion on t r o u v e dans la formule de l'inertie i n t e r -
classe la somme des deux termes : P^ (^^(8* g) 4- P B d^Cge ! )
Aprs runion i l n ' y a plus qu'une classe de poids -f P^
de centre de gravit, 6 ' q^' contribue l ' i n e r t i e interclasse
par le terme unique { P ^ + P^) d^igj,^ ; g).
L a perte d ' i n e r t i e interclasse est l a diffrence :
P A d'(g. ; g) + P B dHe. ; g) - (P* + Pn) ^a^ ; g)
P . g. + P B ga
comme g^a = p on t r o u v e que cette perte est :

SA g.

56
TJn calcul lmentaire m o n t r e en effet qne :

dHe. ; g) + 'iHs. : g) - 7 T > A ^ r . ^Hg, ; s.)


K + Pn ' P. + PB (PA + PB)''

(c'est une gnralisation d u thorme de la mcdiane).


On peut donc prendre comme distance entre classes A
et B l a (piantit :

8(A,B)=J^^rf''(g,;gB)

Si C est une troisime classe on en dduit aisment l a for-


mule d o n n a n t la distance 8 entre C et l a runion des deux
classes A et B ;
S(C ; A l I B ) =
(PA + Pc) S(A. C) + (Pe + Pc) S(B, C) - P , S(A, B )
P A + P B + Pc

On p e u t donc formaliser l ' a l g o r i t h m e de W a r d comme


suit : on remplace le tableau des distances D entre les n p o i n t s
par le tableau A des distances modifies :

on cherche les deux i n d i v i d u s p o u r lesquels S{j est m i n i m u m ,


on les runit en une classe de poids pi + pj a u niveau hirar-
chique Sij, on calcule ensuite les distances 8 entre les autres
i n d i v i d u s et cette classe au m o y e n de la formule nonce
prcdemment; t o u t se passe alors comme s'il n ' y avait plus
que n 1 i n d i v i d u s ; on cherche quels sont les deux i n d i v i d u s
les plus proches, on les runit en une classe et ainsi de suite.

Exemple ; Reprenons les donnes sur les d-


penses de TEtat dj analyses dans le chapitre I I .
E n conservant la mtrique D i / , i on peut calculer
les distances mutuelles entre les 24 individus (les
annes) et effectuer ensuite une classification des
annes par la mthode de Ward. Nous ne repro-
duirons pas ici le tableau des distances v u son
encombrement. Les poids des individus sont ici
tous gaux 1/24.
Les classes de la hirarchie sont numrotes de 25

S7
47 et sont constitues de la manire suivante :
ce sont les annes 1900 et 1906 qui sont les plus
proches, puis 1959 et 1962, ensuite on rattache 1909
la classe 1900-1906 et ainsi de suite.
Les rsultats sont alors consigns dans le tableau
suivant.
On remarque que la somme des niveaux d'agr-
gation est gale 11 : en effet chaque niveau est
gal la perte d'inertie rsultant de la fusion des
deux lments runis ; la somme des pertes d'inertie
est donc gale l'inertie totale du nuage de points
qui est ici gale au nombre de caractres puisque
l'on a pris Dj/^ comme mtrique.

JVo Niveau
de la classe Elments runis d^agrgation

25 1900 1906 0.02


26 1959 1962 0,03
27 1909 25 0,04
28 1890 27 0,06
29 1932 1935 0,06
30 1965 1968 0,07
31 1956 26 0,08
32 1912 28 0,09
33 1947 1953 0,11
34 1903 32 0,13
35 1923 1926 0,13
36 1929 35 0,14
37 1971 30 0,18
38 1938 29 0,18
39 1880 1920 0,24
40 1950 33 0,39
41 1872 34 0,40
42 31 37 0,42
43 39 41 0,43
44 36 38 0.46
45 40 42 1.09
46 43 44 1,94
47 45 46 4,31

SB
De ce tableau on dduit l'arbre de classification.
Son examen montre l'vidence l'existence de quatre
classes relativement homognes obtenues en coupant
l'arbre au niveau 0,5 environ. La classe n'' 40 re-
groupe les annes 1947-1950-1953, la classe n42 les
annes 1950 1971, la classe n 43 les annes 1880
1912 et la classe n 44 les annes 1923 1935.

On retrouve ici, mais d'une manire automatique,


la typologie q u i avait t faite vue au cha-
pitre I I : cette concordance est videmment satis-
faisante. D'une manire gnrale, i l est recommand
de confirmer les rsultats d'une classification par
l'examen des plans factoriels d'une A C P OU d'une
analyse des correspondances : les deux approches sont
complmentaires, l'analyse factorielle permettant en
outre d'interprter rapidement en fonction des carac-
tres les groupements obtenus par une classification.
Si on coupe l'arbre u n niveau plus lev, on

59
fera apparatre trois classes, puis deux classes : la
partition en deux classes sparant ici l'avant- et
l'aprs-deuxime guerre.
Rappelons enfin qu' chaque tape on n'obtient pas
forcment la meilleure partition en k classes, mais
seulement la meilleure de celles obtenues par runion
de deux classes de la partition en + 1 classes.

2. Distances n o n euclidiennes ; les diffrentes 8tra


tgies d'agrgation. Lorsque les distances ne sont
pas euclidiennes, ce qui se produit en particuUer
si l'ingalit triangulaire d(a, b) ^ d{a, c) + d{b, c)
n'est pas vrifie pour certains points (on parle
alors de dis similarit plutt que de distance), la
notion d'inertie n'a plus de sens et on ne dispose
pas d'un critre objectif pour calculer la distance
entre deux classes. On peut alors imaginer une foule
de solutions plus ou moins arbitraires.
Parmi les diverses formules de distance entre deux
parties, les trois plus utilises sont les suivantes :
distance du saut minimal ou de l ' i n f
d(A, B) = i n f d(ei ; e^) pour e^ G A e B
distance du diamtre ou du sup
d(A, B) = sup d{e^ ; e^)
distance moyenne

d(A,B).=:p^2 d(e,;e,).

La premire formule tend favoriser le regrou-


pement de deux classes, ds qu'elles possdent des
points proches ; le risque est alors de trouver dans
une mme classe des points trs loigns. Cette
distance est cependant trs utilise en raison de ses
proprits mathmatiques.

60
La distance du sup remdie, mais un peu b r u -
talement, au dfaut de la mthode du saut minimal,
car elle exige que les points les plus loigns, donc
tous les points, soient proches.
La distance moyenne offre un compromis entre
les deux prcdentes.
L'ennui est que selon la formule choisie on abou-
t i r a une hirarchie ou une autre.
Ainsi considrons le tableau de distance suivant
entre cinq individus ; on voit que cette distance
n'est pas euclidienne puisque :
d{c,e)>d{c, d) + d(d.e)
6 > 2 + 1/2.

3 A
4 1
2 6
0 1/2
1/2 0

On aboutit alors aux trois arbres suivants

4,75

3,3

n
Si chaque arbre commence par la runion de d
et de (t e en une seule classe / , i l y a tout de

61
s u i t e d ' i m p o r t a n t e s diffrences q u a n d o n calcule les
distances de / a u x a u t r e s i n d i v i d u s :
d inf (6,/) = i n f {d{h ; d) ; d{h ; e)) 1
d sup ( 6 , / ) sup {d{h ; d) ; d{h ; e)) 4
rfmoy (6,/) = 2,5.

I l est r e c o m m a n d e de procder p l u s i e u r s t y p e s
de classification sur le m m e ensemble en u t i l i s a n t
diverses f o r m u l e s : si les birarcbies c o m p l t e s s o n t
en gnral diffrentes, i l ne d o i t pas y a v o i r de
t r o p grandes v a r i a t i o n s lorsque l ' o n regarde u n i -
q u e m e n t le h a u t de l ' a r b r e , c'est--dire les p a r t i -
t i o n s f a i b l e n o m b r e de classes. S i o n c o n s t a t e de
grosses diffrences c'est peut-tre q u e l ' e n s e m b l e
des i n d i v i d u s se prte m a l t o u t e classification.
N o t o n s e n f i n q u e l ' u n e des p r i n c i p a l e s difficults
en c l a s s i f i c a t i o n consiste dfinir des distances o u
des dis similarits e n t r e i n d i v i d u s , s u r t o u t q u a n d
c e u x - c i s o n t dcrits p a r des caractres q u a l i t a t i f s .

62
CHAPITRE I V

L'ANALYSE CANONIQUE

L*aualy8e c a n o n i q u e , propose en 1936 p a r H . H o -


tellng ( I ) , est d ' u n intrt thorique essentiel. E l l e
englobe en effet l a p l u p a r t des mthodes d ' a n a l y s e
des donnes c o m m e cas p a r t i c u l i e r : q u ' i l s'agisse
de l a rgression m u l t i p l e , de l ' a n a l y s e de l a v a r i a n c e ,
de l ' a n a l y s e des correspondances o u de l ' a n a l y s e
d i s c r i m i n a n t e , ces mthodes p e u v e n t tre consid-
res c o m m e des a p p l i c a t i o n s spcifiques de l ' a n a l y s e
canonique.
D i s p o n i b l e sous f o r m e de p r o g r a m m e i n f o r m a -
t i q u e d e p u i s p l u s d ' u n e d i z a i n e d'annes, c e t t e
m t h o d e n*a t utilise q u e trs r a r e m e n t . C e t t e
s i t u a t i o n , e x c e p t i o n n e l l e en analyse des donnes,
s'expUque p a r les difficults d'interprtation e t d ' u t i -
l i s a t i o n des rsultats. C o m b i e n d ' a n a l y s t e s , sduits
p a r l a p r o b l m a t i q u e e t les proprits t h o r i s e s
de l ' a n a l y s e c a n o n i q u e , o n t - i l s , a u v u des rsultats,
rang discrtement leurs calculs dans u n t i r o i r ?
N o u s ne p o u v o n s rpondre c e t t e q u e s t i o n m a i s
pensons c e p e n d a n t q u ' u n e large place d o i t tre

(1) H . IIoTELLiNG, Relalions Uetweeii Iwo sols of variables, Uio-


melrika, 1936, vol. 28.

63
d o n n e l ' a n a l y s e c a n o n i q u e , c o m p t e t e n u de sa
fcondit thorique. Les a p p h c a t i o n s les plus e n r i -
chissantes seront obtenues sur des donnes p a r t i -
culires, c o m m e nous le v e r r o n s dans les d e u x c h a -
pitres suivants.

L Prsentation de l a m t h o d e

L e b u t de l ' a n a l y s e c a n o n i q u e est d'tudier les


r e l a t i o n s linaires e x i s t a n t entre d e u x groupes de
caractres q u a n t i t a t i f s observs sur u n m m e e n -
semble d ' i n d i v i d u s . D e faon plus prcise, o n cherche
une c o m b i n a i s o n linaire des caractres d u p r e m i e r
ensemble e t u n e c o m b i n a i s o n linaire des caractres
d u deuxime q u i soient les plus corrles p o s s i b l e .
M a i s prcisons t o u t d ' a b o r d ce p r o b l m e l ' a i d e
d ' u n e x e m p l e . D a n s u n e tude p o r t a n t sur les p e r -
f o r m a n c e s de 40 s a u t e u r s eu h a u t e u r , R . T h o m a s (1)
a relev h u i t paramtres m e s u r a n t les caractris-
t i q u e s p h y s i q u e s e t d y n a m i q u e s des athltes :
= TAIL : taille en centimtres ;
= POID : poids en kilogrammes ;
= DTH : dtente horizontale en centimtres (longueur
saute pieds joints sans lan) ;
** = D T V : dtente verticale en centimtres (diffrence
entre la hauteur atteinte mains tendues, talons
au sol, et celle atteinte en sautant sans lan) ;
^ = F J A M : force des jambes en kilogrammes (poids re-
mont sur les paules, partit de la position
accroupie) ;
= VIT : vitesse en dixime de seconde (temps de par-
cours d'une distance de trente mtres, dpart
^ lanc);
* = S A U L : saut en longueur en centimtres (meilleur
J rsultat) ;
* = 3 S A U ; triple saut en mtres (meilleur rsultat).

(1) n . THOMAS, La riusiU MporHvt, P O F , 1 9 7 5 .

64
P a r a i l l e u r s , u n j u r y a n o t les athltes selon l a
qualit de leurs p e r f o r m a n c e s . Q u a t r e critres o n t
t r e t e n u s :
y i = N S A U : note de saut sur 20 (moyenne des notes don-
nes par trois juges sur le style d u saut dans
son ensemble) ;
y2 = N E L A : note d'lan sur 20 (moyenne des notes donnes
par trois juges sur le style de l'lan) ;
y* = N I M P : note d'impulsion sur 20 (moyenne des notes
donnes par trois juges) ;
y* = N S U R : note de suspension rception sur 20 (moyenne
des notes donnes par trois juges).

D a n s q u e l l e mesure les notes donnes p a r l e j u r y


p e u v e n t - e l l e s tre relies a u x caractristiques o b -
j e c t i v e s des athltes ?
C o m m e en analyse en composantes p r i n c i p a l e s ,
les caractres p e u v e n t tre reprsents dans R", o
n est l e n o m b r e d ' o b s e r v a t i o n s (dans n o t r e e x e m p l e ,
n = 40),
N o t o n s x \, x ' , . , x P et y * , . . . , y * , . . y
les caractres des d e u x groupes reprsents p a r des
v e c t e u r s de R".
P o u r r a p p r o c h e r ces d e u x ensembles de carac-
tres, o n calcule u n e c o m b i n a i s o n linaire des carac-
tres d u p r e m i e r g r o u p e :

= a i x i + ... -faj-x'--f ... +apx'

et u n e c o m b i n a i s o n linaire des caractres du


deuxime groupe :
iQ==6iy^+ ... +fc,y*-f ... +6,y

O n c h e r c h e r a les coefficients :
'a= (oi, ....Oj, ...,ap)
et ' b ^ (6i,

q u i m a x i m i s e n t l e carr de corrlation e n t r e e t v}.

65

J . - H . BOUROCBB B T O. t A M B T A 8
O n appelle caractres canoniques les v e c t e u r s
e t TT] e R", facteurs canoniques les v e c t e u r s de coeffi-
cients a G RP et b F R ' et corrlation canonique
le coefficient de corrlation e n t r e et ].
L ' e n s e m b l e des caractres combinaisons l i -
naires des x^, x\, f o r m e u n sous-
espace v e c t o r i e l de R" que l ' o n appelle p o t e n -
t i e l de prvision d u p r e m i e r g r o u p e . De m m e ,
a u second g r o u p e , o n associe W j , sous-espace vec-
t o r i e l de R".
I I s'agit donc de t r o u v e r d e u x v e c t e u r s e W j
et if) G W g f a i s a n t u n angle m i n i m u m , p u i s q u e l ' o n
a v u en analyse en composantes p r i n c i p a l e s l ' i d e n -
tit e n t r e cosinus et corrlation p o u r les caractres
centrs.

D a n s le schma prcdent, i l existe u n e s o l u t i o n


trs s i m p l e y)^ et tels que cos^ {TJ^ ^) = 1 .
E n effet, dans R^, l ' i n t e r s e c t i o n de d e u x p l a n s
est de d i m e n s i o n infrieure o u gale 2.
L o r s q u ' u n p r e m i e r couple de v a r i a b l e s canoniques

66
a t o b t e n u , o n recherche, dans u n deuxime t e m p s ,
u n a u t r e couple de caractres et Y]'^ tels q u e
r{%\ soit m a x i m u m et tels q u e et (res-
p e c t i v e m e n t Tf)^ et T)^) aient u n e corrlation n u l l e
et a i n s i de s u i t e , et Y)*, etc.
L e p r o b l m e de l ' a n a l y s e c a n o n i q u e p e u t tre
rapproch de celui de l a rgression m u l t i p l e . S u p -
posons que nous cherchions prvoir l a v a r i a b l e a;',
saut en l o n g u e u r , l ' a i d e des notes donnes p a r
le j u r y . D a n s ce cas l'espace W j n ' a p l u s q u ' u n e
seule d i m e n s i o n , t a n d i s q u e est inchang. O n
obtient le graphique suivant :

O n recherche le v e c t e u r de W g :
>) = 6 x y ^ - h . . . +&4y*
f a i s a n t u n angle m i n i m u m avec le caractre x ' .
C o m m e n o u s le v e r r o n s dans le p a r a g r a p h e s u i -
v a n t , r\t u n vecteur colinaire avec l a p r o j e c t i o n
o r t h o g o n a l e de x ' sur

IL F o r m u l a t i o n gomtrique
1. P r o j e c t i o n o r t h o g o n a l e siu* un sous-espace
vectoriel,
A ) Le problme de la rgression multiple, A v a n t de r-
soudre le problme de l'analyse canonique, il est ncessaire

67
d'effectuer quelques rappela sur la rgression multiple, et en
particidier sur la projection orthogonale d'un vecteur sur u n
sous-espace vectoriel.
Considrons le cas d'un caractre expliquer n y et de
p caractres explicatifs x^, . . x ' , . . x V .
Nous supposons que ces p + 1 caractres sont observs
sur le mme ensemble de n individus, chaque individu tant
muai du poids pi > 0 avec : S p f = 1.
Il s'agit de trouver une combinaison linaire des p caractres
explicatifs
= C i X l + . . . + f l j X ' + ... + O p X P

telle que C soit le plus proche possible de y au sens de la distance


dans l'espace des caractres (critre des moindres carrs).
Nous allons maintenant prsenter gomtriquement le pro-
blme de la rgression multiple.
Chacun des p + 1 caractres peut tre reprsent par un
vecteur de R " :
/4\

yi eR" et x = eR j = h

O n suppose que ces p + 1 caractres sont centrs :

J^P4yi = o ^ipi*/ = o j = l p

Nous considrons le sous-espace vectoriel W de R " engendr


par les combinaisons linaires des caractres z' :
i E e W o = a i X ^ + ... -h ajxJ + ... -\- apxP

Nous supposons par la smte que la dimension de W est


gale p, ce qui revient dire que les p caractres x' forment
line base de W , ou encore que le rang de la matrice :
l...x{...xf

... xi .. . x;
... xi, ... xt

est gal p.

68
E n notation abrge, on pose :
W = {eR''/ = X,ii6RP}

Comme en analyse en composantes principales, nous sup-


posons que l'espace des caractres est muni d u produit sca-
laire associ la matrice diagonale des poids :

O \
D = Pi
o

Sur l'espace des caractres centrs, on a v u que le produit


scalaire et la covariance sont identiques :

de mme la norme et la variance :

it'ii'=*;
L a distance entre deux caractres est donne par :
d\xKx^)= ||x'-~x*)|'
= ((xi 1 * ) D(x' x " ' )

Dans l'espace des caractres on peut scbmatiqnement re-


prsenter W C R " et y e R " par l a figure suivante :

y e R " est donn, on cherche e W tel que la distance


entre y et ( soit minimum, le critre des moindres carrs
peut donc s'crire :
min | | y - | l

69
Dans la suite, nous noterons f le point de W le plus pioche
de y : y est la projection orthogonale de y sur W .

B ) Recherche du projecteur orthogonal sur W . Nous appe-


lons projecteur orthogonal sur W l'application linaire de R "
dans faisant correspondre tout vecteur de R** sa pro-
jection orthogonale sur W .
Notons A la matrice de cette application :
y _> Ay = y
avec ' ( y y ) D y = 0 (orthogonalit).
Nous allons maintenant voir comment A peut tre construit
partir des vecteurs x^, . . . , x', . . . , xP, base de W .
Tout vecteur G W peut s'crire sous la forme : = X a ,
en particulier y G W , pour lequel nous posons : y = X a .
yy doit tre orthogonal tout vecteur de W , donc,
en particulier, aux vecteurs de base. O n a par consquent
p quations : 'x' D(y y ) = 0, j = l, .. .,p ou encore,
puisque y = X 3 , j = 1, . . . , p i
WDy ='x'DX, j = l,2, ...,p

Ces p quations s'crivent sous la forme d'une seule qua-


tion matricielle :
'XDXS ='XDy

Puisque rang ( X ) = p, la matrice ' X D X est inversible


et, par consquent :
3 = ('X D X ) - i ' X Dy

L e vecteur a contient donc les p coefficients de la combi-


naison linaire y = , x^ + . . . + Sj x^ + . . . + O p xP G W
la plus proche de y.
De l'expression de a , on dduit l'expression de y = X :
? = X('XDX)-i'XDy

L a matrice X ( ' X D X ) ~ ^ ' X D fait donc correspondre y sa


projection orthogonale sur W . O n eu dduit l'expression de A t
A = X('X D X ) - i ' X D

C ) Recherche de la droite de ^faisant un angle minimum.


Nous allons maintenant montrer que y est un vecteur de W
faisant un ongle minimum avec y.
E n effet, || y ||_^ = [| y y]|" + !| y || d'aprs^Pythagore.
Minimiser || y y ||' revient donc maximiser || y ||' puisque
l l y l l ' = constante.

70
y est donc le vecteur de W maximisant

et, par consquent, faisant l'angle minimum avec y.


Remarquons enfin que, puisque nous avons considr que
les vecteurs y et x', jf = I , tP, taient centrs, le cosinus
entre y et y" peut s'interprter comme le coefficient de cor-
rlation entre les caractres y et y .

2. R e c h e r c h e des caractres canoniques.


A ) Prsentation gomtrique. Revenons m a i n -
t e n a n t au problme de l ' a n a l y s e c a n o n i q u e . N o u s
disposons m a i n t e n a n t de d e u x ensembles de carac-
tres x^. et
D e m m e q u ' e n rgression m u l t i p l e , nous s u p -
posons que ces p + 9 caractres sont observs s u r
le m m e ensemble de n i n d i v i d u s m u n i s de poids
n
P( > 0 , i = 1, . . n avec pi= ^^
1-1
N o u s supposons galement que les p -\- q carac-
tres sont centrs.
C h a c u n des p -\- q caractres p e u t tre reprsent
p a r u n v e c t e u r de R" :

71
A u x v e c t e u r s x^ et nous associons r e s p e c t i -
v e m e n t les sous-espaces v e c t o r i e l s de R " et W j :

Wi^CeR-'/-Xa^aeR"}
W 2 = {)GRVl = Yb, bGR=}

o X p e t Yg s o n t les m a t r i c e s c o n t e n a n t r e s p e c t i -
v e m e n t e n colonnes les v e c t e u r s x^, y = 1 , . .
et y*, k= 1, ...,q.
Les v e c t e u r s x^ (et y*) tant centrs, les sous-
espaces v e c t o r i e l s (et Wg) c o n t i e n n e n t des vec-
t e u r s centrs, c o m b i n a i s o n s linaires de v e c t e u r s
centrs.
L encore, nous supposons q u e les (les y*)
f o r m e n t u n e base de W j (de W j ) et donc q u e :

d i m ( W i ) = p, d i m (W^) = q

r a n g ( X ) = p, rang (Y) =q

G o m t r i q u e m e n t , le problme de l ' a n a l y s e c a n o -
n i q u e p e u t tre formul de l a faon s u i v a n t e :
I l s'agit de t r o u v e r e et yj e W g t e l q u e :

cosMv), %)=r%%. ri)

soit m a x i m u m .

Remarque : O n n ' a pas suppos q u e les carac-


tres X * e t y* taient rduits. E n effet, et Wa
s o n t i n v a r i a n t s l o r s q u e les v e c t e u r s de base s o n t
multiplis p a r u n scalaire e t , p a r c o n s q u e n t ,
cos^ (Y), ) ne dpend pas de l a n o r m e des v e c t e u r s
de base. O n p o u r r a p a r consquent considrer des
v e c t e u r s centrs o u centrs rduits, l ' a n g l e e n t r e
X a e t 1] = Y b sera le m m e . E n p r a t i q u e ,
o n effectue gnralement les calculs sur des carac-
tres centrs e t rduits.

72
B ) Recherche des caractres canoniques. S u p p o -
sons q u e les caractres et YJ^ soient s o l u t i o n d u
problme.

P u i s q u e T a n g l e e n t r e e t ) ne dpend pas de
l e u r n o r m e , o n suppose q u e = j T)|| = 1 .
V)^ d o i t tre colinaire avec l a p r o j e c t i o n o r t h o -
gonale de sur W g q u i est le v e c t e u r de
f a i s a n t u n angle m i n i m u m avec j^ d'aprs l e p a r a -
graphe I l . 1 .C.
Cette c o n d i t i o n s'crit :

o Tj = cos (^, T)^) e t o A g est l'oprateur de


projection orthogonale sur W g .
O n a de m m e :
A, V = ri^

O n dduit de ces d e u x quations le systme :


A, A, ^ = X i
Aa A j Yji = X l Y)i

o Xl = r? = cos" ( ^ V ) .
O n en dduit q u e et Y)^ sont r e s p e c t i v e m e n t
v e c t e u r s p r o p r e s des oprateurs A ^ A 2 e t A g A ^ as-

73
socie l a m m e p l u s g r a n d e v a l e u r p r o p r e X^,
gale l e u r cosinus carr ( l e u r corrlation carre).
Les caractres et Y)^ se dduisent l ' u n de
l ' a u t r e p a r u n e s i m p l e a p p l i c a t i o n linaire :

Les caractres canoniques s u i v a n t s s o n t les vec-


t e u r s p r o p r e s de A j (resp. Ag A j ) associs a u x
v a l e u r s p r o p r e s ranges en o r d r e dcroissant. O n
p e u t en effet m o n t r e r que les v e c t e u r s p r o p r e s
de A J Aa s o n t o r t h o g o n a u x p o u r D et q u e , p a r
c o n s q u e n t , cos^ (', ^) = cos^ (t)*, if)^) = 0 l o r s q u e
i ^ j . A chaque t a p e , o n c h o i s i t le c o u p l e de
caractres c a n o n i q u e s %\ associ l a p l u s g r a n d e
valeur propre n o n encore slectionne.
O n r e m a r q u e q u e le n o m b r e m a x i m u m de carac-
tres c a n o n i q u e s est gal m i n {p, q). E n effet, en
s u p p o s a n t q u e p < q* les *, i = 1 , . . . , p , f o r -
m e n t u n e base de W j et i l n'est pas possible d ' o b -
t e n i r d ' a u t r e s v e c t e u r s a p p a r t e n a n t W j et o r t h o -
g o n a u x a u x *.

C) Recherche des facteurs canoniques. N o u s a v o n s


v u q u e , p u i s q u e e "W^, p e u t s'crire c o m m e u n e
c o m b i n a i s o n linaire des caractres x^, . . . , x " :

- a i x l 4- . . . + a , x^ + . .. + p

o u encore, en p o s a n t 'a = {a^, . . . , a^) :


Xa

De mme ir) = Yb

74
L e s facteurs canoniques a et b peuvent tre calculs
directement.
E n posant :
Ai = X ( ' X D X ) ~ ' X D

Aa = Y ( ' Y DY)-i'YD

et en remplaant dans les quations donnant l{ et n l vient :


X ( ' X DX)- ' X DY('Y D Y ) - i ' Y D X a = XXa
Y C Y D Y ) ~ i 'Y D X ( ' X D X ) - i ' X DYb = XYb

posons :
Vil = ' X D X
V = 'YDY
V = ' X D Y = 'V

Nous avons dj v u que V u tait identique l a matrice


de veriance-covariance des caractres z', de mme V22 est
la matrice de variance-covariance des y*. E n f i n V u contient
les covariancea entre les x' et les y''.
Les quations prcdentes se simplifient :
X V r i ^ V u V n ^ V a = XXa
Y V r , ^ V , i V i V i , b = XYb

Puisque les applications X et Y sont respectivement de


rang p et q, on peut simplifier les quations prcdentes qui
deviennent :
Vri^ViaVr,^V,ia = X.
., v r ^ v , i V r i ^ V i , b = xb

Nous avons ainsi une manire de calculer les facteurs cano-


niques comme vecteurs propres de produits de matrices de
covariance (1).
L e s conditions de normalisation || C i l ' !|>)|1'= 1 de*
viennent :
' D = ' X D X a -= 'Vu a = 1

'n D n = 'b 'Y D Y b = 'hV b = 1

(1) E n pratique on utilisera les matrices de corrlation la place


des matrices de covariance, ce qui ne modifie pas les rsultats.

75
E n f i n a et b se dduisent Tun de l'autre par transformation

linaire: n = ^ A a devient Y b = ~ Y { ' Y D Y ) - i ' Y D X a

et en simplifiant :

b = 4r'^'V,i

de mme :

1
= -^vri^vb

On recherchera d'abord a si p < q pour travailler sur la


matrice de plus faible taille, et on en dduira ensuite b.

III. L e s rsultats et leur interprtation

E n i n t r o d u c t i o n , n o u s a v o n s soulign les d i f f i -
cults rencontres dans l ' u t i l i s a t i o n de l ' a n a l y s e
c a n o n i q u e . T o u t e f o i s , sur l ' e x e m p l e des s a u t e u r s de
T h o m a s , nous a l l o n s t e n t e r d'interprter les rsul-
tats o b t e n u s .
Les caractristiques des caractres tudis taient
les s u i v a n t e s :
iVfoyenne Ecart typt

TAIL 178 6,1


POID 72,5 7,6
Premier DTH 261 15,7
groupe DTV 65,5 5,1
FJAM 109 17,8
VIT 33,5 1.3
SAUL 583 39,1
3SAU 11,4 0,9

NSAU 10,1 1.8


Deuxime N E L A 9,9 1.8
groupe NIMP 10,1 1.1
NSUR 10 1.7

76
Matrice des corrlations du groupe 1 = V,i
TAIL POID DTH DTV FJAM VIT SAUL 3SAU

lAlL 1,00
pOlD 0,77 1,00
l>TiI 0,51 0.27 1,00
I)TV 0,16 0,04 0,62 1.00
I JAM 0,47 0,74 0.36 0.23 1,00
VIT 0,23 -0,09 0,43 0,33 0,05 1,00
SAUL 0.29 0.05 0,59 0,39 0,06 0,63 1.00
:!SAU 0,31 -0,02 0.64 0,47 0,05 0,54 0,67

Matrice des corrlations du groupe 4 Vj

NSAU NELA NIMP NSUR

NSAU 1,00
NELA 0,83 1,00
NIMP 0,80 0.79 1,00
NSUR 0,82 0,69 0,77 1,00

Matrice des corrlations du groupe 1 avec le groupe 2 = y


NSAU NELA NIMP NSUR

TAIL 0,03 0,08 0.05 0,05


POID 0,19 0,20 0.10 0,18
DTH 0,31 0.38 0,42 0,18
DTV 0,23 0,24 0.26 0,06
FJAM 0.09 0,07 0.03 0,11
VIT 0,53 0,58 0,57 0,41
SAUL 0,75 0,71 0,68 0,61
3SAU 0,58 0.50 0,63 0,43

O n remarque que les caractres S A U L et 3 S A U


sont bien corrles entre eux et a u x diffrentes notes
d u j u r y . A p a r t cela, T e x a m e n des corrlations
nous apporte p e u de renseignements. O n calcule
ensuite les facteurs canoniques. D a n s cet exemple,
on a a u plus quatre couples de facteurs associs
une valeur propre positive.

77
Les corrlations canoniques sont reportes dans
le t a b l e a u s u i v a n t .

Valeur propre Corrlation canonique

1 0,707 0.841
2 0,309 0,556
3 0.177 0.421
4 0.060 0.246

N o u s n ' a v o n s pas r e p r o d u i t les coefficients des


f a c t e u r s c a n o n i q u e s , d o n t l'interprtation est d i f f i -
cile c o m p t e t e n u des diffrences d'chelle de m e s u r e
e n t r e caractres.
P a r c o n t r e les corrlations e n t r e caractres i n i -
t i a u x e t caractres c a n o n i q u e s s o n t p l u s aisment
interprtables. Celles-ci sont r e p r o d u i t e s d a n s le
tableau suivant.

Variables canoniques du groupe 1

V- 5' i'

TAIL 0,073 0,025 0,355 0,330


POID 0,208 0.290 0,181 0,081
DTH 0,468 0,197 0,666 0,117
DTV 0.324 0.183 0,464 0,648
FJAM 0,061 0,328 0,354 0,014
VIT 0,705 0,012 0,404 0,106
SAUL o,m 0,066 0,013 0,094
3SAU 0,741 0,436 0,169 0,293

NSAU 0,809 0,027 0,102 0,029


NELA 0.768 0,177 0.091 0,033
NIMP 0,762 0,174 0,052 0,063
NSUR 0.667 0,013 0,184 0,104

78
Variablei canoniques i^u groupe 2

yf

NSAU 0,962 0.049 0.243 0,117


NELA 0,913 0,318 0,217 0,135
NIMP 0,906 0,313 0,124 0,256
NSUR 0,793 0,023 0,437 0,423

TAIL 0,061 0.014 0,149 0,081


POID 0,175 0.161 0.076 0.020
DTH 0,394 0,109 0,280 0,029
DTV 0,273 0,101 0,195 0,159
FJAM 0,051 0.182 0,149 0,003
VIT 0,593 0,006 0.170 0,026
SAUL 0,772 0,036 0.005 0,023
3SAU 0,623 0,242 0.071 0.072

O n c o n s t a t e que est f o r t e m e n t corrl a u x


v a r i a b l e s de p e r f o r m a n c e , S A U L et 3 S A U , t a n d i s
que Tf)i est corrl a u x q u a t r e notes d u j u r y . D a n s
une m o i n d r e mesure, semble corrl F J A M
e t 3 S A U , t a n d i s que if)'^ est corrl N E L A e t
NIMP.

y/ 1 /

r
79
C o m p t e t e n u de l a faiblesse des corrlations o n
ne r e t i e n d r a c e t t e interprtation q u ' a v e c p r u d e n c e ,
de p l u s l ' e x a m e n de V j g ne semble pas l a c o n f i r m e r
de faon v i d e n t e .
L ' e n s e m b l e des caractres i n i t i a u x p e u t tre r e -
prsent sur les p l a n s des d e u x caractres et
(ou H j l , 7 ) 2 ) . ^ , t
L a c o o r d o n n e d ' u n caractre n o r m e x^ ( o u y')
est d o n n e p a r le cosinus e n t r e x^ et "- o u ^.
On obtient le graphique suivant :

A p a r t les liaisons e n t r e les p e r f o r m a n c e s ( S A U L ,


3 S A U ) et les notes q u i a p p a r a i s s e n t n e t t e m e n t sur
le p r e m i e r caractre c a n o n i q u e , a u c u n e a u t r e l i a i s o n
n'apparat n e t t e m e n t . L a vitesse semble s'opposer

80
a u x p e r f o r m a n c e s et a u x n o t e s , le t r i p l e saut
semble p l u s li l a n o t e d ' i m p u l s i o n q u ' l a n o t e
d'lan. Ces quelques rsultats a u r a i e n t p u tre
o b t e n u s en e x a m i n a n t de p l u s prs les corrlations
e n t r e caractres.

I V . Conclusion

L'intrt de l ' a n a l y s e c a n o n i q u e rside essen-


t i e l l e m e n t dans ses aspects m t h o d o l o g i q u e s . N o u s
avons v u q u e la rgression m u l t i p l e p o u v a i t tre
considre c o m m e u n cas p a r t i c u l i e r . P a r l a s u i t e ,
nous v e r r o n s q u ' i l en est de m m e p o u r l ' a n a l y s e
des correspondances et l ' a n a l y s e f a c t o r i e l l e d i s c r i -
minante.
D e p l u s , J . D . CarroU ( I ) a p r o p o s u n e gn-
r a l i s a t i o n de l ' a n a l y s e c a n o n i q u e l ' a n a l y s e de
p l u s de d e u x groupes de v a r i a b l e s .
L e p r i n c i p e de c e t t e gnralisation est s i m p l e .
O n dispose de m ensembles de caractres n u m -
r i q u e s centrs reprsents p a r les t a b l e a u x X ] ,
Xg, Xj, X,, s o i t le p o t e n t i e l de
prvision associ X j . O n recherche u n n o u v e a u
caractre z G R " m a x i m i s a n t la s o m m e des cor-
rlations :
m
S c o r M x , %d
(-1

o ,eW,.
O n m o n t r e aisment que z est s o l u t i o n de
m
( 2 A J Z = ti z
i-l

(1) J . D. CARROLL, a genFraiisalion of canonical corrlation ana


K sia to three or more sels of variables, 76th
syctiologcal Association, 1968.
Convention American

81
D a n s le cas o m = 2 , o n o b t i e n t le s c h m a
s u i v a n t a u carr :

z est colinaire l a bissectrice d e e t 7)^.


L ' a n a l y s e c a n o n i q u e gnralise prsente trois
cas p a r t i c u l i e r s intressant :
l ' a n a l y s e c a n o n i q u e s i m p l e dans le cas o m = 2 ;
l ' a n a l y s e e n composantes p r i n c i p a l e s dans le cas
o i l n ' y a q u ' u n seul caractre p a r g r o u p e ;
l ' a n a l y s e des correspondances m u l t i p l e s dans le
cas o les t a b l e a u x s o n t des t a b l e a u x de
variables indicatrices (1).

(1) Ces rsultats ont t exposs dans la thse de G . S A P O R T A


(1975) portant sur l'tude des Liaisons entre plasirurtt ensemblfs
de variables et codage dts donnes qucditatives.

62
CHAPITRE V

L'ANALYSE FACTORIELLE
DES CORRESPONDANCES

Propose dans les annes 60 p a r J . - P . Benzcri


p o u r l'tude des t a b l e a u x de c o n t i n g e n c e (croise-
m e n t de d e u x caractres n o m i n a u x ) , l ' a n a l y s e des
correspondances a t tendue p a r l a suite a u cas
d ' u n n o m b r e q u e l c o n q u e de caractres. P a r ses
proprits mathmatiques et l a richesse de ses
interprtations, l ' a n a l y s e des correspondances est
devenue l a m t h o d e privilgie de d e s c r i p t i o n des
donnes q u a h t a t i v e s . E l l e c o n s t i t u e en p a r t i c u l i e r
u n des o u t i l s les p l u s p u i s s a n t s p o u r le dpouille-
m e n t des enqutes.
N o u s tudierons d ' a b o r d l ' a n a l y s e des t a b l e a u x
de c o n t i n g e n c e a v a n t d ' a b o r d e r l ' a n a l y s e des cor-
respondances m u l t i p l e s .

I . Prsentation de a mthode

C o m m e nous l ' a v o n s v u a u c h a p i t r e p r e m i e r , u n
t a b l e a u de c o n t i n g e n c e , o u t a b l e a u crois, est u n
t a b l e a u N d'effectifs n^j c o r r e s p o n d a n t l a v e n t i -
l a t i o n des i n d i v i d u s selon d e u x caractres q u a l i t a t i f s .
A i n s i le t a b l e a u s u i v a n t d o n n e l a rpartition
des n 202 100 baccalaurats dlivrs en 1976

83
s- r

g o fi i-l
c Ae i l
(93 S S cl g
NonAre de baccaaurate (197$)
ILDF Ile-de-France 9 724 5 650 8 679 9 432 839 3 353 5 355 83 43 l i s
CHAH Champagne-Ardennes 924 464 567 984 132 423 736 12 4 242
PICA Picardie 1 081 490 830 1 222 118 410 743 13 4 907
HNOR Hante-Noimandie 1 135 587 686 904 83 629 813 13 4 850
CENT Centre 1 482 667 1 020 I 535 173 629 989 26 6 521
BNOR Baue-Nonaandie 1 033 509 553 1 063 100 433 742 13 4446
BOUR BooTgonie 1 272 527 861 1 116 219 769 1 232 13 6 009
NOPC Nord - Pw^^e-Calais 2 549 1 141 2 164 2 752 587 I 660 1 951 41 12 845
LORR Lorraine 1 828 681 1 364 1 741 302 1 289 1 683 15 8 903
ALSA Alsace 1 076 443 880 1 121 145 917 1 091 15 5 688
FRAC Franche- Comt 827 333 481 892 137 451 618 18 3 757
PAYL Paya de U Loire 2 213 809 1 439 2 623 269 990 14
1 783 10 140
BRET Bretagne 2 158 1 271 1 633 2 352 350 950 1 509 22 10 245
PCHA Poiton-Charentes 1 358 503 639 1 377 164 495 959 10 5 505
AQUI Aquitaine 2 757 873 1466 2 296 215 789 1 459 17 9 872
MU)I Midi-Pyrnes 2 493 1 120 1 494 2 329 254 855 1 565 28 10 138
LIMO Limousin 551 297 386 663 67 334 378 12 2 688
RHOA Rhne-AJpet 3 951 2 127 3 218 4 743 545 2 072 3 018 36 19 170
AUVE Auvergne 1 066 579 724 1239 126 476 649 12 4 871
LARO Languedoc-RoussilloD 1 844 816 1 154 I 839 156 469 993 16 7 287
PROV Provence-Alpea-Cte d'Azur 3 944 1645 2 415 3 616 343 1 236 2 404 22 15 625
CORS Corse 327 31 85 178 9 27 79 0 736
Eiuemblfl 45 593 2156S 32 738 46 017 S339 19 656 30 749 451 202 lOO
KSBmmmmmmim
selon l a rgion (p = 22 modalits) et l a section
(g 8 modalits).
L e s d e u x caractres ne s o n t v i s i b l e m e n t pas i n d -
p e n d a n t s car o n s'aperoit aisment q u e l a rpar-
t i t i o n des baccalaurats selon l a section diffre n o -
t a b l e m e n t d ' u n e rgion l ' a u t r e . L e p r o b l m e est
alors d ' a n a l y s e r l a s t r u c t u r e de c e t t e d p e n d a n c e
et d ' e n f a i r e r e s s o r t i r les t r a i t s p r i n c i p a u x .
R e m a r q u o n s t o u t d ' a b o r d q u ' u n t a b l e a u de
c o n t i n g e n c e p e u t se l i r e de d e u x manires diff-
rentes : selon ses lignes o u selon ses colonnes. Cela
r p o n d d e u x proccupations diffrentes.
a) Si o n dsire s a v o i r p o u r c b a q u e rgion c o m -
m e n t se rpartissent les bacheliers selon les diff-
rentes sections o n c a l c u l e r a les p o u r c e n t a g e s en
l i g n e e n d i v i s a n t les effectifs n^j de l a l i g n e n ^ i
p a r le t o t a l n^, de l a l i g n e .
O n o b t i e n t ce q u ' o n a p p e l l e les p r o f i l s des l i g n e s .
L e p r o f i l de l a rgion L o r r a i n e est ainsi l e s u i v a n t ;
L O R R (en % ) A B C D E F G H
20,5 7,6 15,3 19,6 3,4 14,5 18,9 0,2

Ce p r o f i l est c o m p a r e r avec l a rpartition des


baccalaurats t o u t e s rgions confondues appel p r o -
fil m a r g i n a l .
Ensemble des r- A B C D E F G H
gons (en % ) 22,6 10,7 16,2 22,8 2,6 9,7 15,2 0,2

O n c o n s t a t e en L o r r a i n e u n e surreprsentation
des bacs t e c h n i q u e s E , F , G , et u n e sous-repr-
s e n t a t i o n des bacs classiques p a r r a p p o r t l a
moyenne nationale.
L e p r o f i l m a r g i n a l est aussi le p r o f i l m o y e n car
i l est l a m o y e n n e des p r o f i l s des lignes pondres
p a r l e p o i d s n^. de c h a q u e l i g n e .
6^ Si r c i p r o q u e m e n t o n v e u t s a v o i r de quelle
rgion p r o v i e n n e n t les bacheliers de chaque section

85
o n calculera les profils des colonnes en d i v i s a n t les
efiectifs fijj de l a colonne j p a r n,j t o t a l de l a
colonne.
A u s s i le p r o f i l d u b a c est d o n n dans l e t a b l e a u
s u i v a n t (eu % ) :

Bac Tous hacs Bac Tous bacs


A confondus A confondus

ILDF 21,3 21,3 PAYL 4,9 5


CHAM 2 2,1 BRET 4,7 5,1
PICA 2,4 2,4 PCHA 3 2,7
HNOR 2,5 2,4 AQUI 6 4,9
CENT 3,3 3,2 MIDI 5.5 5
BNOR 2,3 2,2 LIMO 1,2 1,3
BOUR 2,8 3 RHOA 8,7 9,8
NOPC 5,6 6,4 AUVE 2,3 2,4
LORR 4 4,4 LARO 4 3,6
ALSA 2,4 2,8 PROV 8.7 7.7
FRAC 1,8 1.9 CORS 0.7 0,4

Ce p r o f i l d o i t tre c o m p a r a u p r o f i l m a r g i n a l
des 22 rgions, t o u s baccalaurats c o n f o n d u s , q u i
mesure l a p a r t p r i s e p a r cbaque rgion dans l a
<( p r o d u c t i o n n a t i o n a l e de bacheliers.
On constate ainsi q u ' i l p r o v i e n t nettement plus
de bacheliers de l a P r o v e n c e , d u L a n g u e d o c -
R o u s s i l l o n et d u Midi-Pyrnes q u e ne l ' e x p U q u e
l a seule i m p o r t a n c e numrique de ces rgions.

Si on appelle D^ et D , les matrices diagonales des effectifs


marginanx :

o o

D,= 1.

O O
le tableau renfermant hs p proflB des lignes est le produit
matriciel :

L e tableau des profils des colonnes est le produit matriciel ;

Deux approches sont alors concevables selon qu'on s'int-


resse aux lignes ou aux colonnes de N : si on s'intresse aux
lignes de N on peut considrer le tableau D r ' N des profils
de ligne comme u n tableau individus-caractres particulier
et effectuer une analyse en composantes principales. L e s
v individus de cette analyse sont les profils des lignes munis

des poids , ~ , . . . . ~ . L ' A C P revient alors tudier l a


n n n
dispersion du nuage des p profils dans R? autour de leur
centre de gravit qui n'est autre que le profil marginal

, I en d'autres termes on cherche a rendre


n n n /
compte de l'cartement entre les nijjni, et les n , j / n , ce qui
est une faon d'analyser l a dpendance entre les deux carac-
tres qualitatifs.
Inversement, si on s'intresse aux colonnes de N , c'est le
tableau N D ^ ^ ou plutt son transpos D ^ ^ ' N qui jouera
le rle de tableau individus -caractres : on tudie alors
la configuration des g profils des colonnes dans W.

C e p e n d a n t , p o u r effectuer l ' u n e o u l ' a u t r e de ces


d e u x A C P , i l f a u t cboisir une mtrique p o u r calcider
les d i s t a n c e s e n t r e p r o f i l s et ce c h o i x ( l a m t r i q u e
d u y^) p e u t ne pas apparatre n a t u r e l d ' e m b l e .
D e p l u s , en n e considrant q u e les p r o f i l s o n p e r d
de v u e les donnes de base q u i s o n t les n i n d i v i d u s
dcrits p a r d e u x caractres q u a l i t a t i f s . C'est p o u r
ces r a i s o n s q u e n o u s prfrons l ' a p p r o c h e s u i v a n t e
u t i l i s a n t l a m i s e sous f o r m e d i s j o n c t i v e des d o n n e s
q u i , de p l u s , se gnralise aisment p o u r p l u s de
d e u x caractres.

87
Rappelons qae cette opration consiste clater chaqm
caractre qualitatif en autant de caractres numriques (pnii
nant uniquement les valeurs 1 et 0) qu'il y a de modalits,
Ainsi dans notre exemple le caractre rgion est reprsenta
par un tableau n lignes et 22 colonnes et le caract:
a section par un tableau n lignes et 8 colonnes
Rgion Section
1 2 ... 22 1 2 ... 8

0 1 0 0...0 x , = 1 0 0 0

L ' i n d i v i d u i est u n bachelier A de la rgion Champagne-


Ardennes. Que le lecteur se rassure : i l n'est videmment
pas question de manipuler rellement les tableaux X ^ et X ^
qui ont ici 202 100 lignes ! L e seul tableau que l'on manipule
est en fait le tableau de contingence N qui est li aux ta
bleaux X | et X , par la formule :
N = *XiX,.
L a mise sous forme disjonctive des donnes n*est qu*unt
prsentation mathmatique commode dont l'intrt est le
suivant : on voit que l'tude de la liaison entre deux caractres
qualitatifs n'est autre que l'tude des dpendances entre deux
groupes de caractres numriques trs particuliers : les ndi
catrices des modalits de chaque caractre qualitatif. Or l'ana-
lyse canonique tudie au chapitre prcdent est prcisment:
la mthode d'analyse des liaisons entre deux groupes dej
caractres numriques.

L ' a n a l y s e f a c t o r i e l l e des c o r r e s p o n d a n c e s consis-


t e r a d o n c dans l ' a p p l i c a t i o n de l ' a n a l y s e canonique
a u cas p a r t i c u l i e r de d e u x t a b l e a u x d i s j o n c t i f s .

II. Proprits mathmatiques

1 . A n a l y s e canonique des deux tableaux d'indica-


trices X j et X g . O n s a i t q u e l ' a n a l y s e c a n o n i q u e ]
r e v i e n t c h e r c h e r les couples de caractres ca-

88
n o n i q u e s (, V)) les p l u s corrls possible. O n a
= X j a e t V] = X 2 b o a e t b s o n t les f a c t e u r s
canoniques.
E x a m i n o n s p o u r q u o i r e v i e n t c e t t e opration
l o r s q u e X j est u n t a b l e a u d ' i n d i c a t r i c e s e t p r e n o n s
p o u r xer les ides le t a b l e a u s u i v a n t 6 l i g n e s
e t 3 colonnes :

100
010
a =
010
001 0
Vooi;

l e caractre est a l o r s \m caractre numrique pos-


sdant les proprits s u i v a n t e s : i l n*a q u e t r o i s
valeurs distinctes O j , o u a, e t d e u x i n d i v i d u s
a y a n t l a m m e modalit p r e n n e n t sur l a m m e
v a l e u r n u m r i q u e . L e caractre % ralise d o n c l a
t r a n s f o r m a t i o n d u caractre q u a l i t a t i f en u n carac-
tre numrique ; o n a effectu a i n s i u n e quantifi-
cation ( c e r t a i n s a u t e u r s p a r l e n t aussi de codage )
d u caractre q u a l i t a t i f i n i t i a l .
E f f e c t u e r l ' a n a l y s e f a c t o r i e l l e des correspondances
de N o u l ' a n a l y s e c a n o n i q u e de X ^ e t X 2 r e v i e n t
d o n c chercher l a q u a n t i f i c a t i o n o p t i m a l e des d e u x
caractres q u a l i t a t i f s en ce sens q u e e t V) s o n t
les p l u s corrls possible ( l a prvision de l ' u n p a r
l ' a u t r e est a l o r s l a m e i l l e u r e p o s s i b l e ) .
E n analyse canonique n o r m a l e o n t r a v a i l l e sur
des t a b l e a u x X j et X g de caractres centrs : i c i
c e p e n d a n t les v a l e u r s 0 e t 1 sigifiant prsence o u
absence d ' u n e m o d a l i t , e n f a i r e l a m o y e n n e n ' a
gure de sens. O n t r a v a i l l e r a s u r les t a b l e a u x d'n-

89
dicatrices et X 2 n o n centres, ce q u i n e p r -
sente a u c u n i n c o n v n i e n t m a t h m a t i q u e b i e n a u
c o n t r a i r e : en effet a s o m m e des i n d i c a t r i c e s d ' u n
m m e caractre v a u t t o u j o u r s 1 ( u n e m o d a l i t et
u n e seule est p r i s e p a r u n i n d i v i d u ) , l a s o m m e des
v e c t e u r s colonnes de X^^ est alors gale l a s o m m e
des v e c t e u r s colonnes de X g : c'est le v e c t e u r 1 d o n t
t o u t e s les c o m p o s a n t e s s o n t gales 1 .

Lea espaces et W3 ont donc en commun le vecteur 1


qui apparatra automatiquement comme premire solution,
dite n triviale , de l'analyse canonique avec l a valeur propre
= 1 o = T, = 1.
Si p < q il y a (p 1) couples de caractres canoniques non
triviaux (g 1 si p > g) (, n ' ) ; ( 5 ^ n''); . . . ; ( P " ' ; r,v-^)
qui sont orthogonaux rfl = 1 ; tre orthogonal 1
signifie alors que les G* et les n* ont une moyenne nulle :
ce sont donc des caractres centrs ; il n'tait donc pas nces-
saire de centrer les tableaux et X j .
Les facteius canoniques a sont solution de l'quation :

o Vij- = ' X ; DXj-

E n analyse des correspondances on supposera que les poids

des n individus sont tous gaux 1/n, donc D = - L


n
On voit alors que V j j = - ' X , X j ; V , j est donc gal au
" - 1
tableau de contingence normalis - N .
n
Gomme on le constate aisment, Y^^ et V32 ne sont autres
que les matrices diagonales des profils marginaux V i , = - D , .
n
L a matrice Vj^-^Vij n'est autre alors que le tableau des
profils des lignes D i " ^ N , L a matrice Vfj^ V j , est la transpose
du tableau des profils des colonnes ' ( N ^)
On trouve de mme les facteurs canoniques b en cherchant
les vecteurs propres de V ^ / V j i V^ V^a = D f ^ ' N D f ^ N

Les facteurs de Vanalyse des correspondances sont


donc les vecteurs propres du produit des deux tableaux
de profils.

90
E n t r e les f a c t e u r s b et les f a c t e u r s a existe l a
relation :

h 1 - V - l V

soit I C I :

b=4=I>r^'Na et a=4=I>r^Nb
V A ^/k

Ces f o r m u l e s s o n t appeles f o r m u l e s de t r a n -
s i t i o n . Sous f o r m e d v e l o p p e o n t r o u v e :

6j S i et a,= ~-Y,fbi

D a n s n o t r e e x e m p l e , c o m m e q = 8 et p = 22
o n c b e r c h e r a d ' a b o r d les f a c t e u r s b et o n en dduira
ensuite les f a c t e u r s a p a r l a f o r m u l e de t r a n s i t i o n .
L a s o m m e des v a l e u r s p r o p r e s possde alors u n e
proprit intressante :
+ Xl + X2 + ...

= Trace D r ' N D^^ ' N = 2 2 ^ n.j

Puisque XQ = 1 o n t r o u v e f a c i l e m e n t que :

Xl + Xa - f . . . - S 2 ^ ' - ^ - ^ = ^-

ce q u i n ' e s t a u t r e q u e l a mesure de d p e n d a n c e
d u X* e n t r e d e u x caractres q u a l i t a t i f s divise
par n (voir chapitre premier).
Les v a l e u r s p r o p r e s Xj tant les carrs des coeffi-
cients de corrlation c a n o n i q u e , les caractres ca-

91
n o n i q u e s s o n t alors les couples de caractres n u m -
r i q u e s e x p l i q u a n t p a r o r d r e dcroissant l a d p e n -
dance e n t r e les d e u x caractres q u a l i t a t i f s d u
t a b l e a u de c o n t i n g e n c e .

2. Analyses e n composantes principales des t a -


bleaux de profls. Considrons le t a b l e a u des
p r o f i l s des l i g n e s , s o i t sur n o t r e e x e m p l e celui des
pourcentages des diffrentes sections d u b a c c a l a u -
rat p o u r c b a q u e rgion : n o u s avons u n t a b l e a u
de 22 o b j e t s (les rgions) dcrits p a r 8 caractres
(les p o u r c e n t a g e s de c h a q u e s e c t i o n ) . P o u r effectuer
u n e ACP s u r ce t a b l e a u i l f a u t dfinir u n e f o r m u l e
de d i s t a n c e e n t r e o b j e t s , e n d ' a u t r e s t e r m e s i m e
mtrique.

A ) La mtrique du y^. Cherchons p a r e x e m p l e


l a d i s t a n c e e n t r e l a rgion L o r r a i n e ( L O R R ) e t l a
rgion I l e - d e - F r a n c e ( I L D F ) d o n t le p r o f i l est :
I L D F (en % ) A B C D E F G H
22,6 13,1 20,1 21,9 1,9 7,8 12,4 0,2

E n a d o p t a n t l a mtrique e u c l i d i e n n e usuelle o n
risque de f a v o r i s e r les diffrences e n t r e les sections
f o r t e f f e c t i f o des v a r i a t i o n s f o r t e s s o n t fr-
q u e n t e s e t de nghger les sections f a i b l e e f f e c t i f
telles E e t H o o n n ' o b s e r v e q u e de f a i b l e s v a r i a -
t i o n s d ' u n e rgion l ' a u t r e .
Si o n v e u t viter ce p h n o m n e i l f a u t pondrer
c h a q u e caractre en t e n a n t c o m p t e de son i m p o r -
t a n c e sur l ' e n s e m b l e des rgions.
O n appelle mtrique d u p o u r les l i g n e s l a
mtrique diagonale

M,

92
dfinie p a r l ' i n v e r s e d u p r o f i l m a r g i n a l des colonnes
de N .
On pondre chaque a caractre p a r l'inverse de son i m p o r -
tance sur l'ensemble des i n d i v i d u s :

;.,.)= S - ^ ( ^ - ^ ) '
'^^ " j_in.j\ni. nkJ
ainsi d J . ( L O R R ; I L D F ) = 13,0 (1).
L a distance d u entre lignes possde entre autres p r o -
prits celle de ne pas tre modifie si on regroupe deux
colonnes a y a n t mme p r o f i l .
On peut de l a mme manire dfinir l a distance d u
entre les p r o f i l s des colonnes, p a r = n Dj" ^

B ) ACP des nuages des profils. Appliquons au


t a b l e a u des p r o f i l s des lignes le rsultat d u c h a -
p i t r e I I les facteurs principaux sont les vecteurs
propres de MV . L a mtrique M est i c i n D ^ * ,
l a m a t r i c e V est gale ' X D X (2) oi i c i X est
le t a b l e a u des p r o f i l s D ^ ^ N et D l a m a t r i c e de
poids D ^ .
E n r empl aa nt o n t r o u v e q u e :
M V = D ^ ^ *N D 7 1 N

Les f a c t e u r s p r i n c i p a u x s o n t d o n c i d e n t i q u e s a u x
f a c t e u r s c a n o n i q u e s b.
Les composa nt es p r i n c i p a l e s c o u c o o r do nn e s des
profils-lignes s ' o b t i e n n e n t en prmultipliant b p a r l e
t a b l e a u de donnes ( c = X u ) , s o i t c = D ^ ^ N b ;
d'aprs les f o r m u l e s de t r a n s i t i o n c n ' e s t donc
a u t r e q u e le f a c t e u r c a n o n i q u e o u p r i n c i p a l a m u l -
tipli p a r y/'X.
O n s'aperoit alors q u e I ' A C P d u n u a g e des p r o f i l s

(1) On pourrait en utilisant les distances du ^* efTectuer une


classification automatique sur les lignes du tableau N , la mtrique
du x' tant euclidienne on utilisera alors la mthode des nues
dynamiques ou la mthode de Ward en classillcation ascendante.
(2) Pour des misons dj voques plus haut on fait une analyse
en composantes principales sur les donnes non eetUries.

93
des l i g n e s est quivalente I'ACP d u nuage des
p r o f i l s des colonnes : les f a c t e u r s p r i n c i p a u x d'une
a n a l y s e s o n t " v / x prs les c o m p o s a n t e s p r i n c i p a l e s
de l ' a u t r e e t les v a l e u r s p r o p r e s s o n t les mmes.
Il y a dualit e n t r e les d e u x a n a l y s e s .
L e s valeurs propres que nous avions interprtes comme
des carres de corrlation sont donc aussi des variances : leur
somme ( l a valeur triviale prs) est gale l'inertie totale
de chacun des nuages de profils.
On peut alors reconstituer le tableau de contingence
l'aide de l a formule :

o les et b'j sont les composantes des fc-imes facteurs


et b*.
L e s facteurs et les valeurs propres n expliquent n donc
en quoi les iiij s'cartent des n i . n . j / n , c'est--dire pourquoi
il n ' y a pas indpendance entre les deux caractres qualitatifs
de tableau N .

"2 0

Une valeur propre non triviale gale 1 indique que le


tableau de contingence peut se sparer en deux sous>tableaux
en rordonnant convenablement lea lignes et les colonnes de N .
U n tableau de contingence diagonal (dpendance totale)
ne fournirait que des valeurs propres gales I . Dans le
cas de l'indpendance entre les deux caractres, toutes les
valeurs propres >.j, X ^ . . . seraient rigoureusement nulles.

2. L e s reprsentations g r a p h i q u e s . Elles cons-


t i t u e n t les rsultats les p l u s s i g n i f i c a t i f s mais leur
d p o u i l l e m e n t n e p e u t se f a i r e sans p r c a u t i o n et

94
i l c o n v i e n t a v a n t t o u t de b i e n c o m p r e n d r e l e u r
m o d e de c o n s t r u c t i o n , d ' a u t a n t que diverses c o n v e n -
t i o n s s o n t possibles.

A ) Optique analyse canonique. L a premire ide qui vient


l'esprit consiste projeter les indicatrices des modalits
des deux caractres sur le plan (', ^) ou le plan (n^, rj*)
afin d'obtenir une figure comparable un cercle des corr-
lations. Mais ici les indicatrices n'tant ni centres, ni rduites,
cette opration est dnue de sens. L a solution retenue est
en fait la suivante : la modalit i du premier caractre est
possde par n^, individus ayant des valeurs diffrentes de '
et ; on convient alors de reprsenter la modalit i par le
centre de gravit de ces individus. On montre alors facilement
que les coordonnes du point reprsentatif de la modalit i
sont a\, a^, . . ., . . . P a r contre, pour le deuxime caractre
qualitatif, les coordonnes d u point reprsentatif de la moda-
lit j sont : " X / ^ i ^ j ' A / ^ S ^ j ' "S/^k bj-
Sur le plan associ et %^ on obtiendra une figure d u type :

^2 bJ

y/X,b] a]

D'aprs les foi-mules de transition on note que :

L e point reprsentatif de la modalit j est donc barycentre


des points reprsentatifs des modalits du premier caractre.
Si on utilise les caractres (rj', r,^) la place de (*, ^)
on aura une autre figure o la modalit i sera reprsente
par le point {'\/\, -^^2 *4) modalit j par (bj , bj).
Ce sont alors les i qui sont les barycentres des y.

95
B ) Optique ACP. S i on conaidre lea profila des lignes
comme dea individus ( 1 " A C P ) i l est naturel de repraenter
les modalita d u premier caractre par les coordonnes de
ces profils sur les axes principaux. O r , les composantes prin-
cipales s'obtiennent en multipliant les facteurs canoniques
par : les modalita d u premier caractre sont alora ds-
poaea aelon la mme figiu'e qu'avec la reprsentation au
moyen des caractres canoniques n''. (On peut alors repr-
senter les modalits du deuxime caractre en lments sup-
plmentaires comme centres de gravit des individus les
possdant.)
Inversement l a deuxime A C P sur les profils des colonnes
conduit reprsenter lea modalita du deuxime caractre
qualitatif selon la figure obtenue avec les k''. O n obtient alors
deux reprsentations spares dea modalits de chaque
caractre.

G) La reprsentation simultane usuelle, E l l e


consiste reprsenter les modalits i d u p r e m i e r
caractre p a r les p o i n t s de c o o r do nn e s V^Xt et
les modalits j d u d e u x i m e caractre p a r les p o i n t s
de coordonnes "y/^f^ ceci r e v i e n t superposer
les g r a p h i q u e s des d e u x A C P , opration d o n t l a j u s -
t i f i c a t i o n m a t h m a t i q u e est dlicate dans le c a d r e
de I ' A C P p u i s q u ' o n mlange sur u n m m e g r a p h i q u e
des i n d i v i d u s et des caractres , lments
d'ensembles diffrents. D a n s l ' o p t i q u e c a n o n i q u e
ceci r e v i e n t u t i l i s e r t m c o m p r o m i s e n t r e les d e u x
reprsentations possibles, a f i n de s a u v e g a r d e r l a
symtrie des rles j o u s p a r les d e u x ensembles de
m o d a l i t s . A des coefficients prs ceci r e v i e n t
E* 4 - m*
t r a v a i l l e r sur des caractres m o y e n s z* = ^
O n p e r d c e p e n d a n t l'usage des r e l a t i o n s b a r y c e n -
triques.
V o i c i l a reprsentation simultane des rgions e t
des sections des baccalaurats s u r le p l a n p r i n -
c i p a l (1, 2) q u i reprsente p l u s de 80 % de l ' i n e r t i e
de c h a c u n des d e u x nuages.

96
O n c o n s t a t e alors q u e T a x e 1 oppose T l l e - d e -
France l'Alsace et l a Lorraine d'une p a r t ; e t
d ' a u t r e p a r t les sections classiques ( A f i C D ) a u x
sections t e c h n i q u e s ( E F G H ) . O n m e t i c i e n v i -
dence u n p r e m i e r f a c t e u r de diffrenciation e n t r e
rgions : l a spciahsation t e c h n i q u e o u classique.

AM2
34K

ALSA NOPC
e
ILDF

' HNOR RHOA BRET


LIMO

AUVE Aa'l t
C ptCA M X
FRAC
CHAM MIQI
PROV

PAVL
Aaul
KHA

L e simple examen d u graphique ne suffit pas


interprter d i r e c t e m e n t le d e u x i m e a x e p o u r l e q u e l
l a variabilit e s t p l u s f a i b l e ; i l f a u t r e c o u r i r
l ' t u d e des c o n t r i b u t i o n s ( v o i r p l u s l o i n ) . O n cons-
t a t e a l o r s q u e l e d e u x i m e a x e reflte l ' o p p o s i t i o n
e n t r e les rgions d u S u d f o r t e p r o p o r t i o n de
bacs A (littraire) e t l a rgion I l e - d e - F r a n c e f o r t e
p r o p o r t i o n de bacs G ( m a t h m a t i q u e ) . E n se r e p o r -
t a n t a u x d o n n e s , o n vrifie q u e l a Corse q u i se
t r o u v e e n b a s d u g r a p h i q u e est l a rgion dlivrant
l a fois l e m o i n s de bacs G (11,5 % ) e t l e p l u s d e
bacs A ( 4 4 % ) .
A c o n d i t i o n q u ' i l s s o i e n t b i e n reprsents s u r l e
g r a p h i q u e ( v o i r les cosinus carrs), o n p e u t i n t e r -
prter l a p r o x i m i t e n t r e d e u x modalits d ' u n m m e
caractre c o m m e t a n t i m e s i m i l i t u d e d e p r o f i l ( d s -

J . - H . BOVROCBB B TO . SA01ITA 4
tance du faible). A i n s i TAlsace et l a Lorraine
q u i o c c u p e n t des p o s i t i o n s voisines sur le p l a n p r i n -
c i p a l o n t p e u prs l a m m e rpartition des bacca-
laurats. L'interprtation de l a p r o x i m i t e n t r e xme
m o d a l i t i d ' u n caractre e t u n e modalit j de
l ' a u t r e est p l u s prilleuse : o n p e u t s e u l e m e n t d i r e
q u e les i n d i v i d u s possdant l a m o d a l i t i o n t le
m m e c e n t r e de gravit que c e u x q u i possdent l a
modalit / . S o u v e n t , m a i s pas t o u j o u r s , c e t t e p r o x i -
mit rvle u n t r a i t caractristique : ainsi le p o i n t
Alsace est trs p r o c h e d u p o i n t F e t c'est
e f f e c t i v e m e n t en Alsace q u e l ' o n observe l a p l u s
g r a n d e p r o p o r t i o n de bacs F ( 1 6 , 1 % ) de m m e
p o u r le bac B e t l ' I l e - d e - F r a n c e (13,1 % ) ; m a i s
b i e n q u e le p o i n t E s o i t p r a t i q u e m e n t c o n f o n d u
avec le p o i n t L o r r a i n e , c'est dans l a rgion
N o r d - Pas-de-Calais q u e l a p r o p o r t i o n en est l a
p l u s g r a n d e (4,6 % c o n t r e 3,4 % ) .

Comme en A C P , l ' o r i g i n e des axes reprsente le


c e n t r e de gravit de l ' e n s e m b l e des p o i n t s : c e t t e
n o t i o n se c o n f o n d i c i avec celle de p r o l m a r g i n a l .
L'origine est donc l a m o y e n n e de l a F r a n c e l a
fois p o u r les rgions e t p o u r les t y p e s de bac.

3. L'tude des c o n t r i b u t i o n s . P o u r interprter


c o r r e c t e m e n t les g r a p h i q u e s , i l f a u t c o m m e en A C P
t e n i r c o m p t e , d ' u n e p a r t , de l a p r o x i m i t e n t r e
p o i n t s e t p l a n s p r i n c i p a u x e t , d ' a u t r e p a r t , d u rle
j o u p a r c h a q u e p o i n t dans l a dtermination d ' u n
axe. Les donnes tant q u a U t a t i v e s o n n ' u t i l i s e pas
i c i les corrlations e n t r e caractres e t axes p r i n c i -
p a u x m a i s les c o n t r i b u t i o n s .

A ) Contribution des points Vinertie des axes.


Les coordonnes des modalits s u r les axes tant
v/^t a* e t "v/Xj 6^, l ' i n e r t i e d u ft-ime axe p e u t

98
Contributions

Al A2 A3 A4

Points colonnes

A 5,2 30,7 23,8 5,1


B 15,5 12,0 1,3 35,5
C 10,6 32,S 4,5 17,7
D 1,1 8,0 46,6 0,0
E 8,5 1,1 16,7 29,5
F 39,5 11,9 3,9 0,9
G 19,5 3,4 2,0 11,2
H 0,2 0,1 1,1 0,1
100 100 100 100

Points lignes

ILDF 36,0 22,4 5,3 0,3


CHAM 0,6 0,5 1,4 3,3
PICA 0,2 0.2 1,6 0,4
HNOR 1,0 0,3 14,3 19,5
CENT 0,0 0,2 0,5 0,0
BNOR 0,1 2,0 0,4 11,5
BOUR 9,2 0,1 5,6 0,3
NOPC 9,2 7,5 3,2 37,4
LORR 16,2 1,2 8,5 1,2
ALSA 13,1 2,7 7,9 1,8
FRAC 2,6 0,5 2,0 0,1
PAYL 2,2 5,9 5,4 0.1
BRET 0,1 1,1 7,4 0,5
PCHA 0,7 9,7 1,8 0,6
AQUI 0,7 14,6 6,6 6,4
MIDI 0,3 3,2 0,0 1,1
LIMO 0,4 0,2 1,8 2,0
RHOA 0,5 2,1 9,7 1,3
AUVE 0,2 0,0 5,5 1,5
LARO 4,0 4.2 1,3 0,1
PROV 1,6 7,2 2,0 0.1
CORS 1,1 11,4- 7,7 10,8
100 100 100 100

99
se d c o m p o s e r selon les modalits d u p r e m i e r ca-
ractre o u celles d n second :

*-i i~\
L a p a r t de \e l a m o d a l i t i est donc piX'^^Y :
c'est l a c o n t r i b u t i o n de l a modalit i l ' a x e k ( 1 ) .
V o i c i e n p o u r c e n t a g e l a l i s t e des c o n t r i b u t i o n s des
p o i n t s a u x q u a t r e p r e m i e r s axes ( v o i r t a b l e a u p . 9 9 ) .
P o u r interprter les axes, o n recherche les c o n t r i -
b u t i o n s les p l u s i m p o r t a n t e s (en italique). L'inter-
prtation des d e u x p r e m i e r s axes a y a n t t d o i m e
p l u s h a u t , nous n ' y r e v i e n d r o n s pas. A f i n que l e
l e c t e u r ne s ' i m a g i n e pas q u e seuls d e u x axes o n t
u n intrt, e x a m i n o n s les renseignements apports
p a r le 3^ e t le 4^ axe. I l est c o u r a n t en p r a t i q u e
d'interprter j u s q u ' 5 axes.
L e 3^ axe reprsente essentiellement l e bac D e t
m e t e n v i d e n c e l e rle p a r t i c u l i e r de l a rgion
H a u t e - N o r m a n d i e : o n c o n s t a t e en r e t o u r n a n t a u x
donnes q u e c e t t e rgion prsente en effet l e p l u s
f a i b l e p o u r c e n t a g e de bacs D (18,6 % ) .
L ' a x e 4 q u i est li a u x bacs B e t E isole l a rgion
N o r d - Pas-de-Calais caractrise l a fois p a r i m
trs f o r t p o u r c e n t a g e de bacs E e t u n f a i b l e p o u r -
centage de bacs B .
B ) Proximits entre points et axes principaux (2).
C o m m e e n A C P o n u t i h s e l e cosinus carr de
l ' a n g l e e n t r e les i n d i v i d u s i c i p r o f i l s l i g n e e t les
profils colonne et l'axe p r i n c i p a l p o u r mesurer l a
qualit de l a reprsentation d a n s les p l a n s p r i n c i -
p a u x . L a s o m m e de ces cosinus carrs p o u r u n
m m e i n d i v i d u e t s u r tous les axes est gale 1.

(1> Souvent appele Improprement contribution absolue.


(2) Improprement appeles contributions relatives.

100
Cosinus carrs avec les axes

A 0,23 0.58 0.14 0.02


B 0,61 0,20 O.OI 0.13
C 0,38 0,51 0,02 0,06
D 0,09 0,28 0,53 0,00
E 0,52 0,03 0,14 0,17
F 0,85 0,11 0,01 0,00
6 0,80 0,06 0.01 0.04
H 0.09 0,03 0,07 0.00
ILDF 0.77 0.21 0,02 0.00
CHAM 0,39 0,13 0.12 0,19
PICA 0,20 0,07 0,22 0.03
HNOR 0,18 0,02 0,36 0,33
CENT 0,02 0.16 0,12 0.00
BNOR 0,05 0.38 0,03 0,48
BOUR 0,81 0.00 0.07 0.00
NOPC 0,54 0,19 0.03 0.21
LORR 0,89 0,03 0,07 0.01
ALSA 0,80 0,07 0,07 0,01
FRAC 0,71 0,06 0.08 0.00
PAYL 0.30 0.35 0.10 0,00
BRET 0,03 0.17 0.38 0,02
PCHA 0,13 0,78 0.05 0.01
AQUI 0,08 0.73 0.11 0,07
MIDI 0,15 0.63 0,00 0.05
LIMO 0,20 0.04 0.14 O.IO
RHOA 0,15 0,26 0.39 0.03
AUVE 0,09 0,00 0,47 0.08
LARO 0,66 0.31 0.03 0,00
PROV 0,30 0.61 0,05 0,00
CORS 0,11 0,63 0,11 O.IO

O n vrifie a i n s i q u e l ' a x e 3 est b i e n caractristique


d u bac D , t a n d i s q u e l e bac H est m a l reprsent
p a r les 4 p r e m i e r s axes : sans d o u t e f o r m e - t - i l
l u i seul i m a x e ultrieur.

I I I , L ' a n a l y s e des correspondances multiples

1. L e s donnes* O n relve s u r n i n d i v i d u s n o n
p l u s d e u x m a i s p caractres q u a l i t a t i f s . C'est en
p a r t i c u l i e r le cas des enqutes p a r q u e s t i o n n a i r e o

101
chaque question dfinit u n caractre dont les moda-
lits sont les diffrentes rponses possibles (une
seule rponse pouvant tre donne une question).
Ainsi dans une enqute (1) portant sur les films
regards la tlvision en 1978 6 083 individus (des
tlspectateurs) sont dcrits pur p = 92 caractres,
totalisant 298 modalits : 72 concernent des films
et comportent 3 modalits (non v u , v u en totalit,
v u partiellement), les 20 autres caractrisant l'inter-
view (ge, niveau d'instruction, rgion d'habi-
tation, etc.).
A chaque caractre j on associe alors l'ensemble
des indicatrices de ses modalits : les donnes
constituent alors le tableau disjonctif X n lignes
et m j -f- m 2 + . . . + "ip colonnes :

1 / \
X, X.

/
2. L a mthode. L'analyse des correspondances
simples consistait appliquer l'analyse cano-
nique deux tableaux d'indicatrices. Puisqu'il y a
maintenant p tableaux d'indicatrices, on utilise la
gnralisation de l'analyse canonique propose par
J . D . Carroll (voir chap. I V , fin) qui consiste
reprsenter les individus au moyen de nouveaux
caractres z^, z^..., solutions de l'quation :

S A: Z == OZ
i-1

(1) Les rsultais utiliss Ici sont reproduits avec l'aimable auto-
risation du Centre d'Etudes d'Opinion (maison de Radio-France)
charg des enqutes d'audience auprs des tlspectateurs. Cette
tude a t ralise par D. Ralmondi et C. Chappe.

102
Pour des tableaux d'indicatrices, cette gnrali-
sation possde la proprit remarquable suivante :
Rechercher les valeurs propres et les vecteurs propres
de S A j revient effectuer une analyse des correspon-
dances sur le tableau disjonctif considr comme un
tableau de contingence.
D e maniie prcise, si on effectue l'analyse des correspon-
dances sur X , les coordonnes des individus-lignes sur les
axes p r i n c i p a u x et les valeurs propres associes sont les vec-
1 v
teurs propres et les valeurs propres de ~
L a dmonstration se f a i t en recourant l'criture e x p l i c i t e
des projecteurs A j :
Ai = Xi{%DXi)-i'XiD

O n vrifie alors sans difficult que - est i d e n t i q u e a u

p r o d u i t de deux t a b l e a u x de profils associs X ( v o i r I I , 2 de


ce chapitre). L'analyse des correspondances m u l t i p l e s r e v i e n t
donc effectuer une analyse des correspondances formelles
sur le tableau d i s j o n c t i f X , bien que ce ne soit pas u n v r a i
tableau de contingence, ce q u i p e r m e t d ' o b t e n i r des reprsenta-
tionss imultanea de toutes les modalits de tous les caractres
en p r o j e t a n t les points-colonnes de X sur les plans p r i n c i p a u x .
Les caractres z o n t p o u r proprit de rendre m a x i m a l e
la somme des carrs des r a p p o r t s de corrlation avec les
p caractres q u a l i t a t i f s . ^ "^H** x^) est m a x i m a l .
i
Si on se souvient q u ' e n A C P norme ( M = Dj/g>) les c o m p o -
santes principales c rendent m a x i m a l e s S r^(c, x^), on v o i t
alors que I ' A F C m u l t i p l e est l'quivalent d'une A C P o les
p caractres seraient q u a l i t a t i f s .
O n reprsente alors les modalits des p caractres p a r les
centres de gravit des i n d i v i d u s q u i les possdent. Les rsultats
s'interprtent comme ceux d'une analyse des correspondances
ordinaire, ceci prs que l a n o t i o n de p a r t d ' i n e r t i e explique
perd de son intrt car dans ce t y p e d'analyse les valeurs
propres ne reprsentent toujours qu'une faible p a r t i e de l a trace.
E n tant l a v a l e u r t r i v i a l e 1 , l ' i n e r t i e t o t a l e > v a u t
y = Trace j - S A i ) 1 soit - S Trace 1 . L a trace
\P } P 1 _
de A v a l a n t mt (son rang) on t r o u v e J = - i m ^ 1 , c'est--
P

m
d i r e It n o m b r e m o y e n de modalits m o i n s 1 . Chaque v a l e u r
propre tant infrieure I , le premier facteur reprsente une
p a r t d ' i n e r t i e ncessairement infrieure l'inverse de
Si les p caractres o n t 5 modalits en moyenne le p r e -
m i e r facteur ne pourra j a m a i s dpasser 25 % de l ' i n e r t i e .
L e tableau de contingence des baccalaurats d o n n a i t
une premire valeur propre reprsentant 56 % de l ' i n e r t i e .
L e passage l a f o r m e d i s j o n c t i v e d o n n e r a i t une trace de

( 22 4- 8

\
1j et le premier facteur ne p e u t e x t r a i r e

p l u s de 1/14 de l ' i n e r t i e , soit 7,1 % (en ralit on t r o u v e


3,96 % ) , alors q u ' i l a l a mme signification et donne l a mme
c o n f i g u r a t i o n des i n d i v i d u s ( l'chelle prs) que celui d u
tableau de contingence.

I l est d'usage de sparer les caractres en deux


groupes : les caractres actifs dont le tableau dis-
j o n c t i f est seul soumis une analyse des corres-
pondances et les caractres passifs ou illustratifs
dont les modalits sont reprsentes en lments
supplmentaires sur les graphiques (barycentres des
individus les possdant) mais n'ont pas servi la
dtermination des axes.
Dans u n questionnaire, les caractres actifs sont
en gnral ceux qui dcrivent plus ou moins objec-
tivement un individu (profession, ge, sexe...), les
caractres passifs correspondent aux questions cons-
t i t u a n t le sujet mme de l'enqute ( Avez-vous
regard t e l film ? ) que l'on veut relier aux ques-
tions du premier groupe mais pas ncessairement
entre elles.
Les avantages de cette pratique sont midtiples :
On fait apparatre les liaisons intressantes
entre caractres tudis et caractres descriptifs
plus rapidement qu'en compulsant des tableaux
croiss.
Dans le cas d'un grand questionnaire on co-
nomise un temps de calcul considrable car l'ana-

104
lyse n*a pas besoin d'tre effectue sur la totalit des
tableaux des rponses mais seulement sur une partie.

3. U n exemple. Nous donnerons ici les rsul-


tats simplifis de l'enqute sur les films de la tl-
vision. 12 caractres taient actifs totalisant 53 mo-
dalits dont notamment :
L'ge (5 modalits)
AGI AG2 AG3 AG4 AG5
5-24 ana 25-34 ans 3S-49 ans 50-64 ans 65 et plus

La pTof esson (10 modalits)


Cil CI2 en CI4 CI5
petit profession cadre employ ouvrier
patron librale moyen qualifi
cadre
suprieur

CI6 CI7 CI8 CI9 CIIO


O.S. lve femme retrait agri-
tudiant au foyer culteur

Le nombre d*adultes au foyer (3 modalits)


Al A2 A3
1 adulte 2 adultes 3 et plus

Le diplme (4 modalits)
DIO DU DI2 DIS
sans infrieur bac ou encore
diplme au bac suprieur l'cole

Le sexe (2 modalits)
H I F
L*inertie t o t a l e v a l a i t donc 1 = 3,42.
iz
Les premires valeurs propres sont ;
0,340 (9,96 % )
0,285 (8,35 % )
0,249 (7.30 % ) .

105
n se limitant au plan principal 1-2, on inter-
prte les axes de la manire suivante (les contri-
butions ne sont pas reproduites ici).
L'axe 1 spare, gauche du graphique, les
tlspectateurs de plus de 65 ans (G5), retraits
(CI9), seuls ( A l ) des tlspectateurs de 15 24 ans
( A G I ) , lves ou tudiants (CI7) encore l'cole
(DI3) qui sont droite du graphique.
L'axe 2 isole en haut les tlspectateurs d'ins-
truction suprieure ( D I 2 ) , cadres ou professions
librales (CI2, CI3), de 25 34 ans (AG2), de l'en-
semble des autres catgories, en particiJier des
agriculteurs (CIO) et des sans diplmes (DIO).

L* (lti
nclunt*
A3 CM Un* AngiliM
ramwiuqui
cil

ig liniifi
Monywowl"

,Un iur
' l f l l *

106
A u centre du graphique on trouve le tlspecta-
teur moyen de l'chantillon qui correspond aux
ouvriers {CI5, C6).
Le sexe du tlspectateur ne semble pas tre u n
caractre trs discriminant. Sur cette grille d'inter-
prtation qui permet de structurer l'chantillon
selon deux axes (ge, niveau culturel), i l suffit
maintenant de projeter les rponses concernant l a
vision des diffrents films (centre de gravit des
individus prenant la modalit v u en totalit )
pour caractriser rapidement leur public. Bien en-
tendu une tude dtaille doit prendre en compte
les axes 3, 4, etc. (l'axe 4 tait ici caractristique
des agricidteurs). Les films tous publics se situant
au centre du graphique tandis que les films q u i
intressent seulement certaines catgories de tl-
spectateurs se dtachent nettement : ainsi La Flte
enchante^ opra film, se situe dans le quart nord-
ouest du graphique (tlspectateurs cultivs et
gs). Sous les yeux d'Occident, d'Y. Allgret avec
P. Fresnay (1936), et Nana avec Martine Carole
(1955) sont situs dans le quart sud-ouest (tl-
spectateurs moins cultivs et gs), tandis que Un
jour la fte, comdie musicale avec M . Fugain (1975),
semble caractristique des tlspectateurs jeunes
d'un milieu peu cultiv et le Zinzin d'Hollywood
de Jerry Lewis sur l'axe 1 droite a d tre v u
par des jeimes de tous les milieux.

I V . Conclusion
vers Fanalyse non linaire dea donnes

L a mise B O U S forme disjonctive est bien pins


qu'une commodit mathmatique et cela pour d i -
verses raisons. Puisqu'un caractre numrique peut
tre transform en u n caractre quafitatif par dcou-

107
page en classes de ses valeurs (ex. : le caractre
ge dcoup en classes d*ge), i l est possible d'tu-
dier des tableaux comportant u n mlange de carac-
tres numriques et qualitatifs : i l suflBt de t o u t
Tendre qualitatif et d'effectuer une analyse des cor-
respondances multiples. A la limite u n tableau
individus-caractres numriques que l'on tudie
usuellement par l'analyse en composantes princi-
pales peut tre rendu qualitatif, mis sous forme
disjonctive et soumis une analyse des correspon-
dances. Une telle dmarche peut surprendre puis-
qu' premire vue on perd de l'information en ren-
dant qualitatif u n caractre numrique. L'intrt
est qu'en procdant ainsi on peut prendre en
compte des liaisons non linaires ventuelles entre
caractres. E n effet, I'ACP repose essentiellement
sur l'tude des corrlations ; or le coefficient de
corrlation ne mesure que la forme plus ou moins
linaire de la dpendance entre deux caractres.
U n coefficient de corrlation voisin de zro ne si-
gnifie pas forcment q u ' i l y a indpendance ; i l peut
exister ime relation non linaire, paraboUque par
exemple. De plus, la recherche des composantes
principales est Umite par principe aux combinai-
sons linaires des caractres initiaux.

Par contre, lorsque l'on transforme u n caractre


numrique en caractre qualitatif et que l'on consi-
dre toutes les combinaisons linaires des indica-
trices (c'est--dire toutes les quantifications pos-
sibles), on envisage en fait toute une gamme de
fonctions autres que linaires transformant u n ca-
ractre numrique en un autre caractre num-
rique. On conoit alors que l'tude des relations
linaires entre des fonctions non linaires des carac-
tres revient celle des relations non linaires
entre caractres.

108
CHAPITRE V I

L'ANALYSE DISCRIMINIVT

Sous ses diffrentes formes analyse factorelle


discriminante ou analyse discriminante dcision-
nelle cette mthode connat de nombreuses ap-
plications. Elle permet de mettre en vidence les
liaisons existant entre u n caractre expliquer
qualitatif et u n ensemble de caractres explicatifs
quantitatifs.
L'analyse factorieUe discriminante permet,
l'aide d'une visualisation sur u n plan factoriel ap-
propri, de dcrire les liaisons entre le caractre
expliquer et les caractres explicatifs. L'analyse
discriminante dcisionnelle permet de prvoir les
modahts d u caractre expliquer partir des
valeurs prises par les caractres explicatifs.

I . L'analyse factorielle diacrimnante


1. Prsentation de la mthode. Considrons u n
ensemble d'individus sur lequel on observe tin carac-
tre qualitatif prenant q modalits. Chaque individu
tant repr par une seule modalit de ce caractre,
on a ainsi dfini une partition de l'ensemble des
individus en q classes disjointes. Par ailleurs, on
mesure sur les mmes individus p caractres quan-
t i t a t i f s . On se pose le problme suivant : les q classes
diffrent-elles sur l'ensemble des caractres quan-

109
titatifs ? Le b u t de l'analyse factorielle discrimi-
nante (AFD) est de rpondre cette question. Mais
prcisons ce problme l'aide d'un exemple.
Dans une exprience ralise par J.-C. Amiard,
23 poissons sont rpartis dans trois aquariums sou-
mis diffrents niveaux de contamination.
On dsire dterminer dans quelle mesure la conta-
mination des poissons est lie l'intensit de la
radiocontamination. Le caractre qualitatif prend
ici trois modalits : l'appartenance l ' u n des trois
aquariums. On mesure les quinze caractres quan-
titatifs suivants :
*> YEU Radioactivit des y e u x
BR Radioactivit dea branchies
OP Radioactivit des opercules
X* N A G Radioactivit des nageoires
x^ F O I Radioactivit d u foie
TUB Radioactivit d u t u b e digestif
x' EC Radioactivit des cailles
X* M U S Radioactivit des muscles
X* P O I Poids
x"> L O N Longueur
LONS Longueur staudard
LART L a r g e u r de l a tte
LAR Largeur
x" LARM Largeur d u museau
x" DYEU Diamtre des y e u x

De mme qu'en analyse en composantes princi-


pales, on dtermine un nouveau caractre, combi-
naison linaire des anciens caractres. Cependant,
i l ne s'agit plus d'obtenir un caractre de variance
maximale mais sparant au mieux les trois groupes
entre eux. Plus prcisment, on dsire que ce nou-
veau caractre preime des valeurs :
les plus voisines possible pour les individus ap-
partenant un mme groupe ;
les plus diffrentes pour des individus appar-
tenant des groupes distincts.

110
Ainsi sur l'exemple suivant, trois groupes sont
reprsents sur le plan des deux caractres et x^.
c

Les groupes 1 et 3 se confondent sur le carac-


tre x^ et 1 et 2 sur x^. On v o i t par contre que le
caractre c=0,8x^-0,6a;^ spare en projection les
trois groupes. U n seul caractre, combinaison linaire
des anciens, permet d'expliciter les diffrences entre
groupes sur les deux caractres d'origine.

2. Formulation gomtrique. Trois prsenta-


tions de I ' A F D sont couramment utilises. On peut
en effet montrer que cette mthode est u n cas par-
ticulier de l'analyse en composantes principales ou
de l'analyse canonique. Nous prfrons commencer
par une prsentation directe et, dans un deuxime
temps, mettre en vidence les relations avec les
mthodes prsentes prcdemment.
A ) Approche directe.
a) Variances intraclasse et interclasse. On
observe les valeurs prises par p caractres centrs,
nots X*, . . . , x ' , . . . , x*" sur n individus. Chaque
individu est muni d'un poids Pi > 0 avec :
n
XPi=-i-
i~l

111
Dans l'espace dea individus R ' , chaque observa-
t i o n est repre par u n vecteur {x}, .. .^xf, ..., xf).
Les caractres tant centrs, le centre de gravit
du nuage des individus est confondu avec l'origine.
Comme en analyse en composantes principales, on
calcule la matrice de variance (totale) note :
V = 'X D X
Coasidrons u n n o u v e a u caractre c = Xn dont la va-
riance est gale :
Il c 11' = 'c D e = "u ' X D X u = ' u V u

Nous allons v o i r que l a variance de ce caractre p e u t tre


dcompose en deux : variance inierclassey p r o v e n a n t de l a
dispersion des centres de gravit des q classes autour de
l'origine et variance intraclasse p r o v e n a n t de la dispersion
des i n d i v i d u s d'une classe autour de leur centre de gravit.
A chaque classe, on associe son centre de gravit
ftk et son poids P^ P,.
Par dfmition, le poids d'une classe est gal l a somme
des poids des observations leur a p p a r t e n a n t .

Soit la matrice de variance des p caractres


calcule sur les individus de l a /c-ime classe.
Posons :

k-l
W est appele matrice de variance intraclasse.
Soit enfin B la matrice de variance des p carac-
tres calcule sur le nuage des q centres de gravit
munis de leurs poids respectifs. B est appele matrice
de variance interclasse.
On montre alors facilement l a relation :
V = W + B.
La variance d u caractre c s'crit donc :
Il c||* = HiVa = W n + HiBn

US
Ainsi l a variance d'un caractre se dcompose en
ime somme de deux termes :
' u B u , variaase interclasse lie l a dispersion
des centres de gravit des classes autour de
l'origine ;
h i W u , variance intraclasse lie l a dispersion
des observations appartenant une classe autour
de leurs centres de gravit respectifs.
b) Recherche des facteurs discriminants, Soit
un caractre c = X u . Nous considrons que ce
caractre est parfaitement discriminant s'il prend
la mme valeur sur tous les individus d'une mme
classe et des valeurs diffrentes sur des individus
appartenant des classes distinctes.
Dans ce cas, ' u W u = 0 puisque l'intrieur de
chaque classe, le caractre est constant et, par
consquent, ' n V u = hiBu.
Choisir le meilleur caractre discriminant revient
donc maximiser ' u B u , c'est--dire la variance
interclasse de ce caractre.
E n pratique, puisque la somme de la variance
interclasse et de la variance intraclasse est cons-
tante, on maximise le rapport entre la variance
interclasse et la variance totale qui peut alors
s'interprter en terme de pourcentage.
Par dfinition, le premier caractre discriminant
est c = X u t e l que la quantit ^ B u / ' a V u soit
maximum.
Remarquons que, dans l'exemple prcdent ( d i s c r i m i n a t i o n
p a r f a i t e ) , ce r a p p o r t serait gal 1 .
Remarquons galement que
'nBu *nVo
nVu %Vn "

et que, puisque les d e u x quantits de gauche sont positives,


i l est quivalent de m a x i m i s e r le p r e m i e r r a p p o r t o u de

US
minimiaer le second. D e pins ces quantits sont comprises
entre 0 et 1.
E x p l i c i t o n s m a i n t e n a n t le calcul des facteurs discriminants,
n d o i t m a x i m i s e r la quantit :

x = ^ - < O . X . l ) .

U t i l i s a n t l a mme technique qu'en analyse en composantes


principales, nous crivons que, a u m a x i m u m recherch, la
drive d u q u o t i e n t p a r r a p p o r t a u x diffrentes composantes
de u d o i t tre n i d l e :

2('uVu) B u 2('uBu) V a = 0

V - B u = Xu

n d o i t donc tre vecteur propre de B et sa valeur propre X


d o i t tre la plus grande puisqu'elle reprsente la quantit
maximiser.
Soit u * l a solution.
est appel premier facteur discriminarU, X^ est son pouvoir
discriminant.
L e premier caractre d i s c r i m i n a n t = X u ^ tant o b t e n u ,
on recherche c* = X n - n o n corrl c* t e l que le r a p p o r t
'uBu . . . . J -
r-==- Boit m a x u n u m et ainsi de smte.
TlVu
On montre aisment que B a les mmes vec-
teurs propres que B mais pour valeurs propres
>./(l X) (solution utilise par les auteurs anglo-
saxons).
On montre que les vecteurs propres de V " ^ B
nots u\, , u*"" ^ rangs dans l'ordre dcroissant
des valeurs propres positives X^, . . \ - i sont les
solutions successives de ce problme.
Remarquons qu'il y a au plus q 1 valeurs
propres diffrentes de zro, puisque B est une
matrice de variance calcule partir de q vecteurs
de (les q centres de gravit) et que la somme
114
pondre de ces g centres de gravit est le vec-
teur nul. Lorsqu'il n ' y a que deux groupes, l'unique
facteur discriminant est donn par u = gj)
ou W ' " ^ ( g 2 gi) qui l u i est proportionnel.
Remarquons enfin que le pouvoir discriminant
ne dpend pas de la normalisation des caractres,
cependant, on considrera gnralement des carac-
tres de variance unit (rduite).
B) Uanalyse factorielle discriminante est un cas
particulier de Vanalyse en composantes principales.
On voit trs facilement que I ' A F D est une analyse
en composante principale du nuage des q centres
de gravit munis de leur poids dans l'espace R"
avec pour mtrique V""^.
I l suffit pour cela d'appliquer les rsultats d u
chapitre I I .
On considre g p o i n t s dans RP : g j , g^, . . . , gq
Chaque centre de gravit est m u n i d u poids de sa classe.
Soient G la m a t r i c e c onte nant en ligne les q centres de
gravit et la m a t r i c e diagonale d u poids des classes. L a
matrice de variance associe ce nuage est :
B = 'GDpG

Supposons m a i n t e n a n t que est m u n i de la mtrique


M = V ~ ^ , inverse de l a matrice de variance totale. O n a
v u que les facteurs p r i n c i p a u x taient les vecteurs propres
de Y ~ ^ B associs a u x plus grandes valeurs propres :
V - i B u = Xu

On retrouv e bien les quations de T A F O .


U t i l i s a n t cette prsentation, i l est difficile de j u s t i f i e r le
c h o i x de l a mtrique V~~', o u mme de m o n t r e r que les valeurs
propres sont comprises entre zro et u n . C'est p o u r q u o i nous
l u i avons prfr l'approche directe.

G) Uanalyse factorielle discriminante est un cas


particulier de Vanalyse canonique. Nous allons
maintenant montrer que I ' A F D est une analyse cano-
nique entre les deux ensembles de caractres x^, ..

lis
x*, . . c e n t r s et y*, . . . . y*, . . y * non centrs.
Les caractres du deuxime ensemble reprsen-
tent les variables indicatrices associes aux q moda-
lits du caractre qualitatif. Four cela nous allons
simplement montrer que les facteurs canoniques
associs aux variables sont identiques aux fac-
teurs discriminants.
Les facteurs canoniques d o i v e n t vrifier (cf. chap. I V )
rquation :
vri'vVB*Vmi = xu

Dans cette quation on a :


V = 'X D X = V
V = 'Y D Y
V = 'X DY
VM = ' Y D X

O n v o i t facilement que V j , est l a m a t r i c e diagonale de


poids des classes :

O n p e u t galement vrifier que :


Vi, = 'X D Y = 'G Dp

P a t consquent, Pquation des facteurs canoniques devient :


V - ' G D p D ^ i D p G u = Xo

et comme B = ' G Dp G, ..il v i e n t


V - i B n = Xu

On retrouve bien les quations de T A F D . Le pou-


voir discriminant X peut donc tre interprt en
terme de corrlation canonique. Remarquons que,
contrairement ce que nous avons fait en analyse
canonique, nous n'avons pas suppos que les carac-
tres y * taient centrs : on montre en effet faci-
lement que l a solution obtenue ne dpend pas du
centrage de y.

116
L'analyse discriminante peut donc tre prsente
comme une analyse canonicpie entre l'ensemble des
variables indicatrices associes au caractre expli-
quer et l'ensemble des caractres explicatifs.
Une fois de plus, l'analyse canonique apparat
comme une mthode gnrale permettant de d-
crire les liaisons entre deux ensembles de caractres.

3. Les rsultats et leur interprtation. Repre-


nons l'exemple des poissons d'Amiard.
Le tableau ci-dessous contient les valeurs
moyennes des quinze variables sur la population
totale et sur chacime des trois classes.

Popjdation Classe 1 Classe 2 Classe 3

YEU 15.4 8,2 15,5 23.6


BR 105 57 108,3 156.3
OP 109,1 52,3 79,5 207.9
NAG 164,9 91.1 133,1 285.4
FOI 27,2 15,2 33,5 33.7
TUB 281,6 162.6 341,9 348,7
EC 297,7 144 260.8 515.7
MUS 3,3 1,7 4.7 3.4
POI 82,1 92.2 75.4 78,1
LON 190,5 197.1 187,5 186,3
LONS 170,7 177,8 165,6 168.4
LART 42,8 44,7 41,6 41,8
LARM 13,6 13.4 14 13,3
DYEU 9,7 9.7 9.9 9.6
Effectif 23 8 a 7

E n moyenne, la radioactivit des poissons d u


premier groupe (poissons les plus gros) est nette-
ment plus forte.
L a matrice de corrlation totale est reproduite
page 119.

117
DYEU
1
LARM

LAR
ssi
LART
sSs-s
LONS
!-IS-S
LON
SlISsS
POI
slISSS
MUS

1 1 1 M 1
EC
2S3llsS-53
1 1 1 1 1 1 1
TUB
:-IS33S33l
mmm-
1 1 11 i1 11 I1
1 1 1 1
FOI

mmmm
1 M 1 1 M
NAG

OP
1 1 11 11i
!-3353l33S-3Ss
1i 1 M 1
1
BR
3Sl3i533S-S3S-3
11 11 11 1I M 1
1 1 1
YEU
2- o o o o cT o o cT o- <= o
1 M 1 1 i 1
On constate que les variables mesurant la radio-
activit sont toutes assez fortement corrles posi-
tivement entre elles et ngativement aux variables
de taille.
Puisque q = i l y a au plus deux facteurs
discriminants. Les pouvoirs discriminants des deux
facteurs sont = 0,979 et Xg = 0,849.
A l'aide des deux caractres discriminants, on
construit comme en analyse en composantes prin-
cipales une reprsentation des individus (les pois-
sons). Les poissons du groupe 1 sont reprsents
par le chiffre 1 et leur centre de gravit par le
point G l (respectivement 2, G2 et 3, G3).
. 2
2
2
2

@ 2
2

On constate que le premier facteur spare trs


bien les trois groupes entre eux, le deuxime oppo-
sant le groupe 2 aux groupes 1 et 3.
L'interprtation des facteurs peut se faire comme
en analyse en composantes principales en calcidant
les corrlations entre facteurs et caractres observs
(tableau ci-dessous) et en reprsentant le cercle des
corrlations.

119
Facteurs

1 2 1 2

YEU 0,84 0,16 POI 0,25 0,16


BR 0,80 0,11 I.ON 0,27 0.08
OP 0,81 0,49 LONS 0,29 0,21
NAG 0,84 0,47 LART 0,28 0,14
FOI 0,51 0,21 LAR 0,13 0,10
TUB 0,33 0,13 LARM 0,01 0,14
EC 0,70 0,29 DYEU 0,06 0,13
MUS 0,32 0,36

Le premier facteur oppose les caractres de taille


aux caractres de radioactivit des tissus durs. Les
caractres de radioactivit des tissus mous sont au
milieu sur le premier facteur mais se diffrencient
sur le deuxime. On constate que les poissons d u

120
groupe 1, les plus gros, se diffrencient sur le pre-
mier facteur et sont les moins contamins.
Les poissons du groupe 2 se diffrencient par une
plus forte contamination des muscles et sont en
position intermdiaire sur la plupart des autres
caractres.

I I . Analyse discriminante dcisionneUe

1. Prsentation du problme. On se pose m a i n -


tenant le problme suivant : est-ce que la seule
connaissance des caractres explicatifs permet de
raffecter u n individu dans son groupe d'apparte-
nance dfini par le caractre expliquer ? Plus
gnralement, supposons que, sur u n i n d i v i d u , on
ne connaisse que les caractres explicatifs. On sait
que cet individu appartient l ' u n des groupes d-
finis par le caractre expliquer mais on ignore
lequel. E s t - i l possible de l'affecter l ' u n des groupes
et ceci avec xm risque d'erreur m i n i m u m ?
Ce t y p e de problme se rencontre trs frquem-
ment dans la pratique et nous allons l'illustrer
l'aide de deux exemples.

A ) La prvision des avalanches, Dix-sept para-


mtres mtorologiques, les uns directement obser-
vables, les autres calculs, ont t relevs pendant
257 jours sur u n site donn (de novembre a v r i l
environ pendant quinze ans) ainsi que la prsence
ou l'absence d'avalanches. Le caractre expliquer
prend donc deux modalits (A : avalanche ou A :
non-avalanche) et l'on dispose de 17 caractres
exphcatifs tous quantitatifs.
On cherche alors une fonction de ces 17 carac-
tres permettant (comme la rgression mais i c i !e
caractre expliquer est qualitatif) d'expliquer le

121
caractre avalanche - non-avaanche : ceci revient
partager l'espace R^' en deux rgions et R^.
Si on observe x G R^ on affectera x la classe A
avalanche prvue, si x e R^ on affectera A : l a
classe A .
On peut alors construire u n tableau permettant
d'valuer l'efficacit de la rgle :

Prvision

Non-
Ava- ava-
lanche lanche

Etat Avalanche 38 19
de l a n a t u r e Non-avalanche 247 2 267

Prcisons i c i q u ' i l s'agissait d'une tude prlimi-


naire rahse sur des donnes incompltes pidsque de
nombreux caractres explicatifs potentiels n'avaient
pas t recueillis. Cependant, les rsultats sont assez
encourageants. Les auteurs (1) envisagent, sur i m
fichier enrichi, de mettre au point une rgle de
dcision pouvant tre utilise ensuite comme ins-
trument de prvision en temps rel : on effectue
des mesures sur le terrain, ces mesures sont prises
en compte immdiatement et on en dduit une
prvision du risque d'avalanche.
B) Le i< credit-scoring . Prenons maintenant
le cas d'un organisme financier cherchant affecter
au mieux la masse de crdit dont i l dispose. I I
cherche logiquement accorder ses prts aux de-

( ! ) G . D E R M E O B E D I T C H I A N , Approche statistique d u problme


d ' v a l u a t i o n des r i s q u e s d ' a v a l a n c h e , La Mtorologie, dcem-
bre 1 9 7 5 , V I srie, n " 3.

122
mandeurs cfui ont la plus forte probabilit d'tre
des bons clients et rejeter les demandeurs qui
ont une bonne chance de terminer au contentieux.
Chaqpie candidat au prt doit remplir u n dossier
dont on extrait les caractres explicatifs. Sur un
chantillon de dossiers accepts, on observe le
comportement des clients qui sont ensuite rpartis
en deux catgories, les bons et les mauvais, ou en
trois catgories : les bons, les douteux, les mauvais.
L'analyse discriminante permet alors d'laborer
une rgle de dcision utilise dans un deuxime
temps pour slectionner les bons demandeurs. No-
tons que dans ce cas, la plupart des caractres
explicatifs sont qualitatifs.

2 Techniques de rsolution. Selon l a nature


des donnes et les hypothses retenues, de n o m -
breuses mthodes de discrimination ont t dve-
loppes. Nous en citerons deux : la mthode go-
mtrique, qui consiste affecter u n individu au
groupe dont le centre de gravit est le plus proche
et la mthode baysienne (1) qui consiste affecter
i m individu au groupe le plus probable.

I I I . Conclusions

L'analyse discriminante, factorielle ou dcision-


neUe est l'une des mthodes les plus oprationnelles
de l'analyse des doimes. Outre la mtorologie
(prvision de phnomnes graves) et le credit-scoring,
de nombreuses disciplines utilisent cette approche :
en mdecine pour l'aide au diagnostic, eu vente par

( 1 ) D u n o m de T h o m a s B a y e s q u i l ' o n d o i t d ' I m p o r t a n t s t r a v a u x
s u r les probabilits c o n d i t i o n n e l l e s ( 1 7 6 3 ) . O n c o n s u l t e r a sur ce
sujet T . W . A N D B R S O N , Introduction to multii/ariate ttalittical ana-
Igsls. W U e y . I 9 5 S .

123
correspondance pour slectionner les clients poten-
tiels les plus intressants, en recherche minire pour
dtecter la prsence des gisements, etc.
Les travaux rcents portent sur Tutih'sation des
variables qualitatives et sur la slection automatique
d'un sous-ensemble des caractres explicatifs (1).

(1) G . S A P O R T A , Discriminant analysis when ail ihe variables are


nominal, Spring m e e t i n g of t b e F i y c h o m e t r l c Society, M u r r a y H l l l ,

124
BIBLIOGRAPHIE

I. Ouoragei en langue ftanatse

B B N Z E C B I ( J . - P . ) et c o l l . . L'analyse dea donnes, t. l : La taxinomie,


t . n ; L'analyse des correspondances, D u n o d , 3* d., 1 9 7 9 .
B E N Z E C R I ( J . - P . ) et B E N Z E C R I ( F . ) , La pratique de l'analyse dea
donnes, t . I : Analyse des eorreapondaneea, expos lmentaire,
Dunod, 1980.
B E N Z E C R I ( J . - P . ) , B A S T I N ( C ) , B O U R Q A R I T (C.) et G A Z E S ( C ) , La
pratique de l'analyse des donnes, t . I I : Abrg thorique, tudes de
cas modle, D u n o d , 1 9 8 0 .
B E R T I E K ( P . ) e t B o u H u c H E ( J . > M . ) , Analyse des donnes multidimen-
sionnelles, P U F , 2 * d., 1 9 7 7 .
B o u H o c H E ( J , - M . ) , Analyse des donnes en marketing, Masson, 1 9 7 7 .
C A I L U E Z ( F . ) et P A G E S ( J . - P . ) , Introduction l'analyse des donnes,
SMASH, 1 9 7 6 .
C E H E S S A T ( R . ) , Exercices comments de statistique et informatique
applique, D u n o d , 2 * d . , 1 9 8 1 .
C H A N D O N ( J . - L . ) et P I N S O N ( S . ) , Analyse typologique, Masson, 1 9 8 0 .
D A G N L I E ( P . ) , Analyse statistique plusieurs variables, Presses
a g r o n o m i q u e s de G e m b l o u x , 1 9 7 5 .
D i D A Y ( B . ) et c o l l . . Optimisation en classification automatique,
2 tomes, I N H I A , 1 9 7 9 .
D i D A Y ( E . ) , L E M A I R E ( J . ) , P O U O E T ( J . ) , T E S T U ( F . ) , Elments
d'analyse des donnes, D u n o d , 1 9 8 3 .
FNELON ( J . - P . ) , Qu'est-ce que l'analyse dea donnes, L E F O N E N , 1 9 8 1 .
F o o c A R T ( T . ) , Analyse factorielle, programmation sur micro-ordina-
teur, M a s s o n , 1 9 8 2 .
G u i o o u ( J . - L . ) , Mthodologies mulUdimensionnelles : Analyse des
donnes et choix critres multiples, D u n o d , 2 * d., 1 9 7 7 .
J A H B U ( M . ) et L E B E A U X ( M , - 0 . ) , Classification automatique pour
l'analyse dea donnea, 1 . 1 : Mthodes et algorithmea ; t, I I : Logiciels,
Dunod, 1978.
L E B A R T ( L . ) et M O R I N E A U ( A . ) , SPAD, Systme portable pour l'ana-
lyse dea donnes, C E S I A , 1 9 8 5 .
L E B A R T ( L . ) , M O R I N E A U ( A . ) et F N E L O N ( J . - P . ) , Traitement dea
donnes at<Uiatiques, D u n o d , 1 9 7 9 .
L E B A R T ( L . ) , M O R I N E A U ( A . ) et T A B A R D ( N . ) , Techniques de la des-
cription statistique, Dunod, 1977.
L E R M A N ( I . C ) . Les bases de la classification automatique, Gauthler-
Villars. 1 9 7 0 .
L E R M A N ( I . C ) . Clasaifieattan et analyse ordinale dea donnea, D u n o d ,
1981.
M A R C O T O R C H I N O ( J . - F . ) et M I C H A U D ( P . ) , Optimisation en analyse
ordinale des donnes, M a s s o n , 1 9 7 9 .
M A S S O N ( M . ) , Mthodologies gnrales du traitement statistique de
l'information de masse, C e d i c - N a t h a n , 1 9 8 0 .

125
NAKACHE (J.-P.). C H E V A L I E R ( A . ) et MORICE ( V . ) , Exercices com-
ments de mathmatiques pour l'analyse statistique des donnes,
D u n o d , 1981.
RoMEDER ( J . - M . ) , Mthodes et programmes d'analyse discriminante,
D u n o d , 1973.
S A P O R T A ( G . ) , Probabilits, analyse des donnes et statistique, Technfp,
1990.
V o L L E ( M . ) T Analyse des donnes, E c o n o m i c a , 1 9 8 1 , 2* d .
C o l l e c t i f , L'analyse des donnes, 2 t o m e s , Ass. P r o f . M a t h . E n s . P u b . ,
1980.

I I . Ouvrages de langue anglaise


A N D E R B E R G ( M . R . ) , Cluster analysis for applications. Acadmie
Press, 1973.
B A R N E T T ( V . ) , Interpreting multivariate data, W i l e y , 1 9 8 1 .
COOLBY ( W . W . ) et LoHNES ( P . R . ) , MulHiMiriate data analysis, Wiley,
1971.
G i F i ( A . ) , N o n linecw multivariate analysis, Leyden Unlversity, 1981.
G N A N A D E S I K A N ( R . ) , Methods for slatistical data analysis of multi-
uariate obseroations, W i l e y , 1977,
G R E E N ( B . ) , Analyzing mullivariate data, H o l t R i n e h a r t W i n s t o n ,
1978.
G R E E N A C H E ( M . ) , Theory and applications of correspondence anatgsis,
A c a d m i e Press, 1984.
H A R T I G A N , Clusiering algorithms, W i l e y , 1975.
K R U S K A L ( J . B . ) et W S H ( M . ) , Multldimensional scaling. Sage, 1978.
L E B A R T ( L . ) , M O R I N E A U ( A . ) , W A H W I C K ( K . ) , Multioarlate descriptlDe
slatistical analysis, W i l e y , 1984.
NiSHiSATO ( S . ) , Analysis of categorical data : dual scaling and its
applications, U n i v . of T o r o n t o Press, 1 9 8 0 .
T A K E U C H I ( K . ) , Y A N A I ( H . ) e t M U K H E R J E E ( B . N . ) , The foundaHons
of multioariale analysis, W l l e y E a s t e r n , 1982.
T u K E Y ( J . ) , Exploratory data analysis, Addlson-Wesley, 1977.

116
T A B L E DES MATIRES

INTRODUCTION 3

C H A P I T R E P R E M I E R . L a nature des d o n n i o : quelques


concepta fondamentaux 5
I . Les t a b l e a u x de d o n n e s , 5. I I . R d u c t i o n des d o n -
nes, 1 t . I I I . L i a i s o n e n t r e d e u x caractres, 12.

C H A P I T R E I I . L ' a n a l y M en cotnpowuitea p r i n c i p a l e * . . . 17
! . Prsentation de la m t h o d e , 17, I I . G o m t r i e des
caractres et des i n d i v i d u s , 2 2 . I I I . Recherche des c o m p o -
santes, axes et f a c t e u r s p r i n c i p a u x , 34. TV. Les rsultats
et l e u r interprtation, 3 7 . v . L ' a n a l y s e des t a b l e a u x de
proximits, 45.

CHAPITRE I I I . L a claasificatian 48
I , C l a s s i f i c a t i o n n o n hirarchique, 4 9 . 11. C l a s a l f l c a t i o n
hirarchique, 5 4 .

CHAPITRE I V . L ^ a n a l y w canonique 63
I . Prsentation de la m t h o d e , 6 4 . I I . F o r m u l a t i o n g o m -
t r i q u e , 67. I I I , Les rsultats et l e u r Interprtation, 7 6 .
I V . Conclusion, 8 1 .

C H A P I T R E V . L*analfse faetorieUe des correspondances 83


I . Prsentation de !a m t h o d e , 83. I I . Proprits m a t h -
m a t i q u e s , 8 8 . I I I . L ' a n a l y s p des correspondances m u l -
t i p l e s , 1 0 1 . I V . C o n c l u s i o n ; vers l ' a n a l y s e n o n linaire des
d o n n e s , 107.

CHAPITRE Y L L'analyse discriminante 109


1, L ' a n a l y s e f a c t o r i e l l e d i s c r i m i n a n t e , 109, I I . A n a l y s e
d i s c r i m i n a n t e d c i s i o n n e l l e , 1 2 1 . I I I . C o n c l u s i o n s . 123.

BIBLIOGRAPHIE 125

127
Imprim en France
Imprimerie des Presses Universitaires de France
73, avenue Ronsard, 41100 Vendme
Novembre 199a N " 38 645
COLLECTION ENCYCLOPDIQUE
fonde par Paul Angoulvent

Derniers titres parus


266T L'environnement 2687 Le luxe
.). V l . U M l . l l .1. ( ' A s t A H i i l i r .
2G0B Le Tunnel sous la Manche 2688 l e pragmatisme
.T. SflCK P. lifli-cirorno
2GG0 Le risque technologique 2Gg9 Histoire locale et rgionale
A. LBEOV et J . - P , SJGNORET Ci, T n u i L L i r ; K pt J . TULARD
2670 Les drolls de l'animal 2G0O Les sources du droit du travail
G. CnArOITH]h:R B . MATIIJEU
2671 L ' a r t contemporain 2G91 Histoire de la smiotique
A. U A i i y n . i . E N
A, 1IKNAI:I,T
2672 Les pilvements obllgalolres
2692 Elites et lllisme
A. EUZEBY
G. l i l l S E N O
2673 La parallltirature
2693 L'pilepsie
A . - M . BEB
2G74 Le New Age
P . JALLON
J. VKHNKTTE 2691 Les fondations
2CTI) La littrature mashrblne d'ex- G. D t ^ i i i i A s c H et P . LANGERON
pression franais e 2G9ri Le dveloppement libidinal
J. DBJKVX l i . BRUSSCT
2676 Histoire du vin 2696 La grontologie
J.-R (iAI.TIKlt
C. de JAEGER
2677 Les transsexuels
2G97 La libre circulation des penoDnM
h.-E, i'ETTITI dans la CEE
2GT3 La sociologie du corps H . do LARY
D . L E BRKTON 2693 Le boulangisme
26T9 Les OPA J. OAIiHTGUHS
A . CURET et G. HmioOEN
2699 La gestion de patrimoine
Les personnes
A. SrutAux
IJ. PAVS
2700 Les toxicomanies de l'adolesoeni
2681 Le logiciel systme
T. i'Al.lSSAIlD n . CHABROL
26b2 Les services d'aide psychologique
par tlphone
S. j A L ' I - i U N
2Gg3 Le refoulement
t . LE CrUEN
2684 L'inlulllonlsme
J . LAHUKALLT
2S6 Les mdias du futur
|.'. VA.S.SI-:I'U

9 782130 4 5 0 8 3 2
2686 La lgion tiangie
A.-P. COUOH

You might also like