You are on page 1of 13

On possde un tableau rectangulaire de mesure dont les colonnes sont des

variables quantitatives (mensurations, taux, stations climatiques) et dont les


lignes reprsentent des individus statistiques (units lmentaires telles que
des tres humains, des pays, des annes).
LAnalyse en Composantes Principales (ACP)
Variables
1 ...... j ..p
1

.
n
Xij
I
n
d
i
v
i
d
u
s
X : Tableau de donnes
Xij : Valeur de la ime
observation pour la jime variable
Xi. : ime observation du tableau
X.j : jime variable du tableau
n : effectif des individus
p : nombre de variables
Objectifs : extraire lessentiel de linformation contenue dans le tableau de
donnes et den fournir une reprsentation se prtant plus aisment
linterprtation. Pas dhypothses a priori.
On peut interprter gomtriquement les lignes et les colonnes du tableau X
par des points dans deux espaces diffrents : lespace des variables et
lespace des individus.
Lespace des individus
Les n lignes peuvent tre considres comme n points de lespace des
individus p dimensions.
Deux points sont trs proches si les p coordonnes de ces deux points sont trs proches (mmes
valeurs pour les diffrentes variables).
Lespace des variables
Les p colonnes peuvent tre considres comme p points dans un espace n
dimensions. Cet espace est appel lespace des variables.
Si les valeurs prises par deux variables sont trs voisines pour lensemble des individus, ces variables
seront trs proches (ce qui peut signifier que les variables mesurent la mme chose ou encore
quelles sont lies par une relation particulire).
LAnalyse en Composantes Principales (ACP)
Lespace des individus
Lanalyse du nuage de point utilise la notion fondamentale de distance. On
munit lespace des individus de la distance euclidienne classique.
LAnalyse en Composantes Principales (ACP)
( )

=
=
p
j
j
B
j
A B A
X X X X d
1
2
. .
) , (
A
B
Lespace des individus
Lanalyse du nuage de point utilise la notion fondamentale de distance. On
munit lespace des individus de la distance euclidienne classique.
LAnalyse en Composantes Principales (ACP)
( )

=
=
p
j
j
B
j
A B A
X X X X d
1
2
. .
) , (
On dsigne par g le centre de gravit du nuage :

=
n
i
i
X
n
g
1
1
A
B
g
Lespace des individus
Lanalyse du nuage de point utilise la notion fondamentale de distance. On
munit lespace des individus de la distance euclidienne classique.
LAnalyse en Composantes Principales (ACP)
( )

=
=
p
j
j
B
j
A B A
X X X X d
1
2
. .
) , (
On dsigne par g le centre de gravit du nuage :

=
n
i
i
X
n
g
1
1
( )
i
n
i
g
X g d
n
I ,
1
1

=
=
Linertie totale du nuage scrit :
A
B
g
Lespace des individus
On recherche des sous-espaces reprsentant au mieux ce nuage de point en
respectant 2 critres : le critre de proximit et la fidlit des distances.
Cest le sous-espace passant par g qui optimise ces deux critres
LAnalyse en Composantes Principales (ACP)
A
B
g
Soit H le sous-espace passant par g, on distingue deux
types dinertie :
H
Lespace des individus
On recherche des sous-espaces reprsentant au mieux ce nuage de point en
respectant 2 critres : le critre de proximit et la fidlit des distances.
Cest le sous-espace passant par g qui optimise ces deux critres
LAnalyse en Composantes Principales (ACP)
A
B
g
Soit H le sous-espace passant par g, on distingue deux
types dinertie :
Inertie explique par H
Inertie rsiduelle autour de H
( )
i
n
i
X g d
n
H I

,
1
) (
1
exp
=
=
( )
i i
n
i
rs
X X d
n
H I ,

1
) (
1

=
=
A
B
H
Lespace des individus
On recherche des sous-espaces reprsentant au mieux ce nuage de point en
respectant 2 critres : le critre de proximit et la fidlit des distances.
Cest le sous-espace passant par g qui optimise ces deux critres
LAnalyse en Composantes Principales (ACP)
A
B
g
Soit H le sous-espace passant par g, on distingue deux
types dinertie :
Inertie explique par H
Inertie rsiduelle autour de H
( )
i
n
i
X g d
n
H I

,
1
) (
1
exp
=
=
( )
i i
n
i
rs
X X d
n
H I ,

1
) (
1

=
=
Inertie totale = inertie explique + inertie rsiduelle
Pour choisir H : maximiser I(exp) et minimiser I(rs)
A
B
H
Lespace des variables
Changement dorigine : g = 0 (centrage des variables)
La recherche des sous-espaces Hk se fait de proche en proche pour k=1 p :
LAnalyse en Composantes Principales (ACP)
0
La dtermination de H1 revient chercher une droite
passant par lorigine qui sajuste le mieux au nuage de
points-individus (maximisant linertie explique).
Pour trouver cette droite, il faut dterminer un vecteur
unitaire u1 port par cette droite avec d(0,u1)=1.
H1
u1
Lespace des variables
Changement dorigine : g = 0 (centrage des variables)
La recherche des sous-espaces Hk se fait de proche en proche pour k=1 p :
LAnalyse en Composantes Principales (ACP)
Une fois u1 dtermin, on peut dmontrer que
le sous-espace H2 sajustant au mieux au
nuage de points contient ncessairement u1.
Pour dterminer le sous-espace H2, on
recherche u2 tel que u2 perpendiculaire u1
et tel que la droite porte par u2, passant par
0, ait une inertie maximale.
On peut dmontrer que le sous-espace H3
contient ncessairement u1 et u2. etc
0
H1
u1
u2
H2
Lespace des variables
On peut dmontrer que les vecteurs u1,u2,,up peuvent sobtenir partir de
la matrice dinertie C (covariance ou corrlation) entre les variables du tableau.
LAnalyse en Composantes Principales (ACP)
Cette matrice est telle quil existe p vecteurs et
p constantes qui vrifient lquation
matricielle suivante : C.v =
Les p vecteurs v sont les vecteurs propres et
les constantes associes sont les valeurs
propres.
Ces vecteurs sont orthogonaux deux deux
et unitaires (de longueur gale 1). Ils
peuvent tre ranges par ordre dcroissant
des valeurs propres associes : le premier
vecteur propre v1 est associ la valeur
propre la plus lev 1. Ces vecteur sont les
vecteurs u1 up recherchs.
0
H1
u1
u2
H2
Lespace des variables
Les droites engendres par ces vecteurs propres sont appeles
respectivement le 1er, 2me, et pime axe principal dinertie du nuage.
LAnalyse en Composantes Principales (ACP)
Linertie explique par H1, le premier axe
principal engendr par v1 est gale :
I(H1)= 1
Linertie expliqu par H2, le plan engendr par
v1 et v2 est gale : I(H2)= 1+ 2
Les valeurs propres de C reprsentent donc
les parts dinertie explique par chacun des
axes principaux du nuage des individus.
0
H1
u1
u2
H2
La composante principale
Combinaison linaire des variables initiales
Cest la projection des points-individus sur laxe principal. Il y a p CP et
linformation quelle rsume () dcroit de la 1re la pime.
LAnalyse en Composantes Principales (ACP)
La projection des variables
Dans le cas dune ACP norme, la coordonne dune variable sur un axe
factoriel est la corrlation entre cette variable et la CP.
Le cas dune ACP spatiale
Si les variables sont des stations de mesures et les individus le temps :
La projection des variables est une carte de corrlation (covariance) dcrivant
un mode de variabilit qui structurent les champ initiaux.
La CP est la srie temporelle synthtique de lvolution de ce mode de
variabilit

You might also like