Professional Documents
Culture Documents
I Analyse matricielle 5
3
4 Table des mati`eres
7 Probl`
emes aux valeurs propres 65
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.2 Origine de ces probl`emes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.3 Sensibilite dun probl`eme spectral . . . . . . . . . . . . . . . . . . . . . . . . 67
7.4 Quelques algorithmes de recherche des valeurs propres . . . . . . . . . . . . 69
II Optimisation 75
Analyse matricielle
5
Chapitre 1
Compl
ements dalg`
ebre matricielle
1.1 Introduction
Le but de ce chapitre est de presenter les principales notations qui seront utilisees dans
ce cours. Il sagit aussi de rappeler des relations entre noyau et image de matrices, qui
seront massivement utilisees, notamment lors de la resolution de probl`emes destimation
de param`etres par moindres carres lineaires. Enfin un rappel sera fait sur le procede
dorthogonalisation de Schmidt, qui sera re-ecrit sous la forme de factorisation QR dune
matrice ; cest ce point de vue matriciel qui sera adopte le plus possible dans la suite.
1.3 Op
erations sur les matrices
On aura principalement ` a considerer les quatre operations suivantes sur les matrices :
la multiplication par un scalaire : A = (aij ) 7 A = (aij )
la somme de matrices de memes dimensions : A = (aij ), B = (bij ) 7 A + B =
(aij + bij )
7
8 Chapitre 1 : Complements dalg`ebre matricielle
le produit de matrices :
k=n
X
A = (aik ), B = (bkj ) 7 A B = (cij ) avec cij = aik bkj
k=1
m
n
nl ml
A = (aij ) 7 AH = A = (aji )
mn nm
1. En Alg` ebre, la notation usuelle pour la transposee (resp. transposee-conjuguee) est le plus souvent
t
A (resp. A ).
12. A est tridiagonale ssi i > j + 1 et i < j + 1 aij = 0, cest `a dire ssi A est
nullesous la premi`ere sous-diagonale
et au-dessus de la premi`ere sur-diagonale :
0
... ...
A=
.. .. .. .
. . .
.. ..
. .
0
De meme, on consid`erera souvent les matrices rectangulaires suivantes :
1. A Rmn , m > n, est orthonormale si AH A = I. Une matrice carree (m = n)
orthonormale est unitaire.
2. A est triangulaire superieure (ou trap`eze) si j < i aij = 0.
1.4 Autres d
efinitions relatives aux matrices
1. Le noyau dans Rn de A Rmn est :
Ker A = {x Rn , A x = 0} Rn
2. Lespace image dans Rm de A Rmn est defini par :
Im A = {A x, x Rn } Rm
3. Le rang de A est rg(A) = dim(ImA) o`
u dim S designe la dimension du sous espace
vectoriel S. On rappelle que
rg(A) = rg(AT ).
Exercice 1.1 On suppose que A Rnn , est telle que A2 + A + I = 0. La matrice A
est-elle inversible ? Calculer son inverse en fonction de A.
Preuve 1.1 Demonstration.
De I = (I A)A = A(I A), on deduit que A1 = I A.
2
Exercice 1.2 Matrice du produit vectoriel. Soit u R3 et au : R3 R3 , v 7 u v, avec
defini par det (u, v, w) = (u v)T w pour tout w R3 . Explicitez A R33 telle que
u v = Av. Montrez et A est antisymetrique (AT = A)et calculer ses valeurs propres.
Preuve 1.2 Demonstration.
Partant de la definition du determinant
u1 v1 w1
w1 (u2 v3 u3 v2 ) w2 (u1 v3 u3 v1 )+
det u2 v2 w2 =
w3 (u1 v2 u2 v1 )
u3 v3 w3
T
0 u3 u2 v1 w1
= u3 0 u1 v2 w2 ,
u2 u1 0 v3 w3
0 u3 u2
on deduit que A = u3 0 u1 . La matrice A est reelle anti-symmetrique
u2 u1 0
(AT = A). Son determinant est 0 (car Au = 0) et sa trace est 0. Donc son polyn ome
3 3 2
caracteristique secrit p() = + a. Un calcul direct montre que p() = + kuk2 . Le
spectre de A est donc {0, i kuk2 , i kuk2 }. Si u 6= 0, A a 3 valeurs propres distinctes. Si
u = 0 alors A = 0.
Exercice 1.3 Calcul de nombres doperations. Soit Q Rm1 et Z Rmk des ma-
a elements non nuls). On consid`ere deux algorithmes devaluation de QQT Z.
trices denses (`
Lagorithme A1 implante (QQT )Z, lalgorithme A2 implante Q(QT Z). Comparez ces deux
algorithmes suivant leur nombre doperations et le co ut memoire de stockage des ma-
trices intermediaires. On utilisera le fait quun produit matrice-vecteur Ax co ute environ
2nnz(A) operations o` u nnz(A) est le nombre de non-zeros de A.
Exercice 1.4 Le determimant est-il une mesure raisonable de la singularite dune ma-
trice ? Soit A Rnn une matrice carree inversible. Que vaut det A en fonction de
det A ? (Application numerique pour A la matrice identite et n = 100 et = 101 ). On
calcule det (A) sur un ordinateur realisant 4 109 operations par seconde, en utilisant la
formule
X n
Y
||
det (A) = (1) ai (i) .
S(n) i=1
Quel temps dure ce calcul pour une matrice quelconque dordre 100 ?
les deux familles {q1 , . . . qj } et {a1 , . . . aj } gen`erent le meme espace. Montrez que cela peut
a peu pr`es 2np2 operations.
se faire en `
On en deduit le resultat suivant : Soit A Rmn de rang n. La matrice A peut
etre factorisee en A = QR o` u Q Rmn est orthogonale et R Rnn est triangulaire
superieure `
a elements positifs sur la diagonale.
et donc P (k) est vraie. Pour resumer, on definit p vecteurs orthonormaux q1 , . . . , qp , par
lalgorithme
a1
q1 = ut 3n operations)
(co
ka1 k2
ut de lordre de 4n pj=2 j 2np2 )
P
pour j variant de 2 jusqu` a p, (co
Pj1
qj = aj i=1 ut (j 1)2n operations)
rij qi , (co
avec rij = qiT ak , i = 1, . . . j 1 (co
ut (j 1)2n operations)
q
rj,j = k qj k2 et qj = rjjj (cout 3n operations).
Dapr`es la formule du rang la condition rg(A) = n montre que Ker(A) = {0} et donc
que les colonnes de A sont lineairement independantes. En utilisant le theor` Pej1me 1.4
pour othogonaliser les colonnes de A = [a1 , . . . an ], on obtient rjj qj = aj i=1 rij qi
pour j = 1, n. Cette relation secrit matriciellement A = QR, o` u Q = [q, . . . qn ] et
R = [rij ]i{1...n},j{1...n} .
2.1 Introduction
La plupart des probl`emes de la physique mettent en jeu des quantites approchees
connues par exemple avec un certain pourcentage derreur. Lorsque ces probl`emes sont
resolus sur ordinateur, se pose naturellement la question de la mesure des erreurs ` a la fin
du processus de calcul. De meme, lorsque des processus iteratifs sont utilises pour le calcul
des solutions, notamment pour les probl`emes non lineaires, la detection de la convergence
sexprime naturellement en termes de normes de vecteurs. Ainsi la premi`ere partie de ce
chapitre est consacree `a un expose elementaire de la notion de norme de vecteur.
Enfin, lorsquune analyse derreur est menee et que des operateurs lineaires sont en
jeu, comme cest le cas lors de la resolution de syst`emes dequations lineaires ou linearises,
cette analyse est grandement facilitee par lemploi de normes matricielles, qui seront
presentees en fin de chapitre.
Proposition 2.2 On sait quen dimension finie, toutes les normes sont equivalentes.
Nous voyons ici des cas particuliers. Pour tout x Rn ,
kxk2 kxk1 n kxk2
13
14 Chapitre 2 : Normes de vecteurs et de matrices
1
kxk2 kxk kxk2
n
Exercice 2.1 Utilisation de normes relatives. Supposons que X et Y sont deux nombres
entiers positifs representes exactement en base 10 en utilisant 6 chiffres significatifs. Supp-
posons que X = [x1 x2 x3 x4 x5 x6 ] et Y = [x1 x2 x3 y4 y5 y6 ], avec x1 6= 0 et x4 6= y4 . Trouver
un majorant de la quantite erreur relative % = |XY |
|X| . G eneraliser au cas ou laccord de
X et Y a lieu sur p chiffres p > 2. Intuitivement que peut-il se passer si X et Y sont des
vecteurs ?
approximation %
200000 2 101
270000 6 103
271000 3 103
271800 1 104
271820 6 105
Cet exemple montre que le nombre de chiffres de tete en commun a lair detre lie ` a la
valeur de %. Reprenons un cas plus general. Le plus grand ecart a lieu si X est le plus petit
possible et Y le plus grand possible. Cela a lieu pour X = x1 x2 x3 999 et Y = x1 x2 x3 000,
999
lecart est 999. Lerreur relative est donc majoree par 100000 < 102 . Plus generalement
si xi = yi pour i = 1 . . . p. Lecart maximal est 10np (majorant de lecart entre 9| .{z
. . 9} et
np
10np
0| .{z
. . 0}) lerreur relative est majoree par 10n1
= 101p . Donc si lerreur relative exc`ede
np
101p , on est s
ur que X et Y ont moins de p chiffres de tete en commun. La quantite
% est donc tr`es utile lorsque les erreurs sont exprimees en terme de chiffres significatifs,
ce qui est souvent le cas lorsque lon traite des quantites physiques mesurees. Lextension
aux vecteurs est delicate et depend de la norme vectorielle choisie. Prenons par exemple la
norme infinie. soit Y = (1000, 10, 1)T et X = (1002, 13, 2)T . On a alors kXY k
kXk = 310 ,
3
alors que les erreurs composantes ` a composantes sont (2 103 , 3 101 , 1 100 )T . Donc
lerreur en norme est plut ot liee dans ce cas au nombre de chiffres de tete en commun sur
la plus grande composante.
Ces notions se generalisent aisement aux matrices rectangulaires. On definit par exemple
ainsi, pour A Rmn ,
kAxk2
kAk2 = max .
x6=0 kxk2
Proposition 2.4 Montrez que la norme de Frobenius est une norme matricielle. Soit
kAkm = max
ij |aij |.
1 1
Avec A = . La norme kkm est-elle une norme matricielle ?
1 1
Preuve 2.3 Demonstration. : Posons C = AB et soit ai la i`eme P ligne de A et bj la
j`eme colonne de B. Alors pour tout i, j cij = aTi bj . Donc kCk2F = ij (aTi bj )2 . Dapr`es
linegalite de Cauchy-Schwarz, pour tout i, j, (aTi bj )2 kai k22 kbj k22 , donc
X X
kCk2F kai k22 kbj k22 .
i j
1 1 2 2
Pour la seconde partie, avec A = , et A2 = , on obtient kA2 km =
1 1 2 2
2 > kAkm kAkm = 1.
Proposition 2.5 Soit A Rmn . Montrez que les normes induites par les normes de
vecteur kxk1 et kxk sont respectivement :
n
X
kAk1 = max |aij |
1jn
i=1
Xm
kAk = max |aij |
1im
j=1
Pm
Preuve 2.4 Demonstration. Premi`ere egalite. Soit y = Ax et C1 = max1jn i=1 |aij |.
Partant de
m m Xn n m n
!
X X X X X
|yi | |aij ||xj | |xj | |aij | |xj |C1 ,
i=1 i=1 j=1 j=1 i=1 j=1
on obtient que kAxk1 CkAk1 , do` u kAk1 C1 . Dautre part, soit j0 lindice permettant
le max dans C1 et ej0 le j0 -`eme vecteur de base canonique. Alors kej0 k1 = 1 et
datteindre P
kAej0 k1 = ni=1 |aij0 | = C1 kej0 k1 , do`
u kAk1 C1 et donc kAk1 = C1 .
Pm
a present Cinf = max1im
Deuxi`eme egalite. Soit ` j=1 |aij |.
n
X n
X
|yi | |aij ||xj | |aij |kxk Cinf kxk ,
i=1 i=1
ce qui montre que en passant au max sur i que kAxk Cinf kxk et donc que kAk
Cinf . Soit i0 lindice permettant datteindre le max dans Cinf et soit zj tel que zj ai0 j =
|ai0 j | si ai0 j 6= 0 et zj = 0 sinon. Si A = 0 le resultat est clair. Si A 6= 0, il existe
j0 tel que |zj0 | = 1 et,Pnpuisque |zj | 1, on a kzk = 1. Posons w = Az on a, |wi |
P n
j=1 |aij | Cinf = j=1 |ai0 j | = |wi0 | = Cinf kzk . Donc en passant au max sur i, on
obtient |wi0 | = kAzk = Cinf kzk , do` u Cinf kAk et donc Cinf = kAk .
u est le rayon spectral defini comme le plus grand module des valeurs propres de A :
o`
(A) = max{||, valeur propre de A}
Definition 2.7 Une norme k.k est dite unitairement invariante si, quelles que soient les
matrices (carrees) unitaires Q et Q0 , alors
i) pour un vecteur x quelconque, kxk = kQxk o`u k.k est une norme de vecteur,
ii) pour une matrice A rectangulaire quelconque, kAk = kQAk = kAQ0 k = kQAQ0 k,
u k.k est une norme de matrice.
o`
kAk = (A).
kAk (A) + .
kX 1 AXxk
Par definition, kDk = maxx6=0 . On introduit (z) = kX 1 zk .
kxk
On montre que est une norme (cf definition 2.1) :
x 6= 0 X 1 x 6= 0 car X est inversible.
De plus comme k.k est une norme X 1 x 6= 0 (x) > 0.
(x) = kX 1 xk = kX 1 xk . Or comme k.k est une norme, kX 1 xk =
||kX 1 xk = ||(x)
(x + y) = kX 1 (x + y)k = kX 1 x + X 1 yk .
Et kX 1 x + X 1 yk kX 1 xk + kX 1 yk , donc (x + y) (x) + (y).
On en deduit, en posant y = Xx que kX 1 Ayk = (Ay) et kxk = kX 1 yk =
(y), donc
kX 1 AXxk (Ay)
(A) = max = max .
x6=0 kxk y6=0 (y)
3. Admis
4. i) ii) Etant donne x, linegalite kAk xk kAk kkxk, montre que Ak x 0
lorsque k , si kAk k 0.
ii) iii) Si (A) 1, il existe un vecteur x tel que x 6= 0, Ax = x, || 1.
Puisque Ak x = k x, kAk xk = |k |kxk = ||k kxk kxk.
Donc limk kAk xk kxk = 6 0, ce qui est incompatible avec ii), donc (A) < 1.
I Ak+1 = (I A)(I + A + + Ak ).
La propriete i) permet de conclure que (IA)1 Ak+1 0, cest `a dire k(I A)1 ki=0 Ai k
P
0 quand k .
Dautre part, si I A est singuli`ere, au moins une des valeurs propres de A est egale
a 1. Donc
`
1 (A) kAk, ( pour toute norme matricielle.)
6. Dapr`es la proposition 2.9, (Ak ) = (A)k kAk k, do` u, pour tout k, (A)
A
k 1/k
kA k . Soit > 0 et A() = (A)+ . Alors (A()) < 1, et donc limk kA()k k = 0
dapr`es le 4.. Donc il existe N tel que k > N = kA()k k < 1. Comme kA()k k =
kAk k/((A) + )k , on obtient kAk k ((A) + )k pour k > N . On a ainsi en
rassemblant les resultats, pour tout , il existe N tel que si k > N , on a (A)
kAk k1/k (A) + , ce qui implique le resultat.
R
esolution de syst`
emes lin
eaires
3.1 Introduction
Ce chapitre est consacre ` a la presentation des techniques fondamentales danalyse de
lerreur pour la resolution de syst`emes lineaires. Le conditionnement dun probl`eme est
notamment introduit comme un indicateur de la sensibilite de la solution ` a des perturba-
tions des donnees. Lautre notion, fort differente du conditionnement, qui intervient dans
lanalyse derreur est lerreur inverse qui permet dassocier, ` a une solution approchee, une
perturbation des donnees, ce qui est tr`es utile pour affirmer par exemple si une solution
est acceptable compte tenu des incertitudes connues sur les donnees.
Enfin est presentee la methode reine de resolution dun syst`eme lineaire : la factori-
sation de Gauss avec pivotage partiel. En raison de sa robustesse, notamment vis ` a vis
des erreurs dues ` a larithmetique des ordinateurs, cette methode (ou la factorisation de
Cholesky, pour des matrices symetriques definies positives) est ` a employer chaque fois que
la taille du probl`eme et la machine de calcul utilisee le permettent.
3.2 Sensibilit
e dun syst`
eme, qualit
e dune solution
Soit ` egulier de n equations `
a resoudre le syst`eme r a n inconnues
Ax = b (3.1)
21
22 Chapitre 3 : Resolution de syst`emes lineaires
Ax + Ax + Ax + Ax = b + b.
kxk2
kbk2
1
A
2
kAk2 + .
kxk2 kxk2
kAk2
Or b = Ax implique kbk2 kAk2 kxk2 , soit 1/ kxk2 . Par consequent
kbk2
Proposition 3.2 Montrez quil possible dobtenir le resultat de perturbation suivant, sans
au
premier ordre, mais en supposant que la perturbation A est bornee. Si
se placer
kAk2
A1
2 1/2, on a
3.3 R
esolution par factorisation A = LU
A est une matrice rectangulaire de Rmn . Ak designe la sous-matrice principale A
dordre k, k = 1, . . . min(m, n).
L Rmm denote une matrice triangulaire inferieure (carree) `
a elements diagonaux egaux
a 1. U R
` mn designe une matrice triangulaire superieure rectangulaire : uij = 0 si i > j.
En utilisant 2 comme pivot pour la deuxi`eme ligne et 3 pour la troisi`eme ligne, on obtient
1 4 7
0 3 6 .
0 6 10
On note que
1 0 0 1 4 7
A = 2 1 0 0 3 6 .
3 0 1 0 6 10
En utilisant 2 comme pivot dans la troisi`eme ligne, on obtient
1 4 7
0 3 6 .
0 0 2
On note que
1 0 0 1 0 0 1 4 7 1 0 0 1 4 7
A = 2 1 0 0 1 0 0 3 6 = 2 1 0 0 3 6 ,
3 0 1 0 2 1 0 0 2 3 2 1 0 0 2
=( 0 . . . 0, tk+1 , . . . , tm )T Rm
k
n1
1 X
(I n1 eTn1 ) . . . (I 1 eT1 ) j eTj
=I+
j=1
Preuve 3.6 On construit une suite de matrices (A(k) , k = 1 . . . s) telle que A(0) = A.
(k)
Supposons construites A(0) , . . . , A(k1) , et supposons que akk 6= 0. Soit
(k) (k)
!T
(k)
ak+1k amk
= 0, . . . 0, (k)
,...,..., (k)
akk akk
Dapr`es la proposition 3.6, A(k) = I (k) eTk A(k1) a tous ses elements sous-diagonaux
de la colonne k nuls. Donc par construction de la suite (A(k) , k = 1 . . . s), A(s) = U est
une matrice triangulaire superieure et on a
U = I (s) eTs . . . I (1) eT1 A.
3.4 R
ole du pivotage
Exemple 3.8 Considerons le syst`eme
105 x +
y = 1
.
x + y = 2
A cause du petit coefficient 105 , il est clair que la solution doit etre proche de x = y = 1. (1)
Supposons que lon resolve ce syst`eme sans pivotage avec une arithmetique `a 4 chiffres. Quelle
solution obtient-on ? (2) Avec pivotage maintenant. On echange les deux equations, soit
x + y = 2
.
105 x + y = 1
Quelle solution obtient-on ? Calculez dans les deux lerreur inverse associee.
(1) Par soustraction, il vient (1105 )y = 2105 . Or dans une arithmetique `a quatres chiffres,
les quantites 1 105 et 2 105 se representent par 105 , donc 105 y = 105 , soit y = 1. Mais
alors 105 x + 1 = 1 implique x = 0 (tr`es different de 1 !).
(2) On echange les deux equations, soit
x + y = 2
.
105 x + y = 1
Donc (1 105 ) y = 1 2 105 entrane encore y = 1. Mais cette fois-ci x + 1 = 2 implique
x = 1. Le seul fait de pivoter a remplace un resultat faux par un resultat satisfaisant.
Calculons en effet lerreur inverse associee `a chaque solution :
105 1
q
kAk2 = T
(A A) avec A =
1 1
1 + 105 + 5 2 105 + 1010
=
2
' 1.61
0
Pour z1 = (0, 1)T , r1 = Az1 b = et donc
1
kr1 k2 1
(z1 ) = = ' 6.2 101
kAk2 kz1 k2 kAk2
105
T
Pour z2 = (1, 1) , r2 = Az2 b = et donc
0
kr2 k2 105
(z2 ) = = ' 4.4 106
kAk2 kz2 k2 2 kAk2
Propri
ete 3.9 Lalgorithme ci-dessus determine pour toute matrice A carree inversible,
une matrice de permutation P = Pn1 . . . P1 telle que P A = LU
(l)
Preuve 3.7 Demonstration. Admise. Si ` a la li`eme etape, all = 0 alors, il existe un
(l)
indice de ligne i > l tel que ail 6= 0, sinon les elements de A(l) en dessous de la l
1i`eme ligne seraient nuls. Donc A(l) serait non inversible, et comme nous avons vu que les
transformations de Gauss conservaient le rang, A serait non inversible, ce qui est exclu.
Soit alors B (l) = Pil A(l) o`
u Pil echange les lignes i et l. Si on pose
(l) (l)
!T
(l)
bl+1l bnl
= 0, . . . 0, (l)
,..., (l)
,
bll bll
alors les coefficients sous-diagonaux de A(l+1) = (I (l) eTl )B (l) sont non nuls jusqu`
a
la colonne l. On a ainsi construit une suite de matrices A (k) telles que A (n) = U . Soit
M
fj = Pn1 . . . Pj+1 (I (j) eTj )Pj+1 . . . Pn1
= I Pn1 . . . Pj+1 (j) eTj Pj+1 . . . Pn1
Or pour tout l tel que l > j, eTj Pl = eTj car la sous-matrice principale dordre j de Pl
est lidentite. Donc M fj = I Pn1 . . . Pj+1 (j) eT , ce qui correspond `
a une transformation
j
de Gauss. Ainsi P A = LU , avec L = I + Pn1 . . . P2 ( e1 ) + Pn1 . . . P3 ( (2) eT2 ) +
(1) T
aij |(k)
|
n = max
i,j,k kAk
(k)
u A(k) est la version calculee de A(k)
o` = aij ` a letape k de la factorisation.
Theor`eme 3.11 (Wilkinson) Pour toute matrice carree dordre n, lerreur inverse, en-
gendree sur un ordinateur (precision ) par lalgorithme de Gauss avec pivotage partiel
(ou total) satisfait
kAk 8 n3 n kAk + O(2 ).
Demonstration. Admise
La factorisation de Gauss avec pivotage partiel appliquee `a W conduit successivement aux matrices
suivantes :
1 0 0 0 1 1 0 0 0 1 1 0 0 0 1
0 1 0 0 2
0 1 0 0 2
0 1 0 0 2
0 1 1 0 2 ,
0 0 1 0 4 ,
0 0 1 0 4 et
0 1 1 1 2 0 0 1 1 4 0 0 0 1 8
0 1 1 1 2 0 0 1 1 4 0 0 0 1 8
1 0 0 0 1
0 1 0 0 2
4
0 0 1 0 4 o`
u 16 = 2 .
0 0 0 1 8
0 0 0 0 16
On peut montrer que lelimination de Gauss appliquee `a une matrice de cette forme et de taille n
a un facteur de croissance de 2n1 .
conduit `
Proposition 3.15 Toute matrice A symetrique definie positive admet une factorisation
de Cholesky A = C T C obtenue gr
ace ` ute n3 /3 operations
a lalgorithme de Cholesky qui co
flottantes.
lT
A=
l Ae
Comme A est definie positive, pour tout x 6= 0 de Rn , xT Ax > 0 et donc en prenant pour
x le premier vecteur de la base canonique, on obtient que eT1 Ae1 = > 0. Lequation
||2 = > 0 permet de choisir = positif et m = l/. Il reste ` a trouver B telle que
BB T = A e mmT = D. Il suffit dappliquer lhypoth`ese de recurrence `
a D qui est dordre
n 1, et qui est, comme nous allons le montrer, hermitienne definie positive.
En effet DT = D, car D = A e mmT o` uAe et mmT sont hermitiennes.
T
1 lT x
l
lT x
T T e T
x Dx = x (A ll )x =
lT A
x x
e
T
lT x lT x
= A .
x x
lT x
Soit x Rn1 non nul, et y = non nul dans Rn . Donc comme A est definie
x
positive, pour tout y non nul de R , y T Ay > 0 et donc xT Dx > 0. La matrice D hermi-
n
Proposition 3.16 Soit A une matrice definie positive. Montrez parq identification dans
T
Pi1 Pi1
lequation A = CC que, pour k i cki cii = aik p=1 cip ckp et cii = aii p=1 cip cip .
Et en deduire un algorithme de calcul de C.
Demonstration. Admise
R
esolution de probl`
emes aux
moindres carr
es
4.1 Introduction
Ce chapitre concerne la resolution du probl`eme de moindres carres lineaires. Comme
pour le cas des syst`emes lineaires, des outils fondammentaux danalyse derreur seront
presentes.
Les deux methodes, basees sur des factrorisations matricielles, les plus utilisees en
pratique seront decrites : la methode des equations normales et la methode de la factori-
sation QR. Ces deux methodes seront comparees du point de vue de leur co ut en nombre
doperations et de leur precision.
Nous allons voir dans un premier temps, un exemple de probl`eme de moindres carres
lineaires representatif de la classe des probl`emes destimation de param`etres.
4.2 G
en
eralit
es
Dans ce chapitre, A Rmn , b Rm , et m n. Dans de nombreuses applications,
a calculer x
on cherche ` tel que A
x approche b au sens des moindres carr
es, cest `
a dire
35
36 Chapitre 4 : Resolution de probl`emes aux moindres carres
lineaires. Un mobile est en chute libre rectiligne sous laction seule de lacceleration de
pesanteur x = g. On suppose donc la vitesse initiale suivant la verticale (trajectoire
rectiligne), et on dispose de mesures de sa position aux instants ti , i = 1, . . . m. Formulez
lestimation de la position initiale (t = 0)x0 , de la vitesse initiale x0 et de g sous la forme
dun probl`eme de moindres carres.
Proposition 4.2 Le probl`eme P admet toujours au moins une solution. Une condition
soit solution de P est que x
necessaire et suffisante pour que x soit solution de lequation
normale
AT Ax = AT b. (4.1)
La solution x est unique si et seulement si A est de rang maximal n. Dans ce cas AT A est
definie positive. Realiser une interpretation geometrique de ce resultat en faisant intervenir
sur un croquis Im(A) et b Ax.
Preuve 4.2 Demonstration : Nous faisons la demonstartion dans le cas reel (A, b sont
reels et la solution chercheee x est reelle). Le cas complexe sobtient par separation des par-
ties reelles et imaginaires dans kAx bk2 . Soit r(x) = b Ax. 1) Montrons que lequation
normale (4.1) admet toujours une solution. Dapr`es la proposition 1.2, Im(AT ) = Im(AT A).
Donc comme y = AT b Im(AT ), y Im(AT A), et donc il existe x tel que y = AT Ax =
AT b. 2) En utilisant
r(x)T r(x) = r(
x)T r( x)T A(x x
x) 2r( )T AT A(x x
) + (x x ), (4.2)
Proposition 4.3 Soit A Rmn de rang r < min(n, m). Il existe des matrices unitaires
U Rmm et V Rnn telles que :
T r 0 r
U AV =
0 0 mr
r nr
Preuve 4.4 Demonstration : Une verification elementaire montre que A+ definie par la
decomposition en valeurs singuli`ere verifie les equations de Moore-Penrose. Supposons `
a
T T T T
present que Xi = 1, 2 verifient ces equations. Alors Xi = Xi A Xi = (AXi ) Xi = T T
AXi XiT . Donc Im(X1T X2T ) Im(A). De plus, AT = AT XiT AT = (Xi A)T AT = Xi AAT ,
donc (X1 X2 )AAT = 0 et donc Im(X1T X2T ) Ker(AAT ) = Ker(AT ) (dapr`es la
proposition 1.2). On obtient donc Im(X1T X2T ) Im(A) Ker(AT ). Or si x Im(A)
Ker(AT ), x = Az et AT Az = 0, ainsi z T AT Az = 0, do` u kAzk2 = 0 et donc x = Az = 0.
Donc Im(A) Ker(AT ) = {0} et X1 = X2 .
A+ = (AT A)1 AT et x
= A+ b.
Si de plus m = n, alors A1 = A+ .
4.3 Algorithmes de r
esolution
La proposition 4.6 laisse penser quil est possible de resoudre le probl`emes de moindres
carres en calculant une decomposisiton en valeurs singuli`ere. Cependant il sav`ere que
cette technique est trop couteuse pour les probl`emes de grande taille. Nous presentons des
methodes qui ont des variantes adaptes a ces probl`emes exigeants.
Soit A Rmn , o` u m n de rang maximal n. Nous avons vu deux types de facto-
risations QR de la matrice A. La factorisation de Gram-Schmidt et ses variantes permet
decrire A = Q1 R, avec Q1 orthogonale (QT1 Q1 = In ) et R est triangulaire superieure ` a
elements diagonaux positifs. Les factorisations de Householder (voir
Section 4.6.1) ou de
R
Givens (voir Section 4.6.2) permettent decrire A = [Q1 , Q2 ] u O R(mn)n est
, o`
O
la matrice nulle, Q Rmm est orthogonale et Q1 Rmn et R sont en arithmetique
exacte les memes matrices que celles obtenue par lalgorithme de Gram-Schmidt.
a 0 = kRxk22 =
Preuve 4.6 La matrice R est inversible puisque Rx = 0 est equivalent `
2
xT RT Rx = xT RT QT1 Q1 Rx = X T AT Ax = kAxk2 , ce qui signifie que x Ker(A). La
formule du rang sur A montre que dim(KerA) = {0} do`
u x = 0. Donc KerR = {0} et R
est inversible.
2 3
(Householder, Givens) QR method
(cost : 2mn 2n /3 flops)
R
1. Factorize A = [Q1 , Q2 ]
O
2. Compute QT1 b and solve Rx = QT1 b
Les deux approches (equations normales, QR) fourniraient bien s ur tr`es precisement la
meme solution en arithmetique exacte. En revanche en presence derreurs darrondis, elles
se comportent de mani`ere tr`es differente, comme nous allons le voir dans le paragraphe
suivant.
4.4 Comparaison de la m
ethode QR `
a la m
ethode des
equations
normales
En ce qui concerne le nombre doperations, si m domine n, la methode QR est deux fois
uteuse que la methode des equations normales (2mn2 contre mn2 pour n << m).
plus co
Nous designons par cnm (ou cn ) une constante generique qui augmente faiblement avec m
et n, et on definit par cond2 (A) = kAk2 kA+ k2 le conditionnement (generalise) de A.
Theor`eme 4.8 Stabilite inverse de la methode QR. Supposons que la solution approchee
de minx kAx bk2 est obtenue en utilisant la methode (Givens, Householder) QR sur
x
une matrice verifiant cnm cond2 (A) < 1. Il existe alors deux matrices E et f telles que x
soit une solution exacte du probl`eme de moindres carres lineaires
kEkF Cmn kAkF
min k(A + E)x (b + f )k2 avec
x kf kF Cmn kbkF .
Demonstration : Wilkinson (65), admise.
2
Theor`eme 4.9 Stabilite inverse de la methode des equations normales. Supposons que la
de minx kAx bk2 est obtenue en utilisant la methode des equations
solution approchee x
normales. Si cm cond2 (A)2 < 1, lalgorithme de Cholesky sach`eve sans probl`eme. Il existe
alors une matrice telle que x soit une solution exacte du syst`eme lineaire
kbk2
2
(C + ) x = d avec kk2 cmn kAk2 1 + + O(2 )
kAk2 k xk
Preuve 4.7 Demonstration : Admise
On part de A et b. Lors de la formation des equations normales, on cherche `a calculer
C = AT A et d = AT b. On obtient sur lordinateur C = C + C et d = d + d, avec
A
kAk = cmn kAk2
T
kC1 k2 cmn
T
2 2 2
kdk2 cmn
A
2 kbk2 = cmn kAk2 kbk2 .
En utilisant le theor`eme 3.17, la factorisation de Cholesky engendre une erreur equivalente
a une perturbation C2 telle que x
` est solution exacte du syst`eme
!
d xT
C + C1 + C2 x
= d, (4.3)
xk22
k
u kC2 k2 cn kC + C1 k cn (1 + cmn ) kAk22 . En appelant la perturbation de C
o`
dans lequation (4.3), x
est solution de (C + )x = d, avec
kAk2 kbk2
kk2 cmn kAk22 + cn (1 + cmn ) kAk22 + cmn (4.4)
k
xk
kAk kbk
cmn kAk22 + cmn 2 2
+ O(2 ) (4.5)
k
xk
kbk2
2
cmn kAk2 1 + + O(2 ). (4.6)
kAk2 k xk
u r = b Ax.
o`
et on obtient
(AT A)x = AT b + AT (b Ax) AT Ax.
Comme A est de rang n, AT A est inversible. En multipliant legalite precedente par
(AT A)1 , et en pasant aux norme, on obtient, puisque A+ = (AT A)1 AT ,
Le resultat final provient du fait que (AT A)1 = A+ A+T , ce qui entrane
(AT A)1
2 =
2 2
kA+ k2 , puisque en utilisant la proposition 2.6, kA+ k2 =
A+ A+T
2 = (A+ A+T ).
2
Nous pouvons maintenant rassembler les resultats de sensibilite avec les resultats der-
reur inverse pour obtenir une comparaison de la methode des equations normales avec la
methode QR du point de vue de lerreur directe kxk/kxk.
Th eor` eme 4.11 Si la methode QR (Householder, Givens) est utilisee sur une matrice A
verifiant cnm cond2 (A) < 1, lerreur sur la solution verifie
kxk2 kbk2 krk2
cnm cond2 (A) 1 + + cond2 (A) .
kxk2 kAk2 kxk2 kAk2 kxk2
Si la methode des equations normales est utilisee sur une matrice verifiant cnm cond2 (A)2 <
1, lerreur sur la solution verifie
kxk2 kbk2
2
cmn cond2 (A) 1 + .
kxk2 kAk2 k xk
kx + kxk2 e1 k22 = (xH + kxk2 eT1 )(x + kxk2 e1 ) = xH x + kxk2 eT1 x + xH kxk2 e1 + kxk2 kxk2
= 2 kxk2 (kxk2 + x1 ) > 0 puisque x1 > 0
(kxk2 + x1 )
uH e1 = p .
2 kxk2 (kxk2 + x1 )
(kxk2 + x1 ) x
Donc He1 = e1 2 (x + kxk2 e1 ) = .
2 kxk2 (kxk2 + x1 ) kxk2
x
La matrice H admet donc comme premier vecteur colonne.
kxk2
Remarque 4.13 Si le vecteur x est tel que x1 ne satisfait pas la condition x1 reel 0, on
peut encore definir H(u) = H telle que telle que Hx soit proportionnel `
a e1 de la mani`ere
suivante :
x + kxk2 ei arg(x1 ) e1
i) si x1 est un complexe non nul, u =
x + kxk ei arg(x1 ) e1
2 2
x kxk2 e1
ii) si x1 est un reel < 0, u =
kx kxk2 e1 k2
Figure 4.1
Donc bkj = 0 pour la valeur de choisie. Lalgorithme de factorisation met a 0 les elements
situes sous la diagonale de A en les parcourant par colonne.
4.6.3 Comparaison en pr
esence derreurs darrondis
Nous disposons de quatre factorisations QR. La factorisation QR de Gram-Schmidt,
sa variante modifiee, et les factorisations de Householder et Givens. Quitte `a considerer
des sous matrices, elles permettent toutes dobtenir un facteur orthogonal m n, Q, et
un facteur carre triangualire superieur, R. Soit A R2515 , la matrice de Vandermonde
1
formee sur les scalaires pj = j . Son conditionnement est cond2 (A) = 3.9 109 . On appelle
15
Qe et R
e les facteurs obtenus par ces factorisations sur ordinateur. On a alors les resultats
A Q eR
e
2
suivants : Les errreurs residuelles associees aux factorisations QR soit = ,
kAk2
valent respectivement :
Cest Householder et Givens que lon obtient la base orthogonale de meilleure qualite.
La methode de Gram-Schmidt donne une base qui nest plus orthonormale. La modifica-
tion de cette methode conduisant ` a la methode de Gram-Schmidt modifiee permet cepen-
dant dameliorer la qualite de la base orthogonale. Ces resultats peuvent etre consolides
theoriquement et il est possible de montrer que le defaut dorthogonalite est de lordre
de cmn cond2 (A)2 pour Gram-Schmidt, cmn cond2 (A) pour Gram-Schmidt modifiee, cmn
pour Householder et Givens.
R
esolution de syst`
emes lin
eaires
par des m
ethodes de Krylov
5.1 Introduction
Que fait-on lorsquil sagit de resoudre un syst`eme lineaire et que les methodes basees
sur des factorisations matricielles sont trop co uteuses (en temps de calcul ou en memoire)
compte tenu du materiel informatique utilise ? On utilise des methodes iteratives qui gen`erent
une suite diteres senses converger vers la solution du probl`eme. Le but de ce chapitre est
de presenter les methodes qui figurent parmi les plus utilisees : les methodes basees sur
un espace dit de Krylov. Ce chapitre sera notamment loccasion de decrire la methode
GMRES, la methode du gradient conjugue, le but du precondiitonnement et la necessite
de disposer de bons crit`eres darret des iterations.
Dans les cas pratiques il est bon de se rappeler quil ne faut se tourner vers les methodes
iteratives que lorsque les methodes directes ne sont pas utilisables, car la mise en uvre
dune methode iterative peut necessiter beaucoup defforts, notamment concernant les tech-
niques de preconditionnement.
5.2 G
en
eralit
es
On definit par lespace de Krylov de dordre m associe ` a la matrice carree inversible
A Rnn et b Cn par K(A, b, m) = Span{b, Ab, ..., Am1 b}. Il est clair que les espaces
de Krylov sont des espaces embotes lorsque m crot. Dans ce chapitre, sauf precision
contraire, kk est la norme Euclidienne pour les vecteurs et la norme induite correspondante
pour les matrices.
47
48 Chapitre 5 : Resolution de syst`emes lineaires par des methodes de Krylov
on a
n1
1 X
A1 = j+1 Aj .
0
j=0
5.3 La m
ethode GMRES
5.3.1 Pr
esentation de lalgorithme
Dans lalgorithme GMRES, on choisit xk K(A, b, k) tel que ||bAxk ||2 est minimum.
Soit lalgorithme suivant :
Arnoldis algorithm
1. v1 = b/kbk
2. For j=1,2, ... m-1 Do
3. Compute hij = viT Avj for i = 1, j
Compute wj = Avj ji=1 hij vi
P
4.
5. hj+1,j = kwj k
6. If (hj+1,j = 0) then Stop
7. vj+1 = wj /hj+1,j
8. EndDo
Proposition 5.3 Si ` a letape js lalgorithme rencontre une quantite hjs +1,js nulle, il
sarrete.
Les quantites vj et hij generees par lalgorithme pour j < js peuvent etre reecrites `
a
chaque pas de la boucle en j sous forme matricielle
j,
AVj = Vj+1 H
uH
o` j Rj+1j est une matrice de Hessenberg superieure.
Preuve 5.3 Demonstration. En effet, dapr`es les etapes 4. et 7. de lalgorithme hj+1,j vj+1 =
Avj ji=1 hij vi , ce qui secrit bien AVj = Vj+1 H
P j avec Vj = [v1 , . . . , vj ] Rnj et
j = [hi,j ] Rj+1j Hessenberg superieure.
H
Proposition 5.4 On se place au dernier pas js de lalgorithme. On a alors AVjs = Vjs Hjs ,
u la matrice Hjs est une matrice carree dordre js . Les valeurs propres de Hjs sont des
o`
valeurs propres de A. Si y est un vecteur propre de Hjs associe a la valeur propre (de A
et de Hjs ), Vjs y est un vecteur propre de A associe.
Preuve 5.4 Demonstration. Si pour y 6= 0, Hjs y = y, AVjs y = Vjs Hjs y = Vjs y, avec
Vjs y 6= 0. Donc toute valeur propre de Hjs est une valeur propre de A. Pour tout vecteur
propre y de Hjs , Vjs y est un vecteur propre de A.
Proposition 5.5 Soit Hj = VjT AVj . La matrice Hj est Hessenberg superieure. En parti-
culier, si A est symetrique, Hj est tridiagonale.
Preuve 5.5 Demonstration. On sait que Hj Rjj est Hessenberg superieure (car elle
est constituee des j premi`eres lignes de la matrice rectangulaire Hessenberg superieure
H j Rj+1j ). Si de plus A est symetrique, H j = V T AVj . et H T = (V T AVj )T =
j+1 j j
VjT AT Vj = Hj . Donc Hj est carree Hessenberg superieure et symetrique ; elle est donc
carree et tridiagonale.
Preuve 5.6 Demonstration. Par recurrence. Vrai pour j = 1. Supposons le resultat sui-
vant vrai au rang j : il existe une matrice Xj Rjj telle que [b, . . . , Aj1 b] = [v1 , . . . vj ]Xj ,
la matrice Xj etant triangulaire superieure inversible (elements non nuls sur la diagonale).
Alors , on posant = kbk,
Montrons que la matrice entre crochets que nous appelons Xj+1 est triangulaire superieure
inversible. La matrice H j est de rang j (Hessenberg avec elements non nuls sur la sous-
diagonale sinon lalgorithme se serait arrete). La matrice H j Xj est Hessenberg superieure
et son element sous diagonal de la colonne k de H j par le ki`eme element diagonal de Xj : il
est donc non nul. La matrice Xj+1 est donc triangulaire superieure ` a elements diagonaux
non nuls : elle est inversible. Enfin on a AVjs = Vjs Hjs donc comme les colonnes de Vjs
forment une base de K(A, b, js ), on a AK(A, b, js ) K(A, b, js ).
Proposition 5.7 Litere xj minimisant la norme du residu kb Axk sur lespace K(A, b, j)
j zj k.
u zj minimise kkbke1 H
secrit xj = Vj zj o`
Proposition 5.8 Le pas js etant celui o` u se produit larret de lalgorithme GMRES, xjs
est la solution du syst`eme lineaire Ax = b.
GMRES algorithm
1. x0 initial guess, r0 = b Ax0 , = kr0 k and v1 = r0 /
2. For k=1,2, ... Do
3. Compute wk = Avk
4. For i=1, ...,k, Do
5. hi,k = wkT vi
6. wk = wk hi,k vi
7. EndDo
8. hk+1,k = kwk k
9. If hk+1,k = 0 set m = k and Goto 12
10. vk+1 = wk /hk+1,k
11. endDo
12. Set-up the (m + 1) m matrix H m = (hi,j )1im+1,1jm
13. Compute, ym the solution of ke1 H m yk2
14. Compute, xm = x0 + Vm ym
Notons que la resolution du probl`eme de moindres carres en 13. est realisee par une
methode stable (Givens),
Nous citons donc ici des conditions de convergence plus utilisables en pratique.
= min kV Q(D)V 1 bk
QPj ,Q(0)=1
4. Pour x de norme 1, on a
1 xH Am x = (Ix)H (I Am )x
H
m m m
1 X Y Y
= (1 wk A)x (I wk A)x
m
j=1 k=1,k6=j k=1
m m
1 X Y
= zjH (1 wj A)zj , avec zj = (1 wk A)x
m
j=1 k=1,k6=j
m H !
1 X
2 zj zj
= kzj k 1 wj A
m kzj k kzj k
j=1,zj 6=0
Si r(A) 1, la partie reelle du membre droit de cette egalite est positive ou nulle. En
H H
z z z z
effet, Re(1ei wj kzjj k A kzjj k |) 1| kzjj k A kzjj k | 0, ce qui implique
que Re(1 eim xH Am x) est positif ou nul. En prenant tel que eim xH Am x =
|xH Am x|, on obtient |xH Am x| 1, et donc r(Am ) 1.
5.3.5 Pr
econditionnement
Les propositions ci-dessus permettent de donner des conditions suffisantes de reduction
de la norme du residu au cours dun restart et donc dobtenir des conditions de conver-
gence de lalgorithme redemarre. Des techniques de transformations du syst`eme lineaire
Ax = b en un syst`eme equivalent pour lequel GMRES converge plus vite sont appelees
techniques de preconditionnement. Les caracteristiques principales dune bonne technique
de preconditionnement sont :
ne pas etre tr`es couteuse en place memoire,
sa mise en oeuvre (preparation + utilisation dans la methode) ne doit pas engendrer
trop de calculs,
elle doit accelerer la methode iterative.
Pour les methodes pour matrices non-symetriques comme GMRES, on parle frequemment
de preconditionnement
`a gauche ; Ax = b est remplace par M 1 Ax = M 1 b o` u M est inversible.
`a droite ; Ax = b est remplace par AM t = b et x = M 1 t, o`
1 u M est inversible.
mixte ; Ax = b est remplace par M11 AM21 t = M1 b et x = M21 t, o` u M1 et M2
sont inversibles. est inversible.
5.4 La m
ethode du gradient conjugu
e
Dans cette section, la matrice A est supposee symetrique definie positive. Soit x =
A1 b. La condition b Axk K(A, b, k) secrit
VkT (b Axk ) = 0.
Proposition 5.15 La methode RGM converge en au plus m iterations sur une matrice
ayant m valeurs propres distinctes.
5.4.1 Convergence de la m
ethode de Ritz-Galerkin (RGM)
Comme xk x0 + K(A, b, k), on a xk = x0 + Qk1 (A)r0 o`
u Qk1 est un polyn
ome de
degre au plus k 1. On a alors
1
Soient i , i = 1, ..., n les valeurs propres de A et = ... o`
u i i = 1, ..., n sont les
n
composantes de (x0 x ) dans la base constituee des colonnes de V . On a A = V V T et
(xk x ) = V ce qui entrne
p(A)(x0 x ) = V p()V T (V )
= V p().
Cela implique
k
1 1
2 .
|Cm ( max
max
+min
min
)| +1
2
En utilisant les propositions 5.17 et 5.15, il apparat quune technique visant a rem-
placer le syst`eme dorigine Ax = b en un syst`eme equivalent
mieux conditionne, ou bien o` u,
les valeurs propres distinctes sont moins nombreuses,
permet daccelerer la convergence de la methode. Plus generalement, on appelle preconditionnement
toute technique visant a accelerer (en temps de calcul, ou en nombre diteration) une
methode iterative.
On rappelle les caracteristiques principales dune bonne technique de preconditionnement
sont :
ne pas etre tr`es couteuse en place memoire ,
sa mise en oeuvre (preparation + utilisation dans la methode) ne doit pas engendrer
trop de calculs,
elle doit accelerer la methode iterative.
5.4.2 La m
ethode du gradient conjugu
e en pratique
Forme classique
La RCM permet de definir de mani`ere unique une suite diteres. Cette methode peut
etre implantee de differentes mani`eres dans les logiciels de calculs. La methode la plus
stable en presence derreurs darrondis est la methode du gradient conjugue. Nous donnons
ici lalgorithme sous sa forme la plus stable. Cette forme est derivee dans de nombreux
ouvrages tels que Matrix Computations de Golub et Van Loan.
Pr
econditionnement
Contrairement aux methodes pour matrices nonsymetriques, le preconditionnement de
CG doit toujours garantir que la matrice preconditionnee est symetrique definie positive.
Pour cela on impose que le preconditionneur M 1 est symetrique defini positif. Dans ce
cas, une factorisation de Cholesky donne M 1 = CC T . Une idee naturelle est de remplacer
= C T b. On pose A = C T AC , C x
le syst`eme dorigine par le syst`eme C T AC x = x,
b = C T b et
xk = C x
k ,
C pk = pk ,
rk = C T rk ,
zk = CC T rk .
Il est possible de montrer que, dans cet algorithme, les residus rk sont M 1 orthogonaux
(rkT M 1 rl = kl ) et que les pk sont Aorthogonaux (pTk Apl = kl ). Les pk sont appeles
aussi directions de descente dapr`es une interpretation en terme dalgorithme doptimisa-
tion. Co ut de la methode
Memoire : stockage de A, du preconditionneur M et de 4 vecteurs de taille n (A
Rnn )
Operations : pour chaque etape, une application de A et une resolution dun syst`eme
lineaire avec M , et 10n operations flottantes par iteration.
Cependant, les erreurs darrondis dans la methode font quen pratique la solution peut ne
pas etre obtenue en n pas. Des techniques co uteuses de reorthogonalisation permettent de
diminuer quelque peu limpact de ces erreurs.
Resolution de syst`
emes lin
eaires
par methodes it
eratives
stationnaires
6.1 Introduction
Historiquement, les methodes iteratives, dites stationnaires, presentees dans ce cha-
pitre furent les premi`eres methodes iteratives `
a etre utilisees, lorsque les methodes basees
sur des factorisations de matrices netaient pas utilisables en raison de leur co ut, et ceci
bien avant lapparition des methodes de Krylov. Elles ne sont plus considerees actuelle-
ment en tant que telles comme des methodes efficaces pour resoudre des syst`emes lineaires
generaux. En revanche elles interviennent comme briques de bases importantes, notam-
ment dans des techniques de preconditionnement et dans les methodes multigrilles.
6.2 Suite r
ecurrentes dordre 1
On sinteresse au syst`eme lineaire Ax = b o`
u A est carree inversible. Nous considerons
les methodes iteratives de la forme
x0 , xk = Bxk1 + c, k = 1, 2, 3, . . . (6.1)
convergent vers une meme limite quel soit x0 si et seulement si (B) < 1. La matrice
I B est alors inversible et limk+ xk = (I B)1 c.
Preuve 6.1 Demonstration : Supposons que la limite existe. Alors elle verifie x? = Bx? +
c, et donc ek = xk x? = B k (x0 x? ) = B k e0 . Par hypoth`ese, B k converge vers 0 ce
qui implique que (B) < 1. Reciproquement, si (B) < 1, alors comme xk = B k x0 + (I +
61
62 Chapitre 6 : Resolution de syst`emes lineaires par methodes iteratives stationnaires
Proposition 6.2 Reduction de lerreur. Supposons (B) < 1. Pour tout x0 , la suite (xk )
converge vers x tel que (I B)x? = c. Soit ek = xk x. Pour toute norme matricielle,
induite ou non, et pour tout > 0, il existe N tel que k > N = kek k ((B) + )k . La
convergence vers x? est donc dautant plus rapide que (B) est petit par rapport a
` 1.
Preuve 6.2 Demonstration : Dapr`es la proposition 6.1, la suite des xk converge vers x?
tel que (I B)x? = b. Alors ek = Bek1 et donc pour toute norme matricielle, kek k =
kB k e0 k kB k kke0 k. Un utilisant la croissance de t 7 t1/k , on obtient 0 kek k1/k
kB k k1/k ke0 k1/k . Comme la limite du membre droit est (B), alors pour tout , il existe N
tel que k > N = kek k1/k (B) + . do` u le resultat.
2
6.3 Methodes it
eratives asymptotiques de bas
ees sur du
splitting
Parmi les plus anciennes de ces methodes figurent les methodes basees sur une decomposition
reguli`ere (splitting) de la matrice A : A = M N , o`u M est une matrice non singuli`ere.
A chaque splitting de A, on associe la methode iterative
Les methodes de splitting ne sont que tr`es rarement utilisees seules pour resoudre
un syst`eme lineaire. Elles peuvent servir pour accelerer dautres methodes, on parle
alors de preconditionneur (voir la section sur les methodes de Krylov), ou inter-
viennent dans des solveurs multigrilles qui sont parmi les plus efficaces pour la
resolution dequations aux derivees partielles.
Les methodes de splitting les plus classiques sont basees sur la decomposition A =
L + D U ou D est la matrice diagonale de A, U est une matrice triangulaire
superieure stricte, et L est une matrice triangulaire inferieure stricte. Les methodes
les plus connues sont la methode de Jacobi (si D est inversible, on prend M = D,
N = L U et xk+1 = D1 ((L + U )xk + b)) et la mehode de Gauss-Seidel (si D L
est inversible, on prend M = D L, N = U , et xk+1 = (D L)1 (U xk + b)).
On montrerait que si A est symetrique definie positive, ces deux methodes sont bien
definies (M est inversible dans chaque cas), et la methode de Gauss-Seidel converge
(et pas necessairement la methode de Jacobi).
Une autre situation o` u les methodes de splitting convergent est donnee par la proposi-
tion suivante.
Proposition 6.3 Soit A une matrice symetrique definie positive. Pour M inversible,
considerons le splitting A = M N . Si M + N est definie positive, alors la methode
iterative associee converge pour tout x0 vers A1 b.
Preuve 6.3 Demonstration : Soit kkA definie par kxk2A = xT Ax (cest une norme). Alors
Ainsi, k(I M 1 A)xkA kxk2A , et donc (relation norme matricielle rayon spectral) (I
M 1 A) 1. Si (I M 1 A) = 1, alors il existe v 6= 0 et , avec || = 1 tel que
(I M 1 A)v = v. Alors k(I M 1 A)vk2A = ||2 kvk2A = kvk2A kM 1 Avk2M +N . Mais
alors, M 1 Av = 0 et donc (inversibilite de A et M ) v = 0 ce qui est impossible. Ainsi
(I M 1 A) < 1.
Une mani`ere equivalente de voir ces methodes de splitting est decrire les iterations
sous la forme
Cette forme equivalente laisse apparatre la methode comme une methode des approxima-
tions successives xk+1 = (I M 1 A)xk +M 1 b. La continuite des valeurs propres entrane
alors que plus M approche A, plus le rayon spectral de I M 1 A sera faible et plus la
methode a des chances de converger rapidement.
6.4 Raffinement it
eratif dune solution et point fixe per-
turb
e
Une application importante des methodes iteratives stationnaires est la technique de
raffinement iteratif de la solution dun syst`eme lineaire. Supposons que lon dispose dune
methode de resolution permettant pour tout syst`eme Ax = b de donner une estimation x
telle que (A + E)x = b, avec kEk kAk. Lorigine de E peut-etre des erreurs darrondis
comme dans lelimination de Gauss, lutilisation de formules approchees pour le calcul de
A comme dans les elements finis. Soit lalgorithme suivant :
Iterative refinement
1. Choose x0
2. For k=0,2, ... Do
3. Compute rk = b Axr
4. Compute dk+1 such that (A + Ek )dk+1 = rk
5. Update xk+1 = xk + dk+1
6. EndDo
Proposition 6.4 On pose cond(A) = kAkkA1 k, et on suppose que kEk k/kAk = k est
cond(A)k
tel que 0 < 1cond(A) k
< 1. Alors lalgorithme de raffinement iteratif converge vers
1 0
A b pour tout x . Plus est petit plus on peut garantir une convergence rapide.
Probl`
emes aux valeurs propres
7.1 Introduction
Calculer des valeurs propres cest resoudre un probl`eme non lineaire. Il nest gu`ere
etonnant que les algorithmes de calcul soient iteratifs. Apr`es un expose de certaines si-
tuations pratiques donnant lieu a ` des probl`emes aux valeurs propres, quelques outils de
base danalyse derreur sont presentes, en soulignant notamment la nature qualitative-
ment differente des resultats si on les compare a` ceux obtenus dans le cadre des syst`emes
lineaires. En effet La precision dune valeur propre peut saverer dependre dune puissance
fractionnaire de la norme des perturbations, ceci se produisant lorsque les valeurs propres
sont defectives.
Nous decrivons ensuite les grandes etapes de la methode QR de calcul des valeurs
propres qui est souvent consideree comme la methode de base lorsque la totalite du spectre
est recherchee. Lorsquun sous-ensemble du spectre est desire, on peut utiliser par exemple
des methodes basees sur lalgorithme de la puissance que nous decrirons. Il existe bien
dautres techniques de calcul, tels que celles basees sur lalgorithme dArnoldi ou sur lal-
gorithme de Jacobi-Davidson.
65
66 Chapitre 7 : Probl`emes aux valeurs propres
Si c = 0,
F0
p
si 6= 0 = k/m, (t) = m(02 2 )
cost.
F0 t
si = 0 , (t) = 2m 2 sin0 t : oscillation avec une amplitude dangereusement
0
croissante : resonnance. Donc toute solution est de la forme acos(t)+bsin(t)+
(t). En pratique c peut-etre petit engendrant une solution particuli`ere (t) tr`es
grande pour proche de 0 . Ce phenom`e doscillation forcee ` a une frequence
propre dsu syst`eme est `
a lorigine de la destruction douvrages tels que le pont de
Tacoma (1940).
Lorsque lon met plusieurs ressorts bout ` a bout, on obtient le prob`eme de vibration M y +
C y + Ky = F (t), o` u M , C et K sont des matrices. Les frequences propres du syst`eme sont
obtenues en cherchant les solutions du syst`eme libre sans frottement pour une excitation
de la forme y(t) = y0 eit , ce qui conduit ` a resoudre le probl`eme dit aux valeurs propres
generalisees 2 M y0 + Ky0 = 0. On pose z0 = (y0 , y0 )T . Ce probl`eme peut secrire sous
la forme du probl`eme aux valeurs propres
0 K M 0
z0 = z0 .
I 0 0 I
En pratique, on verifie `
a la conception que louvrage construit naura pas de frequence
propre de lordre de phenom`emes vibratoires connus.
On peut dores et deja dire que les algorithmes de calculs de valeurs propres necessairement
iteratifs. Les valeurs propres sont en effet racines dun polynome, et le Theor`eme dAbel
montre quil nexiste pas de formule generale (utilisant les operations elementaires) de
omes de degre 5. Mais un grand succ`es du calcul matriciel
calcul de racines de polyn
moderne est algorithme QR de complexite n3 .Cest bien s ur une methode iterative, mais
qui en pratique est vue comme directe par lutilisateur.
7.3 Sensibilit
e dun probl`
eme spectral
Souvent nous calculons les valeurs propres dune matrice A e voisine de A pour estimer
les valeurs propres de A. Cest le cas notamment lorsque A provient dune discretisation
par elements finis, et que ses coefficients sont calcules par quadrature numerique. Cest
aussi le cas lorsque les coefficients de la matrice A ne sont pas representables dans larithmetique
finie des ordinateurs.
Les resultats qui vont nous interesser tendent `a quantifier et qualifier la variation du
spectre sous des perturbations de la matrice. La principale difficulte de cette etude est que
le spectre dune matrice est un ensemble. Donc on sinteresse a ` une fonction qui ` a une
matrice associe un ensemble de nombres complexes, qui sont les valeurs propres de A.
7.3.1 Continuit
e et sensibilit
e
Th eor`eme 7.4 Supposons f H(), g H(), le disque ferme D(a, r) , et |f (z)
g(z)| < |f (z)| sur le cercle de centre a et de rayon r. Alors f et g ont le meme nombre de
zeros dans D(a, r).
e n j |j |
svA (A)
= det(A I)
= det((A I)X)
nj=1
(A I)x
j
2
n
=
(A I)x1
j>1
(A I)x
j
2
2
n
A A
kx1 k2 j>1 (
A
+ kAk2 )
e
e
2 2
1 1 1
n
e (2n 1) kAk +
md(A, A)
Ae
kEk n .
2
2
1
1
Preuve 7.2 Demonstration : Soit = (max{ 2 kA + Ek2 , 0 1}) N . Alors
1
e kEk n = (def ). Soit Di = {, | i | }. Si m quelconques des dispques Di
svA (A) 2
sont isoles des autres, ils contiennent exactement m valeurs propres de A(res1).
e Pour le
1
voir on
pose
A = A + (1 )A = A + E, on definit Di = {, |
1
i | }. Comme
n
e e
kAk2 +
A
, on a dapr`es le theor`eme precedent svA (Ae )
n
, donc les valeurs
e
2 2
propres de A e sont dans lunion des disques D , et le resultat (res1) sobtient en utilisant
i
` present aise de borner md(A, ta). Soit C1 , . . . Ck
la continuite des valeurs propres. Il est a
les ensembles connexes de ni=1 Di , Cl etant la reunion de ml disques isole, ils contiennent
ml valeurs propres de A,e et la distance de chaque valeur propre de A e`
a la valeur propre de
1 1 1
n
A de Cl la plus lointaine est inferieure `a (2ml 1) kAk2 +
A
kEk n .
e
2
Notons que a proposition 7.6 est tr`es different du resultat de perturbation sur les syst`emes
1
lineaires. La borne sugg`ere ici une variation du spectre en kEk n , contre une variation
en kEk pour les syst`emes lineaires. Par exemple pour n = 3 et kEk = 1012 , on une
1
variation proportionnelle `a kEk n = 104 pour les valeurs propres, contre 1012 pour les
syst`emes lineaires. Lexemple 7.8 montre que cette sensibilite sexprime pour certaines
matrices telles que les blocs de Jordan. La proposition 7.9 suivante montre que pour des
matrices diagonalisables, la connaissance dun residu r = Au u permet de localiser une
de A par rapport `
valeur
propres a `
a condition de supposer connu le conditionnement
kXk2
X 1
2 dune matrice X permettant de diagonaliser A. Ce conditionnement vaut 1
si A est normale, car alors X peut etre choisie orthogonale.
| | kXk2
X 1
2 krk2 .
7.4.1 Une m
ethode de d
etermination de la totalit
e du spectre : la m
ethode
QR
Il ne faut pas confondre la methode QR de recherche des valeurs propres, avec la
factorisation QR dun matrice (de Householder par exemple). Nous allons voir que la
methode QR est basee sur des factorisations QR de Householder de matrices carrees, car
ces factorisations sont tr`es robustes aux erreurs darrondis. Lalgorithme sous sa forme la
plus elementaire est en effet le suivant :
Naive QR method
1. Set A0 = A
2. For k=0,2, ... Do
3. Householder factorization Ak = Qk Rk (cost O(n3 ))
4. Compute Ak+1 = Rk Qk (cost O(n3 ))
5. if Ak is close enough to an upper-triangular matrix then stop
6. EndDo
Proposition 7.11 Montrer que si A0 est Hessenberg superieure, Ak est Hessenberg superieure
pour tout k. Montrer que Ak est unitairement equivalent `
a A.
Preuve 7.4 Demonstration : On utilise par exemple une factorization QR de Gram-
Schmidt pour deduire les structures de nonzeros pour cette preuve. Quand on retranche
`
a une colnne dune matrice de Hessenberg, une combinaison lineaire des colonnes qui la
prec`edent, on nintroduit pas de non-zeros. Donc la factorisation QR dune matrice de
Hessenberg secrit Ak sk In = QR selon :
= .
Le produit RQ sk In = Ak+1 donne alors le calcul suivant
= ,
donc Ak+1 est bien une matrice de Hessenberg.
Pour lequivalence unitaire, on a A2 = R1 Q1 +s1 In = (QH H H
1 A1 s1 Q1 )Q1 +s1 Q1 Q1 =
H H H H
Q1 A1 Q1 et de meme A1 = Q0 A0 Q0 = Q0 P AP Q0 , do` u le resulat par recurence.
2
Lalgorithme QR pour la recherche des valeurs propres est un algorithme tr`es impor-
tant, qui a revolutionne lalg`ebre lineaire numerique et permet de disposer dune methode
fiable pour calculer tout le spectre dune matrice. Cet algorithme est en revanche co uteux
en memoire car il demande de stocker des matrices triangulaires et de Hessenberg de la
meme taille que A. De meme en termes de nombre doperations, il a une complexite en
n3 , ce qui peut saverer redhibitoire pour des matrices de la taille de quelques dizaines de
milliers de lignes. Pour cette raison, des methodes alternatives sont utilises lorsque seul
un sous-ensemble du spectre est desire.
Proposition 7.12 Soit A Cl nn telle que les valeurs propres de A sont les i , avec
|1 | > |2 | |n |. Soit y un vecteur propre ` a 1 . Si y T x0 6= 0,
a gauche de A associe `
alors on a limk+ k = 1 et limk+ xk est un vecteur propre de A associe ` a 1 .
Preuve 7.5 Demonstration : La valeur propre 1 est simple. Dapr`es le lemme ??, on
choisit X tel que
0
A=X X 1 ,
0 R
o`u les valeurs propres de R sont plus petites que 1 en module et donc limk+inf ty Rk /k1 =
0. On sait de plus dapr`es le lemme ?? que X T e1 est un vecteur propres ` a gauche associe
T 1 T
a 1 , et lhypoth`ese de lenonce implique que e1 X x0 = e1 y0 6= 0. Dapr`es ce lemme,
`
Xe1 est un vecteur propre ` a droite de A associ
ek a ` 1 . k
1 1 0 1 0
Posons yk = X xk . Alors, on a yk = y0 , puis xk = X y0 ,
0 Rk 0 Rk
et donc !
xk 1 0
y0 = X 10 eT1 y0 ,
limk+inf ty k = limk+inf ty X Rk
1 0 k1
xk Xe1
lim = ,
k+inf ty kxk k kXe1 k
Xe1
ce qui montre que uk tend vers le vecteur propre `
a droite normalise kXe1 k . On obtient
eT T
1 X (A1 )Xe1
aussi que limk+inf ty k 1 = kXe1 k2
= 0, car (A 1 )Xe1 = 0, et donc k tend
bien vers 1 . Concernant les vitesses de convergence, dune mani`ere qualitative, plus la
quantite (R/1 ) est faible, plus vite yk /kyk k converge vers e1 , et donc plus vite xk /kxk k
converge vers x/kxk.
Plus la quantite (R/1 ) est faible, plus vite ces convergences ont lieu. Trois remarques
importantes peuvent etre faites sur la methode de la puissance :
Co ut de chaque iteration. En memoire, cette methode est peu co uteuse, vu quil sagit
de stocker les vecteurs uk essentiellement. En operations, le co ut est determine par
ut dun produit matrice vecteur, ce qui est peu si la matrice A est tr`es creuse,
le co
par exemple.
Pour la convergence. On a vu que si la plus grande valeur propre en module est
bien separee des autres (au sens o` u (R/1 ) = | 21 | est faible), la convergence de
la methode est rapide. Cette remarque peut conduire ` a lidee dappliquer la methode
de la puissance, non a A, mais a (A I)1 , pour calculer la valeur propre de A la
plus proche du param`etre dit de shift, . Bien s ur, la matrice inverse nest jamais
calculee, A I est factorisee une fois pour toutes en debut dalgorithme. Cette
methode sappelle la methode de la puissance avec shift et invert. La convergence
sera dautant plus rapide que est proche de la valeur propre desiree. Il existe
une methode ayant une convergence encore plus rapide : la methode du quotient de
Rayleigh. Cette derni`ere methode implante un shift variable au cours des iterations
et necessite donc de factoriser plusieurs fois la matrice shiftee, ce qui peut saverer
trop couteux pour certaines applications.
La methode de la puissance peut se generaliser `a la recherche de r valeurs propres
dominantes en module de A. Cette methode appelee methode diteration de sous-
espace secrit :
Subspace iteration method
1. Choose X0 Cl nr
2. Factorize X0 = Q0 R0 , R0 Cl rr
3. For k=0,2, ... Do
4. Compute Xk+1 = AQk
5. Factorize Xk+1 = Qk+1 Rk+1
6. Compute the eigen pairs (j , yj ) of QH k+1 AQk+1
7. if (j , Qk+1 yj+1 ) is reasonable set of eigenpairs of A then stop
8. EndDo
La convergence de cette methode depend cette fois du ratio | r+1 r
|.
Les algorithmes de la puissance et de literation de sous-espace, font intervenir
de mani`ere explicite un crit`ere darret pour stopper les iterations. Il serait tr`es
imprudent dutiliser un crit`ere sur la stationnarite des iteres du type |k+1 k | <
tol, car des plateaux peuvent apparatre avant que la convergence nait lieu. On
utilisera des crit`eres bases sur lerreur inverse kAy k k yk k
kAkkyk k pour juger de la qualite
de la pair propre approchee (k , yk ).
Optimisation
75
Chapitre 8
8.1 Introduction
On appelle probl`eme doptimisation un probl`eme note :
P : min f (x).
xC
La fonction f est appelee fonction objectif et lensemble C est lensemble des contraintes.
Nous nous limitons dans ce cours au cas o` u C est un sous-ensemble de Rn .
Exercice 8.1 Difference entre dimension infinie et dimension finie sur un exemple. Soit
1
Pn : min f (x) = xT x, o`
u Cn = {x Rn , x1 = , et kxk2 1}.
xCn Rn 2
Soit
1 1
1
Z Z
2
P : min f (x) = u C
x , o` = {x, x est continue et x(0) = , et x2 1}.
xC 0 2 0
R 1 limn+ f (xn ) = 0, mais il nexiste pas de fonction continue non nulle pour
on a alors
laquelle 0 x2 = 0. Donc P nadmet pas de solution.
77
78 Chapitre 8 : Optimisation sans contrainte
cest un probl`eme doptimisation globale. Dans les cas generaux, nous verrons quil est
parfois possible de donner des conditions necessaires, ou des conditions suffisantes dop-
timalite, ou meme quelquefois des conditions `a la fois necessaires et suffisantes. Les al-
gorithmes rechercheront des points qui verifient ces conditions. Le probl`eme de moindres
carres lineaires vu precedemment est un exemple de probl`eme doptimisation.
Exercice 8.2 Un fabricant de composants electroniques poss`ede deux types de fabriques :
A et B, notees Ai , 1 m et Bj , 1 j n. Lors de la fabrication, chacun de ces
composants doit tout dabord passer par une des usines de type A puis par une de type B.
Comme ces usines ne se trouvent pas dans le meme lieu geographique, le fabricant doit
etudier le meilleur moyen pour transporter ces composants ` a moindre co ut des usines Ai
vers les usines Bj . Connaissant la matrice des co uts C = [cij ] o` u cij correspond au co ut
de transport dune pi`ece de lusine Ai vers lusine Bj , ainsi que le nombre de pi`eces ai
produites par lusine Ai et le nombre de pi`eces bj que lusine Bj doit recevoir, formuler
le plan de transport optimal (en terme de cout de transport) sous la forme dun probl`eme
doptimisation. Donnees m = 2, n = 3, [a1 , a2 ] = [10, 20], [b1 , b2 , b3 ] = [5, 10, 15] et
2 8 7
C=
3 4 5
Preuve 8.2 Demonstration : Soient les variables de decision suivantes : xij nombre de
pi`eces allant de lusine Ai vers lusine Bj avec 1 i 2 et 1 j 3. Le probl`eme
doptimisation secrit : Minimiser z = 2x11 + 8x12 + 7x13 + 3x21 + 4x22 + 5x23 sous les
contraintes
x11 + x12 + x13 = 10
x 21 + x 22 + x 23 = 20
x11 + x21 = 5
x 12 + x 22 = 10
x + x = 15
13 23
x11 ; x12 ; x13 ; x21 ; x22 ; x23 0
2
Exercice 8.3 Principe de Fermat. Soient a, b, c trois reels positifs. On suppose que lon a
deux milieux M1 = {(x, y), y > 0} et M2 = {(x, y), y < 0} et que la vitesse de propagation
dun rayon lunimeux est ci dans Mi . On consid`ere que le rayon se propage en ligne droite
dans chaque milieu et que le rayon suit un trajet de temps global de parcours minimum
(principe de Fermat). Formuler le probl`eme de la recherche du trajet entre A(0, a) et
B(c, b) sous la forme dun probl`eme doptimisation. En utilisant une etude de fonction,
montrez que le principe de Fermat se traduit par la loi de Snell
sin1 sin2
= .
c1 c2
Preuve 8.3 Demonstration : Soit X(x0 , 0) le point o`
u le rayon change de milieu. Le
temps de trajet est
1p 2 1p
T (x) = a + x2 + (c x)2 + b2 ,
c1 c2
Ress. Pedag. Ouv. INPT, 0727 (2014) 24h
S. Gratton, Analyse matricielle et Optimisation, Ed.
79 Chapitre 8 : Optimisation sans contrainte
et x0 minimise T (x). Les minima dune fonction reelle verifient T 0 (x) = 0, ce qui donne
x cx
= p ,
c1 2
a +x 2 c2 (c x)2 + b2
Exercice 8.4 Mission : desamorcer une bombe nucleaire sur un yacht. Yacht amarre ` a 50
m`etres du rivage. James Bond se trouve ` a 100 m`etres du point le plus proche du yacht sur
la plage. Vitesses : course 18km/h, nage : 10km/h. Temps de desamorage : 30 secondes.
Explosion dans 65 secondes. Formaliser la faisabilite de cette mission sous la forme dun
probl`eme doptimisation.
Preuve 8.4 Demonstration : Le temps de parcours du heros est f (x) = x5 +0.36 502 + (100 x)2 .
p
min f (x),
Exercice 8.5 Nous supposons que C est ferme et quil existe un point de C en lequel f
est finie. Supposons de plus que f est semicontinue inferieurement sur C, et f est coercive
( lim f (x) = +). La fonction f admet un minimum sur C.
kxk +
xC
Preuve 8.5 Demonstration : Faisons la demonstration dans le cas o` u f est continue. Soit
x0 C en lequel f est finie. Une consequence de la coercivite est que il existe tel que
kxk > entrane f (x) f (x0 ). Alors le probl`eme doptimisation revient a la minimisation
de la fonction continue f sur le compact K = {x C, kxk }. Comme limage continue
dun compact est un compact, f (K) est un compact en dimension finie, donc cest un
ferme borne. Donc le reel infxK f (x) qui appartient ` a ladherence de f (K) appartient `
a
f (K), ainsi il existe x K tel que f (x ) = inf xK f (x) f (x) pour tout x Rn .
Exercice 8.6 Si C est convexe et si f est strictement convexe sur C, alors f admet au
plus un minimum sur C.
o`u lon a pose o(h) = khk(h), avec limkhk0 (h) = 0. Le vecteur colonne f 0 (x)T sappelle
gradient de f en x et est note f (x). Notez que cette notion generalise la notion de
derivabilite dune fonction de R dans R et que f 0 (x) ne depend pas de la norme consideree.
f (x + ei ) f (x) ||
lim = lim f 0 (x)ei + (ei ) = f 0 (x)ei .
0 0
f (x)
On obtient donc xi = f 0 (x)ei .
1
f (x + h) = (x + h)T A(x + h) (x + h)T b
2
1 T 1 1 1
= x Ax + hT Ah + xT Ah + hT Ax (x + h)T b
2 2 2 2
T 1 T
= f (x) + (Ax b) h + h Ah.
2
|hT Ah| khk22 kAk2 |hT Ah|
De plus, 0 khk2 khk2 = kAk2 khk2 , donc limkhk2 0 khk2 = 0, ce qui montre
que hT Ah = o(h).
Definition 8.4 Une fonction f est dite deux fois derivable si chaque derivee partielle
f (x)
xi est d erivable. Une fonction est k fois derivable si elle est k 1 fois derivable et si
a lordre k 1 sont derivables.
les derivees partielles `
Exercice 8.9 (Derivation dune composee) Soit f , definie sur un ouvert O Rn , derivable
en tout x O. Soit d Rn . On definit localement en x la fonction de la variable reelle t
par : t 7 (t) = f (x + td). Montrez que est derivable en 0 et que
n
X f (x)
0 (0) = f (x)T d = di .
xi
i=1
Exercice 8.10 Supposons que f est une fonction definie sur un ouvert convexe O et 3
ument derivable en tout x O. Montrez qualors la matrice carree symetrique
fois contin
2 2 f (x)
f (x) = [ x i xj
] appelee Hessien de f en x, est telle que
1
f (x + h) = f (x) + f (x)T h + hT 2 f (x)h + o(h2 ), (8.1)
2
u lon a pose o(h2 ) = khk2 (h), avec limkhk0 (h) = 0.
o`
n X
n X
n
X 3 f (x + th)
000 (t) = hi hj hk .
xi xj xk
k=1 i=1 j=1
Dapr`es la formule de Taylor avec reste integral on a (1) = (0) + 0 (0) + 12 00 (0) +
R1 2 000
1 1 2 000 (s)ds, et il reste ` 0 (1s) (s)ds
R
2 0 (1 s) a montrer que limkhk0 khk2
= 0. En utili-
sant lequivalence des normes en dimension finie, on peut travailler avec nimporte quelle
3
norme. Choisissons la norme infinie. Notons tout dabord que comme h 7 xfi(x+h) xj xk est
3
continue, il existe M et tel que | xfi(x+h)
xj xk | < M pour tout h tel que khk (pour
R1 R1
tout i et j). Alors, comme |hi | khk , on a | 0 (1 s)2 000 (s)ds| 0 |000 (s)|ds
R1
| (1s)2 000 (s)ds| 3 3
khk3 nk=1 ni=1 nj=1 M = M n3 khk3 . On a donc 0 0 khk2 M nkhkkhk
P P P
2
,
do`
u le resultat.
Exercice 8.12 (Taylor avec reste integral) Supposons que f est une fonction definie sur
un ouvert convexe O et 1 fois contin
ument derivable sur O. Montrez qualors pour tout x
et y de O, Z 1
f (y) = f (x) + f (x + s(y x))T (y x) ds.
0
ument derivable sur O,
Si f est 2 fois contin
Z 1
f (y) = f (x) + 2 f (x + s(y x))(y x) ds.
0
Preuve 8.12 Demonstration : 1) Soit la fonction contin ument differentiable sur [0, 1],
(t) = f (x + t(y x)). Alors le premier resultat nest autre que
Z 1
(1) = (0) + 0 (s) ds.
s=0
f (x + t(y x))
2) Soit i la fonction contin ument differentiable sur [0, 1], (t) = .
xi
Z 1 X n
f (y) f (x) 2 f (x + s(y x))
Alors 1) secrit = + (y x)j ds, ce qui mis
xi xi 0 xj xi
j=1
sous forme matricielle donne 2), puisque par definition du Hessien, 2 f (x + s(y x)) =
2
[ f (x+s(yx))
xi xj ].
Definition 8.5 Soit f definie sur un ouvert O Rn ` a valeurs dans Rm . On dit que f
est derivable (au sens de Frechet) en x, si chacune des composantes fi est derivable (au
sens de Frechet) en x. On a alors
o`u lon a pose f 0 (x) = [f1 (x)0 ; . . . ; fm (x)0 ] Rmn ainsi que o(h) = khk(h) Rm , avec
limkhk0 (h) = 0 Rm . La matrice
f1 (x) f1 (x)
...
f1 (x)T
x1 xn
0
.. .. .. .. mn
f (x) = Df (x) = = R
. . . .
fm (x) fm (x)
fm (x)T
...
x1 xn
est appelee matrice Jacobienne de f en x.
Exercice 8.13 Derivation dune composee. Soit f definie sur un ouvert O Rn , differentiable
en x O, ` a valeurs dans Rm . Soit g definie sur un ouvert V Rm , differentiable en
f (x) V, ` a valeurs dans Rp . Alors la fonction x 7 gof (x) = g(f (x)) definie sur lou-
vert O est differentiable en x et verifie (gof )0 (x) = g 0 (f (x)) f 0 (x), o`
u f 0 (x) Rmn et
g 0 (f (x)) Rpm .
Exercice 8.14 Derivation numerique. Pour une fonction differentiable, nous avons vu
que le calcul de la derivee se ram`ene au calcul de derivees partielles, donc de derivees de
fonctions de R dans R. On suppose que est deux fois derivable et que |00 (x)| M .
Sur un ordinateur, levaluation de se fait ` a pr`es : ` a la place de (x), on calcule
(x+h)(x)
(x) = (x) + (x), avec |(x)| . Posons h (x) = . Montrez que |0 (x)
e e e
e
h
h (x)| M2h + 2 h , En deduire que un choix raisonnable pour h est h0 = 2 M , pour
e p
lequel |0 (x) h0 (x)| 2 M .
e
|(x + h) (x)|
|h (x) h (x)| = 2 .
e
h h
Cette erreur est une erreur numerique due au calcul de la difference finie sur ordinateur.
On a alors
Mh
|0 (x) h (x)| |0 (x) h (x)| + |h (x) h (x)| +2 .
e e
2 h
Une idee pour choisir h est de minimiser pour h > 0 la borne de lerreur M2h + 2 h . La
derivee vaut M
p
2 2 h2 et sannule en h = 2 M , qui est bien le minimum (pour le voir
Mh
etudier la fonction h 7 2 + 2 h .
f (x) = 0. (8.2)
Notez quen presence de contraintes, ce resultat ne tient plus (considerer min x).
x[0,1]
Preuve 8.15 Demonstration : Supposons quil existe d tel que f (x)T d < 0. Soit : t 7
f (x + td), on a alors 0 (0) = f (x)T d < 0. On a alors (t) = (0) + 0 (0)t + |t|(t).
0 0
Comme tend vers 0 en 0, il existe t0 tel que si t t0 , (t) | 2(0)| = 2(0) . Mais alors,
0
pour t > 0, (t) (0) t 2(0) < 0, ce qui contredit que x
est un minimum local de f .
Exercice 8.16 Loi de Snell. En reprenant lexercice 8.3, montrez que le principe de Fer-
mat se traduit par la loi de Snell
sin1 sin2
= .
c1 c2
Preuve 8.18 Demonstration : Raisonnons par labsurde. On suppose que x nest pas un
minimum local de f et que f (x) = 0 ; montrons que 2 f (x) nest pas definie positive.
Si x nest pas un minimum local de f , il existe une suite (xk ) convergeant vers x dont le
terme k est defini ainsi : xk est tel que 0 < kx xk k 1/k et f (xk ) < f (x). Soit alors la
direction normalisee dk = kxxkk x
xk et tk = kxk xk (i.e. xk = x + tk dk ). Comme kdk = 1,
dk appartient `a un compact et on peut en extraire une sous-suite convergente. Soit d la
limite dune telle sous-suite notee sans perdre de generalite (dk ). Alors 0 > f (xkt2)f
/2
(x)
=
k
f (x+tk dk )f (x)
t2k /2
= h2 f (x)dk , dk i + 2(tk ), et comme (tk ) 0 on a par passage `
a la limite
h2 f (x)d, di 0. Cela montre que 2 f (x) nest pas definie positive.
Preuve 8.19 Demonstration : Sans passer par les valeurs propres, le probl`eme minkxk=1 xT Ax
admet au moins une solution xmin (fonction continue sur un compact). De plus comme A
est symetrique et definie positive, xTmin Axmin = min > 0. Ainsi,
1 x T x 1
f (x) = kxk2 A xT b kxk(min kxk kbk),
2 kxk kxk 2
donc limkxk+ f (x) = +. La fonction f admet au moins un minimum car f est conti-
nue et coercive. Dapr`es les exercices 8.8 et 8.15, la condition necessaire doptimialite
secrit f (x) = Ax b = 0, ce qui entrane x = A1 b car A est symetrique et definie posi-
tive, donc inversible. Il est normal que ce minimum verifie aussi la condition necessaire du
second ordre de lexercice 8.17 (2 f (x) = A est semi-definie positive). De plus, il verifie
la condition suffisante du second ordre de lexercice 8.18 (2 f (x) = A est definie positive).
a present aux moindres carres lineaires. Alors f (x) = kAx bk22 = xT AT Ax
On sinteresse `
2xT AT b+bT b. Nous avons vu que si rg(A) = n, alors AT A est definie positive (Ker(AT A) =
Ker(A) et formule du rang sur A, n = rg(A) + dim Ker(A), do` u Ker(AT A) = {0}. La
matrice AT A est donc symetrique definie positive). Lexercice montre alors quune condi-
tion necessaire et suffisante doptimialite est f (x) = 2(AT Ax AT b) = 0, et on retrouve
bien lequation normale AT Ax = AT b.
Newtons method
1. Choose x0
2. For k=0,2, ... Do
3. Compute if 2 f (xk ) is nonsingular
4. xk+1 = xk 2 f (xk )1 f (xk )
5. EndDo
Exercice 8.20 Sous les hypoth`eses standart, il existe > 0 et K > 0, tels que si
kx x0 k , kx xk+1 k Kkx xk k2 . Si K < 1, (xk ) converge vers x. Une telle
convergence est appelee locale quadratique.
k2 f (x)k 2k2 f (x)k et k2 f (x)1 k 2k2 f (x)1 k, et 2 f (x) est definie positive.
R1 2 (8.5)
Soit xk B(). Alors en utilisant lexercice 8.12 on obtient f (xk ) = 0 f (x + s(xk x))(xk
x) ds, qui montre que
Si K < 1, xk+1 B() (car kx xk+1 k Kkxk xkkxk xk Kkxk xk) et par
induction si x0 B(), alors xk B() pour tout k. De plus on verifie aisement que
k
(K)2
kx xk k , ce qui montre que (xk ) converge vers x.
K
2
Pn 1
Exercice 8.21 (Crit`ere darret) Pour la suite fn = k=1 , montrer que la stationarite
k
de fn (i.e. fn+1 fn petit) nindique pas la convergence. En deduire quarreter une methode
doptimisation sur |f (xk+1 ) f (xk )| est dangereux. En revanche, sous les conditions
standart, montrez que pour xk suffisamment proche de x, on a
kx xk k kf (xk )k 4cond(2 f (x))kx xk k
.
4kx x0 kcond(2 f (x)) kf (x0 )k kx x0 k
En deduire que la norme relative du gradient est un crit`ere darret possible si le Hessien
`
a loptimum est bien conditionne.
Preuve 8.21 Demonstration : La suite fn diverge mais fn+1 fn tend vers 0. Par les
memes arguments que pour la preuve de 8.20 on a pour xk B(),
Z
kf (xk )k = k 2 f (x + s(xk x))(xk x) ds,k 2k2 f (x)kkx xk k.
La matrice 2 f (x + s(xk x)) etant definie positive dans B() linegalite matricielle pour
une matrice A symetrique definie positive z T z/max (A1 ) = min (A)z T z z T Az montre
alors que Z 1
1
kxk xk2 2 f (x + s(x x))1 k
kxk xkkf (xk )k.
0 k k
kxk xk 2
En utilisant k2 f (xk )1 k 2k2 f (x)1 k, on obtient 2k 2 f (x)1 k kxk xkkf (xk )k.
8.4.2 M
ethodes quasi-Newton
Une facon dapproximer la Hessienne, pour eviter de calculer et de stocker les derivees
dordre 2 est decrite comme suit. Pour une fonction quadratique, il est aise de montrer que
f (x1 ) f (x2 ) = 2 f (x1 )(x1 x2 ). Cela indique que la connaissance de deux vecteurs
distincts x1 et x2 et de la difference de gradient associee permet dobtenir dans le cas
quadratique -ou au voisinage de la solution sous les hypoth`eses standart, dans les etapes
ultimes de la convergence- de linformation sur la Hessienne 2 f (x). Plus generalement,
on suppose connus, s = x1 x2 et y = f (x1 ) f (x2 ), ainsi quune approximation
courante B de la Hessienne. On cherche une nouvelle approximation B e telle que B e soit
symetrique et Bs = y. Cela ne suffit pas pour definir de mani`ere unique B, et on recherche
e e
des Be de norme minimale (pour certaines normes) pour forcer lunicite.
min kBkF .
B = B T
(B + B)s = y
Pn 2
= kBQk2F . En utilisant le fait que la norme de Frobenius est unitairement
i=1 kBqi k2
invariante, on obtient kB0 kF kBkF , do` u le resultat.
Exercice 8.23 Soit f une fonction deux fois ument derivable, telle que 2 f (x)
R 1 contin
2
est definie positive pour tout x. Soit G = 0 f (x1 + s(x2 x1 )) ds. La matrice G
est symetrique definie positive. Soit une matrice symetrique W telle que W 2 = G. On
sinteresse au probl`eme
1
W BW 1
.
min F
B = B T
(B + B)s = y
Noter qualors
ysT sy T yy T
B + B0 = I T B I T + T .
s y s y s y
min kkF .
= T
(W 1 BW 1 + )W s = W 1 y
Exercice 8.24 Nous avons vu que dans la methode de Newton, il sagit se resoudre des
u lidee dapprocher 2 f (xk )1
syst`emes lineaires de la forme 2 f (xk )s = f (xk ). Do`
plut 2
ot que f (xk ). Montrez que la formule BFGS (Broyden, Fletcher, Goldfarb, Shanno)
sy T ysT ssT
H + H0 = I T H I T + T ,
y s y s y s
est telle que H0 est solution de
min kHk,
H = H T
(H + H)y = s
min kW HW kF .
H = H T
(H + H)y = s
2
Deux principales difficultes sont rapportees dans la litterature sur la methode de New-
ton pour la minimisation :
1. Son mauvais comportement lorsque le point de depart est loin de la solution sur des
probl`emes pour lesquels certains Hessiens 2 f (xk ) sont definis positifs.
2. Son mauvais comportement lorsquelle rencontre des Hessiens ayant des valeurs
propres negatives ou nulles.
Une amelioration possible pour le probl`eme 1) est la mise en place de strategies de re-
cherches lineaires. Le point 2) est souvent apprehende en utilisant des techniques de region
de confiance.
Nous voyons dans la suite deux techniques visant ` a rendre le convergence moins
dependante du point de depart. Ces deux techniques sont appelees techniques de globa-
lisation, et chercheront a
` approcher une convergence locale quadratique au voisinage des
solutions de f (x) = 0. Ces solutions sont appelees points critiques du premier ordre.
Recherche lin
eaire
Dans cette section, on suppose que la fonction f est deux fois contin
ument derivable.
Exercice 8.26 Si dk est une direction de descente en xk , alors il existe > 0 tel que
Preuve 8.26 Demonstration : Soit (t) = f (xk + tdk ). Alors 0 (t) = f (xk + tdk )T dk ,
donc comme 0 est continue, et 0 (0) < 0, il existe u 0 (t) < 0. Alors
R t un0 intervalle ]0, ] o`
pour t dans ]0, ], on a f (xk + dk ) f (xk ) = s=0 (s) ds < 0.
Exercice 8.27 Lalgorithme ci-dessus ne suffit pas pour converger vers un minimum local
de f . Soit f (x) = x2 , x0 = 2.
1. On choisit dk = (1)k+1 et k = 2 + 3 2k1 . Verifier que xk = (1)k (1 + 2k ) et
que chaque direction dk est de descente. Verifier aussi que la suite ne converge pas,
que f (xk+1 ) < f (xk ) et que limk+ f (xk ) = 1. Tracer les iteres et verifier quentre
deux iteres successifs, la decroissance de f est tr`es petite par rapport au pas |k dk |.
2. On choisit dk = 1 et k = 2(k+1) . Verifier que xk = 1+2k et que chaque direction
dk est de descente. Verifier aussi que la suite converge vers 1 (et pas vers 0) que
f (xk+1 ) < f (xk ) et que limk+ f (xk ) = 1. Tracer les iteres et verifier quentre
a |f 0 (xk )dk |.
deux iteres successifs, les pas |k dk | deviennent tr`es petits par rapport `
Definition 8.8 Soit 1 ]0, 1[, 2 ]1 , 1[, et soit dk une direction de descente en xk . On
appelle conditions de Wolfe les deux conditions :
1. f (xk + dk ) f (xk ) + 1 f (xk )T dk (condition de diminution suffisante)
2. f (xk + dk )T dk 2 f (xk )T dk (condition de progr`es suffisant)
Ces deux conditions pallient respectivement les deux types de probl`emes rencontres dans
lexercice 8.27. Si f (xk + dk ) admet un minimum global, celui-ci verifie les condi-
tions de Wolfe (mais peut etre tr`es ou trop cher `
a calculer a
` des etapes preliminaires de
convergence).
Exercice 8.28 Validite des conditions de Wolfe. Soient f : Rn R une fonction differentiable,
un point xk Rn et une direction (de descente) dk Rn telle que f est bornee inferieurement
a-dire il existe f0 tel que f (xk + dk ) f0 pour tout 0).
dans la direction dk (cest-`
Pour 0 < 1 < 1, il existe tel que la premi`ere condition de Wolfe soit verifiee pour tout
k , 0 < k . De plus, si 0 < 1 < 2 < 1, il existe > 0 tel que les deux conditions de
Wolfe soient toutes deux verifiees.
Preuve 8.29 Demonstration : On sinteresse aux > 0 tels que f (xk + dk ) = f (xk ) +
1 f (xk )T dk . Cet ensemble est non vide (car sinon 7 f (xk + dk ) serait en dessous
de 7 f (xk ) + 1 f (xk )T dk , ce qui est impossible car 0 < 1 < 1 et f est bornee
inferieurement), ferme (image reciproque de {0}) et borne inferieurement. Donc cet en-
semble admet un plus petit element 1 , qui verifie
Le theor`eme ci-dessus indique que si langle entre dk et f (xk ) ne converge pas vers
langle droit, la limite du gradient de litere est 0 (on verifie asymptotiquement la condi-
tion necessaire du premier ordre) quel que soit x0 . Cest donc un resultat de convergence
globale. Malheureusement cet algorithme peut avoir une convergence tr`es lente si dk nest
pas choisi avec soin. Par exemple, le choix dk = f (xk ) sav`ere un tr`es mauvais choix
si lalgorithme converge vers un point x? tel que cond(2 f (xk )) est grand : la convergence
est lineaire, avec une vitesse de convergence modeste.
Dans le cas dune convergence vers un point x tel que 2 f (x ) est defini positif
(condition suffisante du second ordre), lidee consiste alors ` a preconditionner la recherche
lineaire et ` a la combiner avec la methode de Newton qui est localement quadratiquement
convergente, comme le fait lalgorithme ci-dessous. Il est possible de montrer que lorsque
les iteres sapprochent dune solution qui verifie les conditions suffisantes doptimalite au
second ordre, le pas de Newton est accepte et la convergence est quadratique.
R
egion de confiance
Definition 8.10 Mod`ele quadratique. On appelle mod`ele quadratique de f en xk une
fonction quadratique mk (xk + s) telle que mk (xk ) = f (xk ) et mk (xk ) = fk (xk ). Il
existe alors une matrice Hk Rnn telle que
1
mk (xk + s) = f (xk ) + fk (xk )T s + sT Hk s.
2
Definition 8.11 Region de confiance. On appelle region de confiance Euclidienne centree
en xk , de rayon k > 0 la sph`ere Bk = xk + {s, ksk2 k }.
On note xk+1 = xk + sk le point ainsi obtenu. La condition technique portant sur xk+1
demandee pour les resultats de convergence est la condition dite de decroissante suffisante :
min mk (x)
t>0
x = xk tm(xk ) Bk
verifie
kmk (xk )k2
1
mk (xk ) mk (xC
k) kmk (xk )k2 min , k .
2 k
1. Supposons gkT Hk gk > 0. Alors le minimum de mk (xk tgk ) pour t R est atteint
2
en t = gTkgHk kg 0.
k k k
kgk k3
Premier cas. Supposons dabord que t kgk k = gkT Hk gk
k , donc xk t gk est dans
la region de confiance et cest xC T
k . Comme gk Hk gk k kgk k, on a alors
1 2 T kgk k4 1 kgk k4
mk (xk ) mk (xC 2
k ) = t kgk k t gk Hk gk T T
gkT Hk gk
2 gk Hk gk 2 (gk Hk gk )2
1 kgk k4 1 kgk k2
= .
2 gkT Hk gk 2 k
kgk k3 kgk k3
Deuxi`eme cas. Supposons maintenant que gkT Hk gk
k . Alors gkT Hk gk k et
le minimum dans la region de confiance est donc atteint sur la fronti`ere (faire un
dessin). Alors t kgk k = k et xC
k = xk k gk et
1 2k T 1 2k kgk k3 1
mk (xk ) mk (xC
k ) = k kgk k 2
gk Hk gk k kg k k 2
= k kgk k.
2 kgk k 2 kgk k k 2
Th eor`
eme 8.12 On suppose que lalgorithme est applique ` a une fonction
deux fois differentiable,
bornee inferieurement n
2 sur
R ,
a Hessien borne (
f (x)
2 uf h pour x Rn ),
`
et que les mod`eles mk sont
quadratiques,
que f
en xk (coherence au premier ordre)
ont meme valeur et gradient
ont des Hessien bornes (
2 f (x)
2 umh pour x Bk ).
alors pour tout x0 , lalgorithme des regions de confiance produit une suite diteres telle
que limk+ f (xk ) = 0.
Preuve 8.32 Demonstration : Admise (Conn, Gould, Toint (2000 p.136)).
2
Le theor`eme 8.12 montre une mani`ere aisee dobtenir un algorithme globalement
convergent : il suffit de choisir 2 mk (xk ) = Hk = 0 Rnn et de prendre pour itere
le point de Cauchy. Par contre on obtient alors un algorithme qui converge aussi peu ra-
pidement que celui implantant systematiquement la recherche lineaire dans la direction
f (xk ). Pour obtenir un algorithme plus performant et approcher la convergence locale
de lalgorithme de Newton, il convient de choisir un pas sk qui soit voisin du pas de Newton
dans les etapes ultimes de la convergence.
Ceci est realise si lon utilise pour algorithme de calcul de pas lalgorithme de gradient
conjugue tronque propose par Steihaug et Toint et si le Hessien du mod`ele approche celui
de la fonction. Cet algorithme commence par calculer le point de Cauchy puis poursuit
la minimisation de la quadratique m(xk + s) par la methode des gradients conjugues, en
sarretant au premier itere sortant de la region de confiance Bk . On a ainsi minimise
davantage m(xk + s) que m(xC k ), et donc on a, `
a la fin de cette procedure de gradient
conjugue tronque, la decroissance suffisante :
kx mk (xk )k2
C 1
m(xk ) m(xk + sk ) m(xk ) m(xk ) kx mk (xk )k2 min , k .
2 k
u la convergence a lieu vers un point x o`
Dans le cas o` u le Hessien est defini positif et si
2 2
mk (xk ) fk (xk ), le comportement typique de lalgorithme est alors le suivant :
Preuve 8.33 Demonstration : Considerons (x) = fi (x)2 . Alors, par derivation dune
m
(x) fi (x) F (x) X fi (x)
composee, = 2fi (x) , et donc = fi (x), ce qui implique
xj xj xj xj
i=1
fi (x)
Pour la derivee seconde, si on note (x) = 2fi (x) , on a
xj
Nous avons vu dans lexercice 8.30 que pour la fonction des moindres carres non
lineaires, F (x) = 12 kf (x)k2 , le gradient de F en Px est f 0 (x)T f (x) = Df (x)T f (x) et la
matrice Hessienne de F en x est Df (x)T Df (x) + m 2
i=1 fi (x) fi (x). Il est possible donc
dutiliser des variantes de la methode de Newton pour minimiser F (x), en utilisant une
recherche lineaire ou une region de confiance.
On remarque que 2 f (x) secrit sous la forme dun terme ne faisant intervenir que
des
Pmderivations (Df (x)T Df (x)) et un terme faisant intervenir des derivations dordre 2
( i=1 fi (x)2 fi (x)). Il est donc tentant dapprocher 2 f (x) par le terme Df (x)T Df (x)
pour eviter le calcul de derivees dordre 2. La variante de Newton faisant cette approxi-
mation sappelle la methode de Gauss-Newton
(GN ) : xk+1 = xk (Df (xk )T Df (xk ))1 Df (xk )T Df (xk ) = xk Df (xk )+ f (xk ).
Cette methode nest meme pas toujours localement convergente (il existe des points fixes
repulsifs). En la globalisant par une recherche lineaire o` u des regions de confiance on
obtient des methodes globalement convergentes tr`es utilisees en pratique.
9.1 Introduction
Nous avons vu dans le chapitre precedent des conditions necessaires doptimalite pour
des probl`emes
P : min f (x)
xC
9.2 Quelques r
esultats de convexit
e
Exercice 9.1 Propriete des probl`emes doptimisation convexes. Si C est convexe et si f
est convexe sur C, tout minimum local est un minimum global.
Preuve 9.1 Demonstration : Soit x une solution locale. Pour tout > 0, notons B( x, ) la
boule centree en x et de rayon . Alors pour tout x dans C B( x, ), on a f (x) f (
x). Soit
y C, alors [x, y] = {x , x = (1 )
x + y, 0 1} C. Alors pour suffisamment
petit (pour 0 < < 0 ), f (x ) f (
x). Mais alors, pour 0 < < 0 ,
x) f (x ) (1 )f (
f ( x) + f (y),
x) f (y).
ce qui implique bien que f (
2
Lexercice 9.1 explique pourquoi les probl`emes convexes sont consideres plus simples `
a
manipuler que les autres. Nous allons utiliser la caracterisation importante des fonctions
convexes suivante.
Exercice 9.2 Soit O un ouvert de Rn et f une fonction differentiable sur O. Soit C O
une partie convexe de Rn . Alors f est convexe sur C si et seulement si (x, y) C 2 ,
f (y) f (x) + f 0 (x)(y x).
101
102 Chapitre 9 : Optimisation avec contraintes
et
f (x) f (x + t(y x)) + f 0 (x + t(y x))(t)(y x),
tf (y) + (1 t)f (x) f (x + t(y x)) + f 0 (x + t(y x)) (t(1 t)(y x) (1 t)t(y x))
f (x + t(y x)) + 0
Exercice 9.3 Convexite sur C = Rn . Soit f une fonction deux fois differentiable sur
Rn . Alors f est convexe sur Rn si et seulement si 2 f (x) Rn est une matrice semi-
definie positive pour tout x Rn . La fonctionnelle des moindres carrees kAx bk22 est
donc convexe. La quadratique 12 xT Ax xT b, avec A symetrique semi-definie positive lest
aussi.
Exercice 9.5 (Egalite dEuler) Supposons que f est derivable dans louvert O et que
C O. Supposons que C est ouvert, et que f et C sont convexes.
C est une solution locale de P si et seulement si f 0 (
Alors x x) = 0.
Preuve 9.5 Demonstration : On suppose que x C est une solution locale de P, alors
lexercice 9.4 permet de conclure.
Reciproquement, supposons que f , qui est une fonction convexe derivable, verifie
0
f (x) = 0 en x C. Alors par caracterisation de la convexite, pour tout x C, f (x)
f (x) + f 0 (
x)(x x u f (x) f (
)), do` x).
Exercice 9.7 (Inegalite dEuler) Supposons que f est derivable dans louvert O et que
C O. Supposons f et C sont convexes.
C est une solution locale de P si et seulement si x C, f 0 (
Alors x x)(x x
) 0.
Preuve 9.7 Demonstration : Si x C est une solution locale de P, lexercice 9.6 permet
de conclure. Reciproquement, comme f est convexe, alors f (x) f ( x) + f 0 (
x)(x x
).
0
Comme f ( x)(x x) 0, on a, x C, f (x) f (
x).
2
Preuve 9.8 Demonstration : Soit x C est une solution locale de P et soit Kt (C, x
).
Soit alors les suites (xn ) et (tn ) associees `
a . Alors
x + xn x
f (xn ) = f ( x) + f 0 (
) = f ( x)(xn x
) + kxn x
k(xn x
).
Pour n > n0 on a (minimum local) f (xn ) f ( x), ce qui montre que, puisque tn > 0,
f 0 (
x)(xn x
)+kxn x ) 0 puis que f 0 (
k(xn x x)tn (xn x
)+ktn (xn x
)k(xn x
) 0.
En passant a 0 x)d + 0 0.
` la limite, on obtient f (
2
Th eor`eme 9.3 Soit h : Rn Rm , avec n = m+p une fonction contin ument differentiable
sur un ouvert O de R . Pour tout x O on note x = (x1 , x2 ) avec x1 Rm et x2 Rp et
n
x + (xn x
h( x) + h0 (
)) = h( x)(xn x
) + kxn x
k(xn x
),
L : Rn Rm R
(x, ) 7 f (x) + T h(x).
Preuve 9.11 Demonstration : Soit xi 0 les longeurs des cotes. Le probl`eme secrit
min x1 x2 x3 .
x1 x2 +x1 x3 +x2 x3 =S/2
les contraintes ne sont pas qualifiees, xi = xj pour i 6= j, donc les xi sont tous nuls. Un tel
point ne satisfait pas la contrainte. Supposons donc les contraintes qualifiees et les xi > 0.
Les conditions KTL secrivent pour L(x, ) = x1 x2 x3 + (x1 x2 + x1 x3 + x2 x3 S/2),
L(x,p)
0 =
x1 = x2 x3 + (x2 + x3 )
0 = L(x,p) = x x + (x + x )
x2 1 3 1 3
L(x,p)
0 = x3 = x x
1 2 + (x 1 + x 2)
0 = L(x,p) = x x + x x + x x S/2
1 2 1 3 2 3
Si = 0, alors dapr`es les 3 premi`eres equations, au moins 2 des xi sont nuls, donc on ne
peut pas avoir x1 x2 + x1 x3 + x2 x3 S/2 = 0 si S 6= 0. Donc necessairement, 6= 0. De
meme, si un des xi est nul, par exemple x1 , x1 x3 + (x1 + x3 ) = 0 entrane x3 = 0 (on
sait que 6= 0). Un tel point, avec x3 = 0 et x1 = 0 ne satisfait pas la contrainte si S 6= 0.
Donc les xi , i = 1, 2, 3 et sont tous non nuls. En faisant le ratio des 2 premi`eres
egalites, on obtient xx12 = xx21 +x
+x3 , ce qui donne x3 (x2 x1 ) = 0, donc x2 = x1 (x3 6= 0).
3
q
un cube, x1 = x2 = x3 = c avec c solution de min c3 , cest ` a dire c = S
6 , et
3c2 =S/2
q q 3
S
= 12c = 12 S6 , la valeur a loptimum est alors S6 donnant un volume maximal de
q 3
S
6 .
2
Exemple 9.6 On sinteresse au probl`eme dans R2 suivant
1
min kx ak2 .
x1 =0 2
et montrer que les valeurs propres de A sont les valeurs des optima.
Regardons la qualification des contraintes. En tout x tel que xT x = 1 h0 (x) = 2xT est
de rang 1 donc surjectif. Donc toute solution du probl`eme de depart est une solution du
syst`eme KTL.
Les solutions du syst`eme KKT sont Ax = x et kxk = 1, ce sont donc les vecteurs
propres de A normalises. On sait que A est diagonalisable dans une base orthonormale et
il existe n valeurs propres (distinctes ou non) 1 n telles que Avi = vi . Pour
chaque vi , f (vi ) = i . On en deduit que la valeur minimale est 1 . En raisonnant sur A,
on obtient que la valeur maximale est n .
) = Kerh0 (
et pour tout Kt (C, x x),
2 L(
x, )
T 0.
x2
Preuve 9.14 Demonstration : Soit x C est une solution locale de P et soit
Kt (C, x). Soit alors la suite (xn ) et la suite positive (tn ) associees a
` . Alors en faisant un
developpment de Taylor Young de x 7 L(x, ) on obtient
T h(xn ) = f ( T h( L n 1 2L n
f (xn )+ x)+ x)+ ( x, )(x x)+ (xn x)T 2 ( x, )(x x)+kxn x k2 (xn
x),
x 2 x
(9.1)
ce qui donne, en utilisant h(xn ) = h(
x) = 0, la condition du premier ordre, et le caract`ere
local du minimum contraint de f :
1 2L nx
)T 2 (
0 (xn x x, )(x k2 (xn x
) + kxn x ).
2 x
En multipliant cette equation par t2n et en passant a la limite n +, on obtient
2L
0 T (
x, ).
x2
2 L(
x, )
T > 0, (9.3)
x2
C est une solution locale de P.
alors x
1 2L nx
)T 2 (
0 (xn x x, )(x k2 (xn x
) + kxn x ).
2 x
En multipliant par n2 et en passant `
a la limite n +, on obtient
1 2L
0 T 2 (
x, ),
2 x
ce qui est la contradiction attendue.
2
et on pose (u) = inf{f (x), h(x) = u}. On suppose que f et h sont deux fois contin
ument
derivables dans un voisinage de x
sachant que
est un point regulier de C (h0 (
1. le point x x) est surjectif ),
est une solution locale de P ,
2. le point x
) = Ker(h0 (
3. pour tout 6= 0 tel que Kt (C, x x)), on a
2 L(
x, )
T > 0. (9.4)
x2
est injective carree donc inversible. Soit en effet (x1 , 1 )T un vecteur du noyau de
cette matrice. Il verifie
2 L(
x, ) 0
2
x)1 = 0 et h0 (
x1 + h T ( x)x1 = 0,
x
et
2 L(
x, ) 2
T 0T T L(
x, )
xT1 2
x 1 + x 1 h (
x ) 1 = x 1 2
x1 = 0.
x x
Lhypoth`ese 3. montre alors que comme x1 Ker(h0 ( x) , on a x1 = 0, et donc
0 0
x)1 = 0. Comme h0 (
h T ( x) est surjectif, la formule du rang sur h T ( x) montre que
0T
h ( x) est injectif, et donc 1 = 0.
3. Considerons le syst`eme KTL perturbe
0
f (x) + T h0 (x)
g((x, ), u) = = 0.
h(x) u
La derivee de u 7 (u) = f (x(u)) est alors, par composition, 0 (0) = f 0 (x(0))x0 (0).
En derivant h(x(u)) u par rapport ` a u en 0, on obtient h0 (x(u))x0 (0) = I. En
0 T 0
multipliant f (x(0)) + (0) h (x(0)) = 0 ` a droite par x0 (0) on obtient 0 (0) =
T 0 T
(0) h (x(0))x0 (0) = (0) .
a montrer que x(u) est une solution locale de pour u suffisamment petit et
4. Il reste `
pour cela on montre que les hypoth`eses de lexercice 9.12 sont satisfaites pour Pu .
La relation (9.5) montre que (9.2) est vraie pour le probl`eme perturbe et pour kuk
suffisamment petit.
Enfin la relation (9.4) est vraie pour le probl`eme perturbe Pu gr ace `a un argument
2 L(x(u),(u))
de continuite. Supposons pour etablir une contradiction que x2
nest pas
definie positive dasn le noyau de h0 (x(u)), meme pour u tr`es petit. Il existe alors une
suite xk telle que kuk k k1 et telle que pour tout k il existe vk tel que
2 L(xk , k )
h0 (x(uk ))vk = 0 et vkT vk 0. (9.6)
x2
Quitte a renormaliser vk , on peut supposer vk de norme 1. On a alors vk appartient
a la sph`ere unite, et il existe k0 tel que k k0 entrane k
` x x(uk )k 1/2. Ainsi
(vk ) et x(uk ) sont dans des ensembles compacts, et il est possible den extraire deux
sous-suites qui convergent vers v et x . En passant a la limite k + dans (9.6)
on obtient
2 L(
x, )
kv k = 1, h0 ( v = 0 et vT
x) v 0,
x2
ce qui est impossible dapr`es lhypoth`ese 3..
a lexercice 9.5, si lon perturbe la surface en S/2 + u, le
5. Pour finir, si on revient `
q 3 q
volume est S6 + u2 S6 + o(u)
u A Rnn est symetrique definie positive, et B Rmn est surjective (i.e. de rang
o`
maximum m). Ce sous-probl`eme intervient dans les methodes SQP o` u la fonction est
representee par un mod`ele quadratique, et les contraintes sont linearisees.
Bx = 0
Si une solution du syst`eme existe et est unique, elle verifie la condition suffisante du second
2
ordre de lexercice 9.12 car xL2 (x, ) = A est definie positive.
2
Exercice 9.15 Montrez que le syst`eme KKT admet une unique solution, et donc que
lunique solution de KKT est lunique solution de P.
Preuve 9.18 Demonstration : Pour cela il suffit de montrer que la matrice du syst`eme
lineaire est injective et carree, donc inversible. Suposons que
Ax + B T = 0
Bx = 0
definie positive. Le syst`eme est mal conditionnne pour petit, car si m < n, B T B est sin-
guli`ere, et on demontrerait que le conditionnement de A se comporte asymptotiquement
comme celui de 1 B T B (i.e. tend vers +).
Exercice 9.17 Montrez que x est solution de (9.9) si et seulement si x est solution de
1 T 1
min x Ax + kBx k22 xT b.
xT Rn 2 2
Exercice 9.18 On suppose que (x, ) et (x , ) sont solutions respectives de (9.7) et (9.8).
a la limite de (x , ) pour 0.
On sinteresse `
1. Montrez que x = x x et = verifient
Ax + B T = 0
(9.10)
Bx =
(BA1 B T + I) = ,
et en deduire que
2 kk2 , (9.12)
puis que p
kx k2 kk2 . (9.13)
(BA1 B T + I) = ,
T
puis en multipliant par `
a gauche, et en se rappelant lexercice 9.7,
2 T T
2 T
2 BA1 B T BA1 B T +
2 = .
T
a nouveau linegalite de Cauchy-Schwarz, on a
2 kk2 , puis
en utilisant `
2 kk2 , ce qui est bien (9.12). En utilisant (9.12) dans (9.10), on obtient
2 2
2 2
kk22 ,
kx k2 kx k2 +
2 kk2
2
Exercice 9.19 Cas o` u B est de rang strictement inferieur `a min{m, n}. On suppose que
(x, ) et (x , ) sont solutions respectives de (9.7) et (9.8). On sinteresse a
` la limite de
(x , ) pour 0.
1. Verifiez que la solution du syst`eme (9.8) existe et est unique.
2
2
2. Appelant > 0 la plus petite valeur propre de A. montrez que kx k2 +
2
1
2 2
2 ( 2 + kk2 ).
3. En conclure que 2 kx k2 kk2 et donc que lim0 x = x. Lerreur est donc
en O( ), et la convergence de nest pas acquise.
2
2 1
2
kx k2 +
2 kk2
2 (
2 + kk22 ),
(9.14)
2
2
2
ce qui implique kx k2 + 2
2 12 kk22 , do`
u lon tire 2 kx k2 kk2 .
10.1 Introduction
Nous avons vu dans le chapitre precedent des conditions necessaires doptimalite pour
des probl`emes
min f (x).
h(x) = 0
Dans de nombreux cas pratique, les contraintes mettent en jeu des contraintes dinegalite
du type g(x) 0, o`u g : Rn 7 Rp et g(x) = (g1 (x), . . . p, gp (x))T . Le probl`eme que nous
avons `
a traiter est donc
P : min f (x).
h(x) = 0
g(x) 0
Definition 10.1 Soit x un point satisfaisant les contraintes et i {1, . . . , m}. On dit que
la contrainte gi est active en x ssi gi (x) = 0.
Pa : min (x a)2 .
x4
x 1
117
118 Chapitre 10 : Optimisation avec contraintes dinegalite
Proposition 10.2 Supposons que g et h sont des applications continues. Tout minimum
local x du probl`eme P, et dindices de contraintes actives I est un minimum local du
probl`eme
PI : min f (x).
h(x) = 0
gi (x) = 0, si i I
Preuve 10.2 Demonstration : Soit x S. Soit I lensemble des indices des contraintes
actives en x. Pour tout i / I, il existe i > 0 tel que kx x k < i gi (x) < 0. Soit a
`
present tel que [kx x k < i et h(x) = 0 et g(x) 0] f (x ) f (x) < 0. Donc si
= min( , miniI
/ i ), on a [kx x k < et h(x) = 0 et i I, gi (x) 0] f (x )
f (x) < 0. Donc x est solution locale de PI et i / I, on a gi (x ) < 0.
L : Rn Rm Rp R
(x, , ) 7 f (x) + T h(x) + T g(x).
Nous allons deriver des caracterisations des optima locaux du probl`eme sous lhypoth`ese
que les contraintes sont suffisament reguli`eres.
Definition 10.4 (Qualification des contraintes) On dit que les contraintes sont qualifiees
en x, dindices de contraintes actives I(x) = [i1 , . . . im
] si et seulement si
1. h et g sont contin
ument differentiable dans un ouvert de x0 ,
2. la famille de vecteurs (h1 (x), . . . , hm(x), gi1 (x), . . . , gim (x)) est libre. Cette
h0 (x)
condition signifie aussi que la matrice est surjective, o` u x 7 gI (x) =
gI0 (x)
(gi1 (x), . . . , gim (x)) .
Proposition 10.5 On suppose que x C est une solution locale de P verifiant lhypoth`ese
de qualification des contraintes. Si les fonctions f et g et h sont contin ument differentiables
dans un ouvert O contenant x Rm , et
, il existe Rp tel que
= f 0 ( T h0 ( T g 0 (
L
x ( x, ) x) + x) x) = 0,
j 0, j = 1, . . . p,
j gj (
x) = 0, j = 1, . . . p.
Preuve 10.4 Demonstration : Nous presentons ici une demonstration concise, mais moins
intuitive que dans le cas des egalites. Pour toute fonction u on definit sa partie positive
u+ par par u+ (x) = max(0, u(x)). Soit x un minimum local du probl`eme P. Pour tout
entier naturel k, et pour tout reel non ne gatif , on introduit la fonction de type Lagran-
gien Fk (x) = f (x) + 2 kh(x)k + 2 jI [gj+ (x)]2 + 2 kx x
k 2 k P
k. Comme x est une minimum
local du probl`eme avec contrinate degalites h(x) = 0 et gI (x) = 0, il existe une boule
fermee B centree en x et de rayon telle que f ( x) f (x) pour tout x tel que x B ,
h(x) = 0 et gI (x) = 0. Soit ` a present xk le minimum global de Fk sur B . On a alors
Fk (xk ) Fk (x) = f ( x), et donc la suite (Fk (xk )) est bornee. Comme f (xk ) est bornee
sur le compact B , pour que (Fk (xk )) il faut que (h(xk )) et que pour tout j I, (gj+ (xk ))
tendent vers 0. Soit x un point daccumulation de la suite. Par prolongement de linegalite
Fk (xk ) f ( x) + 2 k
x) inegalie, il verifie f ( xx k f ( x) f (x). Puisque x est admissible
pour le probl`eme ` a contraintes degalite et dinegalites active, et est dans B , on a de plus
x) f (
f ( x). Ainsi, x =x , et la suite (xk ) converge vers x . En ecrivant la condition de
stationnarite de Fk en xk , on obtient
kh1 (xk )
..
.
khm (xk )
f (xk ) + [h1 (xk ), . . . hm (xk ), gi1 (xk ), . . . , gim (xk )]
+ (xk x) = 0.
kgi 1 (x k )
..
.
kgim (xk )
2 L(
x, )
T 2
0.
x
Proposition 10.7 (Interpretation des multiplicateurs de Lagrange) On consid`ere les probl`emes
et on pose (u) = inf{f (x), h(x) = u, g(x) v}. On suppose que f et h sont deux fois
ument derivables dans un voisinage de x
contin sachant que
1. le point x
est un point regulier,
2. le point x
, de contraintes actives I, verifie les conditions suivantes doptimalite locale
= f 0 ( T h0 ( T g 0 (
L
(
x, ) x) + x) x) = 0,
x
h(x) = 0, g(x) 0
0, j = 1, . . . p,
j
j gj ( j > 0, j I,
x) = 0, j = 1, . . . p,
2 L(
x, )
T > 0.
x2
est alors une solution locale de P,
Le point x
Exercice 10.3 Dans une usine, deux produits ui , i = 1, 2 sont fabriques, et rapportent
par unite, ei kilo euros en necessitant ti heures de travail machines et qi tonnes de mati`eres
premi`eres. On dispose de 10 heures en tout de travail machines, et de 15 tonnes de
mati`eres premi`eres. Formaliser ce probl`eme sous la forme dun probl`eme doptimisation
et le resoudre, pour (e1 , t1 , q1 ) = (6, 2, 1) et (e2 , t2 , q2 ) = (5, 1, 3). Est-il interessant, fi-
nanci`erement, daugmenter la quantite de mati`ere premi`eres ? Jusqu` a quel point ?
Preuve 10.5 Faire un dessin.
min 6x1 5x2 .
2x1 + x2 10
x1 + 3x2 15
x1 0
x2 0
On voit sur un dessin que les contraintes actives ` a la solutions seront les deux premi`eres
contraintes. La solution du probl`eme est donnee par les points critiques de la fonction
L(x, 1 , 2 ) = 6x1 5x2 + 1 (2x1 + x2 10) + mu2 (x1 + x2 15). La solution est donnee
par le syst`eme lineaire
6 + 21 + 2 = 0
5 + 1 + 32 = 0 ,
x1 + 3x2 = 15
ce qui donne (x1 , x2 , 1 , 2 ) = (3, 4, 13/5, 4/5). Si on augemnte les mati`eres premi`eres de
15 `a 15 + M , le gain augmente de 4/5M . Par contre pour M > 15, la seconde contrainte
cesse detre active. Dans ce cas, il ne sert ` a plus rien daugmenter les mati`eres premi`eres,
il faut augmenter aussi les 10 heures machines.
2
10.4 Application de la th
eorie des multiplicateurs de La-
grange : la m
ethode des contraintes actives
Nous avons vu que la reslution du probl`eme doptimisation avec contraintes degalite et
dinegalites se ram`ene `
a la resolution dun probl`eme avec contraintes degalite lorsque les
contraintes actives ` a la solution sont connnues. Le principe de la methode des contraintes
actives et de creer une suite (x(k) , I (k) ) contenant un itere et une estimation des contraintes
actives. Sous des hypoth`eses de convexite du probl`eme, il est possible de montrer que cette
methode est convergente.
Nous presentons ici le passage de (x(k) , I (k) ) `
a (x(k+1) , I (k+1) ) dans le cas dun probl`eme
quadratiquei en x
1 T
min x Hx + xT g.
Ax = b 2
Cx f 0
2
1. Le lagrangien du probl`eme secrit
On obtient alors t = 1/2, x(3) = (2, 0)+1/2(0, 2) = (2, 1), et on a active la contrainte
4. Donc I (3) = {3, 4}. item[1.] Le lagrangien du probl`eme secrit
Introduction `a loptimisation
multicrit`
eres
11.1 Introduction g
en
erale
Jusqu`a present, nous avons considere des situation o`
u il sagissait de minimiser une
unique fonction (un crit`ere) sous certaines contraintes. Cependant, dans bien des situa-
tions pratiques, il sagit de trouver la meilleure situation possible pour un ensemble de
crit`eres. Il est rare que le minimum pour tous ces crit`eres soit atteint au meme point.
Il sagit donc de faire compromis entre ces crit`eres, et cest le but de ce chapitre dindi-
quer le sens que prend alors le mot solution dun tel probl`eme de minimisation, et de
mentionner quelques algorithmes permettant dobtenir de telles solutions.
Exemple 11.1 Conception daile davion multicrit`ere. Nous considerons une conception
daile telle que lon veuille minimiser simultannement la trainee en plusieurs conditions de
croisi`ere (plusieurs conditions de vol) simultanement. Nous considerons alors le probl`eme
Definition 11.2 On appelle espace des crit`eres lespace dans lequel les differentes sur-
faces du probl`eme sont parametres en prenant les crit`eres comme param`etres. Lexer-
cice 11.1 explicite cette notion.
125
126 Chapitre 11 : Introduction `
a loptimisation multicrit`eres
u f1 (x) = 1 + x et f2 (x) = x2 4x + 5. Lespace de decision est R et lespace des
o`
crit`eres est R2 . Figure 11.1 represente le probl`eme dans lespace de decision. Nous voyons
que f1 and f2 natteignent pas de minimum pour les memes valeurs de x dans [0, +[.
Representer la situation dans lespace des crit`eres.
Preuve 11.1 Demonstration : Considerons ` a present lespace des crit`eres. Dans cet es-
pace, le probl`eme est parametrise en utilisant les valeurs des fi (x) comme param`etre. Pour
obtenir
limage de lensemble des points admissibles dans lespace des crit`eres, nous posons
y1 = 1 + x et y2 = x2 4x + 5. la condition x 0 devient x = (y1 )2 1 et y1 1.
En substituant x = (y1 )2 1 dans y2 = x2 4x + 5 on obtient y2 = y14 6y12 + 10.
Ainsi, lensemble des contraintes {x : x 0} est represente dans lespace des crit`eres
par larc {(y1 , y2 ) : y2 = y14 6y12 + 10, y1 1}, illustre en gras sur la Figure 11.4. Le
point important est de decider quel point sur cet arc est la meilleure solution du probl`eme
multicrit`ere.
6
f1 (x) =5 4x+x2
4
1
f2 (x) =(x+1)2
2
0 2 4 6
x
10
y1 = 3
8
y2 6
y2 =y14 6y12 +10
4
0
0 1 2 3 4
y1
Lensemble Y := {(f1 (x), . . . , fk (x)) | x Pareto optimal} est appele front (ou sur-
face) de Pareto pour le probl`eme doptimisation multicrit`ere donne. On voit sur la fi-
gure 11.4 quen general, que cet ensemble Y nest pas un ensemble tr`es simple. Dans un
probl`eme multicrit`ere la personne chargee de la minimisation cherche en general plusieurs
(et idealement, toutes les) solutions Pareto optimales. Cest ensuite un decideur qui fait
sa preference en fonction de crit`eres plus ou moins formalises mathematiquement.
Un technique tr`es rependue dexploration du front de Pareto est la technique de la
Cette procedure est dite de scalarisation (on remplace la minimisation dun vecteur par
celle dun scalaire).
Exercice 11.2 Toute solution de Pp est un point Pareto optimal pour le probl`eme de
minimisation multicrit`ere de (f1 , . . . , fk ) sur C. Interpreter geometriquement ce resultat.
Cette technique permet-elle de decrire compl`etement le front de Pareto sur la figure 11.4 ?
fi (x) fi (
x) pour tout i = 1, . . . , k
et
x) pour un certain i0 {1, . . . , k} .
fi0 (x) < fi0 (
Pk Pk
On a alors i=1 pi fi (x) < i=1 pi fi (x), ce qui contredit le fait que x
est solution de
(Pp ).
Interpretons geometriquement cette procedure de scalarisation (avec deux crit`eres f1
et f2 ).
Pour resoudre (Pp ), on minimise p1 y1 + p2 y2 sur F = f (C) ce qui correspond ` a
chercher une droite p1 y1 + p2 y2 = c dordonnee `a lorigine minimale et sappuyant sur F.
Non, si le front de Pareto nest pas lui meme convexe, cette technique ne permet pas de
decrire la totalite du front.
Une autre technique de scalarisation fort employee est la technique C -contrainte, o`u
a un probll`eme mono-crit`ere en traitant les p1 autres crit`eres sous forme
lon se ram`eme `
de contrainte. Pour ce faire, on introduit le probl`eme
min fj (x)
P(, j) : xX , (11.1)
subject to
fi (x) i , i = 1, . . . , p, i 6= j
Exercice 11.3 Supposons que P(, j) admette une solution unique x , alors elle est Pareto
optimale. Reciproquement toute solution Pareto optimale est solution dun certain P(, j).
Appliquer ce resultat au probl`eme de la figure 11.4.
fi (x) fi (
x) pour tout i = 1, . . . , k
et
x) pour un certain i0 {1, . . . , k} .
fi0 (x) < fi0 (
Alors x est une autre solution de P(, j), ce qui est impossible. La reciproque setablit
aisement en considerant P(, j) pour = (f1 ( x))T et j = 1.
x), . . . , fk (
Exercice 11.4 Toute solution de commune ` a P(, j), pour j = 1, . . . k, est un point Pareto
optimal pour le probl`eme de minimisation multicrit`ere de (f1 , . . . , fk ) sur C. Reciproquement,
si x
est Pareto optimal, il existe tel que x est solution de tous les probl`emes P(, j), pour
j = 1, . . . k. Interpreter geometriquement ce resultat.
Preuve 11.4 Demonstration : Supposons que x est solution de P(, j) pour tout j et quil
existe x C qui domine x. Dapr`es la definition,
fi (x) fi (
x) i pour tout i = 1, . . . , k
et
x) pour un certain i0 {1, . . . , k} .
fi0 (x) < fi0 (
Cela qui contredit le fait que x est solution de P(, i0 ). Pour la reciproque, il suffit de
prendre = (f1 ( x))T . Alors x
x), . . . , fk ( est solution de P(, j) pour tout j.
Les techniques les plus sures pour decrire le front meme lorsquil nest pas convexe
sont basees sur des algorithmes genetiques. Ces techniques ont besoin devaluer de tr`es
nombreuses fois les fonctions et sont donc peu praticables pour les fonctions tr`es co
uteuses
que lon ne sait pas approximer avec peu de calculs. De nombreuses techniques dapproxi-
mation sont disponibles pour resoudre ces probl`emes : utilisation de reseaux de neurones,
de techniques krigeage, ou de support vector machines.