Professional Documents
Culture Documents
Curitiba
2011
Sumario
Prefacio 1
Introducao 2
1 Revisao de Conceitos 4
1.1 Sequencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Denicoes e resultados classicos . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Velocidade de convergencia . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Nocoes de topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Resultados de algebra linear . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Formula de Taylor e teorema da funcao implcita . . . . . . . . . . . . . . 12
1.5 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Introducao a Otimizacao 20
2.1 O problema de otimizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Condicoes de otimalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Convexidade 28
3.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Funcoes convexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Algoritmos 36
4.1 Algoritmos de descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Metodos de busca unidirecional . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Busca exata - metodo da secao aurea . . . . . . . . . . . . . . . . . 39
4.2.2 Busca inexata - condicao de Armijo . . . . . . . . . . . . . . . . . . 44
4.3 Convergencia global de algoritmos . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.1 Convergencia global de algoritmos de descida . . . . . . . . . . . . 47
4.3.2 Teorema de Polak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
ii
5 Metodos de Otimizacao Irrestrita 53
5.1 Metodo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.2 Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3 Velocidade de convergencia . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Metodos de direcoes conjugadas - variedades . . . . . . . . . . . . . . . . . 62
5.3.1 Minimizacao em variedades lineares . . . . . . . . . . . . . . . . . . 62
5.3.2 Direcoes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3.3 Algoritmo de gradientes conjugados . . . . . . . . . . . . . . . . . . 66
5.4 Metodo de direcoes conjugadas - versao classica . . . . . . . . . . . . . . . 68
5.4.1 Direcoes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4.2 Algoritmo de gradientes conjugados . . . . . . . . . . . . . . . . . . 72
5.5 Metodo de regiao de conanca . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.5.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.5.2 O passo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.5.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5.4 O metodo dogleg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.6 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7 Implementacao computacional . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.1 Funcoes para teste . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
iii
Referencias Bibliograficas 129
iv
Prefacio
O presente texto foi escrito com o proposito de servir como material didatico
para um curso de otimizacao. Procuramos abordar aspectos teoricos e computacionais.
Interpretacoes geometricas sao evocadas sempre que possvel com o auxlio de diversas
guras que aparecem no texto para ilustrar conceitos, exemplos e teoremas. A teoria de
otimizacao com restricoes e apresentada com uma abordagem de cones que, alem de ter
um forte apelo geometrico, consideramos ser mais moderna.
Para um bom aproveitamento do livro, e desejavel que o estudante tenha os co-
nhecimentos de algebra linear e analise no IRn . Alem disso, e importante dar especial
atencao aos varios exerccios que aparecem tanto no meio do desenvolvimento da teoria,
quanto no nal de cada captulo. Muitos exerccios servem para xar os conceitos, outros
para vericar se o leitor consegue identicar e aplicar certos conceitos para resolver um
determinado problema e outros ainda servem para complementar a teoria. Apresentamos,
no nal do livro, dicas, solucoes ou respostas de alguns dos exerccios propostos. Entre-
tanto, recomendamos fortemente que o estudante tente fazer os exerccios antes de ver a
solucao, pois e desta forma que o aprendizado bem sucedido.
Este livro pode ser usado tanto em cursos de graduacao quanto na pos-graduacao.
Entretanto, para alunos de graduacao, que ainda nao possuem uma certa maturidade
matematica, algumas secoes podem ser omitidas, pois apresentam argumentos mais ela-
borados.
Gostaramos de manifestar nossa imensa gratidao a varias pessoas que ajudaram
a construir ou melhorar este trabalho: Clovis Gonzaga, Sandra Santos, Flavia Fernandes,
Gislaine Pericaro, Paulo Conejo, Rodrigo Garcia e Tuanny Brufati.
Ademir e Elizabeth
Curitiba, 16 de Fevereiro de 2011.
Introducao
Otimizacao, direta ou indiretamente, faz parte do nosso dia a dia. Muitas vezes
nem nos damos conta, mas estamos otimizando algo.
Mais formalmente, podemos dizer que otimizacao consiste em encontrar pontos
de mnimo ou de maximo de uma funcao real sobre um conjunto IRn . Isto pode ser
colocado na forma
minimizar f (x)
(P )
sujeito a x .
onde g : IRn IRp e h : IRn IRm sao funcoes quaisquer. O problema de otimizacao
pode entao ser reescrito como
minimizar f (x)
(P ) sujeito a g(x) 0
h(x) = 0.
m
f (x ) + i hi (x ) = 0.
i=1
Revisao de Conceitos
1.1 Sequencias
Uma sequencia em IRn e uma aplicacao k IN xk IRn , denida no conjunto
IN dos numeros naturais. Denotaremos uma sequencia por (xk )kIN , ou simplesmente por
(xk ). Por conveniencia, consideramos que IN = {0, 1, 2, 3, . . .}.
k k0 kxk ak < .
Neste caso, tambem dizemos que a sequencia (xk ) converge para a e indicamos este fato
por xk a ou lim xk = a.
k
Vemos da Denicao 1.1 que o ponto a IRn e o limite da sequencia (xk ) se para
cada > 0, o conjunto IN1 = {k IN | kxk ak } e nito, ou seja, fora da bola B(a, )
so poderao estar, no maximo, os termos x0 , . . . , xk0 1 .
Uma subsequencia de (xk ) e a restricao desta sequencia a um subconjunto innito
IN0 = {k1 < k2 < . . . < ki < . . .} IN. Equivalentemente, uma subsequencia de (xk ) e
uma sequencia do tipo (xk )kIN0 ou (xki )iIN , onde (ki )iIN e uma sequencia crescente de
inteiros positivos. Note que ki i, para todo i IN.
Teorema 1.2 Se uma sequencia (xk ) converge para um limite a, entao toda subsequencia
(xki ) tambem converge para a.
4
Revisao de Conceitos 5
Demonstracao. Dado > 0 existe um k0 tal que para todo k > k0 tem-se kxk ak < .
Como os ndices da subsequencia formam um subconjunto innito, existe entre eles um
ki0 k0 . Entao para ki ki0 temos ki k0 . Logo kxki ak < .
O limite de uma subsequencia (xk )kIN0 e chamado valor de aderencia ou ponto
de acumulacao da sequencia (xk ).
Exerccios 1.3
1
1. Considere a sequencia xk = (1)k + . Mostre que (xk ) tem dois pontos de
k+1
acumulacao e portanto nao e convergente.
2. Podemos dizer que se a sequencia tem um unico ponto de acumulacao, entao ela e
convergente?
3. Considere uma sequencia (xk ) IR. Se xk a > 0, entao existe k0 IN tal que
a
para k k0 tem-se xk .
2
Definicao 1.4 Uma sequencia (xk ) IRn e limitada, quando o conjunto formado pelos
seus elementos e limitado, ou seja, quando existe um numero real M > 0 tal que kxk k M
para todo k IN.
Definicao 1.5 Seja (xk ) IR uma sequencia limitada. Definimos o limite inferior da
sequencia (xk ) como seu menor ponto de acumulacao e denotamos por lim inf xk . Analo-
gamente definimos o limite superior da sequencia como seu maior ponto de acumulacao
e denotamos por lim sup xk .
Exerccios 1.6
1
1. Determine lim inf xk e lim sup xk , sendo xk = (1)k + .
k+1
2. Faca o mesmo para (xk ) = (1, 2, 3, 1, 2, 3, . . .).
Definicao 1.7 Sejam (vk ) IRn e (k ) IR {0} sequencias com k 0. Dizemos que
vk
vk = o(k ) quando 0. Mais geralmente, considere g : J IR 7 IRn com 0 sendo
k
um ponto de acumulacao de J. Dizemos que g() = o() quando g(k ) = o(k ) para toda
sequencia (k ) J com k 0.
Teorema 1.10 Uma sequencia limitada em IRn e convergente se, e somente se, possui
um unico ponto de acumulacao.
Teorema 1.12 Seja (xk ) IR uma sequencia monotona que possui uma subsequencia
IN0
convergente, digamos xk a. Entao xk a.
Demonstracao. Suponha que (xk ) e nao crescente (os demais casos sao analogos). Ar-
mamos que xk a, para todo k IN. De fato, do contrario existiria k0 IN tal que
xk xk0 < a, para todo k IN, k k0 . Assim nenhuma subsequencia de (xk ) poderia
convergir para a. Provamos entao que (xk ) e limitada, pois a xk x0 , para todo
k IN. Pelo Teorema 1.9, temos que (xk ) e convergente e aplicando o Teorema 1.2 segue
que xk a.
1 1 1
xk = , yk = e zk = .
k+5 3k 22k
Vemos que todas elas convergem para 0, mas nao com a mesma rapidez, conforme sugere
a tabela abaixo.
k 1 2 3 4 5 6 7 8
xk 0.1667 0.1429 0.1250 0.1111 0.1000 0.0909 0.0833 0.0769
yk 0.3333 0.1111 0.0370 0.0123 0.0041 0.0014 0.0005 0.0002
zk 0.2500 0.0625 0.0039 0.00001 0.0000000002 0.0... 0.0... 0.0...
Definicao 1.13 Dizemos que a sequencia (xk ) IRn converge linearmente para x IRn
quando existem uma constante r [0, 1) e um numero natural k0 IN, tais que
kxk+1 xk
r, (1.1)
kxk xk
para todo k k0 .
1
Exemplo 1.14 A sequencia xk = nao converge linearmente para 0.
k+5
De fato, temos
kxk+1 k k+5
= 1.
kx k
k k+6
1
Exemplo 1.15 A sequencia y k = converge linearmente para 0.
3k
Basta notar que
ky k+1 k 1
= .
ky k
k 3
Definicao 1.16 A sequencia (xk ) IRn converge superlinearmente para x IRn quando
kxk+1 xk
0. (1.2)
kxk xk
Note que a condicao (1.2) tambem implica que xk x. Alem disso, e imediato
vericar que a convergencia superlinear implica na convergencia linear.
1
Exemplo 1.17 A sequencia xk = converge superlinearmente para 0.
2k2
Temos
kxk+1 k
2
2k 1
= 2 = 0.
kx k
k 2 (k+1) 2 2k+1
Definicao 1.18 A sequencia (xk ) IRn converge quadraticamente para x IRn quando
xk x e existe uma constante M > 0 tal que
kxk+1 xk
M. (1.3)
kxk xk2
E importante observar que apenas a condicao (1.3) nao implica que xk x, como
podemos ver na sequencia xk = 2k .
1
Exemplo 1.19 A sequencia z k = converge quadraticamente para 0.
22k
Temos
kxk+1 k
k
(22 )2
= = 1.
kxk k2 22k+1
1
Exemplo 1.20 A sequencia xk = converge superlinearmente mas nao quadratica-
k!
mente para 0.
Temos
kxk+1 k k! 1
= = 0.
kx k
k (k + 1)! k+1
e
kxk+1 k (k!)2 k! k
= = = (k 1)! .
kx k
k 2 (k + 1)! k+1 k+1
Exerccios 1.21
1
1. Estude a convergencia de xk = .
kk
2. Faca o mesmo para xk = ek .
2
Definicao 1.23 Um conjunto X e fechado quando contem sua fronteira, ou seja, quando
X X. Se alem disso X for limitado, diremos que ele e compacto.
De forma equivalente, podemos dizer que X IRn e fechado se, e somente se,
toda sequencia convergente formada por elementos de X tem seu limite em X. Tambem
podemos caracterizar a compacidade de X em termos de sequencias. O conjunto X e
compacto se, e somente se, toda sequencia de elementos de X possui uma subsequencia
que converge para algum elemento de X (Veja os Exerccios 1.8 e 1.9).
Exerccios 1.24
Definicao 1.26 Um conjunto X IRn e aberto quando todos os seus pontos sao interio-
res, ou seja, para todo a X existe > 0 tal que B(a, ) X.
Definicao 1.27 O nucleo de uma matriz A IRmn , denotado por N (A), e um subcon-
junto de IRn formado por todas as solucoes do sistema homogeneo Ax = 0, ou seja,
Temos que N (A) e um subespaco vetorial de IRn . O numero dim(N (A)) e cha-
mado nulidade de A.
Revisao de Conceitos 10
Note que Im(A) e o espaco vetorial gerado pelas colunas de A, chamado espaco
coluna de A. O posto de A e denido por posto(A) = dim(Im(A)).
Prova-se em algebra linear que posto(A) = posto(AT ), ou seja, o espaco-linha e
o espaco-coluna de A tem a mesma dimensao. Portanto, posto(A) min{m, n}. Quando
ocorre a igualdade na expressao acima, dizemos que a matriz A tem posto cheio ou
posto completo e em consequencia disto, ou as colunas ou as linhas de A sao linearmente
independentes.
Outro fato classico arma que dim(N (A)) + dim(Im(A)) = n, o que equivale a
Exerccios 1.30
Definicao 1.33 Seja A IRnn uma matriz simetrica. Dizemos que A e definida positiva
quando xT Ax > 0, para todo x IRn \ {0}. Tal propriedade e denotada por A > 0. Se
xT Ax 0, para todo x IRn , A e dita semidefinida positiva, fato este denotado por
A 0.
Revisao de Conceitos 11
( )
a b
Exemplo 1.34 Considere A = . Se A > 0, entao a > 0 e det(A) > 0.
b c
( )
x1
De fato, dado x = , temos
x2
A = P DP T . (1.5)
n
xT Ax = y T Dy = i yi2 . (1.6)
i=1
1 kxk2 xT Ax n kxk2 ,
Revisao de Conceitos 12
Lema 1.37 Seja A IRnn uma matriz definida positiva. Dado x IRn , temos
2 2
1.5 1.5
1 1
0.5 0.5
0 0
0.5 0.5
1 1
1.5 1.5
2 2
6 4 2 0 2 4 6 6 4 2 0 2 4 6
2 2 2
1 1 1
0 0 0
1 1 1
2 2 2
6 4 2 0 2 4 6 6 4 2 0 2 4 6 6 4 2 0 2 4 6
Agora considere uma funcao vetorial f : IRn IRm . Sua derivada, chamada de jacobiana,
e a matriz
f1 f1
x1 xn
. ..
Jf = f 0 =
.
. ..
. .
.
fm fm
x1 xn
Note que a linha i da jacobiana de f e o gradiente transposto da componente fi . Em
particular, para m = 1, temos f 0 = (f )T . Alem disso, 2 f = Jf .
O gradiente de uma funcao tem propriedades muito interessantes, tanto algebricas
quanto geometricas. Destacamos algumas delas.
Exerccios 1.38
Outra relacao importante surge quando restringimos uma funcao denida em IRn
aos pontos de um segmento de reta. Mais formalmente, dados a, d IRn e f : IRn IR,
Revisao de Conceitos 14
(t + s) (t) f
0 (t) = lim = (a + td) = f (a + td)T d.
s0 s d
n
f
00 0
Para calcular , note que (t) = dj (a + td). Assim
j=1
xj
n
f
00
(t) = dj (a + td)T d = dT 2 f (a + td)d.
j=1
xj
r(x)
com lim = 0.
xa kx ak
O polinomio p1 (x) = f (a) + f (a)T (x a) e chamado polinomio de Taylor de
ordem 1 da funcao f . Dentre todos os polinomios de grau menor ou igual a 1, ele e o que
melhor aproxima f . E tambem o unico que satisfaz
O limite nulo no Teorema 1.39 signica que para x proximo de a o resto r(x) e
muito pequeno e vai para zero mais rapido que kx ak.
Tambem e conveniente observar que podemos reescrever o Teorema 1.39 fazendo
uma simples mudanca de variavel. De fato, denindo d = x a, temos
r(d)
com lim = 0.
d0 kdk
Agora podemos nos perguntar qual e a melhor quadratica que aproxima uma
dada funcao em uma vizinhanca de um ponto. A resposta e dada pelo proximo teorema.
Teorema 1.40 (Taylor de segunda ordem) Se f : IRn IR e uma funcao duas vezes
diferenciavel e a IRn , entao
1
f (x) = f (a) + f (a)T (x a) + (x a)T 2 f (a)(x a) + r(x),
2
Revisao de Conceitos 16
r(x)
com lim = 0.
xa kx ak2
1
p2 (x) = f (a) + f (a)T (x a) + (x a)T 2 f (a)(x a)
2
O limite nulo no Teorema 1.40 signica que para x proximo de a o resto r(x) e
muito pequeno e vai para zero muito mais rapido que kx ak.
Aqui tambem podemos reescrever o Teorema 1.40 fazendo d = x a. Ficamos
com
1
f (a + d) = f (a) + f (a)T d + dT 2 f (a)d + r(d),
2
r(d)
com lim = 0.
d0 kdk2
Exemplo 1.41 Considere a funcao f : IR2 IR dada por f (x) = x1 cos x2 + x2 sin x1 .
Determine as aproximacoes de Taylor de ordens 1 e 2 para f em torno de 0. Estime o
erro da linear na regiao [1, 1] [1, 1].
( )
cos x2 + x2 cos x1
Temos f (x) = . Assim, p1 (x) = f (0) + f (0)T x = x1 . Para
sin x1 x1 sin x2
1 3
estimar o erro, note que se |z| 1, entao cos z > e | sin z| < . Portanto,
2 2
( )
1
Esta estimativa e razoavel pois f 1 1, 3.
1
Veremos agora outra formula de Taylor, na qual nao supomos d 0 para estimar
a diferenca f (a + d) f (a). Para ordem 1, ela e exatamente o Teorema do Valor Medio.
De modo geral a chamamos de Taylor com resto de Lagrange.
f (a + d) = f (a) + f (a + td)T d.
a a+td a+d
Teorema 1.43 (Taylor com resto de Lagrange) Considere f : IRn IR uma funcao
de classe C 1 e a, d IRn . Se f e duas vezes diferenciavel no segmento (a, a + d), entao
existe t (0, 1) tal que
1
f (a + d) = f (a) + f (a)T d + dT 2 f (a + td)d.
2
O proximo teorema garante que, sob certas hipoteses, podemos denir implici-
tamente uma variavel como funcao de outra em uma equacao. A prova deste resultado
tambem pode ser encontrada em [18].
Teorema 1.44 (Teorema do funcao implcita) Seja : IRn+1 IRn uma funcao de
classe C 1 . Considere o sistema de n equacoes e n + 1 variaveis definido por
( )
x
= 0, (1.7)
t
Revisao de Conceitos 18
( )
x
onde x IRn e t IR. Se o ponto e uma solucao de (1.7), na qual a jacobiana de
0
em (relacao)a x tem posto n, entao existe uma curva diferenciavel : (, ) IRn tal
(t)
que = 0, para todo t (, ). Alem disso, a funcao e unica.
t
1.8. Mostre que X IRn e fechado se, e somente se, dada (xk ) X tal que xk x,
temos x X.
1.9. Mostre que X IRn e compacto se, e somente se, toda sequencia (xk ) X possui
uma subsequencia que converge para algum elemento de X.
1.12. Seja A IRnn uma matriz simetrica. Sendo {v1 , v2 , . . . , vn } uma base ortonor-
mal de autovetores e {1 , 2 , . . . , n } os autovalores associados. Supondo que nenhum
autovalor e nulo, obtenha uma expressao para a inversa A1 .
1.13. A matriz simetrica A IRnn e denida positiva se, e somente se, os determinantes
principais sao positivos.
1.14. A matriz simetrica A IRnn e denida positiva se, e somente se, todos os seus
autovalores sao positivos.
1.15. Seja A IRmn uma matriz de posto n. Mostre que AT A e denida positiva.
1.16. Considere g : IRn IRm e dena f (x) = kg(x)k22 . Calcule f (x) e 2 f (x).
1.17. Considere f : IRn IR dada por f (x) = kAx bk22 , onde A IRmn e b IRm .
Calcule f (x).
Introducao a Otimizacao
minimizar f (x)
(2.1)
sujeito a x ,
20
Otimizacao Irrestrita 21
IN0
convergente para um ponto de , digamos xk x . Pela continuidade de f ,
IN0
temos f (xk ) f (x ), uma contradicao. Portanto, f () = {f (x) | x } e limitado
inferiormente. Considere f = inf{f (x) | x }. Entao, para todo k IN, existe xk
tal que
1
f f (xk ) f + ,
k
IN0
o que implica f (xk ) f . Repetindo o argumento acima, obtemos f (xk ) f (x ), com
x . Pela unicidade do limite, temos f (x ) = f f (x), para todo x , o que
completa a demonstracao.
O Teorema 2.2 tem uma consequencia interessante, que pode garantir a existencia
de minimizador global em IRn .
Corolario 2.3 Seja f : IRn IR contnua e suponha que existe c IR tal que o conjunto
L = {x IRn | f (x) c} e compacto nao vazio. Entao f tem um minimizador global.
Demonstracao. Pelo Teorema 2.2, existe x L tal que f (x ) f (x), para todo x L.
Por outro lado, se x / L, temos f (x) > c f (x ). Assim, f (x ) f (x), para todo
x IRn .
Exerccios 2.4
1. Sejam A IRnn uma matriz simetrica e f : IRn IR dada por f (x) = xT Ax.
Mostre que f tem um minimizador global x em B = {x IRn | kxk = 1}.
2. Seja A IRnn uma matriz simetrica. Usando o exerccio anterior, mostre que
existe IR tal que xT Ax kxk2 , para todo x IRn .
Definicao 2.5 Dizemos que a funcao f : IRn IR e coerciva quando lim f (x) = .
kxk
Teorema 2.6 Seja f : IRn IR uma funcao contnua e coerciva. Entao, f tem um
minimizador global.
Demonstracao. Considere a IRn e b = f (a). Como lim f (x) = , existe r > 0 tal
kxk
que f (x) > b, sempre que kxk > r. Como o conjunto B = {x IRn | kxk r} e um
compacto, o Teorema 2.2 garante que existe x B tal que f (x ) f (x), para todo
x B. Alem disso, a B, pois f (a) = b. Para x / B, temos f (x) > b = f (a) f (x ).
Isto prova que x e minimizador de f .
Observacao: o Exerccio 2.11 no nal do captulo fornece outra demonstracao
para o Teorema 2.6.
Otimizacao Irrestrita 22
Exerccios 2.7
1. Seja > 0 e suponha que dT Ad 0, para todo d IRn tal que kdk = . Prove que
dT Ad 0, para todo d IRn .
d
Dica. Considere d IRn \ {0}. Tomando v = , temos que kvk = . Portanto,
kdk
( )2
usando a hipotese, temos que dT Ad = v T Av 0. Assim, dT Ad 0.
kdk
2. Sejam A IRnn uma matriz simetrica, b IRn e c IR. Suponha que a funcao
f : IRn IR dada por
1
f (x) = xT Ax + bT x + c (2.2)
2
tem um minimizador local x . Mostre que Ax + b = 0. Mostre tambem que x e
minimizador global.
Dica. Dado d IRn , temos
1
f (x + td) f (x ) = t2 dT Ad + t(Ax + b)T d.
2
1
Como x e minimizador local, temos que tdT Ad + (Ax + b)T d 0 para t sucien-
2
temente pequeno e positivo. Portanto, Ax + b = 0. Para ver que x e global, note
que
1 T
d Ad = f (x + d) f (x ) 0
2
para d proximo de 0, donde segue que dT Ad 0 para todo d IRn , tendo em vista
o que foi provado no item anterior.
f (x ) = 0. (2.3)
f (x + td) = f (x ) + tf (x )T d + r(t),
r(t) r(t)
com lim = 0. Usando 2.4 e dividindo por t, obtemos 0 f (x )T d + . Passando
t0 t t
o limite quando t 0, obtemos f (x )T d 0. Se f (x ) nao fosse nulo, poderamos
escolher d = f (x ), resultando em kf (x )k2 = f (x )T d 0, o que e uma
contradicao. Logo f (x ) = 0.
Definicao 2.9 Um ponto x IRn que cumpre a condicao (2.3) e dito ponto crtico ou
estacionario da funcao f .
dT 2 f (x )d 0, (2.5)
t2 T 2
f (x + td) = f (x ) + tf (x )T d + d f (x )d + r(t),
2
r(t)
com lim 2 = 0. Como x e minimizador local, o Teorema 2.8 garante que f (x ) = 0.
t0 t
Portanto, para t sucientemente pequeno,
t2 T 2
0 f (x + td) f (x ) = d f (x )d + r(t),
2
Exemplo 2.11 Seja f : IR2 IR dada por f (x) = (x1 x22 )(x1 12 x22 ). Verifique que
x = 0 e o unico ponto estacionario de f e nao e minimizador. No entanto, fixada qualquer
direcao d IRn \ {0}, x minimiza localmente f ao longo de d.
( )
2x1 32 x22
Temos f (x) = . Assim, se f (x) = 0, entao x = 0. Alem disso,
3x1 x2 + 2x32
( )
2
t t2
f 3
= < 0, o que signica que x = 0 nao e minimizador local de f . Porem,
t 18
dado d IRn \ {0}, temos
( )( 1 )
f (x + td) = t2 d1 td22 d1 td22 .
2
Otimizacao Irrestrita 24
Teorema 2.12 (Condicao suficiente de 2a ordem) Seja f : IRn IR duas vezes di-
ferenciavel no ponto x IRn . Se x e um ponto estacionario e se a matriz Hessiana de
f em x e definida positiva, entao x e minimizador local estrito do problema (P ).
Demonstracao. Seja o menor autovalor de 2 f (x ). Como esta matriz e denida po-
sitiva, temos > 0. Alem disso, pelo Lema 1.36 (veja tambem Exerccios 2.4 da Secao
2.1), dT 2 f (x )d kdk2 . Por Taylor, ja usando o fato de x ser estacionario, temos
1 1
f (x + d) = f (x ) + dT 2 f (x )d + r(d) f (x ) + kdk2 + r(d),
2 2
r(d) f (x + d) f (x ) r(d)
onde lim = 0. Podemos entao escrever + . Como
kdk0 kdk 2 kdk 2 2 kdk2
( )
r(d) r(d)
lim + > 0, existe > 0 tal que + > 0, para todo d B(0, ) \ {0},
kdk0 2 kdk 2 2 kdk2
donde segue que f (x + d) f (x ) > 0, para todo d B(0, ) \ {0}, ou, equivalentemente,
f (x ) < f (x),
O proximo teorema nos fornece uma condicao suciente (mas nao necessaria)
para que um ponto seja sela.
Teorema 2.14 Seja f : IRn IR duas vezes diferenciavel no ponto estacionario x IRn .
Se 2 f (x) e indefinida, entao x e ponto de sela de f .
Demonstracao. Considere d IRn tal que dT 2 f (x)d < 0. Por Taylor, ja usando o fato
de x ser estacionario, temos
r(t)
com lim = 0. Portanto,
t0 t2
f (x + td) < f (x),
para todo t sucientemente pequeno. Considere agora v IRn tal que v T 2 f (x)v > 0.
Analogamente, podemos concluir que f (x + tv) > f (x), para t sucientemente pequeno.
Isto prova que x e ponto de sela.
0.5
0.5
1.5
2
2 1 0 1 2
2.1. [5, Exerc. 2.1] Sejam g : IR IR uma funcao estritamente crescente e f : IRn IR.
( )
Prove que minimizar f (x) e equivalente a minimizar g f (x) .
2.2. [5, Exerc. 2.3(a)] Considere numeros reais a < b < c e as funcoes f, g : IR IR,
denidas por
2.3. [5, Exerc. 2.4] Sejam a, b IR dois numeros reais positivos. Considere a funcao
de Rosenbrock f (x) = a(x2 x21 )2 + b(1 x1 )2 . Encontre o (unico) ponto estacionario
de f e verique se e minimizador local. Prove que 2 f (x) e singular se e somente se
b
x2 x21 = .
2a
2.4. Sejam f : IRn IR contnua, x IRn e f = f (x ). Suponha que todo x tal que
f (x) = f e um minimizador local de f . Mostre que x e um minimizador global de f .
2.5. Seja f : IR2 IR dada por f (x) = sin x1 sin x2 + ex1 +x2 . Mostre que x = 0 e ponto
2 2
2.6. Verique se a funcao f (x) = (x1 + x2 )2 + x31 tem algum ponto estacionario. Caso
armativo diga se e minimizador, maximizador ou sela.
2.7. Seja f : IR2 IR dada por f (x) = x21 + x22 x1 x22 . Determine e faca um esboco do
conjunto {x IR2 | 2 f (x) > 0}.
2.8. Seja f : IR2 IR dada por f (x) = x21 x1 x2 + 2x22 2x1 + 23 x2 + ex1 +x2 .
( )
1 1
(a) Mostre que x = e um ponto estacionario de f .
3 1
2.10. [5, Exerc. 2.17] Se for possvel, determine a e b de modo que f (x) = x3 + ax2 + bx
tenha um maximo local em x = 0 e um mnimo local em x = 1.
2.11. Seja f : IRn IR uma funcao contnua e coerciva. Dado a IRn , mostre que o
conjunto L = {x IRn | f (x) f (a)} e compacto nao vazio.
2.12. Sejam f : IRn IR contnua e x IRn tal que {x IRn | f (x) f (x)} e limitado.
Mostre que f tem minimizador global.
Captulo 3
Convexidade
y
y
x
x
Exerccios 3.2
m
1. Sejam Ci , i = 1, . . . , m conjuntos convexos. Entao o conjunto C = Ci tambem e
i=1
convexo.
28
Convexidade 29
Veremos agora alguns resultados que alem de sua importancia em analise convexa,
podem tambem ser usados para provar o classico Lema de Farkas, fundamental para a
obtencao das condicoes de Karush-Kuhn-Tucker para problemas com restricoes.
Lema 3.3 Sejam u, v IRn com u 6= v. Se kuk2 = kvk2 = r, entao k(1 t)u + tvk2 < r,
para todo t (0, 1).
ku vk2 = uT u 2uT v + v T v = 0,
completando a demonstracao.
S
S z z S projSz z
Lema 3.4 Seja S IRn um conjunto fechado nao vazio. Dado z IRn , existe z S tal
que
kz zk kz xk,
para todo x S.
Convexidade 30
Demonstracao. Seja = inf{kz xk | x S}. Entao, para todo k IN, existe xk S tal
que
1
kz xk k + . (3.1)
k
Em particular, kz xk k + 1, para todo k IN. Logo, existe uma subsequencia
IN0
convergente, digamos, xk z. Sendo S fechado, temos que z S. Alem disso,
IN0
kz xk k kz zk.
Lema 3.5 Seja S IRn um conjunto nao vazio, convexo e fechado. Dado z IRn , existe
um unico z S tal que
kz zk2 kz xk2 ,
Demonstracao. A existencia e garantida pelo Lema 3.4. Para provar a unicidade, suponha
que existam z 6= z em S tais que
kz zk2 = kz zk2 .
1
Por outro lado, o ponto x = (z + z) esta no convexo S. Alem disso, pelo Lema 3.3, com
2
1
r = kz zk2 = kz zk2 e t = , temos
2
contradizendo (3.2).
Vejamos agora o principal resultado desta secao. Por simplicidade vamos indicar
a norma euclidiana por k k.
Teorema 3.6 Sejam S IRn um conjunto nao vazio, convexo e fechado, z IRn e
z = projS (z). Entao
(z z)T (x z) 0,
para todo x S.
Convexidade 31
Assim,
Como t > 0, temos que 2(z z)T (x z) tkz xk2 . Passando o limite quando t 0,
obtemos
(z z)T (x z) 0,
S projSz z
Definicao 3.7 Seja C IRn um conjunto convexo. Dizemos que a funcao f : IRn IR
e convexa em C quando
( )
f (1 t)x + ty (1 t)f (x) + tf (y),
Apesar deste conceito ser muito simples, pode nao ser tao facil provar diretamente
da denicao que uma funcao e convexa, mesmo ela sendo elementar. Verique isto nos
exerccios abaixo.
Exerccios 3.8
f(y)
f(y)
f((1t)x+ty)
(1t)f(x)+tf(y) (1t)f(x)+tf(y)
f((1t)x+ty)
f(x) f(x)
x (1t)x+ty y x (1t)x+ty y
O teorema seguinte justica o fato de funcoes convexas serem muito bem vistas
em otimizacao.
Demonstracao. Seja > 0 tal que f (x ) f (x), para todo x B(x , ) C. Dado
y C, y / B(x , ), tome 0 < t < . Assim, o ponto x = (1 t)x + ty satisfaz
ky x k
kx x k = tky x k < e portanto, x B(x , ) C (veja a Figura 3.5). Deste modo
temos
f (x ) f (x) (1 t)f (x ) + tf (y),
x* x y
para todos x, y C.
Portanto,
f (x + td) f (x)
f (y) f (x) lim+ = f (x)T d = f (x)T (y x).
t0 t
completando a demonstracao.
O teorema acima tem uma interpretacao geometrica simples: dados a, x C,
temos f (x) f (a) + f (a)T (x a), ou seja, uma funcao convexa esta sempre acima da
sua aproximacao linear. A Figura 3.6 ilustra o teorema.
A Figura 3.7 ilustra uma situacao que satisfaz as condicoes do Corolario 3.11 e
outra onde isto nao se verica.
y C
y C
x* f x
f
1
f (x + d) = f (x) + f (x)T d + dT 2 f (x + td)d
2
para algum t (0, 1). Como 2 f (x) 0, conclumos que f (x + d) f (x) + f (x)T d.
Pelo Teorema 3.10, f e convexa.
(ii) Considere primeiro x int(C). Dado d IRn , temos que x + td C, para t
sucientemente pequeno. Portanto, pela convexidade de f , Teorema 3.10 e Teorema 1.40,
obtemos
t2 T 2
0 f (x + td) f (x) tf (x) d = d f (x)d + r(t),
T
2
r(t)
onde lim 2 = 0. Dividindo por t2 e passando o limite, obtemos dT 2 f (x)d 0. Agora
t0 t
considere x C, arbitrario. Como existe y int(C), o Exerccio 3.1 garante que todos
os pontos do segmento (x, y] estao em int(C). Pelo que ja provamos, dados d IRn e
( )
t (0, 1], vale dT 2 f (1 t)x + ty d 0. Fazendo t 0+ e usando a continuidade de
2 f , obtemos dT 2 f (x)d 0, completando a demonstracao.
3.3. Sejam T : IRn IRm linear e C IRn convexo. Mostre que T (C) e convexo.
3.9. Seja C IR n
{(convexo.
) A funcao f : C IR} e convexa se, e somente se, o seu
x
epigrafo epi(f ) = IRn+1 | x C, y f (x) e convexo.
y
3.10. Seja f : IR2 IR dada por f (x) = x21 x1 x2 + 2x22 2x1 + 23 x2 + ex1 +x2 . Mostre
que f e convexa.
3.12. Refazer os Exerccios 3.8 da Secao 3.2 usando o Teorema 3.10 e tambem usando o
Teorema 3.12.
Captulo 4
Algoritmos
36
Algoritmos 37
Definicao 4.1 Considere uma funcao f : IRn IR, um ponto x IRn e uma direcao
d IRn \ {0}. Dizemos que d e uma direcao de descida para f , a partir de x, quando
existe > 0 tal que f (x + td) < f (x), para todo t (0, ).
Apresentamos abaixo uma condicao suciente para uma direcao ser de descida.
Teorema 4.2 Se f (x)T d < 0, entao d e uma direcao de descida para f , a partir de x.
f f (x + td) f (x)
f (x)T d = (x) = lim .
d t0 t
f (x + td) f (x)
< 0,
t
para todo t (, ), t 6= 0. Portanto, f (x + td) < f (x), para todo t (0, ), o que
completa a demonstracao.
Quando n = 2 ou n = 3, podemos interpretar geometricamente o Teorema 4.2,
dizendo que as direcoes que formam um angulo obtuso com f (x) sao de descida. Veja
a Figura 4.1.
f(x)
( ) ( )
1 1 d1
Exemplo 4.3 Sejam f : IR2 IR dada por f (x) = (x21 x22 ) e x = . Se d =
2 0 d2
e tal que d1 0, entao d e uma direcao de descida para f , a partir de x.
Temos f (x)T d = d1 . Caso d1 < 0, podemos aplicar o Teorema 4.2 para concluir o
que se pede. Entretanto,
( ) se d1 = 0, nao podemos usar o teorema, mas basta notar que
1 (td2 )2
f (x + td) = f = f (x) . A Figura 4.2 ilustra este caso.
td2 2
Algoritmos 38
( )
0
Exemplo 4.4 Considere a mesma funcao do Exemplo 4.3 e x = . O que podemos
1
( )
1
dizer sobre d = ?
0
f f
Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Calcule dk tal que f (xk )T dk < 0
Escolha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1
4 4
3 3
2 2
1 1
0 0
1 1
2 1 0 1 2 2 1 0 1 2
minimizar f (x + td)
(4.1)
sujeito a t > 0.
um algoritmo. Antes porem vamos fazer um exemplo que pode ser resolvido de forma
direta.
( )
1 1
Exemplo 4.6 Considere f : IR2 IR dada por f (x) = (x1 2)2 + (x2 1)2 , x =
2 0
( )
3
ed= . Faca a busca exata a partir de x, na direcao d.
1
2.5
1.5
0.5
0.5
1.5
1 0 1 2 3 4 5
queira. Este algoritmo sera entao aplicado para a funcao : [0, ) IR por
(t) = f (x + td).
Definicao 4.7 Uma funcao contnua : [0, ) IR e dita unimodal quando admite
um conjunto de minimizadores [t1 , t2 ], e estritamente decrescente em [0, t1 ] e estritamente
crescente em [t2 , ).
a u v b
(ii) Se (u) < (v) entao o trecho [v, b] nao pode conter um minimizador e pode ser
descartado.
Vamos discutir agora como particionar o intervalo [a, b]. A obtencao deste inter-
valo, que deve conter um minimizador de , sera tratada adiante.
Uma estrategia que parece natural e dividir o intervalo em tres partes iguais, ou
seja, denir
1 2
u = a + (b a) e v = a + (b a).
3 3
Assim, descartamos 31 do intervalo corrente a cada etapa. Entretanto, esta forma de
particionar o intevalo tem uma desvantagem. Precisamos fazer duas novas avaliacoes de
funcao por etapa, pois o ponto que sobrou, u ou v, nao pode ser aproveitado. Veja a
Figura 4.7.
a u v b
a+ u+ v+ b+
Uma estrategia que veremos ser mais inteligente consiste em escolher os pontos
u e v que dividem o segmento [a, b] na razao aurea, de acordo com a seguinte denicao.
Definicao 4.8 Um ponto c divide o segmento [a, b] na razao aurea quando a razao entre o
maior segmento e o segmento todo e igual a razao entreo menor e o maior dos segmentos.
51
Tal razao e conhecida como o numero de ouro e vale 0, 618.
2
Desta forma, temos que u e v devem satisfazer
bu ua va bv
= e = .
ba bu ba va
u = a + 1 (b a) e v = a + 2 (b a), (4.2)
obtemos
1 1 2
1 1 = e 2 = . (4.3)
1 1 2
3 5 51
Portanto, 1 = 0, 382 e 2 = 0, 618. Salientamos que 1 + 2 = 1 e
2 2
22 = 1 . (4.4)
Uma das vantagens da divisao na razao aurea em relacao a divisao em tres partes
iguais e que descartamos mais de 38% do intervalo ao inves de 33, 33%. Outra vantagem
Algoritmos 43
v + = a + 22 (b a) = a + 1 (b a) = u,
completando a prova.
A Figura 4.8 ilustra esta propriedade.
a u v b
a+ u+ v+ b+
Exerccios 4.10
Apresentamos agora o algoritmo da secao aurea, que tem duas fases. Na primeira,
obtemos um intervalo [a, b] que contem um minimizador de . A ideia desta etapa e
considerar um intervalo inicial [0, 2], com > 0, e amplia-lo, deslocando para a direita,
ate que um crescimento de seja detectado.
Na segunda fase, o intervalo [a, b] e reduzido, por meio do descarte de subin-
tervalos, ate que reste um intervalo de tamanho suciente para que uma precisao seja
alcancada.
Algoritmos 44
A condicao acima signica que queremos mais que uma simples reducao em f .
Esta reducao deve ser proporcional ao tamanho do passo. O proximo resultado garante
que isto pode ser de fato obtido.
Algoritmos 45
Teorema 4.12 Considere uma funcao diferenciavel f : IRn IR, um ponto x IRn ,
uma direcao de descida d IRn e (0, 1). Entao existe > 0 tal que
f (x + td) f (x)
lim = f (x)T d < f (x)T d.
t0 t
f (x + td) f (x)
< f (x)T d,
t
(t) = f (x + td).
Isto signica que procuramos um passo cuja reducao na funcao objetivo seja pelo menos
uma fracao da reducao obtida no modelo linear. Veja uma ilustracao na Figura 4.9.
Note tambem nesta gura a reta dada por
p(0)=f(x)
f(x+td)
t q
p(t)
Alem disso, a relacao f (x + td) f (x) + tf (x)T d pode ser escrita como
( ) ( ) ( )
1 + 3t 1 3
f f + t(1 2) ,
t 0 1
o que equivale a
10(1 )
t .
11
1 15
Por exemplo, se = , entao qualquer t satisfazendo t 0, 6818 e aceitavel.
4 22
Comecando com t = 1, teremos o passo recusado. Entao fazemos t = 0, 8 1 = 0, 8, que
Algoritmos 47
2.5
1.5
0.5
0.5
1.5
1 0 1 2 3 4 5
Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Dena dk = H(xk )f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1
Definicao 4.16 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (xk ) gerada pelo algoritmo e qualquer ponto de acumulacao x de (xk ), temos que
x e estacionario.
Nos dois teoremas que seguem, vamos supor que a funcao f , a ser minimizada, e
de classe C 1 .
Teorema 4.17 O Algoritmo 4.15, com o tamanho do passo calculado pela busca exata, e
globalmente convergente.
Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja estacionario,
isto e, f (x) 6= 0. Assim, d = H(x)f (x) e uma direcao de descida, o que garante a
existencia de t > 0 tal que = f (x) f (x + td) > 0. Considere h : IRn IR dada por
( ) IN0
h(x) = f (x) f x tH(x)f (x) . Como h e contnua, temos que h(xk ) h(x) = .
Portanto,
f (xk ) f (xk + tdk ) = h(xk ) ,
2
0
para todo k IN , sucientemente grande. Deste modo, como tk foi obtido pela busca
exata, podemos concluir que
f (xk+1 ) = f (xk + tk dk ) f (xk + tdk ) f (xk ) ,
2
ou seja,
f (xk ) f (xk+1 ) , (4.6)
2
para todo k IN0 , sucientemente grande. Por outro lado, pela continuidade de f , temos
IN0
f (xk ) f (x). Como a sequencia (f (xk ))kIN e decrescente, o Teorema 1.12 garante que
f (xk ) f (x), contradizendo (4.6).
Se utilizarmos a busca de Armijo para calcular tk , tambem podemos garantir a
convergencia.
Algoritmos 49
Teorema 4.18 O Algoritmo 4.15, com o tamanho do passo calculado pela condicao de
Armijo (Algoritmo 4.13), e globalmente convergente.
Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja estacionario,
IN0
isto e, f (x) 6= 0. Pela continuidade de f , temos f (xk ) f (x). Como a sequencia
(f (xk )) e monotona nao crescente, podemos aplicar o Teorema 1.12 para concluir que
f (xk ) f (x). Por outro lado, pela condicao de Armijo, temos
IN0
f (xk )T H(xk )f (xk ) f (x)T H(x)f (x) 6= 0,
IN0
donde segue que tk 0. Entao, tk < 1, para todo k IN0 , sucientemente grande. Pelo
tk
Algoritmo 4.13, o passo 0,8 existiu e foi recusado. Assim,
( tk k ) tk
f (xk + tk dk ) f (xk ) + tk f (xk )T dk e f xk + d > f (xk ) + f (xk )T dk .
0, 8 0, 8
Definicao 4.20 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (xk ) gerada pelo algoritmo e qualquer ponto de acumulacao x de (xk ), temos que
x e desejavel.
Um algoritmo que gera apenas sequencias que nao tem pontos de acumulacao e
um algoritmo globalmente convergente. De fato, nao podemos encontrar uma sequencia
gerada pelo algoritmo com um ponto de acumulacao nao desejavel. Veja o Exemplo 4.21.
Dado: x0 IR
k=0
repita
xk+1 = xk 1
k =k+1
gera sequencias sem pontos de acumulacao, pois |xm xn | 1 para todos m, n IN.
Teorema 4.23 (Polak, 1968) Considere o problema (P ) e suponha que existe uma fun-
cao de merito contnua : IR tal que para toda sequencia (xk ) gerada pelo algoritmo
e todo ponto x nao desejavel, existe uma vizinhanca V de x e uma constante > 0
tais que se xk V , entao (xk+1 ) (xk ) . Entao todo ponto de acumulacao de (xk )
e desejavel.
Algoritmos 51
Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja desejavel. Entao
existe uma vizinhanca V de x e uma constante > 0 tais que
(xk+1 ) (xk ) ,
IN0
se xk V . Como xk x, podemos redenir IN0 , se necessario, de modo que xk V , para
todo k IN0 . Assim,
(xk ) (xk+1 ) , (4.7)
IN0
para todo k IN0 . Por outro lado, utilizando a continuidade de , temos (xk ) (x).
Como a sequencia ((xk ))kIN e monotona nao crescente, podemos aplicar o Teorema 1.12
para concluir que (xk ) (x), o que contradiz 4.7. Portanto, x e desejavel.
(b) Suponha que d e uma direcao de descida a partir de x. Mostre que a busca exata
f (x)T d
fornece t = T .
d Ad
(c) Mostre que se t satisfaz a condicao de Armijo
f (x + t d) f (x) + t f (x)T d,
1
entao .
2
1 T
4.4. [5, Exerc. 6.7] Considere f : IRn IR dada por f (x) = x Ax + bT x + c, onde
2
A IRnn e uma matriz denida positiva, b IRn e c IR. Sejam x o minimizador de
Algoritmos 52
4.5. [5, Exerc. 4.9] Sejam f : IRn IR, f C 2 e x IRn tal que f (x) = 0 e 2 f (x)
nao e semidenida positiva. Prove que existe uma direcao de descida d em x.
Captulo 5
Vamos agora discutir os metodos para resolver o Problema (2.1). Algumas re-
ferencias para este assunto sao [5, 11, 19].
f f
(x) = f (x)T d = kf (x)k2 = kf (x)kkvk f (x)T v = (x).
d v
5.1.1 Algoritmo
O algoritmo de Cauchy e exatamente o Algoritmo 4.15, com H(xk ) = I IRnn ,
para todo k IN.
Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Dena dk = f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1
53
Metodos para Otimizacao Irrestrita 54
A Figura 5.1 mostra 4 iteracoes do algoritmo com a busca exata aplicado para
minimizar uma funcao quadratica convexa. Esta gura sugere duas propriedades do
algoritmo. Uma delas, formalizada no Exerccio 5.3, e o fato de duas direcoes consecutivas
serem ortogonais. A outra propriedade se refere a convergencia, que sera discutida na
proxima secao.
Teorema 5.2 O Algoritmo 5.1, com o tamanho do passo tk calculado pela busca exata, e
globalmente convergente, segundo a Definicao 4.16. O mesmo resultado vale se utilizarmos
a busca de Armijo para calcular tk .
Demonstracao. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = I IRnn .
Salientamos que a convergencia no caso da busca de Armijo e assegurada se
utilizarmos o Algoritmo 4.13 para calcular tk . Caso o tamanho do passo seja escolhido
apenas pela relacao (4.5), ele pode car arbitrariamente pequeno e o algoritmo pode nao
convergir. Veja o Exerccio 5.4 no nal do captulo.
1
f (x) = xT Ax + bT x + c, (5.1)
2
com A IRnn denida positiva, b IRn e c IR. Assim, f e convexa e tem um unico
minimizador x , que e global e satisfaz
Ax + b = f (x ) = 0. (5.2)
Metodos para Otimizacao Irrestrita 55
(dk )T dk
tk = . (5.3)
(dk )T Adk
d
De fato, basta fazer f (xk + tdk )T dk = f (xk + tdk ) = 0.
dt
No que segue, para facilitar a notacao, vamos assumir que x = 0 e f (x ) = 0,
isto e,
1
f (x) = xT Ax. (5.4)
2
Isto nao tira a generalidade do resultado em virtude do Exerccio 5.7.
dT d xT Ax
.
dT Ad xT A 2 x
dT d xT A2 x (dT d)2
= .
dT Ad xT Ax (dT Ad)(dT A1 d)
Como A e denida positiva, podemos usar o Lema 1.37 para concluir que
dT d xT A2 x
1,
dT Ad xT Ax
completando a prova.
kxk+1 k2 kxk k2 ,
kxk+1 k22 kxk k22 2tk (xk )T Axk + tk (xk )T Axk = kxk k22 tk (xk )T Axk .
Caso xk = 0 nao ha nada a fazer. Suponha entao que xk 6= 0. Usando novamente (5.3),
obtemos
kxk+1 k22 (dk )T dk (xk )T Axk
1 .
kxk k22 (dk )T Adk (xk )T xk
Utilizando o Lema 1.36, segue que
kxk+1 k22 1
1 ,
kx k2
k 2
n
completando a prova.
Este teorema tem uma interpretacao geometrica interessante. As curvas de nvel
de f sao elipsoides cuja excentricidade depende da diferenca entre o maior e o menor
autovalor de A. Se 1 = n , entao as curvas de nvel sao esferas e a convergencia ocorre
em um unico passo. Entretanto, se 1 n , entao os elipsoides cam muito excentricos
e a convergencia se da de forma lenta. Veja ilustracao na Figura 5.2.
Teorema 5.5 Seja f : IRn IR de classe C 2 . Suponha que x IRn seja um minimizador
local de f , com 2 f (x ) definida positiva, e que a sequencia (xk ), gerada pelo algoritmo
( )
de Cauchy, com busca exata, converge para x . Entao a sequencia f (xk ) converge li-
( )2
n 1
nearmente para f (x ) com taxa nao superior a , onde 1 e n sao o menor e
n + 1
o maior autovalor de 2 f (x ), respectivamente.
Metodos para Otimizacao Irrestrita 57
5.2.1 Motivacao
Considere uma funcao f : IRn IR de classe C 2 . Nosso objetivo consiste em
encontrar um minimizador de f . De acordo com as condicoes necessarias de otimalidade,
devemos resolver o sistema de n equacoes e n incognitas dado por f (x) = 0.
Generalizando, considere F : IRn IRn de classe C 1 e o problema de resolver o
sistema (normalmente nao linear)
F (x) = 0.
Como na maioria das vezes nao conseguimos resolve-lo de forma direta, os processos
iterativos constituem a forma mais eciente de lidar com tais situacoes.
A ideia e aproximar F por seu polinomio de Taylor de primeira ordem. Dada
uma estimativa x, considere o sistema linear
onde JF representa a matriz jacobiana de F . Caso JF (x) seja inversvel, o sistema (5.5)
pode ser resolvido, fornecendo
( )1
x+ = x JF (x) F (x).
Isto corresponde a uma iteracao do metodo de Newton para resolucao de equacoes (veja
a Figura 5.3).
x+ x
F = f , obtendo
( )1
x+ = x 2 f (x) f (x). (5.6)
5.2.2 Algoritmo
Com base na relacao (5.6) podemos agora formalizar o metodo de Newton para
minimizar a funcao f . Basicamente, temos tres variantes no algoritmo. Uma delas e
o metodo puro, onde nao fazemos busca unidirecional e aceitamos o passo completo
(tk = 1, para todo k IN). As outras duas fazem uso de busca (exata ou Armijo).
Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
( )1
Dena dk = 2 f (xk ) f (xk )
Determine o tamanho do passo tk > 0
Faca xk+1 = xk + tk dk
k =k+1
1
p(x) = f (xk ) + f (xk )T (x xk ) + (x xk )T 2 f (xk )(x xk ).
2
obtendo exatamente o passo dk do Algoritmo 5.6. A Figura 5.4 ilustra esta abordagem.
O primeiro graco mostra, para n = 1, a funcao e o modelo, bem como os pontos xk e
xk+1 . O outro graco ilustra o passo para n = 2. Neste caso, mostramos as curvas de
nvel da funcao e do modelo, bem como os pontos xk e xk+1 .
Metodos para Otimizacao Irrestrita 59
xk+1 xk
xk+1
xk
Esta ultima abordagem sugere que se o metodo de Newton for aplicado em uma
funcao quadratica, entao basta uma iteracao para resolver o problema. De fato, considere
a quadratica dada em (5.1). Dado x0 IRn , o passo obtido e
( )1
d0 = 2 f (x0 ) f (x0 ) = A1 (Ax0 + b) = x0 A1 b.
x1 = x0 + d0 = A1 b = x .
5.2.3 Convergencia
Como ja observamos antes, a direcao de Newton pode nao ser de descida. Por-
tanto, nao garantimos convergencia global quando o problema a ser resolvido envolver
uma funcao arbitraria. No entanto, para uma classe de funcoes convexas, podemos tirar
conclusoes positivas, pois podemos aplicar o que foi estabelecido no Captulo 4.
Teorema 5.7 Suponha que 2 f (x) e definida positiva, para todo x IRn . Entao o
Algoritmo 5.6, com o tamanho do passo tk calculado pela busca exata, e globalmente
convergente, segundo a Definicao 4.16. O mesmo resultado vale se utilizarmos a busca de
Armijo para calcular tk .
( )1
Demonstracao. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = 2 f (x) .
Para estabelecer propriedades de convergencia local, vamos precisar dos seguintes
resultados.
Lema 5.8 Suponha que 2 f (x) > 0. Entao existem constantes > 0 e M > 0 tais que
( 2 )
2 f (x) > 0 e
f (x) 1
M,
dT 2 f (x)d = dT 2 f (x)d + dT [2 f (x) 2 f (x)]d = ,
2 2
provando que 2 f (x) e denida positiva para todo x B(x, ). Para provar a outra
armacao, considere x B(x, ). Vamos denotar A = 2 f (x) e B = 2 f (x). Usando
novamente o Lema 1.36, agora aplicado em A2 , obtemos
kAdk2 = dT A2 d 2 kdk2 ,
kBdk = kAd + (B A)dk kAdk k(B A)dk kdk kdk = kdk.
2 2
Lema 5.9 Sejam U IRn aberto convexo e = sup k2 f (x) 2 f (y)k. Entao
x,yU
para todos x, y U .
Demonstracao. Fixado y U , considere h : IRn IRn dada por h(x) = f (x) 2 f (y)x.
Assim,
kJh (x)k = k2 f (x) 2 f (y)k ,
completando a demonstracao.
Metodos para Otimizacao Irrestrita 61
Lema 5.10 Seja U IRn aberto e convexo. Se 2 f e lipschitz com constante L, entao
para todos x, y U .
completando a demonstracao.
O proximo resultado estabelece a convergencia quadratica do metodo de Newton
puro, isto e, com tk = 1, para todo k IN.
Teorema 5.11 Seja f : IRn IR de classe C 2 . Suponha que x IRn seja um minimiza-
dor local de f , com 2 f (x ) definida positiva. Entao existe > 0 tal que se x0 B(x , ),
o Algoritmo 5.6, aplicado com tk = 1 para todo k IN, gera uma sequencia (xk ) tal que:
1
Podemos diminuir , se necessario, de modo que sup k2 f (x) 2 f (y)k < . Pelos
x,yU 2M
Lemas 5.8 e 5.9, conclumos que
1
kxk+1 x k kxk x k.
2
Isto prova que a sequencia (xk ) esta bem denida, que xk U , para todo k IN e
que xk x , donde segue (i). Vejamos que a convergencia e superlinear. Dado > 0,
considere 0 < tal que sup k2 f (x) 2 f (y)k < , onde U0 = B(x , 0 ). Tome
x,yU0 M
Metodos para Otimizacao Irrestrita 62
provando assim (ii). Finalmente, se 2 f e lipschitz, podemos usar os Lemas 5.8 e 5.10
em (5.8) para obter
kxk+1 x k M Lkxk x k2 ,
completando a demonstracao.
1
f (x) = xT Ax + bT x + c, (5.9)
2
com A IRnn denida positiva, b IRn e c IR. Seu unico minimizador x , que e
global, satisfaz
Ax + b = f (x ) = 0. (5.10)
x+ = x + S +
T
Sk1 f (xk ) = 0, (5.15)
O processo iterativo dado por (5.14) tem vantagem teorica, pois converge em n
passos para o minimizador de f . No entanto, ele e pouco pratico uma vez que o passo
tem um alto custo computacional. Veremos na proxima secao um conceito que facilitara
o calculo do passo.
Definicao 5.13 Seja A IRnn uma matriz definida positiva. Dizemos que os vetores
d0 , d1 , . . . , dk IRn \ {0} sao A-conjugados se
(di )T Adj = 0,
Lema 5.14 Seja A IRnn uma matriz definida positiva. Um conjunto qualquer de
vetores A-conjugados e linearmente independente.
a0 d0 + a1 d1 + . . . + ak dk = 0.
Dado i {0, 1, . . . , k}, multiplicando os dois membros da igualdade acima por (di )T A,
obtemos
ai (di )T Adi = 0,
pk = xk+1 xk .
(pi )T Apj = 0.
donde segue que pi [d0 , d1 , . . . , di ]. Portanto, usando a relacao (5.15) em (5.17), obtemos
(pi )T Apj = 0,
completando a demonstracao.
Veremos agora que se as direcoes d0 , d1 , . . . , dn1 , usadas para denir a sequencia
(5.14), forem A-conjugadas, entao os passos serao paralelos a estas direcoes. Alem disso, a
sequencia podera ser reescrita de forma mais simples, como resultado de uma minimizacao
unidirecional.
Demonstracao. Temos
(d0 )T (d0 )T Ad0 0
. .. ..
SkT ASk = . 0 k
. A(d d ) = .
..
. . .
k T
(d ) 0 (d ) Ad
k T k
Assim,
0 ( )
f (x k T k
) d
xk+1 = x (d d ) f (xk )T dk = x
k 0 k k
k T k
dk ,
(d ) Ad
(dk )T Adk
completando a demonstracao.
O Teorema 5.16 signica que xk+1 pode ser obtido por uma busca exata a partir
de xk , na direcao dk . De fato, denindo : IR IR por (t) = f (xk + tdk ), temos
( )T
0 (tk ) = f (xk +tk dk )T dk = A(xk +tk dk )+b dk = f (xk )T dk +tk (dk )T Adk = 0. (5.18)
onde xk+1 e calculado de acordo com o Teorema 5.16 e k e tal que dk e dk+1 sejam
A-conjugadas, ou seja,
( )
(dk )T A f (xk+1 ) + k dk = (dk )T Adk+1 = 0.
Salientamos que o Algoritmo 5.17 esta bem denido, isto e, se f (xk ) 6= 0, entao
6 0 e assim o novo ponto pode ser calculado. De fato, usando a relacao (5.18), obtemos
dk =
( )
f (xk )T dk = f (xk )T f (xk ) + k1 dk1 = kf (xk )k2 . (5.21)
Outra caracterstica deste algoritmo, que nao era necessariamente valida para
direcoes conjugadas em geral, e que as direcoes geradas aqui sao de descida, como pode
ser visto pela relacao (5.21).
O proximo resultado estabelece que as direcoes geradas pelo algoritmo sao, de
fato, A-conjugadas. Antes porem, e conveniente notar que
para todo j = 0, 1, . . . , k 1.
completando a demonstracao.
O Teorema 5.18 e os resultados da Secao 5.3.2 garantem que o Algoritmo 5.17
minimiza a quadratica denida em (5.9) com no maximo n passos. No entanto, vale dizer
que se pode tirar esta conclusao sem apelar para o que foi visto naquela secao. De fato,
Metodos para Otimizacao Irrestrita 68
f (xn )T f (xj ) = 0,
gk+1 gk
Demonstracao. Por (5.22), temos que Adk = . Portanto,
tk
T
gk+1 Adk T
gk+1 (gk+1 gk )
k = = .
k T
(d ) Ad k (d ) (gk+1 gk )
k T
T
gk+1 (gk+1 gk )
k = ,
gkT gk
T
provando assim a primeira igualdade. A outra expressao segue do fato de que gk+1 gk = 0,
provado no Teorema 5.18.
O Teorema 5.19 tem um interesse tanto computacional quanto teorico. Para se
calcular k pela formula original, pode ser caro efetuar os produtos pela matriz Hessiana.
Entretanto, as expressoes dadas neste teorema usam apenas produto de vetores. Outra
observacao importante e que para funcoes nao quadraticas tais expressoes podem nao ser
iguais. Temos assim duas variantes do metodo de gradientes conjugados. Uma delas,
proposta por Polak and Ribiere, utiliza
T
gk+1 (gk+1 gk )
kPR = ,
gkT gk
Cauchy e custo computacional menor do que Newton. Enquanto Cauchy pode gastar
uma innidade de passos para resolver uma quadratica, Newton a resolve em um passo.
Veremos que os metodos de direcoes conjugadas minimizam uma quadratica denida em
IRn usando no maximo n passos.
Definicao 5.20 Seja A IRnn uma matriz definida positiva. Dizemos que os vetores
d0 , d1 , . . . , dk IRn \ {0} sao A-conjugados se
(di )T Adj = 0,
Lema 5.21 Seja A IRnn uma matriz definida positiva. Um conjunto qualquer de
vetores A-conjugados e linearmente independente.
a0 d0 + a1 d1 + . . . + ak dk = 0.
Dado i {0, 1, . . . , k}, multiplicando os dois membros da igualdade acima por (di )T A,
obtemos
ai (di )T Adi = 0,
1
f (x) = xT Ax + bT x + c, (5.24)
2
com A IRnn denida positiva, b IRn e c IR. A funcao f tem um unico minimizador
x , que e global e satisfaz
Ax + b = f (x ) = 0. (5.25)
Metodos para Otimizacao Irrestrita 70
onde
{ }
tk = argmin f (xk + tdk ) .
tIR
Note que a minimizacao acima e calculada sobre toda a reta e nao apenas para valores
positivos de t, pois a direcao dk pode nao ser de descida para f no ponto xk . Alem disso,
como f e quadratica, podemos obter uma formula explcita para tk . Para isso, dena
: IR IR por (t) = f (xk + tdk ). Usando a denicao de tk , obtemos
f (xk )T dk
tk = . (5.29)
(dk )T Adk
O teorema a seguir mostra que o algoritmo dado por (5.26) minimiza a quadratica
denida em (5.24) com no maximo n passos.
Teorema 5.22 Considere a funcao quadratica dada por (5.24) e seu minimizador x ,
definido em (5.25). Dado x0 IRn , a sequencia finita definida em (5.26) cumpre xn = x .
Demonstracao. Pelo Lema 5.21, o conjunto {d0 , d1 , . . . , dn1 } e uma base de IRn . Portanto,
existem escalares i IR, i = 0, 1, . . . , n 1, tais que
n1
x x = 0
i di . (5.30)
i=0
Assim,
(dk )T A(x x0 )
k = . (5.31)
(dk )T Adk
Metodos para Otimizacao Irrestrita 71
xk = x0 + t0 d0 + t1 d1 + + tk1 dk1 ,
pois as direcoes sao A-conjugadas. Substituindo isto em (5.31) e usando (5.25), obtemos
n1
0
x =x + ti di = xn ,
i=0
completando a demonstracao.
Veremos agora um resultado que sera usado para provar que o ponto xk minimiza
a quadratica nao apenas em uma reta como tambem na variedade linear de dimensao k,
dada por x0 + [d0 , d1 , . . . , dk1 ].
Lema 5.23 Dado x0 IRn , considere a sequencia finita definida em (5.26). Entao
f (xk )T dj = 0,
para todo j = 0, 1, . . . , k 1.
Demonstracao. Pela relacao (5.27), temos que f (xk )T dk1 = 0, provando a armacao
para j = k 1. Considere agora j < k 1. Usando (5.28) e o fato das direcoes serem
A-conjugadas, obtemos
( )T
f (xk )T dj = f (xk1 ) + tk1 Adk1 dj = f (xk1 )T dj .
Teorema 5.24 Dado x0 IRn , considere a sequencia finita definida em (5.26). Entao o
ponto xk minimiza f sobre a variedade linear C = x0 + [d0 , d1 , . . . , dk1 ].
x xk [d0 , d1 , . . . , dk1 ],
Metodos para Otimizacao Irrestrita 72
f (xk )T (x xk ) = 0.
onde xk+1 e dado por (5.26) e k e calculado de modo que dk e dk+1 sejam A-conjugadas,
ou seja,
( )
(dk )T A f (xk+1 ) + k dk = (dk )T Adk+1 = 0.
Salientamos que o Algoritmo 5.25 esta bem denido, isto e, se f (xk ) 6= 0, entao
6 0 e assim o novo ponto pode ser calculado. De fato, usando a relacao (5.27), obtemos
dk =
( )
f (xk )T dk = f (xk )T f (xk ) + k1 dk1 = kf (xk )k2 . (5.34)
Metodos para Otimizacao Irrestrita 73
Outra caracterstica deste algoritmo, que nao era necessariamente valida para
direcoes conjugadas em geral, e que as direcoes geradas aqui sao de descida, como pode
ser visto pela relacao (5.34).
O proximo resultado estabelece que as direcoes geradas pelo algoritmo sao, de
fato, A-conjugadas.
para todo j = 0, 1, . . . , k 1.
f (xn )T f (xj ) = 0,
gk+1 gk
Demonstracao. Por (5.28), temos que Adk = . Portanto,
tk
T
gk+1 Adk T
gk+1 (gk+1 gk )
k = = .
k T
(d ) Ad k (d ) (gk+1 gk )
k T
T
gk+1 (gk+1 gk )
k = ,
gkT gk
T
provando assim a primeira igualdade. A outra expressao segue do fato de que gk+1 gk = 0,
provado no Teorema 5.26.
O Teorema 5.27 tem um interesse tanto computacional quanto teorico. Para se
calcular k pela formula original, pode ser caro efetuar os produtos pela matriz Hessiana.
Entretanto, as expressoes dadas neste teorema usam apenas produto de vetores. Outra
observacao importante e que para funcoes nao quadraticas tais expressoes podem nao ser
iguais. Temos assim duas variantes do metodo de gradientes conjugados. Uma delas,
proposta por Polak and Ribiere, utiliza
T
gk+1 (gk+1 gk )
kPR = ,
gkT gk
caminhar nesta direcao para reduzir a funcao objetivo. Agora, dizemos primeiro quanto
podemos caminhar e depois calculamos a direcao.
Vamos considerar uma funcao f : IRn IR de classe C 2 e, dado um ponto
xk IRn , o modelo quadratico de f em torno de xk denido por
1
qk (x) = f (xk ) + f (xk )T (x xk ) + (x xk )T Bk (x xk ),
2
onde Bk IRnn pode ser a hessiana 2 f (xk ) ou qualquer outra matriz simetrica que
satisfaca kBk k , para alguma constante > 0, independente de k IN.
O modelo denido acima aproxima bem a funcao f numa vizinhanca de xk .
Vamos portanto considerar k > 0 e a regiao
{ }
x IRn | kx xk k k ,
obtendo um passo dk . A outra etapa consiste em avaliar o passo. Esperamos que o ponto
xk + dk proporcione uma reducao na funcao objetivo que seja no mnimo uma fracao da
reducao do modelo. Para formalizar este conceito denimos a reducao real na funcao
objetivo e a reducao predita pelo modelo como
Vamos tambem considerar seguinte razao, que sera usada na avaliacao do passo.
ared
k = . (5.37)
pred
O passo dk sera aceito quando a razao k for maior que uma constante 0 dada.
Neste caso, denimos xk+1 = xk + dk e repetimos o processo. Caso contrario, recusamos
o passo dk , reduzimos o raio k e resolvemos o subproblema (5.36) com o novo raio. A
Figura 5.5 ilustra um passo do metodo de regiao de conanca. Note que no graco da
direita o minimizador irrestrito do modelo esta na regiao de conanca. Neste caso, se
Bk = 2 f (xk ), entao o passo de regiao de conanca e exatamente o passo de Newton.
Metodos para Otimizacao Irrestrita 76
xk+1
xk+1
xk
xk
5.5.1 Algoritmo
Vamos agora formalizar a discussao anterior no seguinte algoritmo, que se baseia
no proposto em [21]. Tambem consideramos importante citar [3], uma referencia moderna
sobre metodos de regiao de conanca.
Dados: x0 IRn ,
> 0, 0 (0, )
e [0, 1 )
4
k=0
repita enquanto f (xk ) 6= 0
Obtenha dk , solucao aproximada de (5.36)
Calcule k usando (5.37)
se k >
xk+1 = xk + dk
senao
xk+1 = xk
1
se k <
4
k
k+1 =
2
senao
3
se k > e kdk k = k
4 { }
k+1 = min 2k ,
senao
k+1 = k
k =k+1
dkc = tk gk , (5.38)
1
minimizar mk (tgk ) = f (xk ) tkgk k2 + t2 gkT Bk gk
2 (5.39)
sujeito a ktgk k k .
A Figura 5.6 mostra o ponto de Cauchy em uma iteracao k. Nesta gura, as elipses
x kc
xk
Esta condicao sera a base de uma das hipoteses na analise de convergencia, isto e, vamos
Metodos para Otimizacao Irrestrita 78
supor que a solucao aproximada do subproblema (5.36) seja pelo menos tao boa quanto
a solucao de Cauchy.
Vamos agora fazer uma estimativa da reducao do modelo no passo de Cauchy.
1
(t) = f (xk ) tkgk k2 + t2 gkT Bk gk
2
k
no intervalo 0 t . Para isto considere dois casos: gkT Bk gk > 0 e gkT Bk gk 0.
kgk k
(i) Se gkT Bk gk > 0, entao a funcao e convexa (veja a Figura 5.7) e tem minimi-
zador irrestrito
kgk k2
t = T . (5.41)
gk Bk gk
k
Dois subcasos podem ocorrer. O primeiro e quando t . Neste caso temos tk = t
kgk k
e portanto
1 kgk k4
mk (0) mk (dkc ) = .
2 gkT Bk gk
Usando a desigualdade de Cauchy-Schwarz, obtemos
1 kgk k2
mk (0) mk (dkc ) . (5.42)
2 kBk k
k
No segundo subcaso temos t > , o que implica que o minimizador de esta na
kgk k
fronteira. Assim, usando (5.41), obtemos
k kgk k2
tk = < T , (5.43)
kgk k gk Bk gk
implicando em
t2k gkT Bk gk < tk kgk k2 = kgk kk .
Portanto,
1 1
mk (dkc ) < f (xk ) kgk kk + kgk kk = f (xk ) kgk kk ,
2 2
donde segue que
1
mk (0) mk (dkc ) > kgk kk . (5.44)
2
Metodos para Otimizacao Irrestrita 79
1
mk (dkc ) = f (xk ) tk kgk k2 + t2k gkT Bk gk f (xk ) tk kgk k2 . (5.45)
2
Neste caso, a funcao e decrescente para t 0 (veja a Figura 5.7) e assim o ponto de
k
Cauchy tambem esta na fronteira da regiao de conanca, ou seja, tk = . Portanto,
kgk k
por (5.45),
1
mk (0) mk (dkc ) kgk kk kgk kk . (5.46)
2
De (5.42), (5.44) e (5.46) segue que
{ }
1 kgk k
mk (0) mk (dkc ) kgk k min k , ,
2 kBk k
t* t t* t t
g g g
5.5.3 Convergencia
Para estabelecer a convergencia do metodo de regiao de conanca vamos supor
que o Algoritmo 5.28 gera uma sequencia innita (xk ) em IRn e que sao satisfeitas as
seguintes hipoteses.
H1 A funcao objetivo f e de classe C 1 , com f Lipschitz.
Lema 5.30 Suponha que sejam satisfeitas as Hipoteses H1-H5. Entao existe uma cons-
tante c > 0 tal que
c2k
|k 1| { }.
kf (xk )k
kf (x )k min k ,
k
1 ( )T
ared pred = (dk )T Bk dk f (xk + k dk ) f (xk ) dk ,
2
|ared pred| c0 2k .
Assim,
ared pred c0 2k
|k 1| =
{ },
pred kf (x k
)k
c1 kf (xk )k min k ,
c0
provando o lema para c = .
c1
Uma consequencia importante do Lema 5.30 e que o Algoritmo 5.28 esta bem
denido. De fato, apos uma quantidade nita de insucessos, teremos
{ }
kf (xk )k kf (xk )k
k min , .
2c
1 1
Assim, k > e, pelo Algoritmo 5.28, o passo sera aceito.
2 4
O proximo teorema ja nos permite concluir algo sobre convergencia, a saber, que
se a sequencia (xk ) for limitada, entao ela possui um ponto de acumulacao estacionario.
Demonstracao. Suponha por absurdo que isto seja falso. {Entao }existe > 0 tal que
kf (xk )k , para todo k IN. Considere = min , , onde e c sao as
2c
constantes do Lema 5.30. Se k , entao
kf (xk )k
k e k .
2c
Em vista de (5.47), temos que existe uma constante > 0 tal que
para todo k K. Por outro lado, a sequencia (f (xk )) e nao crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) f (xk+1 ) 0. Portanto, de (5.48), podemos
Metodos para Otimizacao Irrestrita 82
1
concluir que o conjunto K e nito. Assim, k < , para todo k IN sucientemente
4
grande e entao k sera reduzido a metade em cada iteracao. Isto implica k 0, o que
contradiz (5.47). Deste modo, a armacao no teorema e verdadeira.
Finalmente, podemos provar a convergencia global do metodo de regiao de con-
anca.
Teorema 5.32 Suponha que sejam satisfeitas as Hipoteses H1-H5 e que > 0 no Algo-
ritmo 5.28. Entao
f (xk ) 0.
seja innito. Dado k K, considere o primeiro ndice lk > k tal que kf (xlk )k . A
2
existencia de lk e assegurada pelo Teorema 5.31. Como f e Lipschitz, temos
kf (xk ) f (xlk )k Lkxk xlk k,
2
kxk xlk k kxj xj+1 k j , (5.49)
2L jS jS
k k
{ }
c1 2 c1 2
Denindo = min , e usando (5.49), obtemos
2L
para todo k K. Por outro lado, a sequencia (f (xk )) e nao crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) f (xlk ) 0, contradizendo (5.50). Deste modo, a
armacao no teorema e verdadeira.
Uma consequencia imediata do Teorema 5.32 e que todo ponto de acumulacao de
IN0
uma sequencia gerada pelo Algoritmo 5.28 e estacionario. De fato, se xk x, entao a
Metodos para Otimizacao Irrestrita 83
IN0
continuidade de f garante que f (xk ) f (x). Por outro lado, pelo Teorema 5.32,
temos f (xk ) 0. Assim, f (x) = 0.
Vamos reapresentar agora o Lema 5.30 e o Teorema 5.31, mas com uma hipotese
mais fraca que H1. Vamos substituir a condicao de Lipschitz de f pela continuidade
uniforme.
Lema 5.33 Suponha que f seja de classe C 1 e que sejam satisfeitas as Hipoteses H2-H5.
Entao ( )
{ }
k k + sup kf (xk + tdk ) f (xk )k
2 t[0,1]
|k 1| { } ,
kf (xk )k
c1 kf (x )k min k ,
k
onde c1 , e sao as constantes das Hipoteses H2, H3 e H5, respectivamente.
1 ( )T
ared pred = (dk )T Bk dk f (xk + k dk ) f (xk ) dk ,
2
ared pred
Notando que |k 1| = e usando H2, completamos a prova.
pred
Teorema 5.34 Suponha que f seja de classe C 1 , com f uniformemente contnua e que
sejam satisfeitas as Hipoteses H2-H5. Entao
Demonstracao. Suponha por absurdo que isto seja falso. Entao existe > 0 tal que
kf (xk )k , para todo k IN. Pela continuidade uniforme de f , existe > 0 tal que
se kdk k , entao
{ } c1
sup kf (xk + tdk ) f (xk )k . (5.51)
t[0,1] 4
Metodos para Otimizacao Irrestrita 84
{ }
= min c 1
Considere , , , onde c1 , e sao as constantes das Hipoteses H2, H3
2 2
e H5, respectivamente. Se k , entao
kf (xk )k 2 k 1
k , k e . (5.52)
2c1 4
1 1
Assim, k > e pelo Algoritmo 5.28 temos k+1 k . Isto signica que o raio e
2 4
caso em que k+1 = k > . Podemos entao concluir que
reduzido somente se k > ,
2 2
{ }
k min 0 , , (5.53)
2
Em vista de (5.53), temos que existe uma constante > 0 tal que
mada do subproblema (5.36) que seja melhor que a de Cauchy. Uma forma e dada pelo
metodo dogleg, que cumpre tal objetivo, obtendo inclusive o ponto de Newton, caso ele
esteja dentro da bola.
Este metodo se aplica quando a Hessiana do modelo e denida positiva. Consiste
em minimizar o modelo, sujeito a regiao de conanca, na poligonal que liga os pontos xk ,
xku e xkN , sendo xk o ponto corrente, xku o minimizador do modelo na direcao oposta ao
gradiente e xkN o minimizador irrestrito do modelo, isto e, o ponto de Newton. Na Figura
5.8 ilustramos duas situacoes. Uma em que xku esta na bola e outra quando xku esta fora.
O ponto obtido pelo metodo dogleg e indicado por xkd . Tambem esta representado o ponto
xk , minimizador global do modelo na bola.
k
x ku x d xNk
xk
x ku xNk
xk xkd xk
xk
A Figura 5.9 mostra a trajetoria do ponto dogleg, xkd , bem como da solucao exata
do subproblema (5.36), xk , ambas como funcao do raio da regiao de conanca.
Para vericar que este metodo esta bem denido, vamos mostrar agora que o
modelo decresce ao longo da poligonal e que a distancia ao ponto corrente cresce quando
caminhamos na poligonal, saindo de xk indo para xkN . Isto signica que esta poligonal
cruza a fronteira da bola no maximo uma vez, justamente no ponto dogleg. Se o raio
for sucientemente grande, a poligonal estara inteiramente contida na bola, e neste caso,
teremos xkd = xkN .
Lema 5.35 Sejam B IRnn uma matriz definida positiva e g IRn . Considere a
quadratica
1
m(d) = g T d + dT Bd
2
Metodos para Otimizacao Irrestrita 86
e os minimizadores de m,
gT g
a= g e b = B 1 g,
g T Bg
e
(g T g)2 (g T g)2 (g T Bg)(g T B 1 g)
g T (b a) = g T B 1 g + = .
g T Bg g T Bg
Portanto, de (5.55) e do Lema 1.37, podemos concluir que 0 (t) 0, para t 1. Isto
implica, em particular, que m e nao crescente no trecho [a, b].
(ii) No trecho [0, a] a armacao e imediata. Vamos entao provar que (t) = ka + t(b a)k22
e crescente. Note primeiro que
( )
0 (t) = 2 aT (b a) + tkb ak22 .
o que implica que 0 (t) 0, para todo t 0. Portanto, e nao decrescente. Finalmente,
usando Lema 3.3, podemos concluir que e estritamente crescente.
Metodos para Otimizacao Irrestrita 87
5.1. [5, Exerc. 6.1] Seja f : IRn R, diferenciavel em x e sejam d1 , ..., dn IRn vetores
linearmente independentes. Suponha que o mnimo de f (x + tdj ) com t IR ocorra em
t = 0 para cada j = 1, ..., n. Prove que f (x) = 0. Isso implica que f tem um mnimo
local em x?
5.2. [5, Exerc. 6.3] Seja f : IRn R, f C 1 . Dena xk+1 = xk tk f (xk ), onde
tk t > 0 para todo k IN. Suponha que xk x. Prove que f (x) = 0.
5.3. [5, Exerc. 6.4] Mostre que no metodo de Cauchy com busca exata temos dk+1 dk .
5.4. Mostre que o metodo de Cauchy com busca de Armijo pode nao convergir se o
tamanho do passo for obtido apenas satisfazendo a relacao (4.5), ao inves da utilizacao
do Algoritmo 4.13.
5.5. [5, Exerc. 6.6] Desenhe as curvas de nvel da funcao f (x) = x21 + 4x22 4x1 8x2 .
Encontre o ponto x que minimiza f . Prove que o metodo do gradiente, aplicado a partir
de x0 = 0 nao pode convergir para x em um numero nito de passos, se usarmos busca
linear exata. Ha algum ponto x0 para o qual o metodo converge em um numero nito de
passos?
5.6. [5, Exerc. 6.8] Seja f uma funcao quadratica com Hessiana denida positiva. Prove
que se ao aplicarmos o metodo do gradiente a partir de um certo x0 , com f (x0 ) 6= 0,
encontramos a solucao em uma iteracao, entao v = x1 x0 e um autovetor da Hessiana.
Reveja o Exerccio 4.4.
1
5.7. Considere h : IRn IR dada por h(x) = xT Ax + bT x + c, onde A IRnn e uma
2
matriz denida positiva, b IRn e c IR. Sejam x o minimizador de h,
1
f (x) = h(x + x ) h(x ) = xT Ax
2
e (xk ) a sequencia gerada pelo metodo de Cauchy com busca exata aplicado em f . Dena
y k = xk + x . Mostre que o metodo de Cauchy com busca exata aplicado em h, a partir
de y 0 , gera justamente a sequencia (y k ).
5.8. Considere um numero real a > 0. Mostre que o metodo de Newton para resolver a
equacao x2 a = 0 e dado por
1( k a)
xk+1 = x + k .
2 x
Metodos para Otimizacao Irrestrita 88
Faca tres iteracoes deste metodo para calcular uma aproximacao para 5, iniciando com
x0 = 2.
5.9. A Figura 5.10 ilustra uma situacao na qual o metodo de Newton (para equacoes)
pode falhar. A funcao e dada por f (x) = x4 x2 . Determine quais devem ser os pontos
iniciais para que isto aconteca.
1. Contador de iteracoes;
2. Funcao objetivo;
3. Norma do gradiente;
5.2. f : IR2 IR dada por f (x) = (x1 x22 )(x1 21 x22 ). Note que x = 0 e o unico ponto
estacionario de f e nao e minimizador.
5.3. f : IR2 IR dada por f (x) = 2x31 3x21 6x1 x2 (x1 x2 1).
minimizar f (x)
sujeito a g(x) 0 (6.1)
h(x) = 0,
onde f : IRn IR, g : IRn IRp e h : IRn IRm sao funcoes continuamente diferenciaveis.
O conjunto
= {x IRn | g(x) 0, h(x) = 0} (6.2)
Na Figura 6.1 ilustramos este problema. Note que f (x ) e uma combinacao positiva
de g1 (x ) e g2 (x ). Isto informalmente signica que para diminuir o valor de f temos
que sair do conjunto viavel. O que faremos neste captulo e formalizar esta armacao.
90
Otimizacao com Restricoes 91
g1
2
1 x* f
0
g2
2 1 0 1 2 3 4
6.1 Cones
Vamos discutir nesta secao alguns aspectos gerais da teoria de cones que serao
fundamentais para estabelecer as condicoes de KKT. Dentre outras coisas destacamos o
classico Lema de Farkas, que sera tratado em uma versao geometrica.
Definicao 6.2 Um subconjunto nao vazio C IRn e um cone quando, para todo t 0 e
d C tem-se td C.
C td C td
d d
0 0
Exerccios 6.3
( ) ( ) ( )
1 2 1
1. Sejam v1 = , v2 = e v3 = . Mostre que
1 1 1
S = {x1 v1 + x2 v2 + x3 v3 | xj 0, j = 1, 2, 3}
Um exemplo de cone que sera util mais adiante e o de cone polar, que em IR2 ou
IR3 pode ser caracterizado pelos vetores que formam um angulo maior ou igual a 90o com
os elementos de um conjunto dado.
S
S
0 0
P(S) P(S)
Assim (1 t)u + tv P (S), provando que P (S) e convexo. Para mostrar que P (S)
e fechado, considere uma sequencia (dk ) P (S) com dk d. Dado x S, temos
(dk )T x 0, logo dT x 0. Portanto, d P (S), completando a demonstracao.
Exerccios 6.6
( ) ( )
1 1 1 1
3. Repita o exerccio anterior considerando A = , B = e
1/2 1 1/2 1
{ } { }
S = d IR2 | Ad 0 d IR2 | Bd 0 .
Como a propria Figura 6.3 sugere, aplicar o polar duas vezes nem sempre fornece
o conjunto original. No entanto, temos o seguinte resultado.
( )
Lema 6.7 Dado S IRn , temos S P P (S) .
P(P(S))
S
0
P(S)
Basicamente, temos tres motivos que impedem a igualdade entre o duplo polar e
o conjunto: o fato de nao ser cone, nao ser convexo ou nao ser fechado. Estas situacoes
aparecem na Figura 6.5. O classico Lema de Farkas, apresentado em seguida, garante a
igualdade.
S
S S
0
0 0
P(S)
P(S) P(S)
( )
Figura 6.5: situacoes onde nao vale S = P P (S) .
Lema 6.8 (Farkas geometrico) Considere C IRn um cone convexo fechado nao va-
( )
zio. Entao P P (C) = C.
Otimizacao com Restricoes 94
( )
Demonstracao. Em virtude do Lema 6.7 basta mostrar que P P (C) C. Considere
( )
entao z P P (C) . Seja z = projC (z) C. Vamos provar que z = z. Pelo Teorema 3.6,
(z z)T (x z) 0, (6.3)
z T (z z) 0 e z T (z z) 0,
vm v2
v1
0
C = {By | y IRm , y 0} .
Otimizacao com Restricoes 95
v1T d
implicando em y k y, onde y = 0, pois y k 0. Portanto, dk = y k v1 yv1 e
kv1 k2
assim, d = yv1 C.
(ii) Suponha que o lema seja valido para m 1. Vamos provar que vale para m.
Considere primeiro o caso em que posto(B) = m. Seja (dk ) C, tal que dk d. Entao,
dk = By k , com y k 0. Deste modo,
B T By k = B T dk B T d,
B = 0 (6.5)
onde e dado por (6.5). Assim, para todo i tal que i > 0, temos yi + ti 0. Alem disso,
yj
como t 0, tambem vale yi + ti 0 para cada i tal que i 0. Seja j tal que t = .
j
Otimizacao com Restricoes 96
d = By = B(y + t) = B y Cj ,
m
Como a inclusao Cj C e imediata, completamos a prova.
j
O Lema 6.9 pode ser usado para estabelecer uma relacao entre a versao geometrica
do Lema de Farkas (Lema 6.8) e sua forma algebrica, muito encontrada na literatura.
Ax 0 e cT x > 0 (6.6)
AT y = c e y 0. (6.7)
(Ax)T y = xT AT y 0,
Ax 0,
Mesmo sendo uma versao algebrica, o Lema 6.10 pode ser interpretado geometri-
camente, conforme vemos na Figura 6.7. Os vetores v1 , v2 , . . . , vm IRn sao as linhas de
A. Na ilustracao do lado esquerdo temos o caso em que o sistema (6.6) tem solucao. No
lado direito, (6.7) tem solucao.
Note que provamos a versao algebrica do Lema de Farkas utilizando a versao
geometrica. No entanto, tambem e possvel mostrar que a versao algebrica implica na
versao geometrica para um certo conjunto C. Veja o Exerccio 6.6 no nal do captulo.
Temos agora as ferramentas necessarias para provar as condicoes necessarias de
otimalidade para problemas com restricoes de igualdade e desigualdade.
Otimizacao com Restricoes 97
C C
v v v v
m 2 m 2
c
v1 v1
P(C) P(C)
c
x
Vamos denotar por A(x) o conjunto de ndices das restricoes de desigualdade ativas em
um ponto viavel x, isto e,
A(x) = {i | gi (x) = 0}.
Note que o conjunto D(x) pode ser visto como um conjunto viavel, onde lineari-
zamos as restricoes de desigualdade ativas e todas as de igualdade. Isto se deve ao fato
de que
gi (x)T d = gi (x) + gi (x)T d gi (x + d)
para i A(x) e
hj (x)T d = hj (x) + hj (x)T d hj (x + d).
Na Figura 6.8 temos algumas das situacoes que surgem quando consideramos o
cone D(x). Na primeira, temos desigualdades e os gradientes ativos sao linearmente inde-
pendentes. Isto confere uma certa regularidade ao conjunto , que e bem aproximado
Otimizacao com Restricoes 98
por D(x) em uma vizinhanca de x. Na segunda, temos uma igualdade e tambem podemos
dizer que D(x) e uma boa aproximacao para . No entanto, a ultima situacao mostra
um caso onde o cone e uma reta, mas o conjunto viavel e uma regiao do plano. Note que,
neste caso, os gradientes ativos sao linearmente dependentes.
g D(x)
2 g2
x x D(x)
x
g1 g
h D(x) 1
Exerccios 6.13
2. Sejam g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2 e g2 (x) = x21 2x1 + x2 e
x = 0. Represente geometricamente o conjunto viavel e o cone D(x).
Este conjunto tem duas propriedades muito importantes, que provaremos a seguir.
Uma delas e que seu polar e justamente o cone D(x). A outra propriedade diz que G(x)
e um cone convexo fechado. Veja a Figura 6.9.
( )
Lema 6.14 Dado x , temos que D(x) = P G(x) .
m
dT s = i dT gi (x) + j dT hj (x).
iA(x) j=1
Como d D(x), temos dT gi (x) 0 para todo i A(x) e dT hj (x) = 0 para todo
( )
j = 1, . . . , m. Assim, dT s 0, pois i 0. Portanto, d P G(x) . Para provar
Otimizacao com Restricoes 99
g D(x)
2
G(x) x
g1
( )
a inclusao contraria, tome d P G(x) . Entao, dT s 0, para todo s G(x). Em
particular, como gi (x) G(x), para i A(x), temos
dT gi (x) 0. (6.9)
Alem disso, para todo j = 1, . . . , m, hj (x) e hj (x) sao elementos de G(x). Logo,
( )
dT hj (x) 0 e dT hj (x) 0,
Demonstracao. Note que um elemento qualquer de G(x) pode ser escrito como
( )
i gi (x) + j hj (x) + (j ) hj (x)
iA(x) j 0 j <0
G(x) = {By | y 0} ,
Definicao 6.16 Uma direcao d IRn e dita tangente a IRn a partir de x quando
e nula ou existe uma sequencia de pontos viaveis (xk ) tal que xk x e
xk x d
.
kx xk
k kdk
Na Figura 6.10 ilustramos este conceito. Na esquerda o conjunto viavel e uma curva
denida por uma restricao de igualdade, na qual representamos uma direcao tangente
d e a convergencia indicada na denicao. Na outra ilustracao o conjunto viavel e uma
regiao determinada por duas restricoes de desigualdade. Nesta gura aparecem algumas
direcoes tangentes. Note que uma direcao que penetra no conjunto viavel tambem
satisfaz a Denicao 6.16.
x1
x2
x3 x
x4
x5 d
x
Segue diretamente da denicao que se d e tangente, o mesmo vale para td, qual-
quer que seja t 0. Assim, o conjunto formado pelos vetores tangentes a em x e um
cone, chamado de cone tangente a no ponto x e denotado por T (x).
Exemplo 6.17 Considere as funcoes g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2
e g2 (x) = x21 2x1 + x2 . Determine o cone tangente T (x), associado ao conjunto viavel
{ }
= x IR2 | g(x) 0 em torno do ponto x = 0.
( ) ( )
sk d1
Sejam xk = uma sequencia de pontos de e d = IR2 tais que
tk d2
xk x d
xk x e . (6.11)
kxk xk kdk
Otimizacao com Restricoes 101
Vamos provar que 2d1 d2 2d1 . Como xk , temos s2k 2sk tk 2sk s2k .
Portanto,
s2 2sk t 2s s2k
k k k . (6.12)
s2k + t2k s2k + t2k s2k + t2k
De (6.11), podemos concluir que
sk d1 t d2
sk 0 , e k .
s2k 2
+ tk kdk 2 2
sk + tk kdk
2d1 d2 2d1
Assim, passando o limite na relacao (6.12), obtemos , donde segue
kdk kdk kdk
que
{ }
T (x) d IR2 | 2d1 d2 2d1 .
( )
1
Para provar a inclusao contraria, tome primeiro d = . Considere
2
( )
1 sk
sk = , tk = 2sk s2k e xk = .
k tk
sk 1 1 t 2
Assim, xk x , 2 = e k . Portanto,
sk + t2k 1 + (2 sk(
)2 ) 5 s2k + t2k 5
xk x d 1
. Considere agora d = , com [0, 2). Para todo k IN,
kx xk
k kdk
( )
1 1 1
sucientemente grande, temos < 2 , implicando em y k = . Alem disso,
k k
y k x d
y k x e .
ky k xk kdk
Como T (x) e um cone, podemos concluir que todo vetor d IR2 tal que 0 d2 2d1 e
tangente. O caso 2d1 d2 0 e analogo. Com isto, obtemos
{ }
T (x) = d IR2 | 2d1 d2 2d1 .
1.5
T(x)
0.5
0 x
0.5
1.5
0.5 0 0.5 1 1.5 2 2.5
e
T (x) = {(d1 , d2 ) | d1 0, d2 0, d1 d2 = 0}.
Na Figura 6.12 estao representados estes cones. Note que T (x) 6= D(x) e T (x) nao e
convexo.
D(x)
g1 x
=T(x)
G(x)
g2
Demonstracao. Considere d T (x), d 6= 0. Entao existe uma sequencia (xk ) tal que
xk x d
xk x e k . Pela diferenciabilidade de g e h segue que
kx xk kdk
e
h(xk ) = h(x) + h(x)T (xk x) + o(kxk xk).
d d
Passando o limite, obtemos gi (x)T 0 e hj (x)T = 0. Assim, d D(x),
kdk kdk
completando a prova.
para todo k sucientemente grande. Dividindo por kxk x k e passando o limite obtemos
f (x )T d 0, completando a prova.
Na Figura 6.13 ilustramos uma situacao que satisfaz as condicoes do Lema 6.20
e outra onde isto nao se verica.
x* f
x
f
O Lema 6.20 tem um interesse teorico, pois sera usado para provar o Teorema de
KKT. No entanto, este lema e pouco pratico, no sentido de que nao podemos usa-lo para
calcular os possveis minimizadores. O teorema seguinte nos da esta possibilidade.
Otimizacao com Restricoes 104
p
m
f (x ) = i gi (x ) + j hj (x ),
i=1 j=1
i 0, i = 1, . . . , p,
i gi (x ) = 0, i = 1, . . . , p.
m
f (x ) = i gi (x ) + j hj (x ).
iA(x ) j=1
{
i , para i A(x )
Denindo i = e = , completamos a prova.
0, caso contrario
A hipotese sobre os cones T (x ) e D(x ) feita no Teorema 6.21 e chamada de
condicao de qualicacao. Ela foi introduzida por Monique Guignard [7] para dimensao
innita e reformulada para o caso nito por Gould and Tolle [6]. Esta condicao e a
mais fraca possvel para se provar as condicoes de KKT. Entretanto, como ja vimos
em exemplos anteriores, pode ser muito difcil obter os cones T (x ) e D(x ) e vericar
( ) ( )
se a condicao P T (x ) = P D(x ) e satisfeita. Veremos na proxima secao outras
condicoes de qualicacao, tais como Slater, Mangasarian-Fromovitz, independencia linear
dos gradientes, que implicam na que usamos acima e sao mais faceis de serem vericadas.
Exemplo 6.22 Vamos refazer o Exemplo 6.1 usando KKT. O problema e dado por
x21 x2 2 x1 ,
Otimizacao com Restricoes 105
minimizar f (x) = x1
sujeito a g1 (x) = x31 + x2 0
g2 (x) = x2 0.
o que signica que nao vale KKT. Veja uma ilustracao deste exemplo na Figura 6.14.
Otimizacao com Restricoes 106
g1
f x*
g2
Definicao 6.24 Dizemos que as restricoes g(x) 0 e h(x) = 0 cumprem uma condicao
de qualificacao em x quando, dada qualquer funcao diferenciavel f , que tenha
mnimo em x , relativamente a , sejam satisfeitas as condicoes de otimalidade de KKT.
minimizar f (x)
sujeito a Ax b (6.15)
M x = c,
Demonstracao. Usando o Lema 6.19 e o Teorema 6.21, basta provar que D(x ) T (x ).
Dado d D(x ), temos Ad 0 e M d = 0. Se d = 0, temos trivialmente d T (x ). Caso
1 xk x d
d 6= 0, dena x = x + d. Assim, Ax b, M x = c, x x e
k k k k
= .
k kxk x k kdk
Portanto, d T (x ), completando a prova.
Otimizacao com Restricoes 107
Teorema 6.26 Se vale a condicao de Slater, entao T (x) = D(x), para todo x .
Demonstracao. Em virtude do Lema 6.19, basta provar que D(x) T (x). Considere uma
direcao arbitraria d D(x) e dena d = x x, onde x e o ponto que satisfaz (6.16).
Pela convexidade de gi , temos
0 > gi (x) gi (x) + gi (x)T d.
Assim, para i A(x), temos gi (x)T d < 0. Dado (0, 1), dena
d = (1 )d + d.
Vamos provar que d T (x), para todo (0, 1) (veja a Figura 6.15). Dado i A(x),
temos gi (x)T d 0 e gi (x)T d < 0. Consequentemente, gi (x)T d < 0. Denindo
1
xk = x + d e aplicando o Teorema 4.2, podemos concluir que
k
para todo k sucientemente grande. Por outro lado, se i / A(x), vale gi (x) < 0. Assim,
pela continuidade de gi , tambem temos gi (xk ) < 0, para todo k sucientemente grande.
Alem disso, como h e linear, digamos, h(x) = M x c, temos M d = h(x)T d = 0, pois
d D(x). Tambem temos que M d = M (x x) = h(x) h(x) = 0. Consequentemente,
1
M d = 0. Portanto, h(xk ) = M xk c = M x c + M d = 0. Conclumos entao que a
k
sequencia (xk ) e viavel e como
xk x d
= ,
kxk xk
kdk
segue que d T (x). Mas T (x) e fechado (veja o Exerccio 6.9). Logo d T (x), comple-
tando a prova.
Otimizacao com Restricoes 108
d
^
x d ~
x
d
Esta condicao e bem mais facil de vericar do que aquela que colocamos na
hipotese do Teorema 6.21, envolvendo cones. Para exemplicar, vamos retomar as res-
tricoes do Exemplo 6.17, onde apenas a determinacao do cone tangente T (x) ja foi con-
sideravelmente trabalhosa.
Exemplo 6.28 Considere as funcoes g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2 e
g2 (x) = x21 2x1 + x2 . Verifique que o ponto x = 0 cumpre LICQ.
( ) ( )
2 2
As duas restricoes sao ativas em x e os vetores g1 (x) = e g2 (x) = sao
1 1
linearmente independentes.
Apesar desta simplicidade, LICQ tem a desvantagem de ser uma hipotese muito
forte para garantir KKT. Existem muitos problemas em que temos KKT sem que LICQ
seja satisfeita.
minimizar f (x) = x1
sujeito a g1 (x) = x21 2x1 x2 0
g2 (x) = x21 2x1 + x2 0
g3 (x) = x1 0.
Demonstracao. Suponha, sem perda de generalidade, que A(x) = {1, . . . , q}. Considere a
matriz
( )
M = g1 (x) gq (x) h1 (x) hm (x)
Demonstracao. Temos
o que implica que (t) 6= x, para todo t 6= 0 sucientemente pequeno. Tomando uma
sequencia (tk ), com tk > 0 e tk 0, dena xk = (tk ). Assim,
xk x xk x tk d
= ,
kx xk
k tk kx xk
k kdk
completando a prova.
d = (1 )d + d.
( )
Vamos provar que d T (x). Pela hipotese, a matriz M = h1 (x) hm (x) IRnm
tem posto m. Portanto, existe uma matriz Z IRn(nm) , cujas colunas formam uma
base de N (M T ). Como Im(M ) N (M T ) = IRn , a matriz (M Z) IRnn e inversvel.
Dena : IRn+1 IRn por
( ) ( )
x h(x)
= .
t
Z T (x x td)
( )
x
Como x = (M Z) e inversvel e = 0, o Teorema 1.44 (teorema da funcao
0
implcita) garante a existencia de uma curva diferenciavel : (, ) IRn tal que
Otimizacao com Restricoes 111
( )
(t)
= 0, para todo t (, ). Assim,
t
( )
= 0.
h (t) = 0 e Z T ((t) x td) (6.17)
Assim,
gi (xk ) T x x o(kxk xk)
k
T d
= g i (x) + g i (x) < 0,
kxk xk kxk xk kxk xk
kdk
o que implica gi (xk ) < 0, para todo k sucientemente grande. Conclumos entao que
d T (x). Como T (x) e fechado, temos que d T (x), completando a prova.
Os Teoremas 6.31 e 6.33 nos permitem concluir que tanto LICQ quanto MFCQ
sao condicoes de qualicacao. A condicao de MFCQ, apesar de ser uma hipotese mais
fraca, nao e necessaria para termos KKT. Veja o exemplo seguinte.
Otimizacao com Restricoes 112
minimizar f (x) = x1
sujeito a g1 (x) = x31 + x2 0
g2 (x) = x31 x2 0
g3 (x) = x1 0.
d IR
Note que nao existe um vetor ( ) tal que gi (x) d < 0 para i = 1, 2, 3. Alem disso,
2 T
1
temos KKT, pois f (x ) = = g3 (x ). A Figura 6.16 ilustra este exemplo.
0
g1
f= g3
x*
g
2
6.2. Para cada um dos conjuntos abaixo, diga se e um cone e represente geometricamente.
{ }
(a) S = d IR2 | d21 d2 0 .
{ }
(b) S = d IR2 | d21 d2 0 .
6.3. Suponha que S1 e S2 sejam cones do IRn . Mostre que S = S1 S2 e um cone e que
P (S) = P (S1 ) P (S2 ).
( ) ( ) ( )
1 3 4
6.4. Sejam u = , v = e x = . Represente geometricamente o cone
2 1 3
S = {1 u + 2 v | j 0, j = 1, 2} e a sua translacao x + S = {x + d | d S}.
6.6. Sejam B IRnm e C = {By | y IRm , y 0}. Usando o Lema 6.10, mostre que
( )
P P (C) = C.
6.8. Sejam B IRnm e C = {By | y IRm , y 0}. Usando o Exerccio 6.7, mostre
que C e um conjunto fechado.
Usando ideias similares as do Exemplo 6.17, determine o cone T (x), associado ao conjunto
{ }
viavel = x IR2 | g(x) 0 em torno do ponto x = 0. Obtenha tambem o cone D(x).
min f (x) = x1
s. a g1 (x) = x2 (1 x1 )3 0 .
g2 (x) = x2 0
( )
1
Mostre que x = e um minimizador, mas as condicoes KKT nao se vericam.
0
min f (x) = x1
s. a g1 (x) = x2 + (x1 1)3 0
g2 (x) = x2 + (x1 1)3 0.
6.15. Formule e resolva algebricamente, por meio das condicoes de otimalidade de pri-
( ) de encontrar o ponto da curva x2 = x1 (3 x1 ) que esta mais
meira ordem, o problema
3
proximo do ponto . Qual a garantia de que o ponto obtido e de fato a solucao dese-
3
jada? Explique. Sugestao: explore a visualizacao geometrica dos elementos do problema
para auxilia-lo na analise algebrica.
6.16. Mostre que o problema abaixo tem um minimizador global e encontre-o usando
KKT.
min x1 + x2 + + xn
s. a x1 x2 xn = 1 .
x0
x1 + x2 + + xn
Conclua que n
x1 x2 xn .
n
6.17. Mostre que o problema abaixo tem 4 minimizadores globais e encontre-os usando
KKT.
min x21 + x22 + x23
.
s. a x1 x2 x3 = 1
6.18. Mostre que o problema abaixo pode ter 1 ou 2 minimizadores globais, dependendo
do valor de c > 0. Faca uma representacao geometrica.
min xT x min xT Ax
e .
s. a xT Ax = 1 s. a xT x = 1
Otimizacao com Restricoes 115
x*
h
a
Captulo 7
Apresentamos neste captulo dicas ou solucoes para alguns dos exerccios propos-
tos no texto.
Captulo 1
xk+1 2k+1 k! 2
1.5. Temos k
= k
= 0, o que implica na convergencia superlinear.
x (k + 1)! 2 k+1
xk+1 2k+1 (k!)2 k (k 1)!
Alem disso, k 2 = = . Mas podemos vericar por inducao
(x ) (k + 1)! (2k )2 k + 1 2k1
(k 1)! k1 xk+1
que > , para todo k 6. Portanto, .
2k1 2 (xk )2
1.6. Usaremos inducao em (a) e (b).
(a) Temos 1 x1 2. Supondo agora 1 xk 2, temos 3 2 + xk 4. Portanto,
1 2 + xk 2, ou seja, 1 xk+1 2.
(b) Temos x2 = 2 + 2 > 2 = x1 . Alem disso, se xk+1 > xk , entao 2 + xk+1 > 2 + xk ,
donde segue que xk+2 = 2 + xk+1 > 2 + xk = xk+1 .
(c) Pelo que foi provado em (a) e (b), (xk ) e convergente, digamos xk x. Assim,
xk+1 x e tambem xk+1 = 2 + xk 2 + x. Desta forma, temos x = 2 + x, o que
fornece x = 2. Finalmente, para ver que a convergencia e linear, temos
|xk+1 2| 2 + xk 2 1 1
= = .
|xk 2| xk 2 2 + xk + 2 4
1.7. Note primeiro que Ax = 0 se, e somente se, x = 0. Assim, c = min {kAyk} > 0, o
kyk=1
que signica que kAxk ckxk, para todo x IRn . Portanto,
provando entao que a convergencia superlinear nao e afetada por transformacoes injetivas.
No entanto, o mesmo nao se pode armar para a convergencia linear, conforme vemos no
116
Dicas e solucoes dos exerccios 117
( ) ( ) ( )
1 1 1 1 1 1
seguinte exemplo. Considere A = e dena x2k = k e x2k+1 = k 2 .
0 1 2 1 2 1
k
A sequencia (x ) converge linearmente, pois
kx2k+1 k 5 kx2k+2 k 2
= e = .
kx2k k 8 kx2k+1 k 5
kAx2k+1 k 5
No entanto, = .
kAx k
2k 2
1.8. Suponha que X e fechado e considere (xk ) X tal que xk x. Caso x X, temos
x X. Por outro lado, se x
/ X, entao existe uma vizinhanca de x que nao possui
nenhum ponto do complementar de X. Isto signica que esta vizinhanca esta contida em
X, provando a necessidade. Reciprocamente, suponha que dada (xk ) X tal que xk x,
temos x X. Vamos provar que X X. Dado x X, temos que existe (xk ) X tal
que xk x. Logo, x X.
Portanto, A e denida positiva, o que implica que seus autovalores sao positivos e assim
det(A) > 0.
(=) Vamos provar por inducao em n. Para n = 1 nao ( ha o)que provar. Suponha que
A b
a propriedade e valida para n 1 e considere Q = , onde A IR(n1)(n1) ,
bT c
b IRn1 e c IR. Assim, os determinantes principais de A sao positivos. Pela hipotese
de inducao, A e denida positiva. Dado y IRn , caso yn = 0, temos
( )( )
( ) A b x
y T Qy = xT 0 = xT Ax > 0.
bT c 0
Dicas e solucoes dos exerccios 118
( )
x
6 0, podemos escrever y = yn
Caso yn = . Deste modo temos
1
( )( )
( ) A b x ( )
y T Qy = yn2 xT 1 = yn2 xT Ax + 2bT x + c .
bT c 1
Para concluir a demonstracao basta mostrar que f (x) = xT Ax + 2bT x + c > 0, o que sera
feito provando que f (x) f (x ) > 0, onde x = A1 b. Note que A e de fato inversvel
pois det(A) > 0. Fazendo v = x x , temos
Alem disso,
f (x ) = (x )T Ax + 2bT x + c
= (x )T (b) + 2(x )T b + c
= bT x + c = c bT A1 b.
Finalmente, ( ) ( )( )
A b I 0 A b
Q= = .
bT c bT A1 1 0 c bT A1 b
Captulo 2
( )
2ax1 (x21 x2 ) + b(x1 1)
2.3. Temos f (x) = 2 . Logo, o unico ponto estacionario
a(x2 x21 )
( ) ( )
1 6ax 2
2ax 2 + b 2ax1
de f e x = . Alem disso, 2 f (x) = 2 1
e portanto,
1 2ax1 a
( )
4a + b 2a
2 f (x ) = 2 > 0, o que signica que x e minimizador local de f . A
2a a
( )
ultima parte do exerccio decorre de det 2 f (x) = 8a2 (x21 x2 ) + 4ab.
2.4. Suponha por absurdo que x nao seja um minimizador global de f . Entao existe
x IRn tal que f (x) < f (x ). Considere A = {x IRn | f (x) f }. O conexo [x , x] tem
um ponto de A e um ponto de Ac . Pelo Teorema da Alfandega, existe y [x , x] A.
Dicas e solucoes dos exerccios 119
onde u = (x21 + ) x22 . O ponto x e estacionario, pois f (x) = 0. Alem disso, temos
2 1
2 f (x) = denida positiva, garantindo que x e minimizador local de f .
1 2
( )
2(x1 + x2 ) + 3x21
2.6. Temos f (x) = . Assim, f (x) = 0 se, e somente se, x = 0.
2(x1 + x2 )
( )
t
Alem disso, temos f = t3 , o que signica que x = 0 e um ponto de sela. Note que
t
( )
2 2
2 f (0) = e semidenida positiva, nao permitindo concluir que o ponto e sela
2 2
usando o Teorema 2.14.
( ) ( )
2x1 x22 2 2x 2
2.7. Temos f (x) = e 2 f (x) = . Portanto, 2 f (x)
2x2 2x1 x2 2x2 2 2x1
e denida positiva se, e somente se, x1 < 1 x2 . Veja a Figura 7.1.
2
( ) ( )
2x1 x2 2 + eu 2 + eu 1 + eu
2.8. Temos f (x) = e 2 f (x) = , onde
x1 + 4x2 + 23 + eu 1 + eu 4 + eu
u = x1 + x2 .
(a) f (x) = 0.(Logo,)x e um ponto estacionario de f .
3 0
(b) 2 f (x) = > 0. Logo, x e minimizador local de f .
0 5
2.11. Temos que L 6= , pois a L. Alem disso, como f e contnua, L e fechado. Resta
ver que e limitado. Como lim f (x) = , existe r > 0 tal que f (x) > f (a), sempre que
kxk
kxk > r. Portanto, se x L, entao kxk r, isto e, L B[0, r].
Captulo 3
3.1. Provaremos que se B(y, ) C, t (0, 1] e z = (1 t)x + ty, entao B(z, t) C.
Veja a Figura 7.2. Tome w B(z, t). Sabemos que existe (xk ) C tal que xk x.
Denindo q k = 1t w 1t
t
xk , temos w = (1 t)xk + tq k e q k 1t w 1t
t
x. Alem disso,
k t w t xyk = t kw (1t)xtyk < . Portanto, existe k0 IN tal que kq k0 yk < ,
1 1t 1
xk qk
w
x z y
3.2. Dados a, b int(C) e t [0, 1], considere c = (1 t)a + tb. Vamos mostrar que
c int(C). Seja > 0 tal que B(a, ) C e B(b, ) C. Dado z B(c, ), temos que
x = a + (z c) B(a, ) e y = b + (z c) B(b, ). Veja a Figura 7.3. Pela convexidade
de C, temos que z = (1 t)x + ty C.
x z y
a c b
pois (1 t)x + ty C.
Dicas e solucoes dos exerccios 121
pois (1 t)xk + ty k S.
3.7. A funcao f : IR IR, dada por f (x) = x4 e convexa, pois f 00 (x) = 12x2 0.
Portanto,
4
1 1
para todos t1 , . . . , t4 tais que tj 0 e tj = 1. Em particular, para t1 = , t2 = ,
j=1
2 3
1 1 (x x2 x3 x4 )4 x41 x42 x43 x44
1
t3 = e t4 = , temos + + + + + + .
12 12 2 3 12 12 2 3 12 12
( ) ( )
x u
3.9. Suponha primeiro f convexa e considere , epi(f ) e t [0, 1]. Portanto,
y v
( ) ( ) ( )
x u (1 t)x + tu
(1 t) +t = epi(f ),
y v (1 t)y + tv
pois
( )
(1 t)y + tv (1 t)f (x) + tf (u) f (1 t)x + tu .
Reciprocamente,
( ) (supondo) agora que epi(f ) e convexo, considere x, u C e t [0, 1].
x u
Como , epi(f ), temos que
f (x) f (u)
( ) ( ) ( )
(1 t)x + tu x u
= (1 t) +t epi(f ).
(1 t)f (x) + tf (u) f (x) f (u)
( )
Isto signica que f (1 t)x + tu (1 t)f (x) + tf (u).
( ) ( )
2x1 x2 2 + eu 2 + e u
1 + e u
3.10. Temos f (x) = e 2 f (x) = , onde
x1 + 4x2 + 32 + eu 1 + eu 4 + eu
u = x1 + x2 . Assim, 2 f (x) e denida positiva, para todo x IR2 , pois 2 + eu > 0 e
( )
det 2 f (x) = 7 + 8eu > 0.
3.12. Considere primeiro f (x) = x2 . Como y 2 2xy + x2 0, temos que
Isto garante que f e convexa pelo Teorema 3.10. Alem disso, como f 00 (x) = 2 > 0, a
convexidade de f tambem segue do Teorema 3.12. Agora vejamos a funcao f (x) = ex .
Dicas e solucoes dos exerccios 122
provando que f e convexa pelo Teorema 3.10. Alem disso, como f 00 (x) = ex > 0, o
Teorema 3.12 garante a convexidade de f .
Captulo 4
4.2. Temos f (x)T d = d1 . Caso d1 < 0, podemos(aplicar ) o Teorema 4.2 para concluir
1 (td2 )2
o que se pede. Para d1 = 0 temos f (x + td) = f = f (x) + . Portanto, a
td2 2
funcao cresce ao longo de d.
1
4.3. (a) Note que f (x + v) f (x) = v T Av + f (x)T v. Assim, como f (x)T d = 0,
2
temos
t2
f (x + td) f (x) = dT Ad 0,
2
para todo t IR. Portanto, a funcao cresce ao longo de d.
(b) Considere (t) = f (x + td). Entao,
( )T
0 (t) = f (x + td)T d = A(x + td) + b d = f (x)T d + tdT Ad.
A interpretacao deste exerccio e que se zermos uma busca exata, a partir de um vertice de
um elipsoide (curva de nvel de f ), na direcao oposta ao gradiente, obtemos o minimizador
Dicas e solucoes dos exerccios 123
Captulo 5
( x ) x, donde segue que tk f (x ) = x x 0. Por outro lado, a
k+1 k k k+1
5.2. Temos
1 1 1
sequencia e limitada, pois 0 < . Assim,
tk tk t
1
f (xk ) = tk f (xk ) 0.
tk
1
Denindo x0 = 1 e escolhendo k = k+2 , temos
2
( )
1 1
x k+1
= x + k+2 (2x ) = x 1 k+1 .
k k k
2 2
( )( ) ( )
1 1 1
Note que x = 1
k
1 2 1 k e (xk ) e uma sequencia decrescente de
2 2 2
numeros positivos. Vamos provar que x = lim xk > 0, o que signica que x nao e esta-
k
cionario. Primeiramente note que por ser g(x) = ln(x) uma funcao convexa, tomando
x [1/2, 1], temos x = (1 t)1/2 + t, com t [0, 1], 1 t = 2(1 x) e
Assim,
k ( ) k ( )
1 1 1
k
g(x ) = g 1 j < j
ln 4 < ln 4 = ln 4
j=1
2 j=1
2 j=1
2j
1 1 1
e, consequentemente, xk = ( ) > . Deste modo, x = lim xk .
k
exp g(x ) 4 k 4
Dicas e solucoes dos exerccios 124
f (xk )T f (xk )
xk+1 = xk f (xk ).
f (xk )T Af (xk )
h(y k )T h(y k )
y k+1 = y k h(y k ).
h(y k )T Ah(y k )
5.8. Sendo f (x) = x2 a, o metodo de Newton para resolver f (x) = 0 e dado por
1 1 ( k 2 ) 1( k a)
xk+1 = xk f (x k
) = x k
(x ) a = x + .
f 0 (xk ) 2xk 2 xk
( )
0 1
1 5
Vamos agora calcular 5, partindo de x = 2. Temos x = 2+ = 2, 25,
( ) ( ) 2 2
1 5 1 5
x2 = 2, 25 + 2, 2361 e x3 = 2, 2361 + 2, 23606.
2 2, 25 2 2, 2361
5.9. Como f (x) = f (x), f e uma funcao par. Assim, seu graco e simetrico em relacao
ao eixo vertical. Portanto, para que ocorra a situacao ilustrada, o ponto de Newton a
f (x)
partir de x deve ser x, isto e, x 0 = x. Tal equacao se reduz a 7x2 = 3. Entao,
f (x)
3 3
se o ponto inicial for ou , teremos a divergencia do metodo de Newton ilustrada
7 7
na Figura 5.10.
( ) ( )
2x1 (x21 x2 ) + x1 1 6x 2
2x 2 + 1 2x 1
5.10. Temos f (x) = e 2 f (x) = 1
.
x2 x1 2
2x1 1
( ) ( )
1 5 2
Assim, f (x) = 0 se, e somente se, x1 = 1 e x2 = 1. Alem disso, 2 f =
1 2 1
( )
1
e denida positiva, donde segue que x = e minimizador local. O passo de Newton
1
a partir de x0 e dado por
( )1 ( ) ( )
( )1 21 4 9 1 1
d = 2 f (x0 ) f (x0 ) = =
4 1 2 5 6
( )
1 9 5 401
e o novo ponto e x1 = x0 + d = . Note que f (x0 ) = e f (x1 ) = , ou seja,
5 16 2 1250
o passo produziu um ponto mais longe da solucao mas reduziu a funcao objetivo. Veja a
Figura 7.4.
Dicas e solucoes dos exerccios 125
3 x1
2
x0
1 x*
0
Captulo 6
6.5. Suponha por absurdo que existe u P (S), u 6= 0. Como 0 int(S), existe > 0 tal
que v = u S. Como u P (S), v tambem pertence, pois P (S) e um cone. Por outro
lado, v S, donde segue que v T v 0 o que e uma contradicao.
( ) ( )
6.6. Pelo Lema 6.7, basta mostrar que P P (C) C. Para isso, considere c P P (C) ,
A = B T e x IRn tal que
Ax 0. (7.1)
Portanto, xT (AT y) = (Ax)T y 0, para todo y 0, donde segue que x P (C). Como
( )
c P P (C) , obtemos
cT x 0,
que junto com (7.1) signica que o primeiro sistema no Lema 6.10 nao tem solucao. Entao
o segundo sistema do lema e possvel, ou seja, c C.
6.7. Dado d C, temos d = By, para algum y 0. Caso posto(B) = m, temos
d CJ , pois J = {1, . . . , m} J . Caso contrario, existe IRm \{0} tal que B = 0.
JJ
Assim, d = By = B(y +t), para todo t IR. Escolhendo t tal que y = y + t 0 e yj = 0
para algum j (veja os detalhes na demonstracao do Lema 6.9), obtemos d = B y = BJ yJ ,
onde J = {1, . . . , m} \ {j}. Repetindo este argumento ate que J J , conclumos o
exerccio.
6.8. Considere primeiro o caso em que posto(B) = m. Seja (dk ) C, tal que dk d 6= 0.
yk
Entao, dk = By k , com y k 0. Sem perda de generalidade, podemos supor que k u,
ky k
com kuk = 1. Deste modo,
( )
1 k yk
d =B Bu 6= 0.
ky k k ky k k
Como (dk ) e convergente, temos que (y k ) e limitada e, novamente s.p.g., vamos supor que
Dicas e solucoes dos exerccios 126
j xk,j x j dk
xk,j x e q k,j = k .
kxk,j xk kd k
xk x d
Portanto, = qk , implicando em d T (x).
kx xk
k kdk
6.15. O problema proposto e equivalente a
Note primeiro que o problema tem uma solucao (global), em virtude do Lema 3.4. Tal
minimizador deve satisfazer ( ) ( )
3 x1 1
2 =
3 x2 1
e tambem a condicao de viabilidade x2 = 3x1 x21 . Por substituicao de variaveis, chegamos
em 2x31 9x21 + 16x1 12 = 0, cuja unica raiz real e ( x1 )= 2. Assim, o unico ponto
2
estacionario, e portanto a solucao do problema, e x = . A Figura 7.5 ilustra este
2
exerccio.
6.17. Seja x um minimizador global do problema
2.5
1.5
0.5
0.5
1
0 1 2 3
1
x = 1 cumpre as restricoes acima, temos que f (x ) f (x) = 3. Armamos que x
1
e solucao global do problema original. De fato, seja x IR3 tal que x1 x2 x3 = 1. Caso
x21 + x22 + x23 3, temos f (x ) f (x). Por outro lado, se x21 + x22 + x23 > 3, entao
f (x ) 3 < x21 + x22 + x23 = f (x).
6.18. Vamos primeiro encontrar os pontos crticos. Note que a equacao
( ) ( )
x1 2cx1
2 =
x2 1 1
( )
0
implica que 6= 0, pois do contrario obteramos o ponto , que nao e viavel. Entao,
1
a restricao e ativa, ou seja, x2 = cx21 . Caso x1 = 0, obtemos o ponto x = 0, com
1 1 2c 1
multiplicador = 2. Se x1 6= 0, entao = , x2 = 1 e x21 = . Para que
c 2c 2c2
1
existam outras solucoes, devemos ter c > . Neste caso, os outros dois pontos crticos sao
( ) ( 2)
1 4c 2 1 4c 2
x = e x = . Vamos agora vericar se sao minimizadores.
2c 2c 1 2c 2c 1
1
Caso c > , temos tres pontos crticos, x, x e x. O ponto x nao e nem minimizador
2
nem maximizador local de f . ( De fato,
) para todo t > 0, sucientemente pequeno, temos
t
1 + c2 t2 2c < 0. Portanto, f = t2 + (ct2 1)2 = t2 + c2 t4 2ct2 + 1 < 1 = f (x).
ct2
( )
t
Alem disso, f = t2 + 1 > 1 = f (x). Os pontos x e x sao minimizadores globais pois
0
Dicas e solucoes dos exerccios 128
4c 1 x2
f (x ) = f (x) = 2
e dado x , temos x12 . Assim,
4c c
( )
1 4c 1
f (x) = x1 + (x2 1) x2 +
2 2 2
2 x2 + 1 .
c 4c2
1
Caso c , o unico ponto crtico e x = 0. Este ponto e minimizador global, pois dado
2
x , temos x21 2x2 . Assim, f (x) = x21 + (x2 1)2 x22 + 1 1 = f (x). A Figura 7.6
ilustra este exerccio. Salientamos que os fatos de x e x serem minimizadores globais no
2.5 2.5
2 2
1.5 1.5
1 1
0.5 x* x~ 0.5
0 x 0 x
0.5 0.5
1.5 1 0.5 0 0.5 1 1.5 1.5 1 0.5 0 0.5 1 1.5
1 1
caso c > e de x = 0 ser minimizador global no caso c poderiam ser obtidos com o
2 2
argumento usado no Exerccio 6.15, que utiliza o Lema 3.4. (De)fato, o problema aqui e
0
equivalente a encontrar o(s) ponto(s) de mais proximo de .
1
Referencias Bibliograficas
[6] F. J. Gould and J. W. Tolle. A necessary and sucient qualication for constrained
optimization. SIAM Journal on Applied Mathematics, 20:164172, 1971.
[8] J-B. Hiriart-Urruty and C. Lemarechal. Convex Analysis and Minimization Algo-
rithms I. Springer-Verlag, New York, 1993.
[9] A. Howard and C. Rorres. Algebra Linear com Aplicacoes. Bookman, Porto Alegre,
8nd edition, 2001.
129
Referencias Bibliograficas 130
[13] E. W. Karas, A. M. Mota, and A. A. Ribeiro. On the convergence rate of the cauchy
algorithm in the l2 norm. Technical report, Federal University of Parana, Brazil,
2005.
[16] Steven J. Leon. Algebra Linear com Aplicacoes. Rio de Janeiro, 1999.
[17] E. L. Lima. Curso de Analise, volume 1. IMPA, Rio de Janeiro, Brasil, 1981.
[18] E. L. Lima. Curso de Analise, volume 2. IMPA, Rio de Janeiro, Brasil, 1981.