You are on page 1of 134

UM CURSO DE OTIMIZACAO

Ademir Alves Ribeiro


Elizabeth Wegner Karas

Curitiba
2011
Sumario

Prefacio 1

Introducao 2

1 Revisao de Conceitos 4
1.1 Sequencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Denicoes e resultados classicos . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Velocidade de convergencia . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Nocoes de topologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Resultados de algebra linear . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Formula de Taylor e teorema da funcao implcita . . . . . . . . . . . . . . 12
1.5 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Introducao a Otimizacao 20
2.1 O problema de otimizacao . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Condicoes de otimalidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3 Convexidade 28
3.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Funcoes convexas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 Algoritmos 36
4.1 Algoritmos de descida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.2 Metodos de busca unidirecional . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Busca exata - metodo da secao aurea . . . . . . . . . . . . . . . . . 39
4.2.2 Busca inexata - condicao de Armijo . . . . . . . . . . . . . . . . . . 44
4.3 Convergencia global de algoritmos . . . . . . . . . . . . . . . . . . . . . . . 47
4.3.1 Convergencia global de algoritmos de descida . . . . . . . . . . . . 47
4.3.2 Teorema de Polak . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.4 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

ii
5 Metodos de Otimizacao Irrestrita 53
5.1 Metodo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.2 Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.3 Velocidade de convergencia . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Metodo de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1 Motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.2 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.2.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Metodos de direcoes conjugadas - variedades . . . . . . . . . . . . . . . . . 62
5.3.1 Minimizacao em variedades lineares . . . . . . . . . . . . . . . . . . 62
5.3.2 Direcoes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.3.3 Algoritmo de gradientes conjugados . . . . . . . . . . . . . . . . . . 66
5.4 Metodo de direcoes conjugadas - versao classica . . . . . . . . . . . . . . . 68
5.4.1 Direcoes conjugadas . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.4.2 Algoritmo de gradientes conjugados . . . . . . . . . . . . . . . . . . 72
5.5 Metodo de regiao de conanca . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.5.1 Algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.5.2 O passo de Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.5.3 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.5.4 O metodo dogleg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.6 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7 Implementacao computacional . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.1 Funcoes para teste . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6 Otimizacao com Restricoes 90


6.1 Cones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.2 Condicoes de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . 97
6.2.1 O cone viavel linearizado . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2.2 O cone gerado pelos gradientes das restricoes . . . . . . . . . . . . . 98
6.2.3 O cone tangente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.2.4 O teorema de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . 103
6.3 Condicoes de qualicacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3.1 Problemas com restricoes lineares . . . . . . . . . . . . . . . . . . . 106
6.3.2 Condicao de qualicacao de Slater . . . . . . . . . . . . . . . . . . . 107
6.3.3 Condicao de qualicacao de independencia linear . . . . . . . . . . 108
6.3.4 Condicao de qualicacao de Mangasarian-Fromovitz . . . . . . . . . 109
6.4 Exerccios do captulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

7 Dicas e solucoes dos exerccios 116

iii
Referencias Bibliograficas 129

iv
Prefacio

O presente texto foi escrito com o proposito de servir como material didatico
para um curso de otimizacao. Procuramos abordar aspectos teoricos e computacionais.
Interpretacoes geometricas sao evocadas sempre que possvel com o auxlio de diversas
guras que aparecem no texto para ilustrar conceitos, exemplos e teoremas. A teoria de
otimizacao com restricoes e apresentada com uma abordagem de cones que, alem de ter
um forte apelo geometrico, consideramos ser mais moderna.
Para um bom aproveitamento do livro, e desejavel que o estudante tenha os co-
nhecimentos de algebra linear e analise no IRn . Alem disso, e importante dar especial
atencao aos varios exerccios que aparecem tanto no meio do desenvolvimento da teoria,
quanto no nal de cada captulo. Muitos exerccios servem para xar os conceitos, outros
para vericar se o leitor consegue identicar e aplicar certos conceitos para resolver um
determinado problema e outros ainda servem para complementar a teoria. Apresentamos,
no nal do livro, dicas, solucoes ou respostas de alguns dos exerccios propostos. Entre-
tanto, recomendamos fortemente que o estudante tente fazer os exerccios antes de ver a
solucao, pois e desta forma que o aprendizado bem sucedido.
Este livro pode ser usado tanto em cursos de graduacao quanto na pos-graduacao.
Entretanto, para alunos de graduacao, que ainda nao possuem uma certa maturidade
matematica, algumas secoes podem ser omitidas, pois apresentam argumentos mais ela-
borados.
Gostaramos de manifestar nossa imensa gratidao a varias pessoas que ajudaram
a construir ou melhorar este trabalho: Clovis Gonzaga, Sandra Santos, Flavia Fernandes,
Gislaine Pericaro, Paulo Conejo, Rodrigo Garcia e Tuanny Brufati.

Ademir e Elizabeth
Curitiba, 16 de Fevereiro de 2011.
Introducao

Otimizacao, direta ou indiretamente, faz parte do nosso dia a dia. Muitas vezes
nem nos damos conta, mas estamos otimizando algo.
Mais formalmente, podemos dizer que otimizacao consiste em encontrar pontos
de mnimo ou de maximo de uma funcao real sobre um conjunto IRn . Isto pode ser
colocado na forma

minimizar f (x)
(P )
sujeito a x .

Em geral, o conjunto e denido por restricoes de igualdade e/ou desigualdade,


ou seja,
= {x IRn | g(x) 0, h(x) = 0},

onde g : IRn IRp e h : IRn IRm sao funcoes quaisquer. O problema de otimizacao
pode entao ser reescrito como

minimizar f (x)
(P ) sujeito a g(x) 0
h(x) = 0.

Conforme as caractersticas do conjunto e as propriedades das funcoes objetivo,


teremos os diferentes problemas de otimizacao. Por exemplo, as funcoes envolvidas no
problema podem ser contnuas ou nao, diferenciaveis ou nao, lineares ou nao. O caso
particular em que a funcao objetivo e as funcoes que denem sao funcoes lineares e
conhecido como um Problema de Programacao Linear (PPL) e e resolvido por metodos
especcos, como o famoso Metodo Simplex. Esta abordagem nao sera tratada neste
trabalho. Estudaremos aqui problemas onde todas as funcoes usadas para den-los sao
continuamente diferenciaveis e, normalmente, nao lineares, isto e, estudaremos o problema
geral de Programacao Nao Linear (PNL).
Um caso particular e o problema irrestrito, quando = IRn . O problema irrestrito
pode ser considerado simples em comparacao com o problema geral de PNL e o estudo de
suas propriedades bem como dos metodos que o resolvem e de fundamental importancia
em otimizacao, porque muitos metodos para resolver o problema geral de PNL fazem uso
dos metodos que resolvem o caso irrestrito.
Introducao 3

E conhecido na literatura que se o conjunto viavel e formado apenas por res-


tricoes de igualdade e x e um minimizador, entao existe IRm tal que


m

f (x ) + i hi (x ) = 0.
i=1

As componentes do vetor sao chamadas de Multiplicadores de Lagrange e a condicao


acima e um resultado central na teoria de otimizacao.
Contudo, um pouco antes de 1950, foi observado que existiam aplicacoes impor-
tantes nos problemas em que eram envolvidas restricoes representadas por desigualdades.
Por esta razao, alguns matematicos tem desenvolvido metodos para tratar de problemas
com este tipo de restricoes. As primeiras condicoes de otimalidade neste sentido foram
estabelecidas por Fritz-John [12] em 1948 e depois por Kuhn e Tucker [14] em 1951. Mais
tarde foi descoberto que as condicoes de Kuhn-Tucker ja teriam sido estabelecidas por
W. Karush em 1939 em sua dissertacao de mestrado, porem essa dissertacao nunca foi
publicada, mas partes essenciais foram reproduzidas por Kuhn [15] em 1976. Assim as
condicoes de Kuhn-Tucker passaram a ser chamadas de condicoes de Karush-Kuhn-Tucker
(KKT).
Este trabalho apresenta o desenvolvimento teorico das condicoes de otimalidade
para o problema geral de otimizacao, bem como metodos iterativos para obter solucoes.
Captulo 1

Revisao de Conceitos

Neste captulo apresentamos algumas denicoes basicas e alguns resultados de


analise e algebra linear relevantes para este trabalho. As principais referencias deste
captulo sao [4, 9, 16, 17, 18].

1.1 Sequencias
Uma sequencia em IRn e uma aplicacao k IN xk IRn , denida no conjunto
IN dos numeros naturais. Denotaremos uma sequencia por (xk )kIN , ou simplesmente por
(xk ). Por conveniencia, consideramos que IN = {0, 1, 2, 3, . . .}.

1.1.1 Definicoes e resultados classicos


Definicao 1.1 Diz-se que o ponto a IRn e o limite da sequencia (xk ) quando, para todo
> 0 dado, e possvel obter k0 IN tal que

k k0 kxk ak < .

Neste caso, tambem dizemos que a sequencia (xk ) converge para a e indicamos este fato
por xk a ou lim xk = a.
k

Vemos da Denicao 1.1 que o ponto a IRn e o limite da sequencia (xk ) se para
cada > 0, o conjunto IN1 = {k IN | kxk ak } e nito, ou seja, fora da bola B(a, )
so poderao estar, no maximo, os termos x0 , . . . , xk0 1 .
Uma subsequencia de (xk ) e a restricao desta sequencia a um subconjunto innito
IN0 = {k1 < k2 < . . . < ki < . . .} IN. Equivalentemente, uma subsequencia de (xk ) e
uma sequencia do tipo (xk )kIN0 ou (xki )iIN , onde (ki )iIN e uma sequencia crescente de
inteiros positivos. Note que ki i, para todo i IN.

Teorema 1.2 Se uma sequencia (xk ) converge para um limite a, entao toda subsequencia
(xki ) tambem converge para a.

4
Revisao de Conceitos 5

Demonstracao. Dado > 0 existe um k0 tal que para todo k > k0 tem-se kxk ak < .
Como os ndices da subsequencia formam um subconjunto innito, existe entre eles um
ki0 k0 . Entao para ki ki0 temos ki k0 . Logo kxki ak < .
O limite de uma subsequencia (xk )kIN0 e chamado valor de aderencia ou ponto
de acumulacao da sequencia (xk ).

Exerccios 1.3
1
1. Considere a sequencia xk = (1)k + . Mostre que (xk ) tem dois pontos de
k+1
acumulacao e portanto nao e convergente.

2. Podemos dizer que se a sequencia tem um unico ponto de acumulacao, entao ela e
convergente?

3. Considere uma sequencia (xk ) IR. Se xk a > 0, entao existe k0 IN tal que
a
para k k0 tem-se xk .
2
Definicao 1.4 Uma sequencia (xk ) IRn e limitada, quando o conjunto formado pelos
seus elementos e limitado, ou seja, quando existe um numero real M > 0 tal que kxk k M
para todo k IN.

Definicao 1.5 Seja (xk ) IR uma sequencia limitada. Definimos o limite inferior da
sequencia (xk ) como seu menor ponto de acumulacao e denotamos por lim inf xk . Analo-
gamente definimos o limite superior da sequencia como seu maior ponto de acumulacao
e denotamos por lim sup xk .

Exerccios 1.6
1
1. Determine lim inf xk e lim sup xk , sendo xk = (1)k + .
k+1
2. Faca o mesmo para (xk ) = (1, 2, 3, 1, 2, 3, . . .).

Definicao 1.7 Sejam (vk ) IRn e (k ) IR {0} sequencias com k 0. Dizemos que
vk
vk = o(k ) quando 0. Mais geralmente, considere g : J IR 7 IRn com 0 sendo
k
um ponto de acumulacao de J. Dizemos que g() = o() quando g(k ) = o(k ) para toda
sequencia (k ) J com k 0.

A seguir enunciaremos alguns resultados importantes. As demonstracoes podem


ser encontradas em [4, 17, 18].

Teorema 1.8 Toda sequencia convergente e limitada.

Teorema 1.9 Toda sequencia (xk ) IR monotona limitada e convergente.


Revisao de Conceitos 6

Teorema 1.10 Uma sequencia limitada em IRn e convergente se, e somente se, possui
um unico ponto de acumulacao.

A luz do Teorema 1.10, reveja o Exerccio 1.3 (2).

Teorema 1.11 (Bolzano-Weierstrass) Toda sequencia limitada em IRn possui uma


subsequencia convergente.

O proximo resultado sera util na analise da convergencia de algoritmos, que tra-


taremos no Captulo 4.

Teorema 1.12 Seja (xk ) IR uma sequencia monotona que possui uma subsequencia
IN0
convergente, digamos xk a. Entao xk a.

Demonstracao. Suponha que (xk ) e nao crescente (os demais casos sao analogos). Ar-
mamos que xk a, para todo k IN. De fato, do contrario existiria k0 IN tal que
xk xk0 < a, para todo k IN, k k0 . Assim nenhuma subsequencia de (xk ) poderia
convergir para a. Provamos entao que (xk ) e limitada, pois a xk x0 , para todo
k IN. Pelo Teorema 1.9, temos que (xk ) e convergente e aplicando o Teorema 1.2 segue
que xk a.

1.1.2 Velocidade de convergencia


No contexto de otimizacao existe outro aspecto importante a ser analisado em
uma sequencia: a velocidade de convergencia. Considere, por exemplo, as sequencias

1 1 1
xk = , yk = e zk = .
k+5 3k 22k

Vemos que todas elas convergem para 0, mas nao com a mesma rapidez, conforme sugere
a tabela abaixo.

k 1 2 3 4 5 6 7 8
xk 0.1667 0.1429 0.1250 0.1111 0.1000 0.0909 0.0833 0.0769
yk 0.3333 0.1111 0.0370 0.0123 0.0041 0.0014 0.0005 0.0002
zk 0.2500 0.0625 0.0039 0.00001 0.0000000002 0.0... 0.0... 0.0...

Diante disto, e conveniente estabelecer uma maneira de medir a velocidade de


sequencias convergentes. Considere entao uma sequencia (xk ) IRn convergente para
x IRn . Assim, ek = kxk xk 0. O que faremos e avaliar como o erro ek tende para
0. Na primeira forma o erro a cada iteracao nao supera uma fracao do erro anterior.
Revisao de Conceitos 7

Definicao 1.13 Dizemos que a sequencia (xk ) IRn converge linearmente para x IRn
quando existem uma constante r [0, 1) e um numero natural k0 IN, tais que

kxk+1 xk
r, (1.1)
kxk xk

para todo k k0 .

Note que a condicao (1.1) implica que xk x, pois

kxk0 +p xk rp kxk0 xk,

para todo p IN e r [0, 1).

1
Exemplo 1.14 A sequencia xk = nao converge linearmente para 0.
k+5
De fato, temos
kxk+1 k k+5
= 1.
kx k
k k+6

1
Exemplo 1.15 A sequencia y k = converge linearmente para 0.
3k
Basta notar que
ky k+1 k 1
= .
ky k
k 3

Vejamos agora uma forma mais veloz de convergencia.

Definicao 1.16 A sequencia (xk ) IRn converge superlinearmente para x IRn quando

kxk+1 xk
0. (1.2)
kxk xk

Note que a condicao (1.2) tambem implica que xk x. Alem disso, e imediato
vericar que a convergencia superlinear implica na convergencia linear.

1
Exemplo 1.17 A sequencia xk = converge superlinearmente para 0.
2k2
Temos
kxk+1 k
2
2k 1
= 2 = 0.
kx k
k 2 (k+1) 2 2k+1

Outra forma de convergencia, ainda mais rapida, e denida abaixo.


Revisao de Conceitos 8

Definicao 1.18 A sequencia (xk ) IRn converge quadraticamente para x IRn quando
xk x e existe uma constante M > 0 tal que

kxk+1 xk
M. (1.3)
kxk xk2

E importante observar que apenas a condicao (1.3) nao implica que xk x, como
podemos ver na sequencia xk = 2k .

1
Exemplo 1.19 A sequencia z k = converge quadraticamente para 0.
22k
Temos
kxk+1 k
k
(22 )2
= = 1.
kxk k2 22k+1

Pode-se provar (Exerccio 1.4) que a convergencia quadratica implica na con-


vergencia superlinear.

1
Exemplo 1.20 A sequencia xk = converge superlinearmente mas nao quadratica-
k!
mente para 0.

Temos
kxk+1 k k! 1
= = 0.
kx k
k (k + 1)! k+1
e
kxk+1 k (k!)2 k! k
= = = (k 1)! .
kx k
k 2 (k + 1)! k+1 k+1

Exerccios 1.21
1
1. Estude a convergencia de xk = .
kk
2. Faca o mesmo para xk = ek .
2

1.2 Nocoes de topologia


Definicao 1.22 Um ponto a IRn e dito ponto de fronteira de um conjunto X IRn
quando qualquer vizinhanca de a contem algum elemento de X e algum elemento do
complementar de X. O conjunto dos pontos fronteira de X e chamado de fronteira de X
e sera denotado por X.

O fecho de um conjunto X e a uniao de X com a fronteira de X e sera denotado


por X.
Revisao de Conceitos 9

Definicao 1.23 Um conjunto X e fechado quando contem sua fronteira, ou seja, quando
X X. Se alem disso X for limitado, diremos que ele e compacto.

De forma equivalente, podemos dizer que X IRn e fechado se, e somente se,
toda sequencia convergente formada por elementos de X tem seu limite em X. Tambem
podemos caracterizar a compacidade de X em termos de sequencias. O conjunto X e
compacto se, e somente se, toda sequencia de elementos de X possui uma subsequencia
que converge para algum elemento de X (Veja os Exerccios 1.8 e 1.9).

Exerccios 1.24

1. Considere a X. Mostre que existem sequencias (xk ) X e (y k ) IRn \ X tais


que xk a e y k a.

2. Determine a fronteira dos conjuntos abaixo e verique se sao compactos:

(a) X = {x IRn | kxk < 1};


(b) Q,
I o conjunto dos racionais;
(c) X = {x IRn | kxk = 1};
(d) X = {x IRn | Ax b}, onde A IRmn e b IRm sao dados.

Definicao 1.25 Um ponto a X IRn e chamado um ponto interior de X quando


e centro de alguma bola aberta contida em X, ou seja, quando existe > 0 tal que
B(a, ) X.

O interior de um conjunto X e formado pelos pontos interiores a X e denotado


por int(X).

Definicao 1.26 Um conjunto X IRn e aberto quando todos os seus pontos sao interio-
res, ou seja, para todo a X existe > 0 tal que B(a, ) X.

1.3 Resultados de algebra linear


As principais referencias desta secao sao [9, 16].

Definicao 1.27 O nucleo de uma matriz A IRmn , denotado por N (A), e um subcon-
junto de IRn formado por todas as solucoes do sistema homogeneo Ax = 0, ou seja,

N (A) = {x IRn | Ax = 0}.

Temos que N (A) e um subespaco vetorial de IRn . O numero dim(N (A)) e cha-
mado nulidade de A.
Revisao de Conceitos 10

Lema 1.28 Considere A IRmn . Entao N (AT A) = N (A).

Demonstracao. Seja x N (AT A), isto e, AT Ax = 0. Multiplicando por xT , obtemos


0 = xT AT Ax = (Ax)T Ax = kAxk2 . Assim, Ax = 0, logo x N (A). Reciprocamente,
se x N (A), entao Ax = 0. Multiplicando por AT , obtemos AT Ax = AT 0 = 0, o que
completa a prova.

Definicao 1.29 A imagem de uma matriz A IRmn e o conjunto

Im(A) = {y IRm | y = Ax, para algum x IRn }.

Note que Im(A) e o espaco vetorial gerado pelas colunas de A, chamado espaco
coluna de A. O posto de A e denido por posto(A) = dim(Im(A)).
Prova-se em algebra linear que posto(A) = posto(AT ), ou seja, o espaco-linha e
o espaco-coluna de A tem a mesma dimensao. Portanto, posto(A) min{m, n}. Quando
ocorre a igualdade na expressao acima, dizemos que a matriz A tem posto cheio ou
posto completo e em consequencia disto, ou as colunas ou as linhas de A sao linearmente
independentes.
Outro fato classico arma que dim(N (A)) + dim(Im(A)) = n, o que equivale a

dim(N (A)) + posto(A) = n. (1.4)

Exerccios 1.30

1. Mostre que N (A) Im(AT ) .

2. Mostre que posto(A) = posto(AT A).

Definicao 1.31 Seja Y um subespaco de IRn . O complemento ortogonal de Y e o con-


junto dado por
Y = {x IRn | xT y = 0 para todo y Y }.

Lema 1.32 Se A IRmn , entao N (A) = Im(AT ) .

Demonstracao. Dado x Im(AT ) , temos (Ax)T y = xT AT y = 0, para todo y IRm .


Portanto, Ax = 0, o que implica que x N (A). Reciprocamente, se x N (A), entao
Ax = 0. Logo xT (AT y) = (Ax)T y = 0, para todo y IRm , isto e, x Im(AT ) . Portanto
N (A) = Im(AT ) .
A denicao que segue e de fundamental importancia em otimizacao. Ela sera
usada mais adiante para estabelecer condicoes de otimalidade de um problema de PNL.

Definicao 1.33 Seja A IRnn uma matriz simetrica. Dizemos que A e definida positiva
quando xT Ax > 0, para todo x IRn \ {0}. Tal propriedade e denotada por A > 0. Se
xT Ax 0, para todo x IRn , A e dita semidefinida positiva, fato este denotado por
A 0.
Revisao de Conceitos 11

( )
a b
Exemplo 1.34 Considere A = . Se A > 0, entao a > 0 e det(A) > 0.
b c
( )
x1
De fato, dado x = , temos
x2

xT Ax = ax21 + 2bx1 x2 + cx22 > 0.


( ) ( )
1 t
Em particular, fazendo x = , obtemos a > 0. Alem disso, tomando x = ,
0 1
obtemos at2 + 2bt + c > 0, para todo t IR. Isto implica que o discriminante 4b2 4ac e
negativo, donde segue que det(A) = ac b2 > 0.
A recproca do fato provado acima tambem e verdadeira. Mais ainda, o resultado
vale em IRnn . Veja o Exerccio 1.13 no nal do captulo.
Podemos inverter as desigualdades na Denicao 1.33 para dizer o que e uma
matriz denida negativa ou semidenida negativa. Entretanto, existem matrizes que nao
sao nem positivas nem negativas, o que motiva a seguinte denicao.
Definicao 1.35 Seja A IRnn uma matriz simetrica. Dizemos que A e indefinida
quando existem x, y IRn tais que xT Ax < 0 < y T Ay.
Se A IRnn e uma matriz simetrica, entao existe uma base ortonormal de
autovetores, digamos {v1 , v2 , . . . , vn }. Sendo {1 , 2 , . . . , n } os autovalores associados,
P = (v1 v2 . . . vn ) e D = diag(1 , 2 , . . . , n ), temos

AP = (Av1 Av2 . . . Avn ) = (1 v1 2 v2 . . . n vn ) = P D.

Alem disso, P T P = I e, portanto,

A = P DP T . (1.5)

A relacao (1.5) permite caracterizar a positividade de uma matriz em funcao dos


seus autovalores. Basta notar que dado x IRn , denindo y = P T x, temos


n
xT Ax = y T Dy = i yi2 . (1.6)
i=1

Os detalhes sao deixados para o Exerccio 1.14, no nal do captulo.


Outros dois resultados importantes que decorrem de (1.5) sao apresentados nos
seguintes lemas.
Lema 1.36 Se A IRnn e uma matriz simetrica com 1 e n sendo o menor e o maior
autovalor, respectivamente, entao

1 kxk2 xT Ax n kxk2 ,
Revisao de Conceitos 12

para todo x IRn .

Demonstracao. Use a relacao (1.6) e note que kyk2 = y T y = xT x = kxk2 .

Lema 1.37 Seja A IRnn uma matriz definida positiva. Dado x IRn , temos

(xT x)2 (xT Ax)(xT A1 x).



Demonstracao. Seja D = diag( 1 , 2 , . . . , n ). Denindo L = P D, podemos es-
crever A = LLT . Fazendo u = LT x e v = L1 x, temos que uT v = xT x, uT u = xT Ax
e v T v = xT A1 x. Assim, o resultado segue diretamente da desigualdade de Cauchy-
Schwarz.

1.4 Formula de Taylor e teorema da funcao implcita


As aproximacoes de Taylor para uma funcao constituem uma das mais importan-
tes ferramentas em otimizacao, tanto no desenvolvimento da teoria quanto na construcao
de algoritmos. Aparecem por exemplo, na demonstracao das condicoes de otimalidade
de segunda ordem, que veremos no proximo captulo, bem como na ideia do Metodo de
Newton. Tambem apresentaremos nesta secao o teorema da funcao implcita, um outro
conceito de analise que sera importante no desenvolvimento teorico na parte de otimizacao
com restricoes.
A Figura 1.1 ilustra as aproximacoes de Taylor de ordens 1 e 2 da funcao seno.

2 2

1.5 1.5

1 1

0.5 0.5

0 0

0.5 0.5

1 1

1.5 1.5

2 2
6 4 2 0 2 4 6 6 4 2 0 2 4 6

Figura 1.1: aproximacoes de Taylor de ordens 1 e 2.

Trabalharemos aqui com aproximacoes de primeira e segunda ordem. As de ordem


superior, apesar de serem mais precisas (veja Figura 1.2), deixam de ser convenientes pelo
alto custo computacional para o calculo das derivadas.
Antes de apresentar as formulas de Taylor vamos trabalhar um pouco com deri-
vadas em varias variaveis. Inicialmente, considere f : IRn IR uma funcao de classe C 2 .
Revisao de Conceitos 13

2 2 2

1.5 1.5 1.5

1 1 1

0.5 0.5 0.5

0 0 0

0.5 0.5 0.5

1 1 1

1.5 1.5 1.5

2 2 2
6 4 2 0 2 4 6 6 4 2 0 2 4 6 6 4 2 0 2 4 6

Figura 1.2: aproximacoes de Taylor de ordens 3, 4 e 5.

Indicaremos o gradiente e a hessiana de f , respectivamente, por



f 2f 2f
x1 x1 x1 x1 xn
. .. ..
f = .
. e 2 f =
.
..
. . .

f 2f 2f

xn xn x1 xn xn

Agora considere uma funcao vetorial f : IRn IRm . Sua derivada, chamada de jacobiana,
e a matriz
f1 f1
x1 xn
. ..
Jf = f 0 =
.
. ..
. .
.
fm fm

x1 xn
Note que a linha i da jacobiana de f e o gradiente transposto da componente fi . Em
particular, para m = 1, temos f 0 = (f )T . Alem disso, 2 f = Jf .
O gradiente de uma funcao tem propriedades muito interessantes, tanto algebricas
quanto geometricas. Destacamos algumas delas.

1. O gradiente e uma direcao de crescimento da funcao;


2. e a direcao de crescimento mais rapido e
3. o gradiente e perpendicular a curva de nvel da funcao.

As justicativas dessas armacoes podem ser encontradas no Captulo 3 de [18]. A Figura


1.3 ilustra as propriedades citadas.

Exerccios 1.38

1. Considere f : IRn IR dada por f (x) = kxk2 = xT x. Calcule f (x) e 2 f (x).

2. Generalizando o exerccio anterior, considere A IRnn e dena f (x) = xT Ax.


Calcule f (x) e 2 f (x).

Outra relacao importante surge quando restringimos uma funcao denida em IRn
aos pontos de um segmento de reta. Mais formalmente, dados a, d IRn e f : IRn IR,
Revisao de Conceitos 14

Figura 1.3: propriedades do vetor gradiente.

denimos : I IR IR por (t) = f (a + td). Vamos calcular as derivadas de . Temos

(t + s) (t) f
0 (t) = lim = (a + td) = f (a + td)T d.
s0 s d


n
f
00 0
Para calcular , note que (t) = dj (a + td). Assim
j=1
xj


n
f
00
(t) = dj (a + td)T d = dT 2 f (a + td)d.
j=1
xj

Na Figura 1.4 temos uma superfcie ilustrando o graco de f , um segmento de reta


representando os pontos a + td e uma curva sendo o graco de .

Figura 1.4: restricao de uma funcao a um segmento.

Finalmente vamos apresentar as Formulas de Taylor. As demonstracoes podem


Revisao de Conceitos 15

ser encontradas em [18].


Teorema 1.39 (Taylor de primeira ordem) Considere f : IRn IR uma funcao di-
ferenciavel e a IRn . Entao podemos escrever

f (x) = f (a) + f (a)T (x a) + r(x),

r(x)
com lim = 0.
xa kx ak
O polinomio p1 (x) = f (a) + f (a)T (x a) e chamado polinomio de Taylor de
ordem 1 da funcao f . Dentre todos os polinomios de grau menor ou igual a 1, ele e o que
melhor aproxima f . E tambem o unico que satisfaz

p(a) = f (a) e p0 (a) = f 0 (a).

Na Figura 1.5 ilustramos o erro cometido ao se aproximar f por p1 .

Figura 1.5: resto de Taylor de ordem 1.

O limite nulo no Teorema 1.39 signica que para x proximo de a o resto r(x) e
muito pequeno e vai para zero mais rapido que kx ak.
Tambem e conveniente observar que podemos reescrever o Teorema 1.39 fazendo
uma simples mudanca de variavel. De fato, denindo d = x a, temos

f (a + d) = f (a) + f (a)T d + r(d),

r(d)
com lim = 0.
d0 kdk
Agora podemos nos perguntar qual e a melhor quadratica que aproxima uma
dada funcao em uma vizinhanca de um ponto. A resposta e dada pelo proximo teorema.
Teorema 1.40 (Taylor de segunda ordem) Se f : IRn IR e uma funcao duas vezes
diferenciavel e a IRn , entao

1
f (x) = f (a) + f (a)T (x a) + (x a)T 2 f (a)(x a) + r(x),
2
Revisao de Conceitos 16

r(x)
com lim = 0.
xa kx ak2

Analogamente ao que vimos anteriormente, o polinomio

1
p2 (x) = f (a) + f (a)T (x a) + (x a)T 2 f (a)(x a)
2

e chamado polinomio de Taylor de ordem 2 da funcao f e e a melhor aproximacao para f


dentre todos os polinomios de grau menor ou igual a 2. Alem disso e o unico que satisfaz

p(a) = f (a), p0 (a) = f 0 (a) e p00 (a) = f 00 (a).

Na Figura 1.6 ilustramos o erro cometido ao se aproximar f por p2 .

Figura 1.6: resto de Taylor de ordem 2.

O limite nulo no Teorema 1.40 signica que para x proximo de a o resto r(x) e
muito pequeno e vai para zero muito mais rapido que kx ak.
Aqui tambem podemos reescrever o Teorema 1.40 fazendo d = x a. Ficamos
com
1
f (a + d) = f (a) + f (a)T d + dT 2 f (a)d + r(d),
2
r(d)
com lim = 0.
d0 kdk2

Exemplo 1.41 Considere a funcao f : IR2 IR dada por f (x) = x1 cos x2 + x2 sin x1 .
Determine as aproximacoes de Taylor de ordens 1 e 2 para f em torno de 0. Estime o
erro da linear na regiao [1, 1] [1, 1].
( )
cos x2 + x2 cos x1
Temos f (x) = . Assim, p1 (x) = f (0) + f (0)T x = x1 . Para
sin x1 x1 sin x2

1 3
estimar o erro, note que se |z| 1, entao cos z > e | sin z| < . Portanto,
2 2

|f (x) p1 (x)| = |f (x) x1 | |x1 || cos x2 1| + |x2 sin x1 | < 1, 367.


Revisao de Conceitos 17

( )

1
Esta estimativa e razoavel pois f 1 1, 3.
1
Veremos agora outra formula de Taylor, na qual nao supomos d 0 para estimar
a diferenca f (a + d) f (a). Para ordem 1, ela e exatamente o Teorema do Valor Medio.
De modo geral a chamamos de Taylor com resto de Lagrange.

Teorema 1.42 (Teorema do Valor Medio) Sejam f : IRn IR contnua e a, d IRn .


Se f e diferenciavel no segmento (a, a + d), entao existe t (0, 1) tal que

f (a + d) = f (a) + f (a + td)T d.

A Figura 1.7 ilustra o TVM.

a a+td a+d

Figura 1.7: Teorema do Valor Medio.

Teorema 1.43 (Taylor com resto de Lagrange) Considere f : IRn IR uma funcao
de classe C 1 e a, d IRn . Se f e duas vezes diferenciavel no segmento (a, a + d), entao
existe t (0, 1) tal que

1
f (a + d) = f (a) + f (a)T d + dT 2 f (a + td)d.
2

O proximo teorema garante que, sob certas hipoteses, podemos denir implici-
tamente uma variavel como funcao de outra em uma equacao. A prova deste resultado
tambem pode ser encontrada em [18].

Teorema 1.44 (Teorema do funcao implcita) Seja : IRn+1 IRn uma funcao de
classe C 1 . Considere o sistema de n equacoes e n + 1 variaveis definido por
( )
x
= 0, (1.7)
t
Revisao de Conceitos 18

( )
x
onde x IRn e t IR. Se o ponto e uma solucao de (1.7), na qual a jacobiana de
0
em (relacao)a x tem posto n, entao existe uma curva diferenciavel : (, ) IRn tal
(t)
que = 0, para todo t (, ). Alem disso, a funcao e unica.
t

1.5 Exerccios do captulo


1
1.1. Considere a sequencia denida por y 1 = 0, y k+1 = . Mostre que:
1 + 2y k
(a) 0 y k 1 para todo k IN.

(b) (y 2k1 )kIN e crescente e (y 2k )kIN e decrescente.


1
(c) y k .
2
ak+1 + ak
1.2. Considere as sequencias denidas por a1 = 0, a2 = 1, ak+2 = e x1 = 0,
2
x2 = 1, xk+2 = xk+1 + 2xk . Mostre que:
xk
(a) ak = para todo k IN.
2k2
(b) xk+1 + xk = 2k1 para todo k IN.
xk 1
(c) k+1
.
x 2
2
(d) ak .
3
1.3. Generalize o exerccio anterior. Considere a sequencia denida por a1 = , a2 = ,
ak+1 + ak 2
ak+2 = , com < e mostre que ak + ( ).
2 3
1.4. Mostre que a convergencia quadratica implica na superlinear.
2k
1.5. Seja x = , k IN. Mostre que (xk ) converge para zero com velocidade superlinear
k
k!
mas nao quadratica.

1.6. Considere a sequencia denida por x1 = 2, xk+1 = 2 + xk . Mostre que:

(a) 1 xk 2 para todo k IN.

(b) (xk ) e crescente.


1
(c) xk 2 linearmente com taxa .
4
1.7. Sejam A IRmn uma matriz de posto n e xk x. Dena y k = Axk e y = Ax.
Mostre que se a convergencia de (xk ) e superlinear, entao o mesmo vale para (y k ). Isto
continua valido se trocarmos superlinear por linear?
Revisao de Conceitos 19

1.8. Mostre que X IRn e fechado se, e somente se, dada (xk ) X tal que xk x,
temos x X.

1.9. Mostre que X IRn e compacto se, e somente se, toda sequencia (xk ) X possui
uma subsequencia que converge para algum elemento de X.

1.10. Considere X IRn e (z k ) X, tal que z k a. Mostre que a X.

1.11. Se V e um subespaco de IRn , entao IRn = V V .

1.12. Seja A IRnn uma matriz simetrica. Sendo {v1 , v2 , . . . , vn } uma base ortonor-
mal de autovetores e {1 , 2 , . . . , n } os autovalores associados. Supondo que nenhum
autovalor e nulo, obtenha uma expressao para a inversa A1 .

1.13. A matriz simetrica A IRnn e denida positiva se, e somente se, os determinantes
principais sao positivos.

1.14. A matriz simetrica A IRnn e denida positiva se, e somente se, todos os seus
autovalores sao positivos.

1.15. Seja A IRmn uma matriz de posto n. Mostre que AT A e denida positiva.

1.16. Considere g : IRn IRm e dena f (x) = kg(x)k22 . Calcule f (x) e 2 f (x).

1.17. Considere f : IRn IR dada por f (x) = kAx bk22 , onde A IRmn e b IRm .
Calcule f (x).

1.18. Obtenha os polinomios de Taylor de ordens 1 e 2 das funcoes dadas em torno do


ponto 0 IR2 .
x1
(a) f (x) = .
1 + x2

(b) f (x) = ex1 1 + x22 .

1.19. Aproxime f (x) = ex em a = 0 pelos polinomios de Taylor de ordem 3 e 4. A


seguir, calcule os valores dessas aproximacoes em x = 0, 2 e x = 1 e compare com os
valores corretos.

1.20. Calcule os polinomios de Taylor de ordem 1, 2 e 3 da funcao f (x) = x + 1 em
a = 0 e da funcao g(x) = ln x em x = 1. A seguir, calcule os valores dessas aproximacoes
em x = 0, 2 e x = 1 e compare com os valores corretos.
Captulo 2

Introducao a Otimizacao

Estudaremos neste captulo os conceitos basicos de otimizacao. Comecamos com


algumas situacoes que garantem a existencia de um minimizador e em seguida discuti-
mos as condicoes de otimalidade para o problema de minimizacao irrestrita. Algumas
referencias para este assunto sao [5, 10, 20].

2.1 O problema de otimizacao


Vamos considerar aqui o problema

minimizar f (x)
(2.1)
sujeito a x ,

onde IRn e um conjunto qualquer.

Definicao 2.1 Considere uma funcao f : IRn IR e x IRn . Dizemos que x e


um minimizador local de f em quando existe > 0, tal que f (x ) f (x), para todo
x B(x , ) . Caso f (x ) f (x), para todo x , x e dito minimizador global de
f em .

Quando as desigualdades na Denicao 2.1 forem estritas para x 6= x , diremos


que x e minimizador estrito. Se nao for mencionado o conjunto , signica que = IRn
e portanto estamos trabalhando com um problema irrestrito.
Veremos em seguida condicoes que garantem a existencia de minimizadores. Na
Secao 2.2 discutiremos criterios de otimalidade.

Teorema 2.2 (Weierstrass) Sejam f : IRn IR contnua e IRn compacto nao


vazio. Entao existe minimizador global de f em .

Demonstracao. Vejamos primeiro que o conjunto f () = {f (x) | x } e limitado


inferiormente. Suponha por absurdo que nao. Entao, para todo k IN, existe xk tal
que f (xk ) k. Como a sequencia (xk ) esta no compacto , ela possui uma subsequencia

20
Otimizacao Irrestrita 21

IN0
convergente para um ponto de , digamos xk x . Pela continuidade de f ,
IN0
temos f (xk ) f (x ), uma contradicao. Portanto, f () = {f (x) | x } e limitado
inferiormente. Considere f = inf{f (x) | x }. Entao, para todo k IN, existe xk
tal que
1
f f (xk ) f + ,
k
IN0
o que implica f (xk ) f . Repetindo o argumento acima, obtemos f (xk ) f (x ), com
x . Pela unicidade do limite, temos f (x ) = f f (x), para todo x , o que
completa a demonstracao.
O Teorema 2.2 tem uma consequencia interessante, que pode garantir a existencia
de minimizador global em IRn .

Corolario 2.3 Seja f : IRn IR contnua e suponha que existe c IR tal que o conjunto
L = {x IRn | f (x) c} e compacto nao vazio. Entao f tem um minimizador global.

Demonstracao. Pelo Teorema 2.2, existe x L tal que f (x ) f (x), para todo x L.
Por outro lado, se x / L, temos f (x) > c f (x ). Assim, f (x ) f (x), para todo
x IRn .

Exerccios 2.4

1. Sejam A IRnn uma matriz simetrica e f : IRn IR dada por f (x) = xT Ax.
Mostre que f tem um minimizador global x em B = {x IRn | kxk = 1}.

2. Seja A IRnn uma matriz simetrica. Usando o exerccio anterior, mostre que
existe IR tal que xT Ax kxk2 , para todo x IRn .

Veremos agora outro resultado que garante a existencia de minimizador global


n
em IR , sem supor compacidade. Em contrapartida, fazemos uma hipotese a mais sobre
a funcao.

Definicao 2.5 Dizemos que a funcao f : IRn IR e coerciva quando lim f (x) = .
kxk

Teorema 2.6 Seja f : IRn IR uma funcao contnua e coerciva. Entao, f tem um
minimizador global.

Demonstracao. Considere a IRn e b = f (a). Como lim f (x) = , existe r > 0 tal
kxk
que f (x) > b, sempre que kxk > r. Como o conjunto B = {x IRn | kxk r} e um
compacto, o Teorema 2.2 garante que existe x B tal que f (x ) f (x), para todo
x B. Alem disso, a B, pois f (a) = b. Para x / B, temos f (x) > b = f (a) f (x ).
Isto prova que x e minimizador de f .
Observacao: o Exerccio 2.11 no nal do captulo fornece outra demonstracao
para o Teorema 2.6.
Otimizacao Irrestrita 22

Exerccios 2.7

1. Seja > 0 e suponha que dT Ad 0, para todo d IRn tal que kdk = . Prove que
dT Ad 0, para todo d IRn .
d
Dica. Considere d IRn \ {0}. Tomando v = , temos que kvk = . Portanto,
kdk
( )2

usando a hipotese, temos que dT Ad = v T Av 0. Assim, dT Ad 0.
kdk

2. Sejam A IRnn uma matriz simetrica, b IRn e c IR. Suponha que a funcao
f : IRn IR dada por
1
f (x) = xT Ax + bT x + c (2.2)
2
tem um minimizador local x . Mostre que Ax + b = 0. Mostre tambem que x e
minimizador global.
Dica. Dado d IRn , temos

1
f (x + td) f (x ) = t2 dT Ad + t(Ax + b)T d.
2
1
Como x e minimizador local, temos que tdT Ad + (Ax + b)T d 0 para t sucien-
2
temente pequeno e positivo. Portanto, Ax + b = 0. Para ver que x e global, note
que
1 T
d Ad = f (x + d) f (x ) 0
2
para d proximo de 0, donde segue que dT Ad 0 para todo d IRn , tendo em vista
o que foi provado no item anterior.

3. Se A IRnn e denida positiva, mostre que a funcao denida em (2.2) e coerciva.


Dica. Se e o menor autovalor de A, temos f (x) kxk2 kbkkxk + c.

2.2 Condicoes de otimalidade


Teorema 2.8 (Condicao necessaria de 1a ordem) Seja f : IRn IR diferenciavel
no ponto x IRn . Se x e um minimizador local de f , entao

f (x ) = 0. (2.3)

Demonstracao. Considere d IRn \ {0} arbitrario. Como x e minimizador local, existe


> 0 tal que
f (x ) f (x + td), (2.4)
Otimizacao Irrestrita 23

para todo t [0, ). Pela expansao de Taylor,

f (x + td) = f (x ) + tf (x )T d + r(t),

r(t) r(t)
com lim = 0. Usando 2.4 e dividindo por t, obtemos 0 f (x )T d + . Passando
t0 t t
o limite quando t 0, obtemos f (x )T d 0. Se f (x ) nao fosse nulo, poderamos
escolher d = f (x ), resultando em kf (x )k2 = f (x )T d 0, o que e uma
contradicao. Logo f (x ) = 0.

Definicao 2.9 Um ponto x IRn que cumpre a condicao (2.3) e dito ponto crtico ou
estacionario da funcao f .

Teorema 2.10 (Condicao necessaria de 2a ordem) Seja f : IRn IR duas vezes


diferenciavel no ponto x IRn . Se x e um minimizador local de f , entao a matriz
Hessiana de f no ponto x e semidefinida positiva, isto e,

dT 2 f (x )d 0, (2.5)

para todo d IRn .

Demonstracao. Considere d IRn \ {0} arbitrario. Por Taylor,

t2 T 2
f (x + td) = f (x ) + tf (x )T d + d f (x )d + r(t),
2

r(t)
com lim 2 = 0. Como x e minimizador local, o Teorema 2.8 garante que f (x ) = 0.
t0 t
Portanto, para t sucientemente pequeno,

t2 T 2
0 f (x + td) f (x ) = d f (x )d + r(t),
2

Dividindo por t2 e passando o limite quando t 0, obtemos dT 2 f (x )d 0.

Exemplo 2.11 Seja f : IR2 IR dada por f (x) = (x1 x22 )(x1 12 x22 ). Verifique que
x = 0 e o unico ponto estacionario de f e nao e minimizador. No entanto, fixada qualquer
direcao d IRn \ {0}, x minimiza localmente f ao longo de d.
( )
2x1 32 x22
Temos f (x) = . Assim, se f (x) = 0, entao x = 0. Alem disso,
3x1 x2 + 2x32
( )
2
t t2
f 3
= < 0, o que signica que x = 0 nao e minimizador local de f . Porem,
t 18
dado d IRn \ {0}, temos

( )( 1 )
f (x + td) = t2 d1 td22 d1 td22 .
2
Otimizacao Irrestrita 24

Se d1 = 0, entao f (x + td) = 21 t4 d42 0. Caso d1 6= 0, a expressao (d1 td22 )(d1 21 td22 ) e


positiva em t = 0 e, por continuidade, tambem para t proximo de 0. A Figura 2.1 ilustra
este exemplo.

Figura 2.1: ilustracao do Exemplo 2.11.

Teorema 2.12 (Condicao suficiente de 2a ordem) Seja f : IRn IR duas vezes di-
ferenciavel no ponto x IRn . Se x e um ponto estacionario e se a matriz Hessiana de
f em x e definida positiva, entao x e minimizador local estrito do problema (P ).
Demonstracao. Seja o menor autovalor de 2 f (x ). Como esta matriz e denida po-
sitiva, temos > 0. Alem disso, pelo Lema 1.36 (veja tambem Exerccios 2.4 da Secao
2.1), dT 2 f (x )d kdk2 . Por Taylor, ja usando o fato de x ser estacionario, temos

1 1
f (x + d) = f (x ) + dT 2 f (x )d + r(d) f (x ) + kdk2 + r(d),
2 2

r(d) f (x + d) f (x ) r(d)
onde lim = 0. Podemos entao escrever + . Como
kdk0 kdk 2 kdk 2 2 kdk2
( )
r(d) r(d)
lim + > 0, existe > 0 tal que + > 0, para todo d B(0, ) \ {0},
kdk0 2 kdk 2 2 kdk2
donde segue que f (x + d) f (x ) > 0, para todo d B(0, ) \ {0}, ou, equivalentemente,

f (x ) < f (x),

para todo x B(x , ) \ {x }.


Salientamos que as denicoes e resultados envolvendo minimizadores podem ser
reformulados para maximizadores de forma inteiramente analoga. No entanto, convem
estudar com mais detalhes alguns pontos que nao sao nem minimizadores nem maximi-
zadores.
Definicao 2.13 Considere uma funcao diferenciavel f : IRn IR e x IRn um ponto
estacionario de f . Dizemos que x e um ponto de sela da funcao f quando para todo > 0,
existem x, y B(x, ) tais que

f (x) < f (x) < f (y).


Otimizacao Irrestrita 25

O proximo teorema nos fornece uma condicao suciente (mas nao necessaria)
para que um ponto seja sela.

Teorema 2.14 Seja f : IRn IR duas vezes diferenciavel no ponto estacionario x IRn .
Se 2 f (x) e indefinida, entao x e ponto de sela de f .

Demonstracao. Considere d IRn tal que dT 2 f (x)d < 0. Por Taylor, ja usando o fato
de x ser estacionario, temos

f (x + td) f (x) 1 r(t)


2
= dT 2 f (x)d + 2 ,
t 2 t

r(t)
com lim = 0. Portanto,
t0 t2
f (x + td) < f (x),

para todo t sucientemente pequeno. Considere agora v IRn tal que v T 2 f (x)v > 0.
Analogamente, podemos concluir que f (x + tv) > f (x), para t sucientemente pequeno.
Isto prova que x e ponto de sela.

Exemplo 2.15 Seja f : IR2 IR dada por

f (x) = 2x31 3x21 6x1 x2 (x1 x2 1).

Descreva os pontos estacionarios da funcao f .


( )
6x21 12x1 x2 6x1 + 6x22 + 6x2
Temos f (x) = . Logo, os pontos estacionarios sao
6x21 + 12x1 x2 + 6x1
solucoes do sistema {
6x22 + 6x2 = 0
,
6x21 12x1 x2 6x1 = 0
( ) ( ) ( ) ( )
0 1 0 1
que podemos vericar que sao x1 = , x2 = , x3 = e x4 = . Alem
0 0 1 1
disso, ( )
12x 1 12x 2 6 12x 1 + 12x 2 + 6
2 f (x) = .
12x1 + 12x2 + 6 12x1
( ) ( ) ( )
1 1 1 1 1 1
Fazendo Aj = 16 2 f (xj ), temos A1 = , A2 = , A3 =
1 0 1 2 1 0
( ) ( ) ( )
1 1 1 1
e A4 = . Note que A1 e indenida, pois u = e v = fornecem
1 2 0 1
uT A1 u < 0 e v T A1 v > 0. Portanto x1 e ponto de sela. Ja o ponto x2 e minimizador local,
pois A2 > 0. Alem disso, A3 = A1 tambem e indenida, sendo entao x3 ponto de sela.
Finalmente, A4 = A2 < 0, o que implica que x4 e maximizador local. A Figura 2.2
ilustra este exemplo.
Otimizacao Irrestrita 26

0.5

0.5

1.5

2
2 1 0 1 2

Figura 2.2: ilustracao do Exemplo 2.15.

Exemplo 2.16 Dado > 1, mostre que o sistema


{ 2 2
cos x1 sin x2 + x1 ex1 +x2 = 0
2 2
sin x1 cos x2 + x2 ex1 +x2 = 0

tem uma solucao x 6= 0.

f : IR2 (IR dada por f (x) = )


2 2
sin x1 sin x2 + 21 ex1 +x2 . Fazendo u = x21 + x22 , temos que
cos x1 sin x2 + x1 eu
f (x) = e
sin x1 cos x2 + x2 eu
( )
sin x1 sin x2 + eu + 2x21 eu cos x1 cos x2 + 2x1 x2 eu
2 f (x) = .
cos x1 cos x2 + 2x1 x2 eu sin x1 sin x2 + eu + 2x22 eu
( )
1
Portanto, 2 f (0) = . Como > 1, 2 f (0) nao e semidenida positiva e assim,
1
x = 0 nao pode ser minimizador local de f . Mas f e coerciva e portanto tem um
minimizador local x 6= 0.

2.3 Exerccios do captulo


Alguns dos exerccios propostos abaixo foram tirados ou reformulados a partir
daqueles apresentados em [5, Captulo 2]. Indicaremos, quando for o caso, o exerccio
correspondente desta referencia.

2.1. [5, Exerc. 2.1] Sejam g : IR IR uma funcao estritamente crescente e f : IRn IR.
( )
Prove que minimizar f (x) e equivalente a minimizar g f (x) .

2.2. [5, Exerc. 2.3(a)] Considere numeros reais a < b < c e as funcoes f, g : IR IR,
denidas por

f (x) = |x a| + |x b| e g(x) = |x a| + |x b| + |x c|.


Otimizacao Irrestrita 27

Determine os minimizadores destas funcoes.

2.3. [5, Exerc. 2.4] Sejam a, b IR dois numeros reais positivos. Considere a funcao
de Rosenbrock f (x) = a(x2 x21 )2 + b(1 x1 )2 . Encontre o (unico) ponto estacionario
de f e verique se e minimizador local. Prove que 2 f (x) e singular se e somente se
b
x2 x21 = .
2a
2.4. Sejam f : IRn IR contnua, x IRn e f = f (x ). Suponha que todo x tal que
f (x) = f e um minimizador local de f . Mostre que x e um minimizador global de f .

2.5. Seja f : IR2 IR dada por f (x) = sin x1 sin x2 + ex1 +x2 . Mostre que x = 0 e ponto
2 2

estacionario de f . Diga se e minimizador, maximizador ou sela.

2.6. Verique se a funcao f (x) = (x1 + x2 )2 + x31 tem algum ponto estacionario. Caso
armativo diga se e minimizador, maximizador ou sela.

2.7. Seja f : IR2 IR dada por f (x) = x21 + x22 x1 x22 . Determine e faca um esboco do
conjunto {x IR2 | 2 f (x) > 0}.

2.8. Seja f : IR2 IR dada por f (x) = x21 x1 x2 + 2x22 2x1 + 23 x2 + ex1 +x2 .
( )
1 1
(a) Mostre que x = e um ponto estacionario de f .
3 1

(b) Calcule 2 f (x) e diga se x e minimizador local.

2.9. [5, Exerc. 2.10] Considere o problema irrestrito

minimizar f (x) = x21 x1 x2 + 2x22 2x1 + ex1 +x2


sujeito a x IR2 .

(a) Verique que o ponto x = 0 nao e otimo.

(b) Minimize a funcao a partir de x na direcao d = f (x).

2.10. [5, Exerc. 2.17] Se for possvel, determine a e b de modo que f (x) = x3 + ax2 + bx
tenha um maximo local em x = 0 e um mnimo local em x = 1.

2.11. Seja f : IRn IR uma funcao contnua e coerciva. Dado a IRn , mostre que o
conjunto L = {x IRn | f (x) f (a)} e compacto nao vazio.

2.12. Sejam f : IRn IR contnua e x IRn tal que {x IRn | f (x) f (x)} e limitado.
Mostre que f tem minimizador global.
Captulo 3

Convexidade

Dentre as varias classes de funcoes estudadas em matematica, existe uma que


se destaca pelas excelentes propriedades que possui: a classe das funcoes convexas. Em
otimizacao, a convexidade permite por exemplo concluir que minimizadores locais sao
globais, ou ainda, que pontos estacionarios sao minimizadores. Algumas referencias para
este assunto sao [2, 8, 22].

3.1 Conjuntos convexos


Os conjuntos convexos constituem o domnio natural para as funcoes convexas,
conforme veremos agora.

Definicao 3.1 Um conjunto C IRn e dito convexo quando dados x, y C, o segmento


[x, y] = {(1 t)x + ty | t [0, 1]} estiver inteiramente contido em C.

Na Figura 3.1 ilustramos 2 conjuntos, um convexo e outro nao.

y
y

x
x

Figura 3.1: conjuntos convexo e nao convexo.

Exerccios 3.2

m
1. Sejam Ci , i = 1, . . . , m conjuntos convexos. Entao o conjunto C = Ci tambem e
i=1
convexo.

2. Mostre que o conjunto solucao de um sistema de equacoes lineares e convexo.

28
Convexidade 29

Veremos agora alguns resultados que alem de sua importancia em analise convexa,
podem tambem ser usados para provar o classico Lema de Farkas, fundamental para a
obtencao das condicoes de Karush-Kuhn-Tucker para problemas com restricoes.

Lema 3.3 Sejam u, v IRn com u 6= v. Se kuk2 = kvk2 = r, entao k(1 t)u + tvk2 < r,
para todo t (0, 1).

Demonstracao. Pela desigualdade triangular, temos

k(1 t)u + tvk2 (1 t)kuk2 + tkvk2 = r.

Suponha, por absurdo, que k(1 t)u + tvk2 = r. Entao

(1 t)2 uT u + 2t(1 t)uT v + t2 v T v = k(1 t)u + tvk22 = r2 .

Como uT u = v T v = r2 e t (0, 1), obtemos uT v = r2 . Portanto,

ku vk2 = uT u 2uT v + v T v = 0,

o que e um absurdo. Assim,


k(1 t)u + tvk2 < r,

completando a demonstracao.

Considere agora um conjunto S IRn , um ponto z IRn e o problema de


encontrar um ponto de S mais proximo de z. Este problema pode nao ter solucao e
quando tem, nao garantimos unicidade. No entanto, conforme provaremos a seguir, se S
e fechado, entao existe solucao. Se alem de fechado, for convexo, a solucao e unica e sera
chamada de projecao de z sobre S, denotada por projS (z). Veja ilustracao na Figura 3.2.

S
S z z S projSz z

Figura 3.2: projecao sobre um conjunto.

Lema 3.4 Seja S IRn um conjunto fechado nao vazio. Dado z IRn , existe z S tal
que
kz zk kz xk,

para todo x S.
Convexidade 30

Demonstracao. Seja = inf{kz xk | x S}. Entao, para todo k IN, existe xk S tal
que
1
kz xk k + . (3.1)
k
Em particular, kz xk k + 1, para todo k IN. Logo, existe uma subsequencia
IN0
convergente, digamos, xk z. Sendo S fechado, temos que z S. Alem disso,

IN0
kz xk k kz zk.

Mas por (3.1), kz xk k , donde segue que kz zk = , completando a prova.


Ao contrario do lema anterior, o proximo resultado depende da norma e sera
estabelecido usando a norma euclidiana.

Lema 3.5 Seja S IRn um conjunto nao vazio, convexo e fechado. Dado z IRn , existe
um unico z S tal que
kz zk2 kz xk2 ,

para todo x S. Denotaremos z = projS (z).

Demonstracao. A existencia e garantida pelo Lema 3.4. Para provar a unicidade, suponha
que existam z 6= z em S tais que

kz zk2 kz xk2 e kz zk2 kz xk2 , (3.2)

para todo x S. Tomando x = z na primeira desigualdade e x = z na segunda, obtemos

kz zk2 = kz zk2 .

1
Por outro lado, o ponto x = (z + z) esta no convexo S. Alem disso, pelo Lema 3.3, com
2
1
r = kz zk2 = kz zk2 e t = , temos
2

kz xk2 = k(1 t)(z z) + t(z z)k2 < r,

contradizendo (3.2).
Vejamos agora o principal resultado desta secao. Por simplicidade vamos indicar
a norma euclidiana por k k.

Teorema 3.6 Sejam S IRn um conjunto nao vazio, convexo e fechado, z IRn e
z = projS (z). Entao
(z z)T (x z) 0,

para todo x S.
Convexidade 31

Demonstracao. Considere um ponto arbitrario x S. Dado t (0, 1), pela convexidade


de S, temos que (1 t)z + tx S. Portanto,

kz zk kz (1 t)z txk = kz z + t(z x)k.

Assim,

kz zk2 kz z + t(z x)k2 = kz zk2 + 2t(z z)T (z x) + t2 kz xk2 .

Como t > 0, temos que 2(z z)T (x z) tkz xk2 . Passando o limite quando t 0,
obtemos
(z z)T (x z) 0,

completando a demonstracao (veja ilustracao na Figura 3.3).

S projSz z

Figura 3.3: ilustracao do Teorema 3.6.

3.2 Funcoes convexas


As funcoes que trataremos agora tem otimas propriedades, particularmente no
contexto de otimizacao.

Definicao 3.7 Seja C IRn um conjunto convexo. Dizemos que a funcao f : IRn IR
e convexa em C quando
( )
f (1 t)x + ty (1 t)f (x) + tf (y),

para todos x, y C e t [0, 1].

Apesar deste conceito ser muito simples, pode nao ser tao facil provar diretamente
da denicao que uma funcao e convexa, mesmo ela sendo elementar. Verique isto nos
exerccios abaixo.

Exerccios 3.8

1. Mostre, pela denicao, que a funcao f : IR IR dada por f (x) = x2 e convexa.


( )2
Dica. x + t(y x) = x2 + 2tx(y x) + t2 (y x)2 x2 + 2tx(y x) + t(y x)2 .
Convexidade 32

2. Faca o mesmo para f : IR IR dada por f (x) = ex .


Dica. Como ed 1 + d, temos ex ez + ez (x z) e ey ez + ez (y z). Multiplique
a primeira por (1 t) e a segunda por t para obter e(1t)x+ty (1 t)ex + tey .

Veja na Figura 3.4 uma funcao convexa e outra nao convexa.

f(y)
f(y)
f((1t)x+ty)
(1t)f(x)+tf(y) (1t)f(x)+tf(y)
f((1t)x+ty)

f(x) f(x)
x (1t)x+ty y x (1t)x+ty y

Figura 3.4: funcoes convexa e nao convexa.

O teorema seguinte justica o fato de funcoes convexas serem muito bem vistas
em otimizacao.

Teorema 3.9 Sejam C IRn convexo e f : C IR uma funcao convexa. Se x C e


minimizador local de f , entao x e minimizador global de f .

Demonstracao. Seja > 0 tal que f (x ) f (x), para todo x B(x , ) C. Dado

y C, y / B(x , ), tome 0 < t < . Assim, o ponto x = (1 t)x + ty satisfaz
ky x k
kx x k = tky x k < e portanto, x B(x , ) C (veja a Figura 3.5). Deste modo
temos
f (x ) f (x) (1 t)f (x ) + tf (y),

donde segue que f (x ) f (y).

x* x y

Figura 3.5: auxiliar para o Teorema 3.9.

Quando temos diferenciabilidade, podemos caracterizar a convexidade de forma


mais simples. Apresentamos a seguir dois resultados importantes.
Convexidade 33

Teorema 3.10 Sejam f : IRn IR uma funcao diferenciavel e C IRn convexo. A


funcao f e convexa em C se, e somente se,

f (y) f (x) + f (x)T (y x)

para todos x, y C.

Demonstracao. Seja f convexa. Para x, y C e t (0, 1] quaisquer, denindo d = y x,


temos x + td C e
( )
f (x + td) = f (1 t)x + ty (1 t)f (x) + tf (y).

Portanto,

f (x + td) f (x)
f (y) f (x) lim+ = f (x)T d = f (x)T (y x).
t0 t

Para provar a recproca, considere z = (1 t)x + ty e observe que

f (x) f (z) + f (z)T (x z) e f (y) f (z) + f (z)T (y z).

Multiplicando a primeira por (1 t) e a segunda por t obtemos


( )
(1 t)f (x) + tf (y) f (1 t)x + ty ,

completando a demonstracao.
O teorema acima tem uma interpretacao geometrica simples: dados a, x C,
temos f (x) f (a) + f (a)T (x a), ou seja, uma funcao convexa esta sempre acima da
sua aproximacao linear. A Figura 3.6 ilustra o teorema.

Figura 3.6: aproximacao linear de f .

O Teorema 3.10 tambem tem uma consequencia forte em otimizacao, dada no


seguinte resultado.
Convexidade 34

Corolario 3.11 Sejam f : IRn IR uma funcao convexa, diferenciavel e C IRn


convexo. Se f (x )T (y x ) 0, para todo y C, entao x e um minimizador global de
f em C. Em particular, todo ponto estacionario e minimizador global.

A Figura 3.7 ilustra uma situacao que satisfaz as condicoes do Corolario 3.11 e
outra onde isto nao se verica.

y C
y C
x* f x
f

Figura 3.7: ilustracao do Corolario 3.11.

O proximo teorema nos fornece outro criterio para caracterizar convexidade.

Teorema 3.12 Sejam f : IRn IR uma funcao de classe C 2 e C IRn convexo.

(i) Se 2 f (x) 0, para todo x C, entao f e convexa em C.

(ii) Se f e convexa em C e int(C) 6= , entao 2 f (x) 0, para todo x C.

Demonstracao. (i) Dados x C e d IRn tal que x + d C, pelo Teorema 1.43,

1
f (x + d) = f (x) + f (x)T d + dT 2 f (x + td)d
2

para algum t (0, 1). Como 2 f (x) 0, conclumos que f (x + d) f (x) + f (x)T d.
Pelo Teorema 3.10, f e convexa.
(ii) Considere primeiro x int(C). Dado d IRn , temos que x + td C, para t
sucientemente pequeno. Portanto, pela convexidade de f , Teorema 3.10 e Teorema 1.40,
obtemos
t2 T 2
0 f (x + td) f (x) tf (x) d = d f (x)d + r(t),
T
2
r(t)
onde lim 2 = 0. Dividindo por t2 e passando o limite, obtemos dT 2 f (x)d 0. Agora
t0 t
considere x C, arbitrario. Como existe y int(C), o Exerccio 3.1 garante que todos
os pontos do segmento (x, y] estao em int(C). Pelo que ja provamos, dados d IRn e
( )
t (0, 1], vale dT 2 f (1 t)x + ty d 0. Fazendo t 0+ e usando a continuidade de
2 f , obtemos dT 2 f (x)d 0, completando a demonstracao.

3.3 Exerccios do captulo


3.1. Sejam C IRn convexo, x C e y int(C). Mostre que (x, y] int(C).
Convexidade 35

3.2. Mostre que o interior de um conjunto convexo e convexo.

3.3. Sejam T : IRn IRm linear e C IRn convexo. Mostre que T (C) e convexo.

3.4. Seja S IRn convexo. Mostre que o fecho S e convexo.

3.5. Sejam C IRn convexo e f : C IR convexa. Mostre que o conjunto C onde


f atinge seu valor mnimo e convexo.

3.6. Sejam A IRmn e C = {x IRn | Ax 0}. Mostre que C e um conjunto convexo.


(x x2 x3 x4 )4 x41 x42 x43 x44
1
3.7. Mostre que + + + + + + .
2 3 12 12 2 3 12 12
3.8. Seja f : IRn IR convexa. Mostre que o conjunto de nvel L = {x IRn | f (x) 0}
e convexo.

3.9. Seja C IR n
{(convexo.
) A funcao f : C IR} e convexa se, e somente se, o seu
x
epigrafo epi(f ) = IRn+1 | x C, y f (x) e convexo.
y

3.10. Seja f : IR2 IR dada por f (x) = x21 x1 x2 + 2x22 2x1 + 23 x2 + ex1 +x2 . Mostre
que f e convexa.

3.11. Considere C um conjunto convexo e f, g : C IR funcoes convexas.

(a) Mostre que f + g e convexa.

(b) A diferenca f g e uma funcao convexa? Justique.

(c) Que condicao sobre a IR, garante que a funcao af e convexa.

3.12. Refazer os Exerccios 3.8 da Secao 3.2 usando o Teorema 3.10 e tambem usando o
Teorema 3.12.
Captulo 4

Algoritmos

Em um problema de otimizacao, dicilmente conseguimos resolver, de forma di-


reta, o sistema (normalmente nao linear) de n equacoes e n incognitas dado por f (x) = 0.
O Exemplo 2.15 do Captulo 2 e um caso muito raro. Normalmente, a solucao e obtida
por meio de um processo iterativo. Consideramos um ponto inicial x0 , obtemos um ponto
melhor x1 e repetimos o processo gerando uma sequencia (xk ) IRn na qual a funcao
objetivo decresce.
Basicamente temos tres aspectos concernentes aos metodos de otimizacao. O
primeiro consiste na criacao do algoritmo propriamente dito, que deve levar em conta a
estrutura do problema e as propriedades satisfeitas pelas solucoes, entre outras coisas.
O segundo aspecto se refere as sequencias geradas pelo algoritmo, onde a principal
questao e se tais sequencias realmente convergem para uma solucao do problema. Um
algoritmo e dito globalmente convergente quando para qualquer sequencia (xk ) gerada
pelo algoritmo e qualquer ponto de acumulacao x de (xk ), temos que x e estacionario.
Apresentamos na Secao 4.3 uma discussao mais detalhada deste conceito.
O terceiro ponto a ser considerado e a velocidade com que a sequencia converge
para uma solucao, o que e conhecido como convergencia local (reveja a Secao 1.1.2).
Naturalmente, para ns praticos, nao basta que uma sequencia seja convergente. E preciso
que uma aproximacao do limite possa ser obtida em um tempo razoavel. Deste modo, bons
algoritmos sao os que geram sequencias que convergem rapidamente para uma solucao.
Vamos agora descrever um modelo geral de algoritmo para o Problema (2.1).
No Captulo 5, estudaremos algoritmos especcos, analisando os aspectos mencionados
acima. Algumas referencias para este assunto sao [5, 19].

4.1 Algoritmos de descida


Uma forma geral de construir um algoritmo consiste em escolher, a partir de
cada ponto obtido, uma direcao para dar o proximo passo. Uma possibilidade razoavel e
determinar uma direcao segundo a qual f decresce.

36
Algoritmos 37

Definicao 4.1 Considere uma funcao f : IRn IR, um ponto x IRn e uma direcao
d IRn \ {0}. Dizemos que d e uma direcao de descida para f , a partir de x, quando
existe > 0 tal que f (x + td) < f (x), para todo t (0, ).

Apresentamos abaixo uma condicao suciente para uma direcao ser de descida.

Teorema 4.2 Se f (x)T d < 0, entao d e uma direcao de descida para f , a partir de x.

Demonstracao. Sabemos que

f f (x + td) f (x)
f (x)T d = (x) = lim .
d t0 t

Pela hipotese e pela preservacao do sinal, existe > 0 tal que

f (x + td) f (x)
< 0,
t

para todo t (, ), t 6= 0. Portanto, f (x + td) < f (x), para todo t (0, ), o que
completa a demonstracao.
Quando n = 2 ou n = 3, podemos interpretar geometricamente o Teorema 4.2,
dizendo que as direcoes que formam um angulo obtuso com f (x) sao de descida. Veja
a Figura 4.1.


f(x)

Figura 4.1: ilustracao do Teorema 4.2.

( ) ( )
1 1 d1
Exemplo 4.3 Sejam f : IR2 IR dada por f (x) = (x21 x22 ) e x = . Se d =
2 0 d2
e tal que d1 0, entao d e uma direcao de descida para f , a partir de x.

Temos f (x)T d = d1 . Caso d1 < 0, podemos aplicar o Teorema 4.2 para concluir o
que se pede. Entretanto,
( ) se d1 = 0, nao podemos usar o teorema, mas basta notar que
1 (td2 )2
f (x + td) = f = f (x) . A Figura 4.2 ilustra este caso.
td2 2
Algoritmos 38

( )
0
Exemplo 4.4 Considere a mesma funcao do Exemplo 4.3 e x = . O que podemos
1
( )
1
dizer sobre d = ?
0

Nao podemos aplicar o Teorema 4.2, pois (f (x) T


) d = 0. Procedendo de modo analogo ao
t t2
exemplo anterior, obtemos f (x + td) = f = f (x) + . Portanto, a funcao cresce
1 2
ao longo de d. A Figura 4.2 ilustra este exemplo.

f f

Figura 4.2: ilustracao dos Exemplos 4.3 e 4.4.

Os dois exemplos anteriores mostram que nada se pode armar, a princpio,


quando f (x)T d = 0.
Vamos agora apresentar um algoritmo basico para minimizar f e discutir a sua
convergencia.

Algoritmo 4.5 Algoritmo basico

Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Calcule dk tal que f (xk )T dk < 0
Escolha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1

O Algoritmo 4.5 ou encontra um ponto estacionario em um numero nito de


iteracoes ou gera uma sequencia ao longo da qual f decresce. A questao agora e saber
se esta sequencia tem algum ponto de acumulacao e, caso armativo, se este ponto e
estacionario. Infelizmente, nao podemos tirar conclusoes boas. Considere f : IR IR
1 (1)k
dada por f (x) = x2 e as sequencias xk = 1 + e y k = (1)k + . Ambas
k+1 k+1
Algoritmos 39

4 4

3 3

2 2

1 1

0 0

1 1
2 1 0 1 2 2 1 0 1 2

Figura 4.3: o Algoritmo 4.5 pode nao encontrar um ponto estacionario.

podem ser obtidas pelo algoritmo, xk 1 e (y k ) tem dois pontos de acumulacao, 1 e 1.


Entretanto, nenhum desses pontos e estacionario. Veja a Figura 4.3.
Deste modo, se queremos garantir convergencia, a escolha da direcao dk e do
tamanho do passo tk , no Algoritmo 4.5, nao pode ser arbitraria. Discutiremos na proxima
secao como obter tk , tendo dada uma direcao. A determinacao de uma direcao de busca
sera tratada no Captulo 5.

4.2 Metodos de busca unidirecional


Dada uma funcao f : IRn IR, um ponto x IRn e uma direcao de descida
d IRn , queremos encontrar t > 0 tal que

f (x + td) < f (x).

Como vimos anteriormente precisamos balancear o tamanho do passo t com o decrescimo


promovido em f . Veremos duas abordagens para este problema. A primeira consiste em
fazer uma busca exata a partir do ponto x segundo a direcao d. A segunda procura uma
reducao suciente de f que seja de certo modo proporcional ao tamanho do passo.

4.2.1 Busca exata - metodo da secao aurea


Nosso objetivo neste caso e ambicioso e consiste em minimizar f a partir do ponto
x na direcao d (veja a Figura 4.4). Mais precisamente, temos que resolver o problema

minimizar f (x + td)
(4.1)
sujeito a t > 0.

Este problema e, em geral, difcil de se resolver. Entretanto, para certas funcoes


especiais, existem algoritmos para resolve-lo. Veremos adiante tais funcoes, bem como
Algoritmos 40

Figura 4.4: busca unidirecional exata.

um algoritmo. Antes porem vamos fazer um exemplo que pode ser resolvido de forma
direta.
( )
1 1
Exemplo 4.6 Considere f : IR2 IR dada por f (x) = (x1 2)2 + (x2 1)2 , x =
2 0
( )
3
ed= . Faca a busca exata a partir de x, na direcao d.
1

Note primeiro que d e de fato uma direcao de descida, pois


( )
3
f (x)T d = (1 2) = 5 < 0.
1

Para fazer a busca, considere


( )
1 + 3t 11t2 3
(t) = f (x + td) = f = 5t + ,
t 2 2

cujo minimizador satisfaz 0 (t) = 11t 5 = 0. Assim,


( ) ( )
5 1 26 2, 36
t = e x + td = .
11 11 5 0, 45

A Figura 4.5 ilustra este exemplo.


Na pratica e claro que os problemas sao bem mais complexos que o Exemplo 4.6
e so podem ser resolvidos por meio de algoritmos. Vamos agora denir funcao unimodal,
para a qual existem algoritmos para minimiza-la. Em seguida veremos o algoritmo da
secao aurea, que encontra um ponto proximo de um minimizador com a precisao que se
Algoritmos 41

2.5

1.5

0.5

0.5

1.5
1 0 1 2 3 4 5

Figura 4.5: ilustracao do Exemplo 4.6.

queira. Este algoritmo sera entao aplicado para a funcao : [0, ) IR por

(t) = f (x + td).

Definicao 4.7 Uma funcao contnua : [0, ) IR e dita unimodal quando admite
um conjunto de minimizadores [t1 , t2 ], e estritamente decrescente em [0, t1 ] e estritamente
crescente em [t2 , ).

Para facilitar a descricao do algoritmo, vamos considerar a Figura 4.6.

a u v b

Figura 4.6: secao aurea.

Suponha que um minimizador de pertence ao intervalo [a, b].

(i) Considere a < u < v < b em [0, ).

(ii) Se (u) < (v) entao o trecho [v, b] nao pode conter um minimizador e pode ser
descartado.

(iii) Se (u) (v) entao o trecho [a, u] pode ser descartado.

(iv) Particione o intervalo que cou e repita o processo.


Algoritmos 42

Vamos discutir agora como particionar o intervalo [a, b]. A obtencao deste inter-
valo, que deve conter um minimizador de , sera tratada adiante.
Uma estrategia que parece natural e dividir o intervalo em tres partes iguais, ou
seja, denir
1 2
u = a + (b a) e v = a + (b a).
3 3
Assim, descartamos 31 do intervalo corrente a cada etapa. Entretanto, esta forma de
particionar o intevalo tem uma desvantagem. Precisamos fazer duas novas avaliacoes de
funcao por etapa, pois o ponto que sobrou, u ou v, nao pode ser aproveitado. Veja a
Figura 4.7.

a u v b

a+ u+ v+ b+

Figura 4.7: particao do intervalo [a, b].

Uma estrategia que veremos ser mais inteligente consiste em escolher os pontos
u e v que dividem o segmento [a, b] na razao aurea, de acordo com a seguinte denicao.

Definicao 4.8 Um ponto c divide o segmento [a, b] na razao aurea quando a razao entre o
maior segmento e o segmento todo e igual a razao entreo menor e o maior dos segmentos.
51
Tal razao e conhecida como o numero de ouro e vale 0, 618.
2
Desta forma, temos que u e v devem satisfazer

bu ua va bv
= e = .
ba bu ba va

Considerando 1 e 2 tais que

u = a + 1 (b a) e v = a + 2 (b a), (4.2)

obtemos
1 1 2
1 1 = e 2 = . (4.3)
1 1 2

3 5 51
Portanto, 1 = 0, 382 e 2 = 0, 618. Salientamos que 1 + 2 = 1 e
2 2

22 = 1 . (4.4)

Uma das vantagens da divisao na razao aurea em relacao a divisao em tres partes
iguais e que descartamos mais de 38% do intervalo ao inves de 33, 33%. Outra vantagem
Algoritmos 43

se refere a economia em avaliacao de funcao como veremos a seguir.


No processo iterativo, a cada etapa descartamos o intervalo [a, u] ou [v, b], obtendo
um novo segmento que devera ser particionado novamente. Indicamos por [a+ , b+ ] o novo
intervalo que sera particionado pelos ponto u+ e v + .
Conforme veremos no proximo resultado, o ponto u e aproveitado na proxima
etapa e passa a ser v + quando descartamos [v, b]. Assim, o valor da funcao (u) e apro-
veitado para a proxima etapa.

Lema 4.9 Na secao aurea, se [v, b] e descartado entao v + = u.

Demonstracao. Como [v, b] foi decartado b+ = v e a+ = a. Portanto, usando (4.2), temos


que
v + = a+ + 2 (b+ a+ ) = a + 2 (v a)

Usando (4.2) novamente e a relacao (4.4), obtemos

v + = a + 22 (b a) = a + 1 (b a) = u,

completando a prova.
A Figura 4.8 ilustra esta propriedade.

a u v b

a+ u+ v+ b+

Figura 4.8: particao do intervalo [a, b].

Exerccios 4.10

1. Mostre que 1 e 2 , dados por (4.3), satisfazem 1 + 2 = 1 e 22 = 1 .

2. Prove que se [a, u] e descartado na secao aurea, entao u+ = v.

Apresentamos agora o algoritmo da secao aurea, que tem duas fases. Na primeira,
obtemos um intervalo [a, b] que contem um minimizador de . A ideia desta etapa e
considerar um intervalo inicial [0, 2], com > 0, e amplia-lo, deslocando para a direita,
ate que um crescimento de seja detectado.
Na segunda fase, o intervalo [a, b] e reduzido, por meio do descarte de subin-
tervalos, ate que reste um intervalo de tamanho suciente para que uma precisao seja
alcancada.
Algoritmos 44

Algoritmo 4.11 Secao Aurea

Dados: > 0; > 0


Fase 1: Obtencao do intervalo [a, b]
a0 = 0, s0 = e b0 = 2
k=0
repita enquanto (bk ) < (sk )
ak+1 = sk , sk+1 = bk e bk+1 = 2bk
k =k+1
a = ak , b = b k
Fase 2: Obtencao de t [a, b]
a0 = a, b0 = b
u0 = a0 + 1 (b0 a0 ), v0 = a0 + 2 (b0 a0 )
k=0
repita enquanto bk ak >
se (uk ) < (vk )
ak+1 = ak , bk+1 = vk , vk+1 = uk , uk+1 = ak+1 + 1 (bk+1 ak+1 )
senao
ak+1 = uk , bk+1 = bk , uk+1 = vk , vk+1 = ak+1 + 2 (bk+1 ak+1 )
k =k+1
uk + v k
Dena t =
2
Caso seja unimodal, o Algoritmo 4.11 funciona perfeitamente e encontra uma
aproximacao para um minimizador dentro de uma tolerancia dada. Caso a funcao nao
seja unimodal, o algoritmo pode nao ser ecaz.

4.2.2 Busca inexata - condicao de Armijo


Em muitas situacoes nao convem aplicar a busca exata, ou porque nao e uni-
modal, ou pelo alto custo computacional de se fazer uma busca exata a cada iteracao do
Algoritmo 4.5. O metodo de Armijo procura uma boa reducao da funcao ao longo da
direcao, sem tentar minimiza-la.
Considere entao um ponto x IRn , uma direcao de descida d IRn e (0, 1).
Basicamente, a regra de Armijo encontra t > 0 tal que

f (x + td) f (x) + tf (x)T d. (4.5)

A condicao acima signica que queremos mais que uma simples reducao em f .
Esta reducao deve ser proporcional ao tamanho do passo. O proximo resultado garante
que isto pode ser de fato obtido.
Algoritmos 45

Teorema 4.12 Considere uma funcao diferenciavel f : IRn IR, um ponto x IRn ,
uma direcao de descida d IRn e (0, 1). Entao existe > 0 tal que

f (x + td) f (x) + tf (x)T d,

para todo t [0, ).


Demonstracao. Caso f (x)T d = 0, o resultado segue da denicao de direcao de descida.
Suponha entao que f (x)T d < 0. Assim, como < 1, temos

f (x + td) f (x)
lim = f (x)T d < f (x)T d.
t0 t

Portanto, existe > 0 tal que

f (x + td) f (x)
< f (x)T d,
t

para todo t (0, ). Isto implica que

f (x + td) f (x) + tf (x)T d,

o que completa a demonstracao.


Tanto do ponto de vista computacional quanto teorico, e importante que o ta-
manho de passo t, satisfazendo (4.5), nao seja muito pequeno. Uma maneira de garantir
tal propriedade consiste em iniciar com t = 1 e, se necessario, reduzir t ate que (4.5) seja
satisfeita. Sintetizamos isto no seguinte algoritmo.
Algoritmo 4.13 Busca de Armijo
Dados: x IRn , d IRn (direcao de descida), (0, 1)
t=1
repita enquanto f (x + td) > f (x) + tf (x)T d
t = 0, 8t
A condicao de Armijo pode parecer articial mas na realidade pode ser interpre-
tada de forma bem interessante. Considere a funcao : [0, ) IR dada por

(t) = f (x + td).

A aproximacao de primeira ordem de em torno de t = 0, tambem chamada de modelo


linear, e
p(t) = (0) + t0 (0) = f (x) + tf (x)T d.

Assim, podemos reescrever a relacao (4.5) como


( )
(0) (t) = f (x) f (x + td) p(0) p(t) .
Algoritmos 46

Isto signica que procuramos um passo cuja reducao na funcao objetivo seja pelo menos
uma fracao da reducao obtida no modelo linear. Veja uma ilustracao na Figura 4.9.
Note tambem nesta gura a reta dada por

q(t) = f (x) + tf (x)T d.

A condicao de Armijo e satisfeita para os pontos tais que esta abaixo de q.

p(0)=f(x)

f(x+td)

t q

p(t)

Figura 4.9: interpretacao da condicao de Armijo.

O metodo de Armijo nao encontra um ponto proximo a um minimizador unidi-


recional, mas e muito eciente. Para algoritmos bem projetados, faz um numero muito
pequeno de calculos de funcao, sendo portanto muito rapido.
( )
1 1
Exemplo 4.14 Considere f : IR IR dada por f (x) = (x1 2)2 + (x2 1)2 , x =
2
2 0
( )
3
ed= . Faca uma busca de Armijo a partir de x, na direcao d.
1

Temos que d e uma direcao de descida, pois


( )
3
f (x)T d = (1 2) = 5 < 0.
1

Alem disso, a relacao f (x + td) f (x) + tf (x)T d pode ser escrita como
( ) ( ) ( )
1 + 3t 1 3
f f + t(1 2) ,
t 0 1

o que equivale a
10(1 )
t .
11
1 15
Por exemplo, se = , entao qualquer t satisfazendo t 0, 6818 e aceitavel.
4 22
Comecando com t = 1, teremos o passo recusado. Entao fazemos t = 0, 8 1 = 0, 8, que
Algoritmos 47

tambem e recusado. Enm, fazendo t = 0, 8 0, 8 = 0, 64, teremos o passo aceito. Assim,


( )
2, 92
t = 0, 64 e x + td = .
0, 64

Veja a Figura 4.10.

2.5

1.5

0.5

0.5

1.5
1 0 1 2 3 4 5

Figura 4.10: ilustracao do Exemplo 4.14.

Salientamos que, normalmente, nao conseguimos explicitar t, na condicao de


Armijo, como zemos no exemplo anterior e portanto, temos que seguir os passos do
Algoritmo 4.13, testando a desigualdade para cada valor particular de t.

4.3 Convergencia global de algoritmos


Nesta secao discutiremos a convergencia global de algoritmos de descida. Pri-
meiro, vamos considerar o Algoritmo 4.5 com a direcao denida por uma transformacao
do gradiente via matrizes denidas positivas. Em seguida, apresentaremos uma discussao
mais geral sobre convergencia de algoritmos, sintetizada no Teorema de Polak [23].

4.3.1 Convergencia global de algoritmos de descida


Seja H : IRn IRnn uma funcao contnua que associa a cada x IRn uma matriz
denida positiva H(x) IRnn . Assim, se f (x) 6= 0, temos que d = H(x)f (x) e
uma direcao de descida. De fato, f (x)T d = f (x)T H(x)f (x) < 0.
Temos assim uma maneira de obter direcoes de descida para o Algoritmo 4.5.
Para facilitar, vamos reescrever o algoritmo com esta escolha da direcao de busca. A
determinacao do tamanho do passo pode ser feita pela busca exata ou de acordo com o
criterio de Armijo, pelo Algoritmo 4.13.
Algoritmos 48

Algoritmo 4.15 Algoritmo de descida

Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Dena dk = H(xk )f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1

Vamos analisar a convergencia global do Algoritmo 4.15 de acordo com a seguinte


denicao.

Definicao 4.16 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (xk ) gerada pelo algoritmo e qualquer ponto de acumulacao x de (xk ), temos que
x e estacionario.

Nos dois teoremas que seguem, vamos supor que a funcao f , a ser minimizada, e
de classe C 1 .

Teorema 4.17 O Algoritmo 4.15, com o tamanho do passo calculado pela busca exata, e
globalmente convergente.

Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja estacionario,
isto e, f (x) 6= 0. Assim, d = H(x)f (x) e uma direcao de descida, o que garante a
existencia de t > 0 tal que = f (x) f (x + td) > 0. Considere h : IRn IR dada por
( ) IN0
h(x) = f (x) f x tH(x)f (x) . Como h e contnua, temos que h(xk ) h(x) = .
Portanto,

f (xk ) f (xk + tdk ) = h(xk ) ,
2
0
para todo k IN , sucientemente grande. Deste modo, como tk foi obtido pela busca
exata, podemos concluir que


f (xk+1 ) = f (xk + tk dk ) f (xk + tdk ) f (xk ) ,
2

ou seja,

f (xk ) f (xk+1 ) , (4.6)
2
para todo k IN0 , sucientemente grande. Por outro lado, pela continuidade de f , temos
IN0
f (xk ) f (x). Como a sequencia (f (xk ))kIN e decrescente, o Teorema 1.12 garante que
f (xk ) f (x), contradizendo (4.6).
Se utilizarmos a busca de Armijo para calcular tk , tambem podemos garantir a
convergencia.
Algoritmos 49

Teorema 4.18 O Algoritmo 4.15, com o tamanho do passo calculado pela condicao de
Armijo (Algoritmo 4.13), e globalmente convergente.

Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja estacionario,
IN0
isto e, f (x) 6= 0. Pela continuidade de f , temos f (xk ) f (x). Como a sequencia
(f (xk )) e monotona nao crescente, podemos aplicar o Teorema 1.12 para concluir que
f (xk ) f (x). Por outro lado, pela condicao de Armijo, temos

f (xk+1 ) = f (xk + tk dk ) f (xk ) + tk f (xk )T dk .

Usando a denicao de dk e a positividade de H(xk ), obtemos

f (xk ) f (xk+1 ) tk f (xk )T H(xk )f (xk ) 0.

Portanto, tk f (xk )T H(xk )f (xk ) 0. Mas

IN0
f (xk )T H(xk )f (xk ) f (x)T H(x)f (x) 6= 0,

IN0
donde segue que tk 0. Entao, tk < 1, para todo k IN0 , sucientemente grande. Pelo
tk
Algoritmo 4.13, o passo 0,8 existiu e foi recusado. Assim,
( tk k ) tk
f (xk + tk dk ) f (xk ) + tk f (xk )T dk e f xk + d > f (xk ) + f (xk )T dk .
0, 8 0, 8

Como a funcao (t) = f (xk + tdk ) f (xk ) k T k


[ tf](x ) d e contnua, o teorema do valor
intermediario garante a existencia de sk tk , 0,8
tk
tal que (sk ) = 0, isto e,

f (xk + sk dk ) f (xk ) = sk f (xk )T dk .

Aplicando agora o teorema do valor medio (Teorema 1.42), obtemos

f (xk + k sk dk )T (sk dk ) = f (xk + sk dk ) f (xk ) = sk f (xk )T dk ,

com k (0, 1). Portanto,

f (xk + k sk dk )T H(xk )f (xk ) = f (xk )T H(xk )f (xk ).


[ ]
IN0 IN0
Como sk 0, pois sk tk , 0,8
tk
e tk 0, podemos concluir que

f (x)T H(x)f (x) = f (x)T H(x)f (x),

o que e uma contradicao.


Algoritmos 50

4.3.2 Teorema de Polak


Apresentamos aqui alguns conceitos gerais sobre convergencia de algoritmos. Ba-
sicamente, se o passo for eciente, no sentido de que, perto de um ponto nao desejavel a
funcao objetivo decresce bastante, entao o algoritmo nao erra. Esta condicao, que sera
formalizada a seguir, e conhecida como criterio de Polak [23] para convergencia global de
algoritmos.

Definicao 4.19 Seja IRn e P uma propriedade qualquer. Dizemos que x e


desejavel quando satisfaz a propriedade P.

Dado um conjunto fechado IRn e uma propriedade P, considere o seguinte


problema geral

(P ) Encontrar um ponto desejavel x .

Definicao 4.20 Um algoritmo e dito globalmente convergente quando para qualquer se-
quencia (xk ) gerada pelo algoritmo e qualquer ponto de acumulacao x de (xk ), temos que
x e desejavel.

Um algoritmo que gera apenas sequencias que nao tem pontos de acumulacao e
um algoritmo globalmente convergente. De fato, nao podemos encontrar uma sequencia
gerada pelo algoritmo com um ponto de acumulacao nao desejavel. Veja o Exemplo 4.21.

Exemplo 4.21 O algoritmo

Dado: x0 IR
k=0
repita
xk+1 = xk 1
k =k+1

gera sequencias sem pontos de acumulacao, pois |xm xn | 1 para todos m, n IN.

Definicao 4.22 Considere uma funcao : IR. Dizemos que um algoritmo e de


descida para o problema (P ), com relacao a , quando para qualquer sequencia (xk )
gerada pelo algoritmo temos (xk+1 ) (xk ), para todo k IN. Tal funcao e chamada
funcao de merito.

Teorema 4.23 (Polak, 1968) Considere o problema (P ) e suponha que existe uma fun-
cao de merito contnua : IR tal que para toda sequencia (xk ) gerada pelo algoritmo
e todo ponto x nao desejavel, existe uma vizinhanca V de x e uma constante > 0
tais que se xk V , entao (xk+1 ) (xk ) . Entao todo ponto de acumulacao de (xk )
e desejavel.
Algoritmos 51

Demonstracao. Sejam (xk ) uma sequencia gerada pelo algoritmo e x um ponto de acu-
IN0
mulacao de (xk ), digamos xk x. Suponha por absurdo que x nao seja desejavel. Entao
existe uma vizinhanca V de x e uma constante > 0 tais que

(xk+1 ) (xk ) ,

IN0
se xk V . Como xk x, podemos redenir IN0 , se necessario, de modo que xk V , para
todo k IN0 . Assim,
(xk ) (xk+1 ) , (4.7)
IN0
para todo k IN0 . Por outro lado, utilizando a continuidade de , temos (xk ) (x).
Como a sequencia ((xk ))kIN e monotona nao crescente, podemos aplicar o Teorema 1.12
para concluir que (xk ) (x), o que contradiz 4.7. Portanto, x e desejavel.

4.4 Exerccios do captulo


( )
1 1
4.1. Considere f : IR2 IR dada por f (x) = (x1 2)2 + (x2 1)2 e x = . Mostre
2 0
( )
0
que d = e uma direcao de descida para f e faca a busca exata a partir de x, na
1
direcao d.
( ) ( )
1 1 d1
4.2. Sejam f : IR2 IR dada por f (x) = (x21 + x22 ), x = ed= . Mostre
2 0 d2
que se d1 < 0, entao d e uma direcao de descida para f , a partir de x. Estude o caso
d1 = 0.
1 T
4.3. [5, Exerc. 4.6 e 4.7] Considere f : IRn IR dada por f (x) = x Ax + bT x + c,
2
onde A IRnn e uma matriz denida positiva, b IRn e c IR.

(a) Mostre que se f (x)T d = 0, entao d e uma direcao de subida a partir de x.

(b) Suponha que d e uma direcao de descida a partir de x. Mostre que a busca exata
f (x)T d
fornece t = T .
d Ad
(c) Mostre que se t satisfaz a condicao de Armijo

f (x + t d) f (x) + t f (x)T d,

1
entao .
2
1 T
4.4. [5, Exerc. 6.7] Considere f : IRn IR dada por f (x) = x Ax + bT x + c, onde
2
A IRnn e uma matriz denida positiva, b IRn e c IR. Sejam x o minimizador de
Algoritmos 52

f e v IRn um autovetor de A. Faca uma busca exata a partir do ponto x = x + v,


na direcao d = f (x). Que ponto e obtido? Qual e a interpretacao geometrica deste
exerccio?

4.5. [5, Exerc. 4.9] Sejam f : IRn IR, f C 2 e x IRn tal que f (x) = 0 e 2 f (x)
nao e semidenida positiva. Prove que existe uma direcao de descida d em x.
Captulo 5

Metodos de Otimizacao Irrestrita

Vamos agora discutir os metodos para resolver o Problema (2.1). Algumas re-
ferencias para este assunto sao [5, 11, 19].

5.1 Metodo de Cauchy


Um dos metodos mais conhecidos para minimizar uma funcao e o metodo classico
do gradiente, tambem chamado metodo de Cauchy. Neste metodo, a direcao de busca
em cada iteracao e o oposto do vetor gradiente da funcao objetivo no ponto corrente. A
justicativa desta escolha se baseia no fato de que, dentre as direcoes ao longo das quais
f decresce, a direcao oposta ao gradiente e a de decrescimento mais acentuado. De fato,
se d = f (x) e v IRn e tal que kvk = kdk, entao

f f
(x) = f (x)T d = kf (x)k2 = kf (x)kkvk f (x)T v = (x).
d v

5.1.1 Algoritmo
O algoritmo de Cauchy e exatamente o Algoritmo 4.15, com H(xk ) = I IRnn ,
para todo k IN.

Algoritmo 5.1 Cauchy

Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
Dena dk = f (xk )
Obtenha tk > 0 tal que f (xk + tk dk ) < f (xk )
Faca xk+1 = xk + tk dk
k =k+1

53
Metodos para Otimizacao Irrestrita 54

A Figura 5.1 mostra 4 iteracoes do algoritmo com a busca exata aplicado para
minimizar uma funcao quadratica convexa. Esta gura sugere duas propriedades do
algoritmo. Uma delas, formalizada no Exerccio 5.3, e o fato de duas direcoes consecutivas
serem ortogonais. A outra propriedade se refere a convergencia, que sera discutida na
proxima secao.

Figura 5.1: passos do algoritmo de Cauchy.

5.1.2 Convergencia global


A convergencia global do Algoritmo de Cauchy e uma consequencia imediata do
que foi estabelecido no Captulo 4.

Teorema 5.2 O Algoritmo 5.1, com o tamanho do passo tk calculado pela busca exata, e
globalmente convergente, segundo a Definicao 4.16. O mesmo resultado vale se utilizarmos
a busca de Armijo para calcular tk .

Demonstracao. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = I IRnn .
Salientamos que a convergencia no caso da busca de Armijo e assegurada se
utilizarmos o Algoritmo 4.13 para calcular tk . Caso o tamanho do passo seja escolhido
apenas pela relacao (4.5), ele pode car arbitrariamente pequeno e o algoritmo pode nao
convergir. Veja o Exerccio 5.4 no nal do captulo.

5.1.3 Velocidade de convergencia


Os resultados mais importantes sobre a velocidade de convergencia do algoritmo
de Cauchy sao revelados quando a funcao objetivo e quadratica. Vamos entao considerar

1
f (x) = xT Ax + bT x + c, (5.1)
2

com A IRnn denida positiva, b IRn e c IR. Assim, f e convexa e tem um unico
minimizador x , que e global e satisfaz

Ax + b = f (x ) = 0. (5.2)
Metodos para Otimizacao Irrestrita 55

Mostraremos agora que, usando a norma euclidiana, a sequencia gerada pelo


metodo deCauchy com busca exata converge linearmente para x , com taxa de con-
vergencia 1 n1 .
Primeiramente, note que o passo otimo e dado por

(dk )T dk
tk = . (5.3)
(dk )T Adk

d
De fato, basta fazer f (xk + tdk )T dk = f (xk + tdk ) = 0.
dt
No que segue, para facilitar a notacao, vamos assumir que x = 0 e f (x ) = 0,
isto e,
1
f (x) = xT Ax. (5.4)
2
Isto nao tira a generalidade do resultado em virtude do Exerccio 5.7.

Lema 5.3 Dado x IRn , x 6= 0, considere d = Ax. Entao,

dT d xT Ax
.
dT Ad xT A 2 x

Demonstracao. Temos xT Ax = dT A1 d e xT A2 x = dT d. Portanto,

dT d xT A2 x (dT d)2
= .
dT Ad xT Ax (dT Ad)(dT A1 d)

Como A e denida positiva, podemos usar o Lema 1.37 para concluir que

dT d xT A2 x
1,
dT Ad xT Ax

completando a prova.

Teorema 5.4 Considere a funcao quadraticadada em (5.4) e a sequencia (xk ) gerada


1
pelo Algoritmo 5.1, com busca exata. Se = 1 , entao
n

kxk+1 k2 kxk k2 ,

para todo k IN.

Demonstracao. Como dk = f (xk ) = Axk , temos

kxk+1 k22 = (xk + tk dk )T (xk + tk dk )


= (xk )T xk + 2tk (xk )T dk + t2k (dk )T dk
= kxk k22 2tk (xk )T Axk + t2k (xk )T A2 xk .
Metodos para Otimizacao Irrestrita 56

Usando (5.3) e o Lemma 5.3, obtemos

kxk+1 k22 kxk k22 2tk (xk )T Axk + tk (xk )T Axk = kxk k22 tk (xk )T Axk .

Caso xk = 0 nao ha nada a fazer. Suponha entao que xk 6= 0. Usando novamente (5.3),
obtemos
kxk+1 k22 (dk )T dk (xk )T Axk
1 .
kxk k22 (dk )T Adk (xk )T xk
Utilizando o Lema 1.36, segue que

kxk+1 k22 1
1 ,
kx k2
k 2
n

completando a prova.
Este teorema tem uma interpretacao geometrica interessante. As curvas de nvel
de f sao elipsoides cuja excentricidade depende da diferenca entre o maior e o menor
autovalor de A. Se 1 = n , entao as curvas de nvel sao esferas e a convergencia ocorre
em um unico passo. Entretanto, se 1  n , entao os elipsoides cam muito excentricos
e a convergencia se da de forma lenta. Veja ilustracao na Figura 5.2.

Figura 5.2: Excentricidade no algoritmo de Cauchy.

Salientamos que o resultado encontrado na literatura estabelece a convergencia


linear da sequencia (f (xk )), o que implica na convergencia linear da sequencia (xk ), na
norma induzida pela hessiana da quadratica. Para mais detalhes veja [13, 19].
Os resultados estabelecidos para funcoes quadraticas podem ser estendidos para
funcoes gerais, como vemos no seguinte teorema, demonstrado em [19].

Teorema 5.5 Seja f : IRn IR de classe C 2 . Suponha que x IRn seja um minimizador
local de f , com 2 f (x ) definida positiva, e que a sequencia (xk ), gerada pelo algoritmo
( )
de Cauchy, com busca exata, converge para x . Entao a sequencia f (xk ) converge li-
( )2
n 1
nearmente para f (x ) com taxa nao superior a , onde 1 e n sao o menor e
n + 1
o maior autovalor de 2 f (x ), respectivamente.
Metodos para Otimizacao Irrestrita 57

5.2 Metodo de Newton


O metodo de Newton e uma das ferramentas mais importantes em otimizacao.
Tanto o algoritmo basico quanto suas variantes sao muito utilizados para minimizacao.

5.2.1 Motivacao
Considere uma funcao f : IRn IR de classe C 2 . Nosso objetivo consiste em
encontrar um minimizador de f . De acordo com as condicoes necessarias de otimalidade,
devemos resolver o sistema de n equacoes e n incognitas dado por f (x) = 0.
Generalizando, considere F : IRn IRn de classe C 1 e o problema de resolver o
sistema (normalmente nao linear)
F (x) = 0.

Como na maioria das vezes nao conseguimos resolve-lo de forma direta, os processos
iterativos constituem a forma mais eciente de lidar com tais situacoes.
A ideia e aproximar F por seu polinomio de Taylor de primeira ordem. Dada
uma estimativa x, considere o sistema linear

F (x) + JF (x)(x x) = 0, (5.5)

onde JF representa a matriz jacobiana de F . Caso JF (x) seja inversvel, o sistema (5.5)
pode ser resolvido, fornecendo
( )1
x+ = x JF (x) F (x).

Isto corresponde a uma iteracao do metodo de Newton para resolucao de equacoes (veja
a Figura 5.3).

x+ x

Figura 5.3: uma iteracao do metodo de Newton.

Voltando agora ao problema de minimizar f , aplicamos a estrategia acima para


Metodos para Otimizacao Irrestrita 58

F = f , obtendo
( )1
x+ = x 2 f (x) f (x). (5.6)

5.2.2 Algoritmo
Com base na relacao (5.6) podemos agora formalizar o metodo de Newton para
minimizar a funcao f . Basicamente, temos tres variantes no algoritmo. Uma delas e
o metodo puro, onde nao fazemos busca unidirecional e aceitamos o passo completo
(tk = 1, para todo k IN). As outras duas fazem uso de busca (exata ou Armijo).

Algoritmo 5.6 Newton

Dado: x0 IRn
k=0
repita enquanto f (xk ) 6= 0
( )1
Dena dk = 2 f (xk ) f (xk )
Determine o tamanho do passo tk > 0
Faca xk+1 = xk + tk dk
k =k+1

Note que o Algoritmo de Newton pode ser considerado situacao particular do


( )1
Algoritmo 4.15, com H(xk ) = 2 f (xk ) , para todo k IN.
Diferentemente do que acontece no Algoritmo de Cauchy, o passo de Newton
pode nao estar bem denido, caso a matriz Hessiana 2 f (xk ) seja singular. Alem disso,
mesmo que o passo dk seja calculado, esta direcao pode nao ser de descida. Entretanto,
se 2 f (xk ) e denida positiva, entao o passo dk esta bem denido e e uma direcao de
descida.
O passo de Newton tambem pode ser obtido por uma abordagem diferente da
que foi exposta acima. Para isto considere a aproximacao de Taylor de segunda ordem de
f , dada por

1
p(x) = f (xk ) + f (xk )T (x xk ) + (x xk )T 2 f (xk )(x xk ).
2

Com o objetivo de minimizar p, fazemos

f (xk ) + 2 f (xk )(x xk ) = p(x) = 0,

obtendo exatamente o passo dk do Algoritmo 5.6. A Figura 5.4 ilustra esta abordagem.
O primeiro graco mostra, para n = 1, a funcao e o modelo, bem como os pontos xk e
xk+1 . O outro graco ilustra o passo para n = 2. Neste caso, mostramos as curvas de
nvel da funcao e do modelo, bem como os pontos xk e xk+1 .
Metodos para Otimizacao Irrestrita 59

xk+1 xk
xk+1
xk

Figura 5.4: uma iteracao do metodo de Newton.

Esta ultima abordagem sugere que se o metodo de Newton for aplicado em uma
funcao quadratica, entao basta uma iteracao para resolver o problema. De fato, considere
a quadratica dada em (5.1). Dado x0 IRn , o passo obtido e
( )1
d0 = 2 f (x0 ) f (x0 ) = A1 (Ax0 + b) = x0 A1 b.

Portanto, o minimizador x e obtido em um so passo, pois

x1 = x0 + d0 = A1 b = x .

5.2.3 Convergencia
Como ja observamos antes, a direcao de Newton pode nao ser de descida. Por-
tanto, nao garantimos convergencia global quando o problema a ser resolvido envolver
uma funcao arbitraria. No entanto, para uma classe de funcoes convexas, podemos tirar
conclusoes positivas, pois podemos aplicar o que foi estabelecido no Captulo 4.

Teorema 5.7 Suponha que 2 f (x) e definida positiva, para todo x IRn . Entao o
Algoritmo 5.6, com o tamanho do passo tk calculado pela busca exata, e globalmente
convergente, segundo a Definicao 4.16. O mesmo resultado vale se utilizarmos a busca de
Armijo para calcular tk .
( )1
Demonstracao. Segue diretamente dos Teoremas 4.17 e 4.18, com H(x) = 2 f (x) .
Para estabelecer propriedades de convergencia local, vamos precisar dos seguintes
resultados.

Lema 5.8 Suponha que 2 f (x) > 0. Entao existem constantes > 0 e M > 0 tais que
( 2 )
2 f (x) > 0 e f (x) 1 M,

para todo x B(x, ).


Metodos para Otimizacao Irrestrita 60

Demonstracao. Seja > 0 o menor autovalor de 2 f (x). Pela continuidade de 2 f ,


existe > 0 tal que

k2 f (x) 2 f (x)k < , (5.7)
2
para todo x B(x, ). Assim, dado d IRn , com kdk = 1, podemos usar o Lema 1.36 e
concluir que


dT 2 f (x)d = dT 2 f (x)d + dT [2 f (x) 2 f (x)]d = ,
2 2

provando que 2 f (x) e denida positiva para todo x B(x, ). Para provar a outra
armacao, considere x B(x, ). Vamos denotar A = 2 f (x) e B = 2 f (x). Usando
novamente o Lema 1.36, agora aplicado em A2 , obtemos

kAdk2 = dT A2 d 2 kdk2 ,

para todo d IRn . Portanto, usando (5.7), conclumos que


kBdk = kAd + (B A)dk kAdk k(B A)dk kdk kdk = kdk.
2 2

Considere agora y IRn , com kyk = 1. Aplicando a relacao acima para d = B 1 y,


conclumos que

1 = kyk = kBB 1 yk kB 1 yk.
2
2 ( )1
Portanto, para M = , temos 2 f (x) = kB 1 k M , completando a demons-

tracao.

Lema 5.9 Sejam U IRn aberto convexo e = sup k2 f (x) 2 f (y)k. Entao
x,yU

kf (x) f (y) 2 f (y)(x y)k kx yk,

para todos x, y U .

Demonstracao. Fixado y U , considere h : IRn IRn dada por h(x) = f (x) 2 f (y)x.
Assim,
kJh (x)k = k2 f (x) 2 f (y)k ,

para todo x U . Usando a desigualdade do valor medio, obtemos

kf (x) f (y) 2 f (y)(x y)k = kh(x) h(y)k kx yk,

completando a demonstracao.
Metodos para Otimizacao Irrestrita 61

Lema 5.10 Seja U IRn aberto e convexo. Se 2 f e lipschitz com constante L, entao

kf (x) f (y) 2 f (y)(x y)k Lkx yk2 ,

para todos x, y U .

Demonstracao. Fixados x, y U , dena = Lkx yk e h : IRn IRn dada por


h(z) = f (z) 2 f (y)z. Assim, para todo z [x, y], temos

kJh (z)k = k2 f (z) 2 f (y)k Lkz yk Lkx yk = .

Usando a desigualdade do valor medio, obtemos

kf (x) f (y) 2 f (y)(x y)k = kh(x) h(y)k kx yk = Lkx yk2 ,

completando a demonstracao.
O proximo resultado estabelece a convergencia quadratica do metodo de Newton
puro, isto e, com tk = 1, para todo k IN.

Teorema 5.11 Seja f : IRn IR de classe C 2 . Suponha que x IRn seja um minimiza-
dor local de f , com 2 f (x ) definida positiva. Entao existe > 0 tal que se x0 B(x , ),
o Algoritmo 5.6, aplicado com tk = 1 para todo k IN, gera uma sequencia (xk ) tal que:

(i) 2 f (xk ) e definida positiva, para todo k IN;

(ii) (xk ) converge superlinearmente para x ;

(iii) Se 2 f e lipschitz, entao a convergencia e quadratica.

Demonstracao. Sejam e M as constantes denidas no Lema 5.8 e U = B(x , ). Assim,


se xk U , o passo de Newton esta bem denido e, como f (x ) = 0, vale
( )1 ( )
xk+1 x = 2 f (xk ) f (x ) f (xk ) 2 f (xk )(x xk ) . (5.8)

1
Podemos diminuir , se necessario, de modo que sup k2 f (x) 2 f (y)k < . Pelos
x,yU 2M
Lemas 5.8 e 5.9, conclumos que
1
kxk+1 x k kxk x k.
2

Isto prova que a sequencia (xk ) esta bem denida, que xk U , para todo k IN e
que xk x , donde segue (i). Vejamos que a convergencia e superlinear. Dado > 0,

considere 0 < tal que sup k2 f (x) 2 f (y)k < , onde U0 = B(x , 0 ). Tome
x,yU0 M
Metodos para Otimizacao Irrestrita 62

k0 IN tal que xk U0 , para todo k k0 . Aplicando novamente os Lemas 5.8 e 5.9 na


relacao (5.8), obtemos
kxk+1 x k kxk x k,

provando assim (ii). Finalmente, se 2 f e lipschitz, podemos usar os Lemas 5.8 e 5.10
em (5.8) para obter
kxk+1 x k M Lkxk x k2 ,

completando a demonstracao.

5.3 Metodos de direcoes conjugadas - variedades


Metodos de direcoes conjugadas sao metodos de primeira ordem (usam apenas
informacoes da funcao e do gradiente) com convergencia mais rapida que o metodo de
Cauchy e custo computacional menor do que Newton. Enquanto Cauchy pode gastar
uma innidade de passos para resolver uma quadratica, Newton a resolve em um passo.
Veremos que os metodos de direcoes conjugadas minimizam uma quadratica denida em
IRn usando no maximo n passos.

5.3.1 Minimizacao em variedades lineares


A abordagem classica dos metodos de direcoes conjugadas considera minimizacao
unidirecional e em seguida estabelece a equivalencia com a minimizacao em variedades
lineares de dimensao crescente, partindo de 1 e chegando em n. Neste texto vamos inverter
a apresentacao destes temas, seguindo as ideias de Conn, Gould e Toint [3].
Considere a funcao quadratica f : IRn IR dada por

1
f (x) = xT Ax + bT x + c, (5.9)
2

com A IRnn denida positiva, b IRn e c IR. Seu unico minimizador x , que e
global, satisfaz
Ax + b = f (x ) = 0. (5.10)

Dado um subespaco vetorial W IRn , com dim(W ) = r, considere S IRnr


uma matriz cujas colunas formam uma base W . Note que qualquer elemento de W pode
ser escrito como S, para algum vetor IRr . O proximo resultado nos permite obter o
minimizador de f na variedade linear x + W , onde x e um ponto arbitrario de IRn .

Lema 5.12 Dados x IRn e a variedade linear V = {x + S | IRr }, o minimizador


da funcao quadratica f na variedade linear V e dado por

x+ = x S(S T AS)1 S T f (x).


Metodos para Otimizacao Irrestrita 63

Alem disso, S T f (x+ ) = 0.

Demonstracao. Dena : IRr IR por () = f (x + S). Um minimizador + de


satisfaz
S T f (x + S + ) = ( + ) = 0. (5.11)

Substituindo a expressao de f , obtemos


( )
S T f (x) + S T AS + = S T A(x + S + ) + b = 0.

Note que para qualquer 6= 0, temos S 6= 0, pois as colunas de S sao linearmente


independentes. Como A e denida positiva, S T AS tambem e denida positiva e portanto
inversvel. Assim,
+ = (S T AS)1 S T f (x).

Alem disso, a positividade de S T AS = 2 implica que e estritamente convexa, donde


segue que + e o minimizador de . Portanto,

x+ = x + S +

e o minimizador de f na variedade linear V . Isto prova a primeira armacao do lema. A


segunda armacao segue diretamente de (5.11).

Observacao. A variedade linear V = x + W independe do ponto x, no sentido de que


se x V , entao x + W = V . Com este fato e o Lema 5.12 podemos agora formular um
algoritmo que minimiza uma quadratica denida em IRn usando no maximo n iteracoes.
Suponha que {d0 , d1 , . . . , dn1 } e uma base do IRn e denote Sk IRn(k+1) a matriz
cujas colunas sao os vetores d0 , d1 , . . . , dk . Dado x0 IRn , dena para k = 0, 1, . . . , n 1,

xk+1 = x0 Sk (SkT ASk )1 SkT f (x0 ). (5.12)

Pelo Lema 5.12, xk+1 e o minimizador de f na variedade linear x0 + [d0 , d1 , . . . , dk ]. Em


particular, xn minimiza f em IRn .
Veremos agora que o algoritmo dado por (5.12) pode ser reescrito de forma que
k+1
x dependa de xk ao inves de x0 . Para isto note que

xk x0 + [d0 , d1 , . . . , dk1 ] x0 + [d0 , d1 , . . . , dk ]. (5.13)

Pela observacao acima, temos que xk + [d0 , d1 , . . . , dk ] = x0 + [d0 , d1 , . . . , dk ] e portanto


podemos tomar x = xk no Lema 5.12 e escrever

xk+1 = xk Sk (SkT ASk )1 SkT f (xk ). (5.14)


Metodos para Otimizacao Irrestrita 64

Alem disso, pelo mesmo lema, temos

T
Sk1 f (xk ) = 0, (5.15)

donde segue que ( )


0
SkT f (xk ) = IRk+1 . (5.16)
(d ) f (xk )
k T

O processo iterativo dado por (5.14) tem vantagem teorica, pois converge em n
passos para o minimizador de f . No entanto, ele e pouco pratico uma vez que o passo
tem um alto custo computacional. Veremos na proxima secao um conceito que facilitara
o calculo do passo.

5.3.2 Direcoes conjugadas


Apresentamos nesta secao a denicao e os principais resultados sobre direcoes
conjugadas.

Definicao 5.13 Seja A IRnn uma matriz definida positiva. Dizemos que os vetores
d0 , d1 , . . . , dk IRn \ {0} sao A-conjugados se

(di )T Adj = 0,

para todos i, j = 0, 1, . . . , k, com i 6= j.

Note que, no caso particular onde A e a matriz identidade, vetores A-conjugados


sao ortogonais no sentido usual. No caso geral, podemos provar a independencia linear
de vetores A-conjugados.

Lema 5.14 Seja A IRnn uma matriz definida positiva. Um conjunto qualquer de
vetores A-conjugados e linearmente independente.

Demonstracao. Sejam d0 , d1 , . . . , dk IRn \ {0} vetores A-conjugados. Considere constan-


tes a0 , a1 , . . . , ak IR tais que

a0 d0 + a1 d1 + . . . + ak dk = 0.

Dado i {0, 1, . . . , k}, multiplicando os dois membros da igualdade acima por (di )T A,
obtemos
ai (di )T Adi = 0,

donde segue que ai = 0, pois A e denida positiva.


O proximo resultado mostra que os passos nao nulos obtidos pela sequencia (5.14)
sao A-conjugados.
Metodos para Otimizacao Irrestrita 65

Lema 5.15 Considere a sequencia definida em (5.14) e defina para k = 0, 1, . . . , n 1,

pk = xk+1 xk .

Entao, para i, j = 0, 1, . . . , n 1, com i 6= j, temos

(pi )T Apj = 0.

Demonstracao. Sejam i, j {0, 1, . . . , n 1}, com i < j. Usando a denicao de f em


(5.9), temos
( )
(pi )T Apj = (pi )T A(xj+1 xj ) = (pi )T f (xj+1 ) f (xj ) . (5.17)

Por (5.13), temos que


{ }
xi , xi+1 x0 + [d0 , d1 , . . . , di ],

donde segue que pi [d0 , d1 , . . . , di ]. Portanto, usando a relacao (5.15) em (5.17), obtemos

(pi )T Apj = 0,

completando a demonstracao.
Veremos agora que se as direcoes d0 , d1 , . . . , dn1 , usadas para denir a sequencia
(5.14), forem A-conjugadas, entao os passos serao paralelos a estas direcoes. Alem disso, a
sequencia podera ser reescrita de forma mais simples, como resultado de uma minimizacao
unidirecional.

Teorema 5.16 Considere a sequencia definida em (5.14). Se os vetores d0 , d1 , . . . , dn1


sao A-conjugados, entao
xk+1 = xk + tk dk ,
f (xk )T dk
onde tk = .
(dk )T Adk

Demonstracao. Temos

(d0 )T (d0 )T Ad0 0
. .. ..
SkT ASk = . 0 k
. A(d d ) = .
..
. . .

k T
(d ) 0 (d ) Ad
k T k

Portanto, usando (5.16), obtemos



0
(SkT ASk )1 SkT f (xk ) = f (xk )T dk IRk+1 .
(dk )T Adk
Metodos para Otimizacao Irrestrita 66

Assim,
0 ( )
f (x k T k
) d
xk+1 = x (d d ) f (xk )T dk = x
k 0 k k
k T k
dk ,
(d ) Ad
(dk )T Adk
completando a demonstracao.

O Teorema 5.16 signica que xk+1 pode ser obtido por uma busca exata a partir
de xk , na direcao dk . De fato, denindo : IR IR por (t) = f (xk + tdk ), temos
( )T
0 (tk ) = f (xk +tk dk )T dk = A(xk +tk dk )+b dk = f (xk )T dk +tk (dk )T Adk = 0. (5.18)

5.3.3 Algoritmo de gradientes conjugados


Vimos na Secao 5.3.2 como obter o minimizador de uma funcao quadratica es-
tritamente convexa a partir de um conjunto de direcoes conjugadas. Veremos agora um
modo de gerar tais direcoes.
Dado x0 IRn , dena d0 = f (x0 ) e, para k = 0, 1, . . . , n 2,

dk+1 = f (xk+1 ) + k dk , (5.19)

onde xk+1 e calculado de acordo com o Teorema 5.16 e k e tal que dk e dk+1 sejam
A-conjugadas, ou seja,
( )
(dk )T A f (xk+1 ) + k dk = (dk )T Adk+1 = 0.

Isto nos fornece


(dk )T Af (xk+1 )
k = . (5.20)
(dk )T Adk
Podemos agora apresentar o algoritmo de gradientes conjugados.

Algoritmo 5.17 Gradientes conjugados

Dado x0 IRn , faca d0 = f (x0 )


k=0
repita enquanto f (xk ) 6= 0
f (xk )T dk
tk = k T k
(d ) Ad
k+1
x = xk + tk dk
(dk )T Af (xk+1 )
k =
(dk )T Adk
dk+1
= f (xk+1 ) + k dk
k =k+1
Metodos para Otimizacao Irrestrita 67

Salientamos que o Algoritmo 5.17 esta bem denido, isto e, se f (xk ) 6= 0, entao
6 0 e assim o novo ponto pode ser calculado. De fato, usando a relacao (5.18), obtemos
dk =
( )
f (xk )T dk = f (xk )T f (xk ) + k1 dk1 = kf (xk )k2 . (5.21)

Outra caracterstica deste algoritmo, que nao era necessariamente valida para
direcoes conjugadas em geral, e que as direcoes geradas aqui sao de descida, como pode
ser visto pela relacao (5.21).
O proximo resultado estabelece que as direcoes geradas pelo algoritmo sao, de
fato, A-conjugadas. Antes porem, e conveniente notar que

tj Adj = A(xj+1 xj ) = f (xj+1 ) f (xj ). (5.22)

Teorema 5.18 Se xk e dk foram gerados pelo Algoritmo 5.17, entao

f (xk )T f (xj ) = 0 e (dk )T Adj = 0,

para todo j = 0, 1, . . . , k 1.

Demonstracao. Para simplicar a notacao, vamos escrever gi = f (xi ). O resultado sera


provado usando inducao em k. Para k = 1, usando (5.18), obtemos g1T g0 = g1T d0 = 0.
Alem disso, a denicao de 0 em (5.20) implica (d1 )T Ad0 = 0. Suponha agora que o
resultado vale para k. Vamos provar que vale para k + 1. Pela hipotese de inducao,
as direcoes d0 , d1 , . . . , dk sao A-conjugadas. Assim, os elementos xj , j = 0, 1, . . . , k + 1,
coincidem com os gerados por (5.14). Portanto, podemos aplicar o Lema 5.12 e concluir
T
que gk+1 dj = 0, para j = 0, 1, . . . , k. Assim, usando (5.19), obtemos
( )
T
gk+1 T
gj = gk+1 dj + j1 dj1 = 0, (5.23)

para j = 0, 1, . . . , k. Finalmente, da denicao de k em (5.20), segue que (dk+1 )T Adk = 0.


Alem disso, para j < k, a hipotese de inducao nos fornece
( )T
(dk+1 )T Adj = gk+1 + k dk Adj = gk+1
T
Adj .

Usando a relacao (5.22) e o que foi estabelecido em (5.23), obtemos


( )
gj+1 gj
(d k+1 T j
) Ad = gk+1
T
= 0,
tj

completando a demonstracao.
O Teorema 5.18 e os resultados da Secao 5.3.2 garantem que o Algoritmo 5.17
minimiza a quadratica denida em (5.9) com no maximo n passos. No entanto, vale dizer
que se pode tirar esta conclusao sem apelar para o que foi visto naquela secao. De fato,
Metodos para Otimizacao Irrestrita 68

se o ponto xn foi gerado pelo algoritmo, entao os gradientes f (xj ), j = 0, 1, . . . , n 1


sao nao nulos. Assim, pelo Teorema 5.18, eles formam uma base (ortogonal) de IRn e

f (xn )T f (xj ) = 0,

para todo j = 0, 1, . . . , n 1. Portanto, f (xn ) = 0.


Vamos agora vericar que o calculo de k pode ser feito de outras maneiras.

Teorema 5.19 No contexto do Algoritmo 5.17, temos que


T
gk+1 (gk+1 gk ) T
gk+1 gk+1
k = T
= T
.
gk gk gk gk

gk+1 gk
Demonstracao. Por (5.22), temos que Adk = . Portanto,
tk
T
gk+1 Adk T
gk+1 (gk+1 gk )
k = = .
k T
(d ) Ad k (d ) (gk+1 gk )
k T

Usando (5.18) e (5.21), obtemos

T
gk+1 (gk+1 gk )
k = ,
gkT gk

T
provando assim a primeira igualdade. A outra expressao segue do fato de que gk+1 gk = 0,
provado no Teorema 5.18.
O Teorema 5.19 tem um interesse tanto computacional quanto teorico. Para se
calcular k pela formula original, pode ser caro efetuar os produtos pela matriz Hessiana.
Entretanto, as expressoes dadas neste teorema usam apenas produto de vetores. Outra
observacao importante e que para funcoes nao quadraticas tais expressoes podem nao ser
iguais. Temos assim duas variantes do metodo de gradientes conjugados. Uma delas,
proposta por Polak and Ribiere, utiliza
T
gk+1 (gk+1 gk )
kPR = ,
gkT gk

enquanto a outra, devida a Fletcher and Reeves, considera


T
gk+1 gk+1
kFR = T
.
gk gk

5.4 Metodo de direcoes conjugadas - versao classica


Metodos de direcoes conjugadas sao metodos de primeira ordem (usam apenas
informacoes da funcao e do gradiente) com convergencia mais rapida que o metodo de
Metodos para Otimizacao Irrestrita 69

Cauchy e custo computacional menor do que Newton. Enquanto Cauchy pode gastar
uma innidade de passos para resolver uma quadratica, Newton a resolve em um passo.
Veremos que os metodos de direcoes conjugadas minimizam uma quadratica denida em
IRn usando no maximo n passos.

5.4.1 Direcoes conjugadas


Apresentamos nesta secao a denicao e os principais resultados sobre direcoes
conjugadas.

Definicao 5.20 Seja A IRnn uma matriz definida positiva. Dizemos que os vetores
d0 , d1 , . . . , dk IRn \ {0} sao A-conjugados se

(di )T Adj = 0,

para todos i, j = 0, 1, . . . , k, com i 6= j.

Note que, no caso particular onde A e a matriz identidade, vetores A-conjugados


sao ortogonais no sentido usual. No caso geral, podemos provar a independencia linear
de vetores A-conjugados.

Lema 5.21 Seja A IRnn uma matriz definida positiva. Um conjunto qualquer de
vetores A-conjugados e linearmente independente.

Demonstracao. Sejam d0 , d1 , . . . , dk IRn \ {0} vetores A-conjugados. Considere constan-


tes a0 , a1 , . . . , ak IR tais que

a0 d0 + a1 d1 + . . . + ak dk = 0.

Dado i {0, 1, . . . , k}, multiplicando os dois membros da igualdade acima por (di )T A,
obtemos
ai (di )T Adi = 0,

donde segue que ai = 0, pois A e denida positiva.


Veremos agora que o conhecimento de direcoes conjugadas permite obter o mini-
mizador de uma funcao quadratica. Considere a funcao f : IRn IR dada por

1
f (x) = xT Ax + bT x + c, (5.24)
2

com A IRnn denida positiva, b IRn e c IR. A funcao f tem um unico minimizador
x , que e global e satisfaz
Ax + b = f (x ) = 0. (5.25)
Metodos para Otimizacao Irrestrita 70

Dado um conjunto qualquer de direcoes A-conjugadas {d0 , d1 , . . . , dn1 }, vamos


denir uma sequencia nita do seguinte modo: tome x0 IRn arbitrario e dena para
k = 0, 1, . . . , n 1,
xk+1 = xk + tk dk , (5.26)

onde
{ }
tk = argmin f (xk + tdk ) .
tIR

Note que a minimizacao acima e calculada sobre toda a reta e nao apenas para valores
positivos de t, pois a direcao dk pode nao ser de descida para f no ponto xk . Alem disso,
como f e quadratica, podemos obter uma formula explcita para tk . Para isso, dena
: IR IR por (t) = f (xk + tdk ). Usando a denicao de tk , obtemos

f (xk+1 )T dk = f (xk + tk dk )T dk = 0 (tk ) = 0. (5.27)

Por outro lado, temos

f (xk+1 ) = A(xk + tk dk ) + b = f (xk ) + tk Adk . (5.28)

Substituindo isto em (5.27), obtemos

f (xk )T dk
tk = . (5.29)
(dk )T Adk

O teorema a seguir mostra que o algoritmo dado por (5.26) minimiza a quadratica
denida em (5.24) com no maximo n passos.

Teorema 5.22 Considere a funcao quadratica dada por (5.24) e seu minimizador x ,
definido em (5.25). Dado x0 IRn , a sequencia finita definida em (5.26) cumpre xn = x .

Demonstracao. Pelo Lema 5.21, o conjunto {d0 , d1 , . . . , dn1 } e uma base de IRn . Portanto,
existem escalares i IR, i = 0, 1, . . . , n 1, tais que


n1

x x = 0
i di . (5.30)
i=0

Considere k {0, 1, . . . , n 1} arbitrario. Multiplicando a relacao (5.30) por (dk )T A e


levando em conta que as direcoes sao A-conjugadas, temos que

(dk )T A(x x0 ) = k (dk )T Adk .

Assim,
(dk )T A(x x0 )
k = . (5.31)
(dk )T Adk
Metodos para Otimizacao Irrestrita 71

Por outro lado, pela denicao de xk em (5.26), temos

xk = x0 + t0 d0 + t1 d1 + + tk1 dk1 ,

que multiplicando por (dk )T A, implica

(dk )T Axk = (dk )T Ax0 ,

pois as direcoes sao A-conjugadas. Substituindo isto em (5.31) e usando (5.25), obtemos

(dk )T (b + Axk ) (dk )T f (xk )


k = = = tk .
(dk )T Adk (dk )T Adk

Portanto, de (5.30) segue que


n1
0
x =x + ti di = xn ,
i=0

completando a demonstracao.
Veremos agora um resultado que sera usado para provar que o ponto xk minimiza
a quadratica nao apenas em uma reta como tambem na variedade linear de dimensao k,
dada por x0 + [d0 , d1 , . . . , dk1 ].

Lema 5.23 Dado x0 IRn , considere a sequencia finita definida em (5.26). Entao

f (xk )T dj = 0,

para todo j = 0, 1, . . . , k 1.

Demonstracao. Pela relacao (5.27), temos que f (xk )T dk1 = 0, provando a armacao
para j = k 1. Considere agora j < k 1. Usando (5.28) e o fato das direcoes serem
A-conjugadas, obtemos
( )T
f (xk )T dj = f (xk1 ) + tk1 Adk1 dj = f (xk1 )T dj .

O resultado desejado segue por inducao.

Teorema 5.24 Dado x0 IRn , considere a sequencia finita definida em (5.26). Entao o
ponto xk minimiza f sobre a variedade linear C = x0 + [d0 , d1 , . . . , dk1 ].

Demonstracao. Note primeiro que, por (5.26), temos xk C. Assim,

x xk [d0 , d1 , . . . , dk1 ],
Metodos para Otimizacao Irrestrita 72

para todo x C. Portanto, pelo Lema 5.23, temos que

f (xk )T (x xk ) = 0.

Como f e convexa e C e um conjunto convexo, podemos aplicar o Corolario 3.11 para


concluir a demonstracao.

5.4.2 Algoritmo de gradientes conjugados


Vimos na Secao 5.4.1 como obter o minimizador de uma funcao quadratica es-
tritamente convexa a partir de um conjunto de direcoes conjugadas. Veremos agora um
modo de gerar tais direcoes.
Dado x0 IRn , dena d0 = f (x0 ) e, para k = 0, 1, . . . , n 2,

dk+1 = f (xk+1 ) + k dk , (5.32)

onde xk+1 e dado por (5.26) e k e calculado de modo que dk e dk+1 sejam A-conjugadas,
ou seja,
( )
(dk )T A f (xk+1 ) + k dk = (dk )T Adk+1 = 0.

Isto nos fornece


(dk )T Af (xk+1 )
k = . (5.33)
(dk )T Adk
Podemos agora apresentar o algoritmo de gradientes conjugados.

Algoritmo 5.25 Gradientes conjugados

Dado x0 IRn , faca d0 = f (x0 )


k=0
repita enquanto f (xk ) 6= 0
f (xk )T dk
tk = k T k
(d ) Ad
k+1
x = xk + tk dk
(dk )T Af (xk+1 )
k =
(dk )T Adk
dk+1
= f (xk+1 ) + k dk
k =k+1

Salientamos que o Algoritmo 5.25 esta bem denido, isto e, se f (xk ) 6= 0, entao
6 0 e assim o novo ponto pode ser calculado. De fato, usando a relacao (5.27), obtemos
dk =
( )
f (xk )T dk = f (xk )T f (xk ) + k1 dk1 = kf (xk )k2 . (5.34)
Metodos para Otimizacao Irrestrita 73

Outra caracterstica deste algoritmo, que nao era necessariamente valida para
direcoes conjugadas em geral, e que as direcoes geradas aqui sao de descida, como pode
ser visto pela relacao (5.34).
O proximo resultado estabelece que as direcoes geradas pelo algoritmo sao, de
fato, A-conjugadas.

Teorema 5.26 Se xk e dk foram gerados pelo Algoritmo 5.25, entao

f (xk )T f (xj ) = 0 e (dk )T Adj = 0,

para todo j = 0, 1, . . . , k 1.

Demonstracao. Para simplicar a notacao, vamos escrever gi = f (xi ). O resultado sera


provado usando inducao em k. Para k = 1, usando (5.27), obtemos g1T g0 = g1T d0 = 0.
Alem disso, a denicao de 0 em (5.33) implica (d1 )T Ad0 = 0. Suponha agora que o
resultado vale para k. Vamos provar que vale para k + 1. Pela hipotese de inducao, as
direcoes d0 , d1 , . . . , dk sao A-conjugadas. Assim, podemos aplicar o Lema 5.23 e concluir
T
que gk+1 dj = 0, para j = 0, 1, . . . , k. Assim, usando (5.32), obtemos
( )
T
gk+1 T
gj = gk+1 dj + j1 dj1 = 0, (5.35)

para j = 0, 1, . . . , k. Finalmente, da denicao de k em (5.33), temos que (dk+1 )T Adk = 0.


Alem disso, para j < k, a hipotese de inducao nos fornece
( )T
(dk+1 )T Adj = gk+1 + k dk Adj = gk+1
T
Adj .

Usando a relacao (5.28) e o que foi estabelecido em (5.35), obtemos


( )
gj+1 gj
(d k+1 T j
) Ad = gk+1
T
= 0.
tj

O Teorema 5.26 e os resultados da Secao 5.4.1 garantem que o Algoritmo 5.25


minimiza a quadratica denida em (5.24) com no maximo n passos. No entanto, vale dizer
que se pode tirar esta conclusao sem apelar para o que foi visto naquela secao. De fato,
se o ponto xn foi gerado pelo algoritmo, entao os gradientes f (xj ), j = 0, 1, . . . , n 1
sao nao nulos. Assim, pelo Teorema 5.26, eles formam uma base (ortogonal) de IRn e

f (xn )T f (xj ) = 0,

para todo j = 0, 1, . . . , n 1. Portanto, f (xn ) = 0.


Vamos agora vericar que o calculo de k pode ser feito de outras maneiras.
Metodos para Otimizacao Irrestrita 74

Teorema 5.27 No contexto do Algoritmo 5.25, temos que


T
gk+1 (gk+1 gk ) T
gk+1 gk+1
k = T
= T
.
gk gk gk gk

gk+1 gk
Demonstracao. Por (5.28), temos que Adk = . Portanto,
tk
T
gk+1 Adk T
gk+1 (gk+1 gk )
k = = .
k T
(d ) Ad k (d ) (gk+1 gk )
k T

Usando o Lema 5.23 e (5.34), obtemos

T
gk+1 (gk+1 gk )
k = ,
gkT gk

T
provando assim a primeira igualdade. A outra expressao segue do fato de que gk+1 gk = 0,
provado no Teorema 5.26.
O Teorema 5.27 tem um interesse tanto computacional quanto teorico. Para se
calcular k pela formula original, pode ser caro efetuar os produtos pela matriz Hessiana.
Entretanto, as expressoes dadas neste teorema usam apenas produto de vetores. Outra
observacao importante e que para funcoes nao quadraticas tais expressoes podem nao ser
iguais. Temos assim duas variantes do metodo de gradientes conjugados. Uma delas,
proposta por Polak and Ribiere, utiliza
T
gk+1 (gk+1 gk )
kPR = ,
gkT gk

enquanto a outra, devida a Fletcher and Reeves, considera


T
gk+1 gk+1
kFR = T
.
gk gk

5.5 Metodo de regiao de confianca


O metodo de regiao de conanca dene um modelo da funcao objetivo e uma
regiao em torno do ponto corrente na qual conamos no modelo. Calculamos entao, um
minimizador aproximado do modelo na regiao de conanca. Caso este ponto forneca uma
reducao razoavel no valor da funcao objetivo ele e aceito e repete-se o processo. Caso
contrario, pode ser que o modelo nao represente adequadamente a funcao. Neste caso, o
ponto e recusado e o tamanho da regiao e reduzido para encontrar um novo minimizador.
Em geral, a direcao do passo pode mudar quando o tamanho da regiao e alterado. Isto
signica que a losoa deste metodo e diferente da que aparece nos metodos discutidos
anteriormente. A ideia ate entao era xar uma direcao e, em seguida, determinar quanto
Metodos para Otimizacao Irrestrita 75

caminhar nesta direcao para reduzir a funcao objetivo. Agora, dizemos primeiro quanto
podemos caminhar e depois calculamos a direcao.
Vamos considerar uma funcao f : IRn IR de classe C 2 e, dado um ponto
xk IRn , o modelo quadratico de f em torno de xk denido por

1
qk (x) = f (xk ) + f (xk )T (x xk ) + (x xk )T Bk (x xk ),
2

onde Bk IRnn pode ser a hessiana 2 f (xk ) ou qualquer outra matriz simetrica que
satisfaca kBk k , para alguma constante > 0, independente de k IN.
O modelo denido acima aproxima bem a funcao f numa vizinhanca de xk .
Vamos portanto considerar k > 0 e a regiao
{ }
x IRn | kx xk k k ,

em que conamos no modelo. Para simplicar a notacao, considere

d = x xk e mk (d) = qk (xk + d).

Na primeira etapa do metodo, resolvemos (possivelmente de forma aproximada) o sub-


problema
1
minimizar mk (d) = f (xk ) + f (xk )T d + dT Bk d
2 (5.36)
sujeito a kdk k ,

obtendo um passo dk . A outra etapa consiste em avaliar o passo. Esperamos que o ponto
xk + dk proporcione uma reducao na funcao objetivo que seja no mnimo uma fracao da
reducao do modelo. Para formalizar este conceito denimos a reducao real na funcao
objetivo e a reducao predita pelo modelo como

ared = f (xk ) f (xk + dk ) e pred = mk (0) mk (dk ).

Vamos tambem considerar seguinte razao, que sera usada na avaliacao do passo.

ared
k = . (5.37)
pred

O passo dk sera aceito quando a razao k for maior que uma constante 0 dada.
Neste caso, denimos xk+1 = xk + dk e repetimos o processo. Caso contrario, recusamos
o passo dk , reduzimos o raio k e resolvemos o subproblema (5.36) com o novo raio. A
Figura 5.5 ilustra um passo do metodo de regiao de conanca. Note que no graco da
direita o minimizador irrestrito do modelo esta na regiao de conanca. Neste caso, se
Bk = 2 f (xk ), entao o passo de regiao de conanca e exatamente o passo de Newton.
Metodos para Otimizacao Irrestrita 76

xk+1
xk+1
xk
xk

Figura 5.5: uma iteracao do metodo de regiao de conanca.

5.5.1 Algoritmo
Vamos agora formalizar a discussao anterior no seguinte algoritmo, que se baseia
no proposto em [21]. Tambem consideramos importante citar [3], uma referencia moderna
sobre metodos de regiao de conanca.

Algoritmo 5.28 Regiao de confianca

Dados: x0 IRn ,
> 0, 0 (0, )
e [0, 1 )
4
k=0
repita enquanto f (xk ) 6= 0
Obtenha dk , solucao aproximada de (5.36)
Calcule k usando (5.37)
se k >
xk+1 = xk + dk
senao
xk+1 = xk
1
se k <
4
k
k+1 =
2
senao
3
se k > e kdk k = k
4 { }
k+1 = min 2k ,
senao
k+1 = k
k =k+1

Note que mk (0) = f (xk ). Assim, se entramos no repita do Algoritmo 5.28,


entao mk (0) 6= 0 e portanto a reducao predita sera positiva. Outra observacao e que
Metodos para Otimizacao Irrestrita 77

aumentamos o raio quando a reducao da funcao objetivo e grande e o passo dk esta na


fronteira da regiao de conanca. Se o passo ca estritamente dentro da regiao, podemos
inferir que o raio atual k nao interfere no progresso do algoritmo e podemos deixar
inalterado o seu valor para a proxima iteracao.

5.5.2 O passo de Cauchy


Vamos discutir agora como obter uma solucao aproximada do subproblema (5.36)
que seja suciente para garantir a convergencia global do Algoritmo 5.28. Isto e impor-
tante pois muitas vezes nao conseguimos resolver o subproblema de forma exata. O passo
de Cauchy, que deniremos abaixo, fornece uma reducao no modelo que nos permite
provar a convergencia do algoritmo.
Para facilitar o desenvolvimento, vamos denotar gk = f (xk ). Denimos o passo
de Cauchy como sendo o minimizador de mk ao longo da direcao oposta ao gradiente,
sujeito a regiao de conanca, isto e,

dkc = tk gk , (5.38)

onde tk > 0 e solucao do problema

1
minimizar mk (tgk ) = f (xk ) tkgk k2 + t2 gkT Bk gk
2 (5.39)
sujeito a ktgk k k .

A Figura 5.6 mostra o ponto de Cauchy em uma iteracao k. Nesta gura, as elipses

x kc

xk

Figura 5.6: o ponto de Cauchy e pontos melhores.

representam as curvas de nvel do modelo mk . A area hachurada corresponde ao conjunto


de pontos que satisfazem a relacao

pred mk (0) mk (dkc ). (5.40)

Esta condicao sera a base de uma das hipoteses na analise de convergencia, isto e, vamos
Metodos para Otimizacao Irrestrita 78

supor que a solucao aproximada do subproblema (5.36) seja pelo menos tao boa quanto
a solucao de Cauchy.
Vamos agora fazer uma estimativa da reducao do modelo no passo de Cauchy.

Lema 5.29 O passo de Cauchy, definido em (5.38), satisfaz


{ }
1 kgk k
mk (0) mk (dkc ) kgk k min k , .
2 kBk k

Demonstracao. Primeiramente, vamos obter tk , solucao do Problema 5.39, isto e, o mini-


mizador da funcao quadratica

1
(t) = f (xk ) tkgk k2 + t2 gkT Bk gk
2

k
no intervalo 0 t . Para isto considere dois casos: gkT Bk gk > 0 e gkT Bk gk 0.
kgk k
(i) Se gkT Bk gk > 0, entao a funcao e convexa (veja a Figura 5.7) e tem minimi-
zador irrestrito
kgk k2
t = T . (5.41)
gk Bk gk
k
Dois subcasos podem ocorrer. O primeiro e quando t . Neste caso temos tk = t
kgk k
e portanto
1 kgk k4
mk (0) mk (dkc ) = .
2 gkT Bk gk
Usando a desigualdade de Cauchy-Schwarz, obtemos

1 kgk k2
mk (0) mk (dkc ) . (5.42)
2 kBk k

k
No segundo subcaso temos t > , o que implica que o minimizador de esta na
kgk k
fronteira. Assim, usando (5.41), obtemos

k kgk k2
tk = < T , (5.43)
kgk k gk Bk gk

implicando em
t2k gkT Bk gk < tk kgk k2 = kgk kk .

Portanto,
1 1
mk (dkc ) < f (xk ) kgk kk + kgk kk = f (xk ) kgk kk ,
2 2
donde segue que
1
mk (0) mk (dkc ) > kgk kk . (5.44)
2
Metodos para Otimizacao Irrestrita 79

(ii) Agora o caso em que gkT Bk gk 0, fornecendo

1
mk (dkc ) = f (xk ) tk kgk k2 + t2k gkT Bk gk f (xk ) tk kgk k2 . (5.45)
2

Neste caso, a funcao e decrescente para t 0 (veja a Figura 5.7) e assim o ponto de
k
Cauchy tambem esta na fronteira da regiao de conanca, ou seja, tk = . Portanto,
kgk k
por (5.45),
1
mk (0) mk (dkc ) kgk kk kgk kk . (5.46)
2
De (5.42), (5.44) e (5.46) segue que
{ }
1 kgk k
mk (0) mk (dkc ) kgk k min k , ,
2 kBk k

o que demonstra o resultado.

t* t t* t t
g g g

Figura 5.7: a funcao .

5.5.3 Convergencia
Para estabelecer a convergencia do metodo de regiao de conanca vamos supor
que o Algoritmo 5.28 gera uma sequencia innita (xk ) em IRn e que sao satisfeitas as
seguintes hipoteses.
H1 A funcao objetivo f e de classe C 1 , com f Lipschitz.

H2 A solucao aproximada dk de (5.36) satisfaz


{ }
kf (xk )k
pred = mk (0) mk (d ) c1 kf (x )k min k ,
k k
,
kBk k

onde c1 > 0 e uma constante.

H3 O passo dk satisfaz kdk k k , para alguma constante 1.

H4 A funcao f e limitada inferiormente no conjunto de nvel


{ }
N = x IRn | f (x) f (x0 ) .
Metodos para Otimizacao Irrestrita 80

H5 As Hessianas Bk sao uniformemente limitadas, isto e, que existe uma constante


> 0 tal que kBk k para todo k IN.

As Hipoteses H1, H4 e H5 sao comuns em analise de convergencia. Em vista do


Lema 5.29, a Hipotese H2 signica obter um passo cuja reducao no modelo seja proporcio-
nal aquela obtida pelo passo de Cauchy. A condicao assumida em H3 signica que o passo
pode exceder a regiao de conanca, contanto que permaneca dentro de algum multiplo
xo do raio.
O primeiro resultado nos da uma estimativa da razao k , denida em (5.37).

Lema 5.30 Suponha que sejam satisfeitas as Hipoteses H1-H5. Entao existe uma cons-
tante c > 0 tal que

c2k
|k 1| { }.
kf (xk )k
kf (x )k min k ,
k

Demonstracao. Pelo teorema do valor medio, temos

f (xk + dk ) = f (xk ) + f (xk + k dk )T dk ,

com k (0, 1). Portanto,

1 ( )T
ared pred = (dk )T Bk dk f (xk + k dk ) f (xk ) dk ,
2

Usando o fato de que f e Lipschitz e a desigualdade de Cauchy-Schwarz, podemos


concluir que existe c0 > 0 tal que

|ared pred| c0 2k .

Assim,
ared pred c0 2k
|k 1| =
{ },
pred kf (x k
)k
c1 kf (xk )k min k ,

c0
provando o lema para c = .
c1
Uma consequencia importante do Lema 5.30 e que o Algoritmo 5.28 esta bem
denido. De fato, apos uma quantidade nita de insucessos, teremos
{ }
kf (xk )k kf (xk )k
k min , .
2c

Portanto, pelo Lema 5.30,


ck 1
|k 1| .
kf (xk )k 2
Metodos para Otimizacao Irrestrita 81

1 1
Assim, k > e, pelo Algoritmo 5.28, o passo sera aceito.
2 4
O proximo teorema ja nos permite concluir algo sobre convergencia, a saber, que
se a sequencia (xk ) for limitada, entao ela possui um ponto de acumulacao estacionario.

Teorema 5.31 Suponha que sejam satisfeitas as Hipoteses H1-H5. Entao

lim inf kf (xk )k = 0.


k

Demonstracao. Suponha por absurdo que isto seja falso. {Entao }existe > 0 tal que
kf (xk )k , para todo k IN. Considere = min , , onde e c sao as
2c
constantes do Lema 5.30. Se k , entao

kf (xk )k
k e k .
2c

Portanto, pelo Lema 5.30,


ck 1
|k 1| .
2
1 1
Assim, k > e pelo Algoritmo 5.28 temos k+1 k . Isto signica que o raio e
2 4

caso em que k+1 = k > . Podemos entao concluir que
reduzido somente se k > ,
2 2
{ }

k min 0 , , (5.47)
2

para todo k IN. Considere agora o conjunto


{ }
1
K= k IN | k .
4

Dado k K, pelo mecanismo do Algoritmo 5.28 e pela Hipotese H2 temos

f (xk ) f (xk+1 ) = f (xk ) f (xk + dk )


1( )
mk (0) mk (dk )
4 { }
1
c1 min k , .
4

Em vista de (5.47), temos que existe uma constante > 0 tal que

f (xk ) f (xk+1 ) , (5.48)

para todo k K. Por outro lado, a sequencia (f (xk )) e nao crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) f (xk+1 ) 0. Portanto, de (5.48), podemos
Metodos para Otimizacao Irrestrita 82

1
concluir que o conjunto K e nito. Assim, k < , para todo k IN sucientemente
4
grande e entao k sera reduzido a metade em cada iteracao. Isto implica k 0, o que
contradiz (5.47). Deste modo, a armacao no teorema e verdadeira.
Finalmente, podemos provar a convergencia global do metodo de regiao de con-
anca.

Teorema 5.32 Suponha que sejam satisfeitas as Hipoteses H1-H5 e que > 0 no Algo-
ritmo 5.28. Entao
f (xk ) 0.

Demonstracao. Suponha por absurdo que para algum > 0 o conjunto


{ }
K = k IN | kf (xk )k


seja innito. Dado k K, considere o primeiro ndice lk > k tal que kf (xlk )k . A
2
existencia de lk e assegurada pelo Teorema 5.31. Como f e Lipschitz, temos


kf (xk ) f (xlk )k Lkxk xlk k,
2

para alguma constante L > 0. Portanto,


kxk xlk k kxj xj+1 k j , (5.49)
2L jS jS
k k

onde Sk = {j IN | k j < lk e xj+1 6= xj }. Pelo mecanismo do Algoritmo 5.28, Hipotese


H2 e denicao de lk , temos
( )
f (xk ) f (xlk ) = f (xj ) f (xj+1 )
k
jS
( )
> mj (0) mj (dj )
jSk
{ }

c1 min j , .
jS

k

{ }
c1 2 c1 2
Denindo = min , e usando (5.49), obtemos
2L

f (xk ) f (xlk ) > 0, (5.50)

para todo k K. Por outro lado, a sequencia (f (xk )) e nao crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) f (xlk ) 0, contradizendo (5.50). Deste modo, a
armacao no teorema e verdadeira.
Uma consequencia imediata do Teorema 5.32 e que todo ponto de acumulacao de
IN0
uma sequencia gerada pelo Algoritmo 5.28 e estacionario. De fato, se xk x, entao a
Metodos para Otimizacao Irrestrita 83

IN0
continuidade de f garante que f (xk ) f (x). Por outro lado, pelo Teorema 5.32,
temos f (xk ) 0. Assim, f (x) = 0.
Vamos reapresentar agora o Lema 5.30 e o Teorema 5.31, mas com uma hipotese
mais fraca que H1. Vamos substituir a condicao de Lipschitz de f pela continuidade
uniforme.

Lema 5.33 Suponha que f seja de classe C 1 e que sejam satisfeitas as Hipoteses H2-H5.
Entao ( )
{ }
k k + sup kf (xk + tdk ) f (xk )k
2 t[0,1]
|k 1| { } ,
kf (xk )k
c1 kf (x )k min k ,
k

onde c1 , e sao as constantes das Hipoteses H2, H3 e H5, respectivamente.

Demonstracao. Pelo teorema do valor medio, temos

f (xk + dk ) = f (xk ) + f (xk + k dk )T dk ,

com k (0, 1). Portanto,

1 ( )T
ared pred = (dk )T Bk dk f (xk + k dk ) f (xk ) dk ,
2

Usando a desigualdade de Cauchy-Schwarz e as Hipoteses H3 e H5, obtemos


( )
{ }
|ared pred| k k + sup kf (xk + tdk ) f (xk )k .
2 t[0,1]


ared pred

Notando que |k 1| = e usando H2, completamos a prova.
pred

Teorema 5.34 Suponha que f seja de classe C 1 , com f uniformemente contnua e que
sejam satisfeitas as Hipoteses H2-H5. Entao

lim inf kf (xk )k = 0.


k

Demonstracao. Suponha por absurdo que isto seja falso. Entao existe > 0 tal que
kf (xk )k , para todo k IN. Pela continuidade uniforme de f , existe > 0 tal que
se kdk k , entao
{ } c1
sup kf (xk + tdk ) f (xk )k . (5.51)
t[0,1] 4
Metodos para Otimizacao Irrestrita 84

{ }
= min c 1
Considere , , , onde c1 , e sao as constantes das Hipoteses H2, H3
2 2
e H5, respectivamente. Se k , entao

kf (xk )k 2 k 1
k , k e . (5.52)
2c1 4

Portanto, pelo Lema 5.33 e pelas relacoes (5.51) e (5.52),


( )
c1 2 k 1 1
|k 1| k + = + .
c1 2 4 2c1 4 2

1 1
Assim, k > e pelo Algoritmo 5.28 temos k+1 k . Isto signica que o raio e
2 4

caso em que k+1 = k > . Podemos entao concluir que
reduzido somente se k > ,
2 2
{ }

k min 0 , , (5.53)
2

para todo k IN. Considere agora o conjunto


{ }
1
K= k IN | k .
4

Dado k K, pelo mecanismo do Algoritmo 5.28 e pela Hipotese H2 temos

f (xk ) f (xk+1 ) = f (xk ) f (xk + dk )


1( )
mk (0) mk (dk )
4 { }
1
c1 min k , .
4

Em vista de (5.53), temos que existe uma constante > 0 tal que

f (xk ) f (xk+1 ) , (5.54)


( )
para todo k K. Por outro lado, a sequencia f (xk ) e nao crescente e, por H4, limitada
inferiormente, donde segue que f (xk ) f (xk+1 ) 0. Portanto, de (5.54), podemos
1
concluir que o conjunto K e nito. Assim, k < , para todo k IN sucientemente
4
grande e entao k sera reduzido a metade em cada iteracao. Isto implica k 0, o que
contradiz (5.53). Deste modo, a armacao no teorema e verdadeira.

5.5.4 O metodo dogleg


Como vimos, o passo de Cauchy ja e suciente para provar a convergencia global
do Algoritmo 5.28. No entanto, podemos acelerar o metodo obtendo uma solucao aproxi-
Metodos para Otimizacao Irrestrita 85

mada do subproblema (5.36) que seja melhor que a de Cauchy. Uma forma e dada pelo
metodo dogleg, que cumpre tal objetivo, obtendo inclusive o ponto de Newton, caso ele
esteja dentro da bola.
Este metodo se aplica quando a Hessiana do modelo e denida positiva. Consiste
em minimizar o modelo, sujeito a regiao de conanca, na poligonal que liga os pontos xk ,
xku e xkN , sendo xk o ponto corrente, xku o minimizador do modelo na direcao oposta ao
gradiente e xkN o minimizador irrestrito do modelo, isto e, o ponto de Newton. Na Figura
5.8 ilustramos duas situacoes. Uma em que xku esta na bola e outra quando xku esta fora.
O ponto obtido pelo metodo dogleg e indicado por xkd . Tambem esta representado o ponto
xk , minimizador global do modelo na bola.

k
x ku x d xNk
xk
x ku xNk
xk xkd xk
xk

Figura 5.8: o metodo dogleg.

A Figura 5.9 mostra a trajetoria do ponto dogleg, xkd , bem como da solucao exata
do subproblema (5.36), xk , ambas como funcao do raio da regiao de conanca.

Figura 5.9: trajetorias do metodo dogleg e solucao exata do subproblema (5.36).

Para vericar que este metodo esta bem denido, vamos mostrar agora que o
modelo decresce ao longo da poligonal e que a distancia ao ponto corrente cresce quando
caminhamos na poligonal, saindo de xk indo para xkN . Isto signica que esta poligonal
cruza a fronteira da bola no maximo uma vez, justamente no ponto dogleg. Se o raio
for sucientemente grande, a poligonal estara inteiramente contida na bola, e neste caso,
teremos xkd = xkN .

Lema 5.35 Sejam B IRnn uma matriz definida positiva e g IRn . Considere a
quadratica
1
m(d) = g T d + dT Bd
2
Metodos para Otimizacao Irrestrita 86

e os minimizadores de m,

gT g
a= g e b = B 1 g,
g T Bg

ao longo de g e irrestrito, respectivamente. Entao,

(i) O modelo e nao crescente ao longo da poligonal [0, a] [a, b];

(ii) A funcao d [0, a] [a, b] kdk2 e crescente.

Demonstracao. (i) Para o trecho [0, a] a armacao segue diretamente da denicao de a.


( )
Vejamos entao que (t) = m a + t(b a) e nao crescente. Temos
( )T [ ( ) ]T
0 (t) = m a + t(b a) (b a) = B a + t(b a) + g (b a).

Usando o fato de que b = B 1 g, obtemos

0 (t) = (1 t)(Ba + g)T (b a). (5.55)

Substituindo as expressoes de a e b, segue que


( )
gT g T gT g T (g T g)2 gT g T gT g
(Ba) (b a) = T
T
g Bb + T g Ba = T T g B g =0
g Bg g Bg g Bg g Bg g T Bg

e
(g T g)2 (g T g)2 (g T Bg)(g T B 1 g)
g T (b a) = g T B 1 g + = .
g T Bg g T Bg
Portanto, de (5.55) e do Lema 1.37, podemos concluir que 0 (t) 0, para t 1. Isto
implica, em particular, que m e nao crescente no trecho [a, b].
(ii) No trecho [0, a] a armacao e imediata. Vamos entao provar que (t) = ka + t(b a)k22
e crescente. Note primeiro que
( )
0 (t) = 2 aT (b a) + tkb ak22 .

Pelo Lema 1.37, temos que


( )
gT g (g T Bg)(g T B 1 g) (g T g)2
a (b a) =
T
0,
g T Bg g T Bg

o que implica que 0 (t) 0, para todo t 0. Portanto, e nao decrescente. Finalmente,
usando Lema 3.3, podemos concluir que e estritamente crescente.
Metodos para Otimizacao Irrestrita 87

5.6 Exerccios do captulo


Alguns dos exerccios propostos abaixo foram tirados ou reformulados a partir
daqueles apresentados em [5, Captulo 6]. Indicaremos, quando for o caso, o exerccio
correspondente desta referencia.

5.1. [5, Exerc. 6.1] Seja f : IRn R, diferenciavel em x e sejam d1 , ..., dn IRn vetores
linearmente independentes. Suponha que o mnimo de f (x + tdj ) com t IR ocorra em
t = 0 para cada j = 1, ..., n. Prove que f (x) = 0. Isso implica que f tem um mnimo
local em x?

5.2. [5, Exerc. 6.3] Seja f : IRn R, f C 1 . Dena xk+1 = xk tk f (xk ), onde
tk t > 0 para todo k IN. Suponha que xk x. Prove que f (x) = 0.

5.3. [5, Exerc. 6.4] Mostre que no metodo de Cauchy com busca exata temos dk+1 dk .

5.4. Mostre que o metodo de Cauchy com busca de Armijo pode nao convergir se o
tamanho do passo for obtido apenas satisfazendo a relacao (4.5), ao inves da utilizacao
do Algoritmo 4.13.

5.5. [5, Exerc. 6.6] Desenhe as curvas de nvel da funcao f (x) = x21 + 4x22 4x1 8x2 .
Encontre o ponto x que minimiza f . Prove que o metodo do gradiente, aplicado a partir
de x0 = 0 nao pode convergir para x em um numero nito de passos, se usarmos busca
linear exata. Ha algum ponto x0 para o qual o metodo converge em um numero nito de
passos?

5.6. [5, Exerc. 6.8] Seja f uma funcao quadratica com Hessiana denida positiva. Prove
que se ao aplicarmos o metodo do gradiente a partir de um certo x0 , com f (x0 ) 6= 0,
encontramos a solucao em uma iteracao, entao v = x1 x0 e um autovetor da Hessiana.
Reveja o Exerccio 4.4.
1
5.7. Considere h : IRn IR dada por h(x) = xT Ax + bT x + c, onde A IRnn e uma
2
matriz denida positiva, b IRn e c IR. Sejam x o minimizador de h,

1
f (x) = h(x + x ) h(x ) = xT Ax
2

e (xk ) a sequencia gerada pelo metodo de Cauchy com busca exata aplicado em f . Dena
y k = xk + x . Mostre que o metodo de Cauchy com busca exata aplicado em h, a partir
de y 0 , gera justamente a sequencia (y k ).

5.8. Considere um numero real a > 0. Mostre que o metodo de Newton para resolver a
equacao x2 a = 0 e dado por

1( k a)
xk+1 = x + k .
2 x
Metodos para Otimizacao Irrestrita 88


Faca tres iteracoes deste metodo para calcular uma aproximacao para 5, iniciando com
x0 = 2.

5.9. A Figura 5.10 ilustra uma situacao na qual o metodo de Newton (para equacoes)
pode falhar. A funcao e dada por f (x) = x4 x2 . Determine quais devem ser os pontos
iniciais para que isto aconteca.

Figura 5.10: o metodo de Newton pode falhar.

5.10. [5, Exerc. 6.9] Seja f (x) = 12 (x21 x2 )2 + 12 (1 x1 )2 . Qual e o minimizador


( ) de f ?
2
Faca uma iteracao do metodo de Newton para minimizar f a partir de x0 = . E um
2
bom passo? Antes de decidir, calcule f (x0 ) e f (x1 ).

5.7 Implementacao computacional


O objetivo deste trabalho e a programacao dos metodos estudados. Vamos avaliar
e comparar o desempenho dos metodos. Para cada metodo programado apresentar as
seguintes informacoes:

1. Contador de iteracoes;

2. Funcao objetivo;

3. Norma do gradiente;

4. Gracos em IR2 , mostrando iteracoes e funcao objetivo;

5. Gracos em IR2 , mostrando iteracoes e norma do gradiente;

6. Gracos em IR2 , mostrando as curvas de nvel da funcao objetivo e a trajetoria da


sequencia para o caso n = 2.
Metodos para Otimizacao Irrestrita 89

5.7.1 Funcoes para teste


5.1. f : IR2 IR dada por f (x) = x21 + 4x22 4x1 8x2 .

5.2. f : IR2 IR dada por f (x) = (x1 x22 )(x1 21 x22 ). Note que x = 0 e o unico ponto
estacionario de f e nao e minimizador.

5.3. f : IR2 IR dada por f (x) = 2x31 3x21 6x1 x2 (x1 x2 1).

5.4. f : IR2 IR dada por f (x) = 12 sin x1 sin x2 + 21 ex1 +x2 .


2 2

5.5. f : IR2 IR dada por f (x) = 100(x2 x21 )2 + (1 x1 )2 .


Captulo 6

Otimizacao com Restricoes

Nosso objetivo neste captulo e discutir as condicoes de otimalidade para o pro-


blema geral de otimizacao que consiste em

minimizar f (x)
sujeito a g(x) 0 (6.1)
h(x) = 0,

onde f : IRn IR, g : IRn IRp e h : IRn IRm sao funcoes continuamente diferenciaveis.
O conjunto
= {x IRn | g(x) 0, h(x) = 0} (6.2)

e chamado conjunto viavel.


A abordagem que apresentamos para a obtencao das condicoes de Karush-Kuhn-
Tucker e baseada na teoria de cones, cujo apelo geometrico e a principal caracterstica.
Algumas referencias para este assunto sao [1, 2, 4, 8, 10].
( )
1
Exemplo 6.1 Verifique que o ponto x = e a solucao global do problema
1

minimizar f (x) = (x1 2)2 + (x2 1)2


sujeito a g1 (x) = x1 + x2 2 0
g2 (x) = x21 x2 0.

Dado x , temos x21 x2 2 x1 , o que implica que x21 + x1 2 0, ou seja,


2 x1 1. Portanto,

f (x) = (x1 2)2 + (x2 1)2 (x1 2)2 1 = f (x ),

Na Figura 6.1 ilustramos este problema. Note que f (x ) e uma combinacao positiva
de g1 (x ) e g2 (x ). Isto informalmente signica que para diminuir o valor de f temos
que sair do conjunto viavel. O que faremos neste captulo e formalizar esta armacao.

90
Otimizacao com Restricoes 91

g1
2

1 x* f
0
g2

2 1 0 1 2 3 4

Figura 6.1: ilustracao do Exemplo 6.1.

6.1 Cones
Vamos discutir nesta secao alguns aspectos gerais da teoria de cones que serao
fundamentais para estabelecer as condicoes de KKT. Dentre outras coisas destacamos o
classico Lema de Farkas, que sera tratado em uma versao geometrica.

Definicao 6.2 Um subconjunto nao vazio C IRn e um cone quando, para todo t 0 e
d C tem-se td C.

Informalmente, um cone e um conjunto de direcoes. Note que o vetor nulo pertence a


qualquer cone. Alem disso, um cone e um conjunto ilimitado. Na Figura 6.2 temos dois
exemplos de cones, um convexo e outro nao.

C td C td

d d

0 0

Figura 6.2: exemplos de cone.

Exerccios 6.3
( ) ( ) ( )
1 2 1
1. Sejam v1 = , v2 = e v3 = . Mostre que
1 1 1

S = {x1 v1 + x2 v2 + x3 v3 | xj 0, j = 1, 2, 3}

e um cone e faca um esboco de S.


Otimizacao com Restricoes 92

2. Sejam B IRnm e C = {By | y IRm , y 0}. Mostre que C e um cone convexo.

Um exemplo de cone que sera util mais adiante e o de cone polar, que em IR2 ou
IR3 pode ser caracterizado pelos vetores que formam um angulo maior ou igual a 90o com
os elementos de um conjunto dado.

Definicao 6.4 Dado um conjunto S IRn , definimos o polar de S por


{ }
P (S) = p IRn | pT x 0, x S .

A Figura 6.3 ilustra o polar de alguns conjuntos.

S
S

0 0
P(S) P(S)

Figura 6.3: exemplos de cone polar.

Lema 6.5 Dado S IRn , P (S) e cone, convexo e fechado.

Demonstracao. Dados t 0 e d P (S) temos (td)T x = t(dT x) 0, para todo x S.


Assim, td P (S), o que signica que P (S) e um cone. Para vericar a convexidade,
considere u, v P (S) e t [0, 1]. Para qualquer x S, temos que
( )T
(1 t)u + tv x = (1 t)uT x + tv T x 0.

Assim (1 t)u + tv P (S), provando que P (S) e convexo. Para mostrar que P (S)
e fechado, considere uma sequencia (dk ) P (S) com dk d. Dado x S, temos
(dk )T x 0, logo dT x 0. Portanto, d P (S), completando a demonstracao.

Exerccios 6.6

1. Sejam A e B subconjuntos nao vazios de IRn . Se A B, entao P (B) P (A).


( )
1 1 { }
2. Sejam A = e C = d IR2 | Ad 0 . Mostre que C e um cone e
1/2 1
represente geometricamente. Diga se o cone C pode ser obtido como o polar de
algum conjunto S.
Otimizacao com Restricoes 93

( ) ( )
1 1 1 1
3. Repita o exerccio anterior considerando A = , B = e
1/2 1 1/2 1
{ } { }
S = d IR2 | Ad 0 d IR2 | Bd 0 .

Como a propria Figura 6.3 sugere, aplicar o polar duas vezes nem sempre fornece
o conjunto original. No entanto, temos o seguinte resultado.
( )
Lema 6.7 Dado S IRn , temos S P P (S) .

Demonstracao. Considere x S e C = P (S). Dado d C, temos xT d 0. Logo


( )
x P (C) = P P (S) , completando a demonstracao (veja ilustracao na Figura 6.4).

P(P(S))
S

0
P(S)

Figura 6.4: ilustracao do Lema 6.7.

Basicamente, temos tres motivos que impedem a igualdade entre o duplo polar e
o conjunto: o fato de nao ser cone, nao ser convexo ou nao ser fechado. Estas situacoes
aparecem na Figura 6.5. O classico Lema de Farkas, apresentado em seguida, garante a
igualdade.

S
S S

0
0 0
P(S)
P(S) P(S)

( )
Figura 6.5: situacoes onde nao vale S = P P (S) .

Lema 6.8 (Farkas geometrico) Considere C IRn um cone convexo fechado nao va-
( )
zio. Entao P P (C) = C.
Otimizacao com Restricoes 94

( )
Demonstracao. Em virtude do Lema 6.7 basta mostrar que P P (C) C. Considere
( )
entao z P P (C) . Seja z = projC (z) C. Vamos provar que z = z. Pelo Teorema 3.6,

(z z)T (x z) 0, (6.3)

para todo x C. Como C e um cone, x = 0 e x = 2z sao elementos de C. Assim,

z T (z z) 0 e z T (z z) 0,

donde segue que


z T (z z) = 0. (6.4)

Substituindo isto em (6.3), podemos concluir que (z z)T x 0, para todo x C.


( )
Portanto, (z z) P (C). Como z P P (C) , temos que (z z)T z 0. Usando (6.4),
obtemos
kz zk2 = (z z)T z (z z)T z = (z z)T z 0,

o que implica que z = z C, completando a demonstracao.


Outra propriedade muito importante se refere ao cone gerado por um conjunto
nito de vetores, dada no lema abaixo. A demonstracao apresentada aqui e direta, mas
existem outras formas de provar este resultado. Uma delas segue dos Exerccios 6.7 e 6.8,
no nal do captulo.

Lema 6.9 Dados os vetores v1 , v2 , . . . , vm IRn \ {0}, o conjunto


{ m }

C= yi vi | yi 0, i = 1, ..., m
i=1

e um cone convexo e fechado (veja ilustracao na Figura 6.6).

vm v2

v1
0

Figura 6.6: ilustracao do Lema 6.9.

Demonstracao. Considerando a matriz B = (v1 v2 vm ) IRnm , temos

C = {By | y IRm , y 0} .
Otimizacao com Restricoes 95

Para mostrar que C e cone, tome d = By C e t 0. Assim, td = B(ty) C, pois


( )
ty 0. A convexidade segue da relacao (1 t)By + tBw = B (1 t)y + tw . Agora a
parte difcil: provar que C e fechado. Faremos por inducao em m.
(i) m = 1. Seja (dk ) C, tal que dk d. Temos dk = y k v1 , com y k 0. Assim,

kv1 k2 y k = v1T dk v1T d,

v1T d
implicando em y k y, onde y = 0, pois y k 0. Portanto, dk = y k v1 yv1 e
kv1 k2
assim, d = yv1 C.
(ii) Suponha que o lema seja valido para m 1. Vamos provar que vale para m.
Considere primeiro o caso em que posto(B) = m. Seja (dk ) C, tal que dk d. Entao,
dk = By k , com y k 0. Deste modo,

B T By k = B T dk B T d,

donde segue que y k y, com y = (B T B)1 B T d. Como y k 0, temos y 0. Portanto,


dk = By k By e assim, d = By C.
Suponha agora que posto(B) < m. Assim, as colunas de B sao linearmente dependentes.
Isto implica que existe IRm tal que

B = 0 (6.5)

e i > 0 para algum i = 1, ..., m. Considere, para cada j = 1, ..., m, a matriz

Bj = (v1 vj1 vj+1 vm ) IRn(m1) ,

obtida suprimindo a j-esima coluna de B. Usando a hipotese de inducao, temos que o


conjunto
{ }
Cj = Bj z | z IRm1 , z 0

m
e fechado para todo j = 1, ..., m. Portanto, a uniao Cj e um conjunto fechado. Para
j

m
concluir a demonstracao, vamos mostrar que C = Cj . Para isso, tome inicialmente
j
d C. Entao d = By, para algum y 0. Considere
{ }
yi
t = max | i > 0 ,
i

onde e dado por (6.5). Assim, para todo i tal que i > 0, temos yi + ti 0. Alem disso,
yj
como t 0, tambem vale yi + ti 0 para cada i tal que i 0. Seja j tal que t = .
j
Otimizacao com Restricoes 96

Denindo y = y + t, temos que y 0 e yj = 0. Portanto, usando (6.5), obtemos

d = By = B(y + t) = B y Cj ,


m
Como a inclusao Cj C e imediata, completamos a prova.
j

O Lema 6.9 pode ser usado para estabelecer uma relacao entre a versao geometrica
do Lema de Farkas (Lema 6.8) e sua forma algebrica, muito encontrada na literatura.

Lema 6.10 (Farkas algebrico) Considere A IRmn e c IRn . Entao exatamente um


dos dois sistemas abaixo tem solucao.

Ax 0 e cT x > 0 (6.6)

AT y = c e y 0. (6.7)

Demonstracao. Se o sistema (6.7) tem solucao, entao c = AT y com y 0. Assim, dado


x IRn tal que Ax 0, temos cT x = y T Ax 0, o que implica que (6.6) nao tem solucao.
Suponha agora que o sistema (6.7) nao tem solucao. Portanto,
{ }
c 6 C = AT y | y 0 .
( ) ( )
Pelos Lemas 6.8 e 6.9 temos C = P P (C) . Logo, c 6 P P (C) , o que signica que
existe x P (C) tal que cT x > 0. Alem disso,

(Ax)T y = xT AT y 0,

para todo y 0. Em particular, tomando y = ej , j = 1, . . . , m, obtemos

Ax 0,

Assim, o sistema (6.6) tem solucao.

Mesmo sendo uma versao algebrica, o Lema 6.10 pode ser interpretado geometri-
camente, conforme vemos na Figura 6.7. Os vetores v1 , v2 , . . . , vm IRn sao as linhas de
A. Na ilustracao do lado esquerdo temos o caso em que o sistema (6.6) tem solucao. No
lado direito, (6.7) tem solucao.
Note que provamos a versao algebrica do Lema de Farkas utilizando a versao
geometrica. No entanto, tambem e possvel mostrar que a versao algebrica implica na
versao geometrica para um certo conjunto C. Veja o Exerccio 6.6 no nal do captulo.
Temos agora as ferramentas necessarias para provar as condicoes necessarias de
otimalidade para problemas com restricoes de igualdade e desigualdade.
Otimizacao com Restricoes 97

C C

v v v v
m 2 m 2
c
v1 v1
P(C) P(C)
c
x

Figura 6.7: ilustracao do Lema 6.10.

6.2 Condicoes de Karush-Kuhn-Tucker


Para estabelecer o Teorema de KKT, vamos estudar os cones relacionados com o
problema geral de otimizacao denido em (6.1). Alguns desses cones podem ser interpre-
tados como aproximacoes lineares do conjunto viavel (6.2).

Definicao 6.11 Seja x . Uma restricao de desigualdade gi e dita ativa em x, se


gi (x) = 0. Caso gi (x) < 0, dizemos que gi e inativa em x.

Vamos denotar por A(x) o conjunto de ndices das restricoes de desigualdade ativas em
um ponto viavel x, isto e,
A(x) = {i | gi (x) = 0}.

6.2.1 O cone viavel linearizado


A primeira forma de aproximar o conjunto viavel e dada na seguinte denicao.

Definicao 6.12 Dado x , definimos o cone viavel linearizado de em torno de x por


{ }
D(x) = d IRn | gi (x)T d 0, i A(x) e hj (x)T d = 0, j = 1, . . . , m .

Note que o conjunto D(x) pode ser visto como um conjunto viavel, onde lineari-
zamos as restricoes de desigualdade ativas e todas as de igualdade. Isto se deve ao fato
de que
gi (x)T d = gi (x) + gi (x)T d gi (x + d)

para i A(x) e
hj (x)T d = hj (x) + hj (x)T d hj (x + d).

Na Figura 6.8 temos algumas das situacoes que surgem quando consideramos o
cone D(x). Na primeira, temos desigualdades e os gradientes ativos sao linearmente inde-
pendentes. Isto confere uma certa regularidade ao conjunto , que e bem aproximado
Otimizacao com Restricoes 98

por D(x) em uma vizinhanca de x. Na segunda, temos uma igualdade e tambem podemos
dizer que D(x) e uma boa aproximacao para . No entanto, a ultima situacao mostra
um caso onde o cone e uma reta, mas o conjunto viavel e uma regiao do plano. Note que,
neste caso, os gradientes ativos sao linearmente dependentes.

g D(x)
2 g2

x x D(x)
x

g1 g
h D(x) 1

Figura 6.8: exemplos ilustrando o cone viavel linearizado.

Exerccios 6.13

1. Mostre que D(x) e um cone convexo fechado nao vazio.

2. Sejam g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2 e g2 (x) = x21 2x1 + x2 e
x = 0. Represente geometricamente o conjunto viavel e o cone D(x).

6.2.2 O cone gerado pelos gradientes das restricoes


Outro cone relacionado com o problema de otimizacao e cone gerado pelos gra-
dientes das restricoes. Mais precisamente, dado x , considere o conjunto


m
G(x) = i gi (x) + j hj (x) | i 0, i A(x) . (6.8)

iA(x) j=1

Este conjunto tem duas propriedades muito importantes, que provaremos a seguir.
Uma delas e que seu polar e justamente o cone D(x). A outra propriedade diz que G(x)
e um cone convexo fechado. Veja a Figura 6.9.
( )
Lema 6.14 Dado x , temos que D(x) = P G(x) .

Demonstracao. Dados d D(x) e s G(x), temos


m
dT s = i dT gi (x) + j dT hj (x).
iA(x) j=1

Como d D(x), temos dT gi (x) 0 para todo i A(x) e dT hj (x) = 0 para todo
( )
j = 1, . . . , m. Assim, dT s 0, pois i 0. Portanto, d P G(x) . Para provar
Otimizacao com Restricoes 99

g D(x)
2

G(x) x

g1

Figura 6.9: o cone G(x).

( )
a inclusao contraria, tome d P G(x) . Entao, dT s 0, para todo s G(x). Em
particular, como gi (x) G(x), para i A(x), temos

dT gi (x) 0. (6.9)

Alem disso, para todo j = 1, . . . , m, hj (x) e hj (x) sao elementos de G(x). Logo,
( )
dT hj (x) 0 e dT hj (x) 0,

implicando em dT hj (x) = 0. Disto e de (6.9), decorre que d D(x), o que completa a


demonstracao.

Lema 6.15 O conjunto G(x) definido em (6.8) e um cone convexo fechado.

Demonstracao. Note que um elemento qualquer de G(x) pode ser escrito como
( )
i gi (x) + j hj (x) + (j ) hj (x)
iA(x) j 0 j <0

com i 0 para todo i A(x). Desta forma, temos

G(x) = {By | y 0} ,

onde B e a matriz cujas colunas sao gi (x), hj (x) e hj (x), i A(x) e j = 1, . . . , m.


Pelo Lema 6.9, temos o resultado desejado.
Tendo em vista os Lemas 6.8 e 6.15, podemos reescrever o Lema 6.14 como
( )
P D(x) = G(x). (6.10)

Esta relacao e a chave da demonstracao das condicoes de KKT.


Otimizacao com Restricoes 100

6.2.3 O cone tangente


Veremos nesta secao um outro cone que tambem aproxima o conjunto viavel ,
mas diferentemente do cone D(x), que se baseia nas derivadas das restricoes, este novo
cone considera os vetores que tangenciam ou penetram em .

Definicao 6.16 Uma direcao d IRn e dita tangente a IRn a partir de x quando
e nula ou existe uma sequencia de pontos viaveis (xk ) tal que xk x e

xk x d
.
kx xk
k kdk

Na Figura 6.10 ilustramos este conceito. Na esquerda o conjunto viavel e uma curva
denida por uma restricao de igualdade, na qual representamos uma direcao tangente
d e a convergencia indicada na denicao. Na outra ilustracao o conjunto viavel e uma
regiao determinada por duas restricoes de desigualdade. Nesta gura aparecem algumas
direcoes tangentes. Note que uma direcao que penetra no conjunto viavel tambem
satisfaz a Denicao 6.16.

x1

x2

x3 x
x4
x5 d
x

Figura 6.10: direcoes tangentes.

Segue diretamente da denicao que se d e tangente, o mesmo vale para td, qual-
quer que seja t 0. Assim, o conjunto formado pelos vetores tangentes a em x e um
cone, chamado de cone tangente a no ponto x e denotado por T (x).

Exemplo 6.17 Considere as funcoes g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2
e g2 (x) = x21 2x1 + x2 . Determine o cone tangente T (x), associado ao conjunto viavel
{ }
= x IR2 | g(x) 0 em torno do ponto x = 0.
( ) ( )
sk d1
Sejam xk = uma sequencia de pontos de e d = IR2 tais que
tk d2

xk x d
xk x e . (6.11)
kxk xk kdk
Otimizacao com Restricoes 101

Vamos provar que 2d1 d2 2d1 . Como xk , temos s2k 2sk tk 2sk s2k .
Portanto,
s2 2sk t 2s s2k
k k k . (6.12)
s2k + t2k s2k + t2k s2k + t2k
De (6.11), podemos concluir que

sk d1 t d2
sk 0 , e k .
s2k 2
+ tk kdk 2 2
sk + tk kdk

2d1 d2 2d1
Assim, passando o limite na relacao (6.12), obtemos , donde segue
kdk kdk kdk
que
{ }
T (x) d IR2 | 2d1 d2 2d1 .
( )
1
Para provar a inclusao contraria, tome primeiro d = . Considere
2
( )
1 sk
sk = , tk = 2sk s2k e xk = .
k tk

sk 1 1 t 2
Assim, xk x , 2 = e k . Portanto,
sk + t2k 1 + (2 sk(
)2 ) 5 s2k + t2k 5
xk x d 1
. Considere agora d = , com [0, 2). Para todo k IN,
kx xk
k kdk
( )
1 1 1
sucientemente grande, temos < 2 , implicando em y k = . Alem disso,
k k

y k x d
y k x e .
ky k xk kdk

Como T (x) e um cone, podemos concluir que todo vetor d IR2 tal que 0 d2 2d1 e
tangente. O caso 2d1 d2 0 e analogo. Com isto, obtemos
{ }
T (x) = d IR2 | 2d1 d2 2d1 .

Na Figura 6.11 representamos o cone T (x).


No Exemplo 6.17 temos a igualdade entre os cones T (x) e D(x), mas isto nao e
regra geral. Alias, o cone tangente pode nao ser convexo. No entanto, pode-se mostrar
que e fechado (veja o Exerccio 6.9).

Exemplo 6.18 Considere g : IR2 IR2 e h : IR2 IR dadas por g(x) = x e


h(x) = x1 x2 . Determine os cones D(x), G(x) e T (x), associados ao conjunto viavel
{ }
= x IR2 | g(x) 0, h(x) = 0 em torno do ponto x = 0.
Otimizacao com Restricoes 102

1.5

T(x)
0.5


0 x
0.5

1.5
0.5 0 0.5 1 1.5 2 2.5

Figura 6.11: o cone tangente do Exemplo 6.17.


( ) ( ) ( )
1 0 0
Temos g1 (x) = , g2 (x) = e h(x) = . Assim,
0 1 0

D(x) = {(d1 , d2 ) | d1 0, d2 0} , G(x) = {(d1 , d2 ) | d1 0, d2 0}

e
T (x) = {(d1 , d2 ) | d1 0, d2 0, d1 d2 = 0}.

Na Figura 6.12 estao representados estes cones. Note que T (x) 6= D(x) e T (x) nao e
convexo.

D(x)

g1 x
=T(x)
G(x)
g2

Figura 6.12: exemplo onde T (x) 6= D(x).

O proximo resultado estabelece uma relacao entre os cones T (x) e D(x).

Lema 6.19 Dado x , temos T (x) D(x).

Demonstracao. Considere d T (x), d 6= 0. Entao existe uma sequencia (xk ) tal que
xk x d
xk x e k . Pela diferenciabilidade de g e h segue que
kx xk kdk

g(xk ) = g(x) + g(x)T (xk x) + o(kxk xk)


Otimizacao com Restricoes 103

e
h(xk ) = h(x) + h(x)T (xk x) + o(kxk xk).

Como xk , x , temos, para i A(x) e j = 1, . . . , m,

(xk x) o(kxk xk) (xk x) o(kxk xk)


gi (x)T + 0 e hj (x)T + = 0.
kxk xk kxk xk kxk xk kxk xk

d d
Passando o limite, obtemos gi (x)T 0 e hj (x)T = 0. Assim, d D(x),
kdk kdk
completando a prova.

6.2.4 O teorema de Karush-Kuhn-Tucker


Temos agora todas as ferramentas para provar as condicoes de KKT. Vamos
comecar com um resultado que tambem pode ser visto como uma condicao necessaria de
otimalidade.

Lema 6.20 Se x e um minimizador local do Problema 6.1, entao f (x )T d 0,


para todo d T (x ).

Demonstracao. Seja d T (x ), d 6= 0. Entao existe uma sequencia (xk ) tal que


xk x d
xk x e k . Por outro lado, temos
kx x k kdk

0 f (xk ) f (x ) = f (x )T (xk x ) + o(kxk x k),

para todo k sucientemente grande. Dividindo por kxk x k e passando o limite obtemos
f (x )T d 0, completando a prova.
Na Figura 6.13 ilustramos uma situacao que satisfaz as condicoes do Lema 6.20
e outra onde isto nao se verica.



x* f
x
f

Figura 6.13: relacoes entre direcoes tangentes e o gradiente da funcao objetivo.

O Lema 6.20 tem um interesse teorico, pois sera usado para provar o Teorema de
KKT. No entanto, este lema e pouco pratico, no sentido de que nao podemos usa-lo para
calcular os possveis minimizadores. O teorema seguinte nos da esta possibilidade.
Otimizacao com Restricoes 104

Teorema 6.21 (KKT) Seja x um minimizador local do Problema 6.1 e suponha


( ) ( )
que P T (x ) = P D(x ) , entao existem IRp e IRm tais que


p

m

f (x ) = i gi (x ) + j hj (x ),
i=1 j=1

i 0, i = 1, . . . , p,

i gi (x ) = 0, i = 1, . . . , p.

Demonstracao. Pelo Lema 6.20, temos f (x )T d 0, para todo d T (x ). Assim,


usando a hipotese e a relacao (6.10), obtemos
( ) ( )
f (x ) P T (x ) = P D(x ) = G(x ).

Isto signica que existem i 0, i A(x ) e IRm tais que


m

f (x ) = i gi (x ) + j hj (x ).
iA(x ) j=1

{
i , para i A(x )
Denindo i = e = , completamos a prova.
0, caso contrario
A hipotese sobre os cones T (x ) e D(x ) feita no Teorema 6.21 e chamada de
condicao de qualicacao. Ela foi introduzida por Monique Guignard [7] para dimensao
innita e reformulada para o caso nito por Gould and Tolle [6]. Esta condicao e a
mais fraca possvel para se provar as condicoes de KKT. Entretanto, como ja vimos
em exemplos anteriores, pode ser muito difcil obter os cones T (x ) e D(x ) e vericar
( ) ( )
se a condicao P T (x ) = P D(x ) e satisfeita. Veremos na proxima secao outras
condicoes de qualicacao, tais como Slater, Mangasarian-Fromovitz, independencia linear
dos gradientes, que implicam na que usamos acima e sao mais faceis de serem vericadas.

Exemplo 6.22 Vamos refazer o Exemplo 6.1 usando KKT. O problema e dado por

minimizar f (x) = (x1 2)2 + (x2 1)2


sujeito a g1 (x) = x1 + x2 2 0
g2 (x) = x21 x2 0.

Note primeiro que o conjunto viavel e compacto. De fato, como

x21 x2 2 x1 ,
Otimizacao com Restricoes 105

temos x21 + x1 2 0. Portanto, 2 x1 1 e 0 x2 4. Alem disso, temos


T (x) = D(x), para todo ponto viavel x. Portanto, o minimizador deve satisfazer
( ) ( ) ( )
x1 2 1 2x1
2 = 1 + 2 (6.13)
x2 1 1 1

alem de i 0 e i gi (x) = 0, i = 1, 2. Como nenhum ponto de cumpre x1 = 2, pelo


menos um dos multiplicadores deve ser nao nulo. Veremos agora que os dois sao nao
nulos. De fato, se fosse 1 = 0 e 2 > 0, teramos x21 x2 = 0 (restricao ativa) e x2 > 1
(relacao (6.13)). Assim, x1 1, o que contradiz (6.13). Por outro lado, se 1 > 0 e
2 = 0, entao x1 + x2 = 2 (restricao ativa) e x1 2 = x2 1 (relacao (6.13)). Assim,
x1 = 23 , o que tambem e uma contradicao.
( ) Agora ca( facil) resolver o sistema KKT, pois
1 2
x1 + x2 = 2 e x21 = x2 , fornecem x = e x = . Como x nao satisfaz (6.13)
1 4
( )
2/3
para i 0, a solucao e x com multiplicador = . Reveja a Figura 6.1, que
2/3
ilustra este problema.

6.3 Condicoes de qualificacao


Vimos neste captulo que pode ser muito difcil vericar se a hipotese sobre os
cones T (x) e D(x) feita no Teorema 6.21 e satisfeita. Veremos agora outras condicoes de
qualicacao, mais simples de serem vericadas, que tambem garantem que um minimiza-
dor satisfaz as relacoes de KKT. Salientamos que se nao for vericada nenhuma hipotese
sobre as restricoes, podemos ter minimizadores que nao cumprem KKT, dicultando assim
a caracterizacao de tais pontos. Tal fato pode ser visto no seguinte exemplo.

Exemplo 6.23 Considere o problema

minimizar f (x) = x1
sujeito a g1 (x) = x31 + x2 0
g2 (x) = x2 0.

O ponto x = 0 e o minimizador deste problema, mas nao cumpre as condicoes de KKT.

De fato, de 0 x2 x31 , segue que f (x) = x1 0 = f (x ), para todo ponto viavel x.


Alem disso,
( ) ( ) ( )
1 0 0
f (x ) = , g1 (x ) = e g2 (x ) = ,
0 1 1

o que signica que nao vale KKT. Veja uma ilustracao deste exemplo na Figura 6.14.
Otimizacao com Restricoes 106

g1

f x*

g2

Figura 6.14: ilustracao do Exemplo 6.23.

Para continuar a nossa discussao, vamos apresentar uma denicao precisa de


condicao de qualicacao. Considere g e h funcoes continuamente diferenciaveis em IRn e
o conjunto viavel
= {x IRn | g(x) 0, h(x) = 0} (6.14)

Definicao 6.24 Dizemos que as restricoes g(x) 0 e h(x) = 0 cumprem uma condicao
de qualificacao em x quando, dada qualquer funcao diferenciavel f , que tenha
mnimo em x , relativamente a , sejam satisfeitas as condicoes de otimalidade de KKT.

Trataremos primeiramente de uma situacao particular, mas de muita importancia,


em que as restricoes sao lineares.

6.3.1 Problemas com restricoes lineares


Considere o problema

minimizar f (x)
sujeito a Ax b (6.15)
M x = c,

onde A IRpn , M IRmn , b IRp e c IRm . Como veremos no proximo teorema, as


condicoes de otimalidade de KKT se vericam em um minimizador.

Teorema 6.25 Se x e um minimizador local do Problema 6.15, entao x satisfaz as


condicoes de KKT.

Demonstracao. Usando o Lema 6.19 e o Teorema 6.21, basta provar que D(x ) T (x ).
Dado d D(x ), temos Ad 0 e M d = 0. Se d = 0, temos trivialmente d T (x ). Caso
1 xk x d
d 6= 0, dena x = x + d. Assim, Ax b, M x = c, x x e
k k k k
= .
k kxk x k kdk
Portanto, d T (x ), completando a prova.
Otimizacao com Restricoes 107

A proxima condicao de qualicacao exige a existencia de um ponto no interior


relativo do conjunto viavel.

6.3.2 Condicao de qualificacao de Slater


Considere o conjunto , denido em 6.14. Dizemos que a condicao de qualicacao
de Slater e satisfeita se cada componente gi e convexa, h e linear e existe x tal que

g(x) < 0 e h(x) = 0. (6.16)

Vejamos que Slater e, de fato, uma condicao de qualicacao.

Teorema 6.26 Se vale a condicao de Slater, entao T (x) = D(x), para todo x .

Demonstracao. Em virtude do Lema 6.19, basta provar que D(x) T (x). Considere uma
direcao arbitraria d D(x) e dena d = x x, onde x e o ponto que satisfaz (6.16).
Pela convexidade de gi , temos


0 > gi (x) gi (x) + gi (x)T d.

Assim, para i A(x), temos gi (x)T d < 0. Dado (0, 1), dena

d = (1 )d + d.

Vamos provar que d T (x), para todo (0, 1) (veja a Figura 6.15). Dado i A(x),
temos gi (x)T d 0 e gi (x)T d < 0. Consequentemente, gi (x)T d < 0. Denindo
1
xk = x + d e aplicando o Teorema 4.2, podemos concluir que
k

gi (xk ) < gi (x) = 0,

para todo k sucientemente grande. Por outro lado, se i / A(x), vale gi (x) < 0. Assim,
pela continuidade de gi , tambem temos gi (xk ) < 0, para todo k sucientemente grande.
Alem disso, como h e linear, digamos, h(x) = M x c, temos M d = h(x)T d = 0, pois
d D(x). Tambem temos que M d = M (x x) = h(x) h(x) = 0. Consequentemente,
1
M d = 0. Portanto, h(xk ) = M xk c = M x c + M d = 0. Conclumos entao que a
k
sequencia (xk ) e viavel e como
xk x d
= ,
kxk xk
kdk
segue que d T (x). Mas T (x) e fechado (veja o Exerccio 6.9). Logo d T (x), comple-
tando a prova.
Otimizacao com Restricoes 108

d

^
x d ~
x
d

Figura 6.15: ilustracao auxiliar para o Teorema 6.26.

6.3.3 Condicao de qualificacao de independencia linear


Apresentamos agora uma das condicoes de qualicacao mais conhecidas e comuns
na literatura.

Definicao 6.27 Dizemos que a condicao de qualificacao de independencia linear (LICQ)


e satisfeita em x quando o conjunto dos gradientes das restricoes de desigualdade ativas
e das restricoes de igualdade sao linearmente independentes, isto e,

{gi (x)}iA(x) {hj (x)}j{1,...,m} e LI.

Esta condicao e bem mais facil de vericar do que aquela que colocamos na
hipotese do Teorema 6.21, envolvendo cones. Para exemplicar, vamos retomar as res-
tricoes do Exemplo 6.17, onde apenas a determinacao do cone tangente T (x) ja foi con-
sideravelmente trabalhosa.

Exemplo 6.28 Considere as funcoes g1 , g2 : IR2 IR dadas por g1 (x) = x21 2x1 x2 e
g2 (x) = x21 2x1 + x2 . Verifique que o ponto x = 0 cumpre LICQ.
( ) ( )
2 2
As duas restricoes sao ativas em x e os vetores g1 (x) = e g2 (x) = sao
1 1
linearmente independentes.
Apesar desta simplicidade, LICQ tem a desvantagem de ser uma hipotese muito
forte para garantir KKT. Existem muitos problemas em que temos KKT sem que LICQ
seja satisfeita.

Exemplo 6.29 Considere o problema

minimizar f (x) = x1
sujeito a g1 (x) = x21 2x1 x2 0
g2 (x) = x21 2x1 + x2 0
g3 (x) = x1 0.

O ponto x = 0 e o minimizador deste problema, cumpre as condicoes de KKT mas nao


satisfaz LICQ.
Otimizacao com Restricoes 109

De fato, as tres restricoes sao ativas em x e os vetores


( ) ( ) ( )
2 2 1
g1 (x ) = , g2 (x ) = e g3 (x ) =
1 1 0
( )
1
sao linearmente dependentes. Alem disso, f (x ) = = g3 (x ), ou seja, vale
0
KKT.
Este exemplo motiva o estudo de hipoteses mais fracas mas que ainda sejam
facilmente vericadas. Uma delas, atribuda a Mangasarian e Fromovitz, e apresentada a
seguir, onde tambem provamos que LICQ e realmente uma condicao de qualicacao.

6.3.4 Condicao de qualificacao de Mangasarian-Fromovitz


Enquanto que na condicao de Slater exigimos um ponto no interior relativo do
conjunto viavel, aqui pedimos que o conjunto viavel linearizado, D(x), tenha interior
relativo nao vazio.

Definicao 6.30 A condicao de qualificacao de Mangasarian-Fromovitz (MFCQ) e satis-


feita em x quando os gradientes das restricoes de igualdade sao linearmente independentes
e existir um vetor d IRn tal que

gi (x)T d < 0 e hj (x)T d = 0,

para todos i A(x) e j = 1, . . . , m.

( )As restricoes do Exemplo 6.29 cumprem MFCQ no ponto x = 0, pois o vetor


1
d= satisfaz gi (x)T d < 0, i = 1, 2, 3.
0
Vamos agora provar que MFCQ e LICQ sao, de fato, condicoes de qualicacao.
Isto sera feito em duas etapas. Primeiro, veremos que LICQ implica MFCQ. Em seguida,
provaremos que MFCQ implica T (x) = D(x).

Teorema 6.31 Se x satisfaz LICQ, entao x satisfaz MFCQ.

Demonstracao. Suponha, sem perda de generalidade, que A(x) = {1, . . . , q}. Considere a
matriz
( )
M = g1 (x) gq (x) h1 (x) hm (x)

e b IRq+m dado por bi = 1, para i = 1, . . . , q e bj = 0, para j = q + 1, . . . , q + m.


Como as colunas de M sao linearmente independentes, o sistema M T d = b e possvel, ja
que a matriz de coecientes tem posto linha completo e portanto igual ao posto da matriz
Otimizacao com Restricoes 110

ampliada. Sendo d uma solucao do sistema, temos

gi (x)T d = 1 < 0 e hj (x)T d = 0,

para todos i A(x) e j = 1, . . . , m. Assim, MFCQ e satisfeita, completando a prova.


Para provar a outra armacao precisaremos de um resultado auxiliar.
( )
Lema 6.32 Seja : (, ) IRn uma curva diferenciavel tal que h (t) = 0, para
todo t (, ). Se (0) = x e 0 (0) = d 6= 0, entao existe uma sequencia (xk ) tal que
h(xk ) = 0, xk x e
xk x d
.
kx xk
k kdk

Demonstracao. Temos

(t) x (t) (0)


lim = lim = 0 (0) = d 6= 0,
t0 t t0 t

o que implica que (t) 6= x, para todo t 6= 0 sucientemente pequeno. Tomando uma
sequencia (tk ), com tk > 0 e tk 0, dena xk = (tk ). Assim,

xk x xk x tk d
= ,
kx xk
k tk kx xk
k kdk

completando a prova.

Teorema 6.33 Se x satisfaz MFCQ, entao T (x) = D(x).

Demonstracao. Considere uma direcao arbitraria d D(x) e d um vetor que cumpre


MFCQ. Dado (0, 1), dena

d = (1 )d + d.

( )
Vamos provar que d T (x). Pela hipotese, a matriz M = h1 (x) hm (x) IRnm
tem posto m. Portanto, existe uma matriz Z IRn(nm) , cujas colunas formam uma
base de N (M T ). Como Im(M ) N (M T ) = IRn , a matriz (M Z) IRnn e inversvel.
Dena : IRn+1 IRn por
( ) ( )
x h(x)
= .
t
Z T (x x td)
( )
x
Como x = (M Z) e inversvel e = 0, o Teorema 1.44 (teorema da funcao
0
implcita) garante a existencia de uma curva diferenciavel : (, ) IRn tal que
Otimizacao com Restricoes 111

( )
(t)
= 0, para todo t (, ). Assim,
t
( )
= 0.
h (t) = 0 e Z T ((t) x td) (6.17)

Pela unicidade de , temos que (0) = x. Derivando a primeira equacao de (6.17) em


t = 0, obtemos
M T 0 (0) = 0. (6.18)

Dividindo a segunda equacao de (6.17) por t 6= 0 e tomando o limite quando t 0, sai


( )
Z T 0 (0) d = 0. (6.19)

Como d, d D(x), temos que M T d = 0. Assim, usando (6.18) e (6.19), obtemos


( ) ( )
MT MT
0 (0) =
d,
ZT ZT

donde segue que 0 (0) = d.


Pelo Lema 6.32 existe uma sequencia (xk ) tal que h(xk ) = 0,
xk x e
xk x d
.
kxk xk
kdk
Para concluir que d T (x) basta mostrar que g(xk ) 0, para todo k sucientemente
grande. Se i 6 A(x), entao gi (x) < 0 e, pela continuidade de g, temos gi (xk ) 0,
para todo k sucientemente grande. Por outro lado, se i A(x), temos gi (x)T d 0 e
gi (x)T d < 0. Portanto, gi (x)T d < 0. Pela diferenciabilidade de g, segue que

gi (xk ) = gi (x) + gi (x)T (xk x) + o(kxk xk).

Assim,

gi (xk ) T x x o(kxk xk)
k
T d
= g i (x) + g i (x) < 0,
kxk xk kxk xk kxk xk
kdk
o que implica gi (xk ) < 0, para todo k sucientemente grande. Conclumos entao que
d T (x). Como T (x) e fechado, temos que d T (x), completando a prova.

Os Teoremas 6.31 e 6.33 nos permitem concluir que tanto LICQ quanto MFCQ
sao condicoes de qualicacao. A condicao de MFCQ, apesar de ser uma hipotese mais
fraca, nao e necessaria para termos KKT. Veja o exemplo seguinte.
Otimizacao com Restricoes 112

Exemplo 6.34 Considere o problema

minimizar f (x) = x1
sujeito a g1 (x) = x31 + x2 0
g2 (x) = x31 x2 0
g3 (x) = x1 0.

O ponto x = 0 e o minimizador e satisfaz KKT, mas nao e um ponto MFCQ.

De fato, as tres restricoes sao ativas em x e


( ) ( ) ( )
0 0 1
g1 (x ) = , g2 (x ) = e g3 (x ) = .
1 1 0

d IR
Note que nao existe um vetor ( ) tal que gi (x) d < 0 para i = 1, 2, 3. Alem disso,
2 T

1
temos KKT, pois f (x ) = = g3 (x ). A Figura 6.16 ilustra este exemplo.
0

g1
f= g3
x*

g
2

Figura 6.16: ilustracao do Exemplo 6.34.

Salientamos que algoritmos de otimizacao que tem convergencia estabelecida uti-


lizando hipoteses mais fracas sao mais abrangentes, ou seja, resolvem mais problemas.
Assim, um algoritmo que usa a hipotese MFCQ para provar sua convergencia e mais
poderoso que um algoritmo baseado em LICQ. Neste sentido, se um certo algoritmo se
( ) ( )
baseia apenas na condicao P T (x) = P D(x) , entao ele e mais poderoso ainda e pode
resolver uma classe muito maior de problemas.

6.4 Exerccios do captulo


{ }
6.1. Seja S = d IR2 | d 0 , d1 d2 = 0 .

(a) Mostre que S e um cone nao convexo.


{ }
(b) Determine P (S) = p IR2 | pT d 0, d S , o polar de S.
Otimizacao com Restricoes 113

(c) Represente geometricamente os conjuntos S e P (S).

6.2. Para cada um dos conjuntos abaixo, diga se e um cone e represente geometricamente.
{ }
(a) S = d IR2 | d21 d2 0 .
{ }
(b) S = d IR2 | d21 d2 0 .

6.3. Suponha que S1 e S2 sejam cones do IRn . Mostre que S = S1 S2 e um cone e que
P (S) = P (S1 ) P (S2 ).
( ) ( ) ( )
1 3 4
6.4. Sejam u = , v = e x = . Represente geometricamente o cone
2 1 3
S = {1 u + 2 v | j 0, j = 1, 2} e a sua translacao x + S = {x + d | d S}.

6.5. Se S IRn e 0 int(S), entao P (S) = {0}.

6.6. Sejam B IRnm e C = {By | y IRm , y 0}. Usando o Lema 6.10, mostre que
( )
P P (C) = C.

6.7.[Caratheodory] Sejam B = (v1 v2 vm ) IRnm e C = {By | y IRm , y 0}.


Considere o conjunto J = {J {1, . . . , m} | {vj | j J} e LI}. Usando ideias da de-

monstracao do Lema 6.9, mostre que C = CJ , onde CJ = {BJ yJ | yJ 0}.
JJ

6.8. Sejam B IRnm e C = {By | y IRm , y 0}. Usando o Exerccio 6.7, mostre
que C e um conjunto fechado.

6.9. Considere IRn e x . Entao T (x) e um conjunto fechado.

6.10. Considere g : IR2 IR2 dada por


( )
x21 x2
g(x) = .
x21 + x2

Usando ideias similares as do Exemplo 6.17, determine o cone T (x), associado ao conjunto
{ }
viavel = x IR2 | g(x) 0 em torno do ponto x = 0. Obtenha tambem o cone D(x).

6.11. Escreva as condicoes de KKT para o problema de minimizar f (x) = x1 x2 na


circunferencia x21 + x22 = 1. Encontre os minimizadores e represente geometricamente.
( )2
1 x2 x2 5
6.12. Dadas f (x) = (x1 3)2 + 2 x2 , g1 (x) = 1 x2 e g2 (x) = 1 + x2 , con-
{ 3} 3 2 6
sidere = x IR2 | g1 (x) 0, g2 (x) 0 . Encontre, geometricamente, o minimizador
de f em . Escreva as condicoes de KKT.
Otimizacao com Restricoes 114

6.13. Considere o problema

min f (x) = x1
s. a g1 (x) = x2 (1 x1 )3 0 .
g2 (x) = x2 0
( )
1
Mostre que x = e um minimizador, mas as condicoes KKT nao se vericam.
0

6.14. Faca o mesmo para o problema

min f (x) = x1
s. a g1 (x) = x2 + (x1 1)3 0
g2 (x) = x2 + (x1 1)3 0.

6.15. Formule e resolva algebricamente, por meio das condicoes de otimalidade de pri-
( ) de encontrar o ponto da curva x2 = x1 (3 x1 ) que esta mais
meira ordem, o problema
3
proximo do ponto . Qual a garantia de que o ponto obtido e de fato a solucao dese-
3
jada? Explique. Sugestao: explore a visualizacao geometrica dos elementos do problema
para auxilia-lo na analise algebrica.

6.16. Mostre que o problema abaixo tem um minimizador global e encontre-o usando
KKT.
min x1 + x2 + + xn
s. a x1 x2 xn = 1 .
x0
x1 + x2 + + xn
Conclua que n
x1 x2 xn .
n
6.17. Mostre que o problema abaixo tem 4 minimizadores globais e encontre-os usando
KKT.
min x21 + x22 + x23
.
s. a x1 x2 x3 = 1

6.18. Mostre que o problema abaixo pode ter 1 ou 2 minimizadores globais, dependendo
do valor de c > 0. Faca uma representacao geometrica.

min x21 + (x2 1)2


.
s. a x2 cx21

6.19. Seja A IRnn uma matriz denida positiva. Considere os problemas

min xT x min xT Ax
e .
s. a xT Ax = 1 s. a xT x = 1
Otimizacao com Restricoes 115

Mostre que minimizadores destes problemas sao autovetores de A e obtenha o autovalor


como funcao do autovetor correspondente.
{ }
6.20. Princpio de Fermat na otica. Sejam = x IR2 | h(x) = 0 e a, b IR2
conforme a gura abaixo. Mostre que se x minimiza a soma das distancias aos pontos a
e b, dentre os pontos de , entao o vetor h(x ) forma angulos iguais com a x e b x .
(Sugestao: mostre primeiro que se u, v IR2 sao vetores de mesma norma e w = u + v,
entao w forma angulos iguais com u e v.)

x*
h

a
Captulo 7

Dicas e solucoes dos exerccios

Apresentamos neste captulo dicas ou solucoes para alguns dos exerccios propos-
tos no texto.

Captulo 1
xk+1 2k+1 k! 2
1.5. Temos k
= k
= 0, o que implica na convergencia superlinear.
x (k + 1)! 2 k+1
xk+1 2k+1 (k!)2 k (k 1)!
Alem disso, k 2 = = . Mas podemos vericar por inducao
(x ) (k + 1)! (2k )2 k + 1 2k1
(k 1)! k1 xk+1
que > , para todo k 6. Portanto, .
2k1 2 (xk )2
1.6. Usaremos inducao em (a) e (b).
(a) Temos 1 x1 2. Supondo agora 1 xk 2, temos 3 2 + xk 4. Portanto,

1 2 + xk 2, ou seja, 1 xk+1 2.

(b) Temos x2 = 2 + 2 > 2 = x1 . Alem disso, se xk+1 > xk , entao 2 + xk+1 > 2 + xk ,

donde segue que xk+2 = 2 + xk+1 > 2 + xk = xk+1 .
(c) Pelo que foi provado em (a) e (b), (xk ) e convergente, digamos xk x. Assim,

xk+1 x e tambem xk+1 = 2 + xk 2 + x. Desta forma, temos x = 2 + x, o que
fornece x = 2. Finalmente, para ver que a convergencia e linear, temos

|xk+1 2| 2 + xk 2 1 1
= = .
|xk 2| xk 2 2 + xk + 2 4

1.7. Note primeiro que Ax = 0 se, e somente se, x = 0. Assim, c = min {kAyk} > 0, o
kyk=1
que signica que kAxk ckxk, para todo x IRn . Portanto,

ky k+1 yk kA(xk+1 x)k kAkkxk+1 xk


= ,
ky k yk kA(xk x)k ckxk xk

provando entao que a convergencia superlinear nao e afetada por transformacoes injetivas.
No entanto, o mesmo nao se pode armar para a convergencia linear, conforme vemos no

116
Dicas e solucoes dos exerccios 117

( ) ( ) ( )
1 1 1 1 1 1
seguinte exemplo. Considere A = e dena x2k = k e x2k+1 = k 2 .
0 1 2 1 2 1
k
A sequencia (x ) converge linearmente, pois

kx2k+1 k 5 kx2k+2 k 2
= e = .
kx2k k 8 kx2k+1 k 5

kAx2k+1 k 5
No entanto, = .
kAx k
2k 2
1.8. Suponha que X e fechado e considere (xk ) X tal que xk x. Caso x X, temos
x X. Por outro lado, se x
/ X, entao existe uma vizinhanca de x que nao possui
nenhum ponto do complementar de X. Isto signica que esta vizinhanca esta contida em
X, provando a necessidade. Reciprocamente, suponha que dada (xk ) X tal que xk x,
temos x X. Vamos provar que X X. Dado x X, temos que existe (xk ) X tal
que xk x. Logo, x X.

1.9. Suponha que X e compacto e considere (xk ) X. Como X e limitado, a sequencia


(xk ) tambem e limitada. Pelo Teorema 1.11, existe uma subsequencia convergente, diga-
IN0
mos xk x. Usando o Exerccio 1.8, temos que x X. Para provar a recproca, note
que a hipotese implica que X e fechado. Alem disso, se X nao fosse limitado, existiria
uma sequencia (xk ) X tal que kxk k > k, para todo k IN. Tal sequencia nao poderia
ter uma subsequencia convergente, contradizendo a hipotese.

1.10. Dado > 0, existe k IN tal que kz k ak < . Alem disso, como z k X,
2

existem x X e y / X, tais que kx z k k < e ky z k k < . Portanto, kx ak < e
2 2
ky ak < .
( )
A B
1.13. (=) Seja Q = T
, onde A IRkk . Se x IRk e nao nulo, entao
B C
( )( )
( ) A B x
xT Ax = xT 0 = y T Qy > 0.
BT C 0

Portanto, A e denida positiva, o que implica que seus autovalores sao positivos e assim
det(A) > 0.
(=) Vamos provar por inducao em n. Para n = 1 nao ( ha o)que provar. Suponha que
A b
a propriedade e valida para n 1 e considere Q = , onde A IR(n1)(n1) ,
bT c
b IRn1 e c IR. Assim, os determinantes principais de A sao positivos. Pela hipotese
de inducao, A e denida positiva. Dado y IRn , caso yn = 0, temos
( )( )
( ) A b x
y T Qy = xT 0 = xT Ax > 0.
bT c 0
Dicas e solucoes dos exerccios 118

( )
x
6 0, podemos escrever y = yn
Caso yn = . Deste modo temos
1
( )( )
( ) A b x ( )
y T Qy = yn2 xT 1 = yn2 xT Ax + 2bT x + c .
bT c 1

Para concluir a demonstracao basta mostrar que f (x) = xT Ax + 2bT x + c > 0, o que sera
feito provando que f (x) f (x ) > 0, onde x = A1 b. Note que A e de fato inversvel
pois det(A) > 0. Fazendo v = x x , temos

f (x) = (x + v)T A(x + v) + 2bT (x + v) + c


= f (x ) + 2v T (Ax + b) + v T Av
= f (x ) + v T Av f (x ).

Alem disso,
f (x ) = (x )T Ax + 2bT x + c
= (x )T (b) + 2(x )T b + c
= bT x + c = c bT A1 b.
Finalmente, ( ) ( )( )
A b I 0 A b
Q= = .
bT c bT A1 1 0 c bT A1 b

Como (c bT A1 b) det(A) = det(Q) > 0 e det(A) > 0, temos f (x ) = c bT A1 b > 0.



1.14. Temos xT Ax = y T Dy = ni=1 i yi2 , onde y = P T x. Como P e inversvel, x 6= 0 se, e
somente se, y 6= 0. Suponha que A e denida positiva. Em particular, para x = P ej 6= 0,
temos 0 < xT Ax = j . Reciprocamente, se todos os autovalores sao positivos, entao

xT Ax = ni=1 i yi2 > 0, para todo x 6= 0.

Captulo 2
( )
2ax1 (x21 x2 ) + b(x1 1)
2.3. Temos f (x) = 2 . Logo, o unico ponto estacionario
a(x2 x21 )
( ) ( )
1 6ax 2
2ax 2 + b 2ax1
de f e x = . Alem disso, 2 f (x) = 2 1
e portanto,
1 2ax1 a
( )
4a + b 2a
2 f (x ) = 2 > 0, o que signica que x e minimizador local de f . A
2a a
( )
ultima parte do exerccio decorre de det 2 f (x) = 8a2 (x21 x2 ) + 4ab.
2.4. Suponha por absurdo que x nao seja um minimizador global de f . Entao existe
x IRn tal que f (x) < f (x ). Considere A = {x IRn | f (x) f }. O conexo [x , x] tem
um ponto de A e um ponto de Ac . Pelo Teorema da Alfandega, existe y [x , x] A.
Dicas e solucoes dos exerccios 119

Vejamos que f (y) = f . De fato, existem sequencias (y k ) A e (z k ) Ac tais que y k y


e z k y. Portanto, f (y k ) f (y) e f (z k ) f (y). Como f (y k ) f e f (z k ) < f , temos
f (y) = f . Alem disso, y nao e minimizador local, pois f (z k ) < f = f (y).
( )
Outra solucao (sem usar o Teor. da Alfandega). Dena g : [0, 1] IR por g(t) = f x(t) ,
onde x(t) = (1 t)x + tx. Seja t = sup {t [0, 1] | g(t) f }. Temos g(t ) f . Alem
disso, g(1) < f , o que implica t < 1. Entao existe uma sequencia (sk ) (t , 1] com
sk t . Portanto g(sk ) < f e, por continuidade, g(t ) f . Conclumos assim que
( )
x = x(t ) satisfaz f (x ) = f , mas nao e minimizador local, pois f x(sk ) < f .
( )
cos x1 sin x2 + 2x1 eu
2.5. Temos f (x) = e
sin x1 cos x2 + 2x2 eu
( )
sin x1 sin x2 + 2eu (1 + 2x21 ) cos x1 cos x2 + 4x1 x2 eu
2 f (x) =
cos x1 cos x2 + 4x1 x2 eu sin x1 sin x2 + 2eu (1 + 2x22 )

onde u = (x21 + ) x22 . O ponto x e estacionario, pois f (x) = 0. Alem disso, temos
2 1
2 f (x) = denida positiva, garantindo que x e minimizador local de f .
1 2
( )
2(x1 + x2 ) + 3x21
2.6. Temos f (x) = . Assim, f (x) = 0 se, e somente se, x = 0.
2(x1 + x2 )
( )
t
Alem disso, temos f = t3 , o que signica que x = 0 e um ponto de sela. Note que
t
( )
2 2
2 f (0) = e semidenida positiva, nao permitindo concluir que o ponto e sela
2 2
usando o Teorema 2.14.
( ) ( )
2x1 x22 2 2x 2
2.7. Temos f (x) = e 2 f (x) = . Portanto, 2 f (x)
2x2 2x1 x2 2x2 2 2x1
e denida positiva se, e somente se, x1 < 1 x2 . Veja a Figura 7.1.
2

Figura 7.1: ilustracao do Exerccio 2.7.


Dicas e solucoes dos exerccios 120

( ) ( )
2x1 x2 2 + eu 2 + eu 1 + eu
2.8. Temos f (x) = e 2 f (x) = , onde
x1 + 4x2 + 23 + eu 1 + eu 4 + eu
u = x1 + x2 .
(a) f (x) = 0.(Logo,)x e um ponto estacionario de f .
3 0
(b) 2 f (x) = > 0. Logo, x e minimizador local de f .
0 5
2.11. Temos que L 6= , pois a L. Alem disso, como f e contnua, L e fechado. Resta
ver que e limitado. Como lim f (x) = , existe r > 0 tal que f (x) > f (a), sempre que
kxk
kxk > r. Portanto, se x L, entao kxk r, isto e, L B[0, r].

Captulo 3
3.1. Provaremos que se B(y, ) C, t (0, 1] e z = (1 t)x + ty, entao B(z, t) C.
Veja a Figura 7.2. Tome w B(z, t). Sabemos que existe (xk ) C tal que xk x.
Denindo q k = 1t w 1t
t
xk , temos w = (1 t)xk + tq k e q k 1t w 1t
t
x. Alem disso,
k t w t xyk = t kw (1t)xtyk < . Portanto, existe k0 IN tal que kq k0 yk < ,
1 1t 1

o que implica que q k0 C. Consequentemente, w = (1 t)xk0 + tq k0 C.

xk qk
w
x z y

Figura 7.2: ilustracao do Exerccio 3.1.

3.2. Dados a, b int(C) e t [0, 1], considere c = (1 t)a + tb. Vamos mostrar que
c int(C). Seja > 0 tal que B(a, ) C e B(b, ) C. Dado z B(c, ), temos que
x = a + (z c) B(a, ) e y = b + (z c) B(b, ). Veja a Figura 7.3. Pela convexidade
de C, temos que z = (1 t)x + ty C.

x z y

a c b

Figura 7.3: ilustracao do Exerccio 3.2.

3.3. Dados u = T (x), v = T (y) T (C) e t [0, 1], temos


( )
(1 t)u + tv = T (1 t)x + ty T (C),

pois (1 t)x + ty C.
Dicas e solucoes dos exerccios 121

3.4. Dados x, y S e t [0, 1], temos x = lim xk e y = lim y k , com xk , y k S. Assim,


( )
(1 t)x + ty = lim (1 t)xk + ty k S,

pois (1 t)xk + ty k S.
3.7. A funcao f : IR IR, dada por f (x) = x4 e convexa, pois f 00 (x) = 12x2 0.
Portanto,

f (t1 x1 + t2 x2 + t3 x3 + t4 x4 ) t1 f (x1 ) + t2 f (x2 ) + t3 f (x3 ) + t4 f (x4 ),


4
1 1
para todos t1 , . . . , t4 tais que tj 0 e tj = 1. Em particular, para t1 = , t2 = ,
j=1
2 3
1 1 (x x2 x3 x4 )4 x41 x42 x43 x44
1
t3 = e t4 = , temos + + + + + + .
12 12 2 3 12 12 2 3 12 12
( ) ( )
x u
3.9. Suponha primeiro f convexa e considere , epi(f ) e t [0, 1]. Portanto,
y v
( ) ( ) ( )
x u (1 t)x + tu
(1 t) +t = epi(f ),
y v (1 t)y + tv

pois
( )
(1 t)y + tv (1 t)f (x) + tf (u) f (1 t)x + tu .

Reciprocamente,
( ) (supondo) agora que epi(f ) e convexo, considere x, u C e t [0, 1].
x u
Como , epi(f ), temos que
f (x) f (u)
( ) ( ) ( )
(1 t)x + tu x u
= (1 t) +t epi(f ).
(1 t)f (x) + tf (u) f (x) f (u)
( )
Isto signica que f (1 t)x + tu (1 t)f (x) + tf (u).
( ) ( )
2x1 x2 2 + eu 2 + e u
1 + e u
3.10. Temos f (x) = e 2 f (x) = , onde
x1 + 4x2 + 32 + eu 1 + eu 4 + eu
u = x1 + x2 . Assim, 2 f (x) e denida positiva, para todo x IR2 , pois 2 + eu > 0 e
( )
det 2 f (x) = 7 + 8eu > 0.
3.12. Considere primeiro f (x) = x2 . Como y 2 2xy + x2 0, temos que

f (y) = y 2 x2 + 2x(y x) = f (x) + f 0 (x)(y x).

Isto garante que f e convexa pelo Teorema 3.10. Alem disso, como f 00 (x) = 2 > 0, a
convexidade de f tambem segue do Teorema 3.12. Agora vejamos a funcao f (x) = ex .
Dicas e solucoes dos exerccios 122

Temos que ed 1 + d, para todo d IR. Portanto, ex+d ex (1 + d). Assim,

f (y) = ex+(yx) ex + ex (y x) = f (x) + f 0 (x)(y x),

provando que f e convexa pelo Teorema 3.10. Alem disso, como f 00 (x) = ex > 0, o
Teorema 3.12 garante a convexidade de f .

Captulo 4
4.2. Temos f (x)T d = d1 . Caso d1 < 0, podemos(aplicar ) o Teorema 4.2 para concluir
1 (td2 )2
o que se pede. Para d1 = 0 temos f (x + td) = f = f (x) + . Portanto, a
td2 2
funcao cresce ao longo de d.
1
4.3. (a) Note que f (x + v) f (x) = v T Av + f (x)T v. Assim, como f (x)T d = 0,
2
temos
t2
f (x + td) f (x) = dT Ad 0,
2
para todo t IR. Portanto, a funcao cresce ao longo de d.
(b) Considere (t) = f (x + td). Entao,
( )T
0 (t) = f (x + td)T d = A(x + td) + b d = f (x)T d + tdT Ad.

Igualando a zero, temos o resultado desejado.


t2
(c) Temos f (x + td) f (x) = dT Ad + tf (x)T d. Assim, a condicao de Armijo pode ser
2
reescrita como
(t )2 T
d Ad + t f (x)T d t f (x)T d.
2
f (x)T d
Mas t = , o que implica (t )2 dT Ad = t f (x)T d. Portanto,
dT Ad
1
t f (x)T d t f (x)T d.
2
1
Como t f (x)T d < 0, temos que .
2
4.4. Seja o autovalor associado a v. Note que d = (Ax + b) = Av = v. Assim, o
f (x)T d 1
passo otimo e dado por t = T = e o ponto obtido pela busca e
d Ad
1
x + t d = x + v + d = x .

A interpretacao deste exerccio e que se zermos uma busca exata, a partir de um vertice de
um elipsoide (curva de nvel de f ), na direcao oposta ao gradiente, obtemos o minimizador
Dicas e solucoes dos exerccios 123

da quadratica em uma iteracao.


4.5. Veja a demonstracao do Teorema 2.14.

Captulo 5
( x ) x, donde segue que tk f (x ) = x x 0. Por outro lado, a
k+1 k k k+1
5.2. Temos
1 1 1
sequencia e limitada, pois 0 < . Assim,
tk tk t

1
f (xk ) = tk f (xk ) 0.
tk

Mas f (xk ) f (x). Logo, f (x) = 0.


{ }
5.3. Temos xk+1 = xk + tk dk , onde tk = argmin f (xk + tdk ) . Denindo : IR IR por
t>0
(t) = f (xk + tdk ), obtemos

(dk+1 )T dk = f (xk+1 )T dk = f (xk + tk dk )T dk = 0 (tk ) = 0.

5.4. Considere f (x) = x2 e d = f 0 (x) = 2x. A condicao de Armijo com = 1/2 e


dada por
1
(x + d)2 < x2 + (2x)(2x).
2
Equivalentemente, 2xd + d < 2x , ou ainda 42 x2 < 2x2 , o que signica < 1/2.
2 2 2

1
Denindo x0 = 1 e escolhendo k = k+2 , temos
2
( )
1 1
x k+1
= x + k+2 (2x ) = x 1 k+1 .
k k k
2 2
( )( ) ( )
1 1 1
Note que x = 1
k
1 2 1 k e (xk ) e uma sequencia decrescente de
2 2 2
numeros positivos. Vamos provar que x = lim xk > 0, o que signica que x nao e esta-
k
cionario. Primeiramente note que por ser g(x) = ln(x) uma funcao convexa, tomando
x [1/2, 1], temos x = (1 t)1/2 + t, com t [0, 1], 1 t = 2(1 x) e

g(x) < (1 t)g(1/2) + tg(1) = 2(1 x) ln 2 = (1 x) ln 4.

Assim,
k ( ) k ( )
1 1 1
k
g(x ) = g 1 j < j
ln 4 < ln 4 = ln 4
j=1
2 j=1
2 j=1
2j

1 1 1
e, consequentemente, xk = ( ) > . Deste modo, x = lim xk .
k
exp g(x ) 4 k 4
Dicas e solucoes dos exerccios 124

5.7. Temos f (x) = h(x + x ) e 2 f = 2 h = A. Alem disso,

f (xk )T f (xk )
xk+1 = xk f (xk ).
f (xk )T Af (xk )

Somando x e notando que f (xk ) = h(xk + x ) = h(y k ), obtemos

h(y k )T h(y k )
y k+1 = y k h(y k ).
h(y k )T Ah(y k )

5.8. Sendo f (x) = x2 a, o metodo de Newton para resolver f (x) = 0 e dado por

1 1 ( k 2 ) 1( k a)
xk+1 = xk f (x k
) = x k
(x ) a = x + .
f 0 (xk ) 2xk 2 xk
( )
0 1
1 5
Vamos agora calcular 5, partindo de x = 2. Temos x = 2+ = 2, 25,
( ) ( ) 2 2
1 5 1 5
x2 = 2, 25 + 2, 2361 e x3 = 2, 2361 + 2, 23606.
2 2, 25 2 2, 2361
5.9. Como f (x) = f (x), f e uma funcao par. Assim, seu graco e simetrico em relacao
ao eixo vertical. Portanto, para que ocorra a situacao ilustrada, o ponto de Newton a
f (x)
partir de x deve ser x, isto e, x 0 = x. Tal equacao se reduz a 7x2 = 3. Entao,
f (x)
3 3
se o ponto inicial for ou , teremos a divergencia do metodo de Newton ilustrada
7 7
na Figura 5.10.
( ) ( )
2x1 (x21 x2 ) + x1 1 6x 2
2x 2 + 1 2x 1
5.10. Temos f (x) = e 2 f (x) = 1
.
x2 x1 2
2x1 1
( ) ( )
1 5 2
Assim, f (x) = 0 se, e somente se, x1 = 1 e x2 = 1. Alem disso, 2 f =
1 2 1
( )
1
e denida positiva, donde segue que x = e minimizador local. O passo de Newton
1
a partir de x0 e dado por
( )1 ( ) ( )
( )1 21 4 9 1 1
d = 2 f (x0 ) f (x0 ) = =
4 1 2 5 6
( )
1 9 5 401
e o novo ponto e x1 = x0 + d = . Note que f (x0 ) = e f (x1 ) = , ou seja,
5 16 2 1250
o passo produziu um ponto mais longe da solucao mas reduziu a funcao objetivo. Veja a
Figura 7.4.
Dicas e solucoes dos exerccios 125

3 x1

2
x0
1 x*
0

0.5 0 0.5 1 1.5 2 2.5

Figura 7.4: ilustracao do Exerccio 5.10.

Captulo 6
6.5. Suponha por absurdo que existe u P (S), u 6= 0. Como 0 int(S), existe > 0 tal
que v = u S. Como u P (S), v tambem pertence, pois P (S) e um cone. Por outro
lado, v S, donde segue que v T v 0 o que e uma contradicao.
( ) ( )
6.6. Pelo Lema 6.7, basta mostrar que P P (C) C. Para isso, considere c P P (C) ,
A = B T e x IRn tal que
Ax 0. (7.1)

Portanto, xT (AT y) = (Ax)T y 0, para todo y 0, donde segue que x P (C). Como
( )
c P P (C) , obtemos
cT x 0,

que junto com (7.1) signica que o primeiro sistema no Lema 6.10 nao tem solucao. Entao
o segundo sistema do lema e possvel, ou seja, c C.
6.7. Dado d C, temos d = By, para algum y 0. Caso posto(B) = m, temos

d CJ , pois J = {1, . . . , m} J . Caso contrario, existe IRm \{0} tal que B = 0.
JJ
Assim, d = By = B(y +t), para todo t IR. Escolhendo t tal que y = y + t 0 e yj = 0
para algum j (veja os detalhes na demonstracao do Lema 6.9), obtemos d = B y = BJ yJ ,
onde J = {1, . . . , m} \ {j}. Repetindo este argumento ate que J J , conclumos o
exerccio.
6.8. Considere primeiro o caso em que posto(B) = m. Seja (dk ) C, tal que dk d 6= 0.
yk
Entao, dk = By k , com y k 0. Sem perda de generalidade, podemos supor que k u,
ky k
com kuk = 1. Deste modo,
( )
1 k yk
d =B Bu 6= 0.
ky k k ky k k

Como (dk ) e convergente, temos que (y k ) e limitada e, novamente s.p.g., vamos supor que
Dicas e solucoes dos exerccios 126

y k y. Assim, dk = By k By, com y 0. Portanto, d = By C. O caso em que


posto(B) < m decorre imediatamente do que zemos acima e do Exerccio 6.7, tendo em
vista que a uniao nita de fechados e um conjunto fechado.
6.9. Considere (dk ) T (x), com dk d. Vamos mostrar que d T (x). Isto e imediato
se d = 0. Suponha entao que d 6= 0 e que (s.p.g.) dk 6= 0, para todo k IN. Fixado
k IN, como dk T (x), existe sequencia (xk,j )jIN Tal que

j xk,j x j dk
xk,j x e q k,j = k .
kxk,j xk kd k

Assim, existe jk IN tal que



1 k dk
kx xk <
k
e q < 1,
k kd k k
k

onde xk = xk,jk e q k = q k,jk . Passando o limite em k, obtemos xk x e


k
k d k dk d d
q q + 0.
kdk kdk k kdk k kdk

xk x d
Portanto, = qk , implicando em d T (x).
kx xk
k kdk
6.15. O problema proposto e equivalente a

minimizar (x1 3)2 + (x2 3)2


sujeito a x21 3x1 + x2 = 0.

Note primeiro que o problema tem uma solucao (global), em virtude do Lema 3.4. Tal
minimizador deve satisfazer ( ) ( )
3 x1 1
2 =
3 x2 1
e tambem a condicao de viabilidade x2 = 3x1 x21 . Por substituicao de variaveis, chegamos
em 2x31 9x21 + 16x1 12 = 0, cuja unica raiz real e ( x1 )= 2. Assim, o unico ponto
2
estacionario, e portanto a solucao do problema, e x = . A Figura 7.5 ilustra este
2
exerccio.
6.17. Seja x um minimizador global do problema

min f (x) = x21 + x22 + x23


s. a x1 x2 x3 = 1 .
x21 + x22 + x23 3

A existencia de x e garantida pois o conjunto viavel deste problema e compacto. Como


Dicas e solucoes dos exerccios 127

2.5

1.5

0.5

0.5

1
0 1 2 3

Figura 7.5: ilustracao do Exerccio 6.15.


1

x = 1 cumpre as restricoes acima, temos que f (x ) f (x) = 3. Armamos que x
1
e solucao global do problema original. De fato, seja x IR3 tal que x1 x2 x3 = 1. Caso
x21 + x22 + x23 3, temos f (x ) f (x). Por outro lado, se x21 + x22 + x23 > 3, entao
f (x ) 3 < x21 + x22 + x23 = f (x).
6.18. Vamos primeiro encontrar os pontos crticos. Note que a equacao
( ) ( )
x1 2cx1
2 =
x2 1 1
( )
0
implica que 6= 0, pois do contrario obteramos o ponto , que nao e viavel. Entao,
1
a restricao e ativa, ou seja, x2 = cx21 . Caso x1 = 0, obtemos o ponto x = 0, com
1 1 2c 1
multiplicador = 2. Se x1 6= 0, entao = , x2 = 1 e x21 = . Para que
c 2c 2c2
1
existam outras solucoes, devemos ter c > . Neste caso, os outros dois pontos crticos sao
( ) ( 2)
1 4c 2 1 4c 2
x = e x = . Vamos agora vericar se sao minimizadores.
2c 2c 1 2c 2c 1
1
Caso c > , temos tres pontos crticos, x, x e x. O ponto x nao e nem minimizador
2
nem maximizador local de f . ( De fato,
) para todo t > 0, sucientemente pequeno, temos
t
1 + c2 t2 2c < 0. Portanto, f = t2 + (ct2 1)2 = t2 + c2 t4 2ct2 + 1 < 1 = f (x).
ct2
( )
t
Alem disso, f = t2 + 1 > 1 = f (x). Os pontos x e x sao minimizadores globais pois
0
Dicas e solucoes dos exerccios 128

4c 1 x2
f (x ) = f (x) = 2
e dado x , temos x12 . Assim,
4c c
( )
1 4c 1
f (x) = x1 + (x2 1) x2 +
2 2 2
2 x2 + 1 .
c 4c2

1
Caso c , o unico ponto crtico e x = 0. Este ponto e minimizador global, pois dado
2
x , temos x21 2x2 . Assim, f (x) = x21 + (x2 1)2 x22 + 1 1 = f (x). A Figura 7.6
ilustra este exerccio. Salientamos que os fatos de x e x serem minimizadores globais no

2.5 2.5

2 2

1.5 1.5

1 1

0.5 x* x~ 0.5


0 x 0 x
0.5 0.5
1.5 1 0.5 0 0.5 1 1.5 1.5 1 0.5 0 0.5 1 1.5

Figura 7.6: ilustracao do Exerccio 6.18.

1 1
caso c > e de x = 0 ser minimizador global no caso c poderiam ser obtidos com o
2 2
argumento usado no Exerccio 6.15, que utiliza o Lema 3.4. (De)fato, o problema aqui e
0
equivalente a encontrar o(s) ponto(s) de mais proximo de .
1
Referencias Bibliograficas

[1] M. S. Bazaraa, H. D. Sherali, and C. M. Shetty. Nonlinear Programming Theory and


Algorithms. John Wiley, New York, 2nd edition, 1993.

[2] D. P. Bertsekas, A. Nedic, and A. E. Ozdaglar. Convex Analysis and Optimization.


Athena Scientic, Belmont, USA, 2003.

[3] A. R. Conn, N. I. M. Gould, and Ph. L. Toint. Trust-Region Methods. MPS-SIAM


Series on Optimization, SIAM, Philadelphia, 2000.

[4] R. G. Eustaquio. Condicoes de otimalidade e de qualicacao para problemas de


programacao nao linear. Masters thesis, Universidade Federal do Parana, Curitiba,
PR, 2007.

[5] A. Friedlander. Elementos de Programacao Nao-Linear. Unicamp.

[6] F. J. Gould and J. W. Tolle. A necessary and sucient qualication for constrained
optimization. SIAM Journal on Applied Mathematics, 20:164172, 1971.

[7] M. Guignard. Generalized Kuhn-Tucker conditions for mathematical programming


problems in a Banach space. SIAM Journal on Control and Optimization, 7:232241,
1969.

[8] J-B. Hiriart-Urruty and C. Lemarechal. Convex Analysis and Minimization Algo-
rithms I. Springer-Verlag, New York, 1993.

[9] A. Howard and C. Rorres. Algebra Linear com Aplicacoes. Bookman, Porto Alegre,
8nd edition, 2001.

[10] A. Izmailov and M. Solodov. Otimizacao: Condicoes de Otimalidade, Elementos de


Analise Convexa e Dualidade, volume 1. IMPA, Rio de Janeiro, 2005.

[11] A. Izmailov and M. Solodov. Otimizacao: Metodos Computacionais, volume 2. IMPA,


Rio de Janeiro, 2007.

[12] F. John. Extremum Problems with Inequalities as Subsidiary Conditions. In


O. E. Neugebauer K. O. Friedrichs and J. J. Stoker, editors, Studies and Essays:
Courant Anniversary Volume, pages 187204. Wiley-Interscience, New York, 1948.

129
Referencias Bibliograficas 130

[13] E. W. Karas, A. M. Mota, and A. A. Ribeiro. On the convergence rate of the cauchy
algorithm in the l2 norm. Technical report, Federal University of Parana, Brazil,
2005.

[14] H. W. Kuhn and A. W. Tucker. Nonlinear programming. In J. Neyman, editor,


Proceendings of the Second Berkeley Symposium on Mathematical Statistics and Pro-
bability, pages 481492. University of California Press, Berkeley, CA, 1951.

[15] Harold W. Kuhn. Nonlinear programming: a historical view. In R. W. Cottle and


C. E. Lemke, editors, Nonlinear Programming, volume IX, pages 126. SIAM-AMS
Proceedings, American Mathematical Society, Providence, RI, New York, 1976.

[16] Steven J. Leon. Algebra Linear com Aplicacoes. Rio de Janeiro, 1999.

[17] E. L. Lima. Curso de Analise, volume 1. IMPA, Rio de Janeiro, Brasil, 1981.

[18] E. L. Lima. Curso de Analise, volume 2. IMPA, Rio de Janeiro, Brasil, 1981.

[19] D. G. Luenberger. Linear and Nonlinear Programming. Addison - Wesley Publishing


Company, New York, 1986.

[20] J. M. Martnez and S. A. Santos. Metodos computacionais de otimizacao. 20.0


Coloquio Brasileiro de Matematica - IMPA, 1995.

[21] J. Nocedal and S. J. Wright. Numerical Optimization. Springer Series in Operations


Research. Springer-Verlag, 1999.

[22] A. L. Peressini, F. E. Sullivan, and Jr J. J. Uhl. The Mathematics of Nonlinear


Programming. Springer-Verlag, New York, 1nd edition, 1988.

[23] E. Polak. Computational Methods in Optimization: A Unified Approach. Academic


Press, New York, 1971.

You might also like