O ALGORITMO GRADIENTE CONJUGADO CONT ´ INUO COMO SISTEMA DE CONTROLE PARA MINIMIZA¸ C ˜ AO DE FUN ¸ C ˜ OES ESCALARES N ˜ AO CONVEXAS. Amit Bhaya ∗ , Fernando Pazos ∗ , Eugenius Kaszkurewicz ∗ ∗ Departamento de Engenharia El´ etrica (PEE/COPPE) Universidade Federal do Rio de Janeiro (UFRJ) Caixa postal: 68504, Rio de Janeiro, 21945-970, Brasil Emails: amit@nacad.ufrj.br, quini@ort.org.br, eugenius@nacad.ufrj.br Abstract— This paper presents several continuous-time algorithms characterized by second order ordinary diﬀerential equations (ODE), which can be interpreted as continuous-time versions of the well known conjugate gradient (CG) discrete-time algorithm. Given a non-convex scalar objective function, the goal of these algorithms is to generate continuous-time trajectories which, starting from an arbitrary initial point, to be able to pass through local minima to converge to the unknown global minimum of the objective function. These algorithms are systematically interpreted as dynamical closed loop control systems and they are designed using control Liapunov functions (CLF). Several numerical examples, using well known benchmark functions, are presented showing this convergence. Keywords— Global optimization, Trajectory control, Conjugate gradient. Resumo— Este artigo apresenta diversos algoritmos cont´ ınuos caracterizados por equa¸ c˜ oes diferenciais or- din´ arias (EDO) de segunda ordem, os quais podem ser interpretados como vers˜ oes cont´ ınuas do conhecido algo- ritmo discreto de gradiente conjugado (CG). O objetivo destes algoritmos ´ e, dada uma fun¸ c˜ ao objetivo escalar n˜ ao convexa, gerar trajet´ orias cont´ ınuas que, partindo de um ponto inicial arbitr´ ario, sejam capazes de ultrapas- sar m´ ınimos locais para se estacionarem no m´ ınimo global desconhecido da fun¸ c˜ ao objetivo. Estes algoritmos s˜ ao sistematicamente interpretados como sistemas dinˆ amicos de controle em malha fechada e projetados utilizando fun¸ c˜ oes de Liapunov de controle (CLF). Diversos exemplos num´ ericos, utilizando fun¸ c˜ oes padr˜ ao da literatura, s˜ ao apresentados, mostrando esta convergˆ encia. Keywords— Otimiza¸ c˜ ao global, Controle de trajet´ oria, Gradiente conjugado. 1 Introdu¸ c˜ ao Em computa¸ c˜ ao anal´ ogica, as vari´ aveis de um pro- blema s˜ ao representadas como vari´ aveis f´ ısicas e seu comportamento ´ e determinado por leis f´ ısicas que produzem algum tipo de vari´ avel de sa´ ıda. A grande maioria das leis f´ ısicas s˜ ao caracteriza- das como equa¸ c˜ oes diferenciais ordin´ arias (EDO). Os m´ etodos empregados em computa¸ c˜ ao anal´ o- gica, ou algoritmos cont´ ınuos, s˜ ao referidos como m´ etodos de rastreamento de trajet´ orias, pois eles prop˜ oem seguir trajet´ orias de EDO’s adequada- mente escolhidas para a vari´ avel de sa´ ıda descrever uma trajet´ oria cont´ ınua no tempo at´ e alcan¸ car a solu¸ c˜ ao do problema. Na ´ area de otimiza¸ c˜ ao global, os m´ etodos de rastreamento de trajet´ oria tˆ em uma longa hist´ oria. A primeira proposta, inspirada em uma analogia mecˆ anica de uma bola pesada se deslo- cando com atrito por uma superf´ ıcie (“heavy ball with friction”, HBF) foi proposta por Polyak (1964) (ver tamb´ em Polyak (1987)). A id´ eia b´ asica, dadas uma posi¸ c˜ ao e velocidade iniciais, ´ e escolher o coeﬁciente de atrito de tal maneira que a trajet´ oria descrita pela bola seja capaz de ultrapassar m´ ınimos locais para convergir ao m´ ı- nimo global da fun¸ c˜ ao escalar que representa a superf´ ıcie de deslocamento. Em termos matem´ aticos, seja a fun¸ c˜ ao ob- jetivo φ(x): R n → R, cont´ ınua com derivadas parcias cont´ ınuas, n˜ ao necessariamente convexa, a fun¸ c˜ ao a ser minimizada. Assume-se que existe um m´ ınimo global x ∗ ∈ R n ´ unico e ﬁnito. A tra- jet´ oria descrita pelo algoritmo cont´ ınuo HBF est´ a determinada pela EDO de segunda ordem: ¨ x(t)+ γ ˙ x(t)+ ∇φ(x(t)) = 0 (1) onde γ ´ e um parˆ ametro escalar positivo e x(t): R → R n ´ e a vari´ avel de estado. Note-se que m´ etodos de gradiente descen- dente descritos por EDO’s de primeira ordem pro- duzem trajet´ orias que necessariamente convergem ao ponto de gradiente nulo mais “pr´ oximo” ` a condi¸ c˜ ao inicial, o que inclui selas e m´ ınimos lo- cais, sendo necess´ ario portanto, a utiliza¸ c˜ ao de EDO’s de segunda ordem para atingir o prop´ osito de ultrapassar estes pontos n˜ ao desejados e con- vergir ao m´ ınimo global. A id´ eia da bola pesada, sem atrito, foi re- tomada por Snyman e Fatti (1987). Como eles utilizam um m´ etodo de gradiente descendente sem atrito, prop˜ oem uma inicializa¸ c˜ ao aleat´ oria de m´ ultiples pontos iniciais, assim como uma t´ ec- nica heur´ ıstica para modiﬁcar as trajet´ orias gera- das pelo m´ etodo de maneira tal de garantir uma probabilidade maior de convergˆ encia ao menor m´ ı- nimo local. Shimizu et al. (1997) usam a EDO tipo HBF, mas prop˜ oem um termo de primeira ordem de “atra¸ c˜ ao-repuls˜ ao” adicional para mo- diﬁcar as trajet´ orias e introduzir uma dinˆ amica ca´ otica que favorece a convergˆ encia ao m´ ınimo 4126 XVIII Congresso Brasileiro de Automática / 12 a 16-setembro-2010, Bonito-MS