Filtrage bayésien de la récompense Matthieu Geist 1, 2 , Olivier Pietquin 1 et Gabriel Fricout 2 1 Supélec Groupe de recherche IMS, Metz, France {matthieu.geist,olivier.pietquin}@supelec.fr 2 ArcelorMittal Research Département MCE, Maizières-lès-Metz, France gabriel.fricout@arcelormittal.com Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentis- sage par renforcement. Cependant, les approches par ﬁltrage bayésien, qui se sont pourtant montrées efﬁcaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail général pour l’appren- tissage par renforcement basé sur le ﬁltrage bayésien, ainsi qu’une implémentation spéciﬁque basée sur un ﬁltre de Kalman à sigma-points et une paramétrisation par noyaux. Cela nous permet de pro- poser un algorithme de différences temporelles pour des espaces d’état et/ou d’action continus qui soit model-free et off-policy. Il sera illustré sur deux problèmes simples. Mots-clés : Apprentissage par renforcement, ﬁltrage bayésien, méthodes à noyaux. 1 Introduction Le contrôle optimal d’un système dynamique et stochastique peut être un problème très complexe. Même avec une connaissance parfaite du système physique, il peut être impossible de déterminer la politique de contrôle optimale de façon analytique. La réponse habituelle de l’industrie à ce type de problème est de faire appel à des heuristiques, qui reposent sur de fortes connaissances humaines a priori et pour lesquelles il est difﬁcile de garantir l’optimalité. D’un autre côté, dans le domaine de l’apprentissage numérique, ce problème est traité par l’apprentissage par renforcement (AR) (Sutton & Barto, 1998; Bertsekas, 1995). Le problème de contrôle est alors décrit en terme d’états, d’actions et de récompenses. Dans ce cadre de travail, un agent artiﬁciel essaye d’apprendre une politique de contrôle optimale à partir d’interactions avec son en- vironnement. Il observe l’état du système et choisit une action à lui appliquer, en accord avec sa politique interne qui lie les états aux actions. En retour, l’agent reçoit un signal numérique de récompense, qui est une indication locale et instantanée de la qualité du contrôle. Cette information de récompense est utilisée par l’agent pour apprendre de façon incrémentale la politique de contrôle optimale qui maximisera une fonc- tion du cumul futur des récompenses. Classiquement, la connaissance qu’a l’agent de l’environnement est modélisée par une Q-fonction qui associe à un couple état-action donné une estimation du cumul espéré de récompenses associé. La Q-fonction optimale (notée Q ∗ ) lie chaque paire état-action au maximum possible de cumul de récompenses. L’action optimale est alors celle qui maximise cette fonction pour l’état courant, ce qui rend la connaissance de Q ∗ sufﬁsante pour réaliser la tâche de contrôle. Le rôle de l’agent peut donc se résumer en l’apprentissage de cette fonction à partir d’interactions avec l’environnement. Cela sera décrit plus avant dans la section 2.1. L’AR est basé sur un principe d’apprentissage par essai/erreur qui fait sa force mais également sa fai- blesse. En fait, l’AR ne nécessite aucune connaissance a priori du système, mais suppose d’acquérir des informations sur ce dernier à travers des essais qui pourraient l’endommager. Cela est particulièrement vrai lorsque l’espace d’état est large, étant donné qu’il reste alors majoritairement inconnu au début de l’ap- prentissage. En pratique, il arrive souvent que l’espace d’état soit trop large (par exemple continu), ce qui l’empêche d’être exploré de façon exhaustive par l’agent. Proposer des algorithmes capables de prendre en compte de tels espaces tout en conservant un apprentissage incrémental à partir d’interactions est ainsi devenu un déﬁ pour la communauté de l’apprentissage numérique. D’autre part, l’AR consiste également à