Apprentissage par renforcement pour les processus décisionnels de Markov partiellement observés Apprendre une extension sélective du passé

Alain Dutech, Manuel Samuelides
2003 Revue d'intelligence artificielle : Revue des Sciences et Technologies de l'Information  
Nous présentons un nouvel algorithme qui contribue à étendre le formalisme de l'Apprentissage par Renforcement (RL) aux Processus Décisionnels Markoviens Partiellement Observés (POMDP). L'idée principale de notre méthode est de construire une extension d'état, appelée observable exhaustif, qui permet de définir un nouveau processus qui est alors markovien. Nous démontrons que résoudre ce nouveau processus, auquel on peut appliquer les techniques classiques de RL, apporte une solution optimale
more » ... POMDP original. Nous appliquons l'algorithme déduit de ce résultat sur plusieurs exemples pour en tester la validité et la robustesse. ABSTRACT. We present a new algorithm that extends the Reinforcement Learning framework to Partially Observed Markov Decision Processes (POMDP). The main idea of our method is to build a state extension, called exhaustive observable, which allow us to define a next processus that is Markovian. We bring the proof that solving this new process, to which classical RL methods can be applied, brings an optimal solution to the original POMDP. We apply the algorithm built on that proof to several examples to test its validity and robustness. MOTS-CLÉS : théorie de la décision, agent intelligent, apprentissage par renforcement, POMDP, extension d'état
doi:10.3166/ria.17.559-589 fatcat:wxgol4gvz5hahppbn6xgrd7yoe