Local Cluster Experience Replay

Stefan Zahlner, Markus Vincze, Matthias Hirschmanner
2023
Die Verbesserung der Stichprobeneffizienz von Reinforcement Learning (RL) Algorithmen spielt eine entscheidende Rolle für deren Anwendung in Situationen,in denen Daten knapp oder schwer zu erheben sind. In dieser Arbeit wird mit Local Cluster Experience Replay (LCER) ein Algorithmus vorgestellt, der dieses Problem durch synthetische Stichprobengenerierung schmälert. LCER bildet Cluster innerhalb des Replay-Buffers von Off-Policy RL Algorithmen. Er erzeugt neue und ungesehene Stichproben durch
more » ... terpolation zwischen Übergängen aus demselben Cluster, wodurch sichergestellt wird, dass die Interpolation nur zwischen Zustands-übergängen erfolgt, die im Zustands-Aktionsraum benachbart sind. Konzeptionell erstellt LCER lokal lineare Modelle zwischen verschiedenen Übergängen im Replay Buffer, die eine Interpolation zwischen verschiedenen Episoden ermöglichen und die Verallgemeinerbarkeit von Entscheidungsstrategien verbessern. Wir kombinieren unseren Ansatz mit modernen RL Algorithmen und evaluieren ihn in kontinuierlichen Fortbewegungs- und Robotersteuerungsumgebungen. LCER zeigt signifikante Verbesserungen in der Stichprobeneffizienz gegenüber RL Standardalgorithmen in beiden Umgebungsdomänen. Darüber hinaus ist LCER in der Lage, große und komplexe Umgebungen effektiv zu handhaben. Damit ist er ein vielversprechender Ansatz für die Verbesserung der Stichprobeneffizienz einer Vielzahl von RLAnwendungen.
doi:10.34726/hss.2023.86850 fatcat:3nhib5mddngtth3bo7ng3ox72y