Robotics and Biology Laboratory

A Practical Guide to Transformed Predictive State Representations

Personen

Niklas Gebauer

Rico Jonschkowski

Oliver Brock

Zusammenfassung

Prädiktive Zustandsdarstellungen (PSRs) gewinnen in letzter Zeit viel Aufmerksamkeit in der Robotikgemeinschaft, da sie theoretisch ein leistungsfähiges Modell versprechen, das direkt aus Daten gelernt werden kann. Die praktische Anwendung von PSRs bleibt jedoch ein schwieriges Unterfangen. Bisher wurden nur wenige Lernalgorithmen vorgeschlagen, und es gibt nur eine kleine Anzahl erfolgreicher Versuche, PSRs für komplexe Bereiche zu lernen. Mit diesem praktischen Leitfaden wollen wir die praktische Arbeit mit PSRs erleichtern und fördern. Einerseits liefern wir den theoretischen Hintergrund und praktische Anleitungen zu PSRs, andererseits zeigen wir mögliche Fragen auf, die untersucht werden sollten, um ihre praktische Anwendbarkeit zu verbessern. Zu diesem Zweck haben wir einen Algorithmus reimplementiert, der ein PSR einer simulierten mobilen Roboterumgebung lernt. Wir leiten von der Theorie, die zum Verständnis des implementierten Algorithmus erforderlich ist, zur Praxis über und liefern ausführliche Informationen zu allen Teilen unserer Implementierung. In einer Reihe von Experimenten validieren wir nicht nur frühere Ergebnisse, dass die gelernten PSRs genau genug sind, um erfolgreiches Reinforcement Learning zu ermöglichen, sondern untersuchen auch die Qualität der gelernten Modelle und die empirische Leistung des Algorithmus selbst. Dazu wenden wir den Lernalgorithmus auf unterschiedlich komplexe Umgebungen an und untersuchen die praktischen Grenzen des implementierten Ansatzes. Eine der größten Herausforderungen, mit denen wir konfrontiert wurden, war die Abstimmung der Parameter. Wir haben festgestellt, dass eine langwierige, umgebungsspezifische Feinabstimmung erforderlich ist, um zuverlässig genaue Repräsentationen zu lernen, und haben daher den Einfluss der Parameter auf die Qualität der gelernten Repräsentationen in mehreren Experimenten genauer untersucht. Die Ergebnisse sind ein Anhaltspunkt für zukünftige Arbeiten und zeigen mögliche Probleme auf, die angegangen werden müssen, um das PSR-Lernen zu verbessern und es auf komplexe reale Bereiche anwendbar zu machen.