Wie Roboter aus wenigen Daten lernen
Ein Expertenbeitrag von Sven Behnke, Leiter des Instituts für Informatik VI – Intelligente Systeme und Robotik an der Universität Bonn und Mitglied der Plattform Lernende Systeme
Sollen Roboter einen Nutzen stiften, müssen sie die ihnen zugedachten Aufgaben möglichst präzise beschrieben bekommen. Hierzu sind in der Regel große Datenmengen nötig. Geht das auch effizienter?
Roboter sind in der industriellen Massenproduktion von großem Nutzen. Ohne Industrieroboter, die repetitive Aufgaben übernehmen, würde in Deutschland kein Auto mehr hergestellt. Mobile Roboter transportieren beispielsweise Regale in Warenlagern oder Mahlzeiten in Krankenhäusern. Einfache Roboter helfen bereits im Haushalt, etwa bei der Bodenreinigung oder der Rasenpflege.
Damit Roboter sich nützlich machen können, ist derzeit eine enge Aufgabendefinition erforderlich, zum Beispiel „bewege ein Objekt von A nach B“. Auch muss die Einsatzumgebung strukturiert werden, beispielsweise durch Bereitstellung des Objekts an bekanntem Ort in bekannter Lage. Die Forschung arbeitet derweil an neuen Anwendungsbereichen für Roboter: In Zukunft sollen sie direkt mit Menschen in der Produktion zusammenarbeiten, assistenzbedürftigen Personen im Alltag helfen oder Einsatzkräfte bei der Bewältigung von Katastrophen unterstützen. Diese offenen, komplexen Anwendungsdomänen erfordern jedoch mehr kognitive Fähigkeiten als derzeitige autonome Roboter haben. Bereits heute können ferngesteuerte Roboter mithilfe der menschlichen Intelligenz ihres Bedieners zahlreiche Aufgaben in komplexen Umgebungen lösen. Dabei versetzt Teleoperation einen Menschen in einen Avatar-Roboter. Die menschliche Bedienperson kommt mühelos mit neuen Situationen klar und kann ihr vorhandenes Wissen flexibel auf die aktuellen Gegebenheiten übertragen. Sie erkennt Probleme bei der Ausführung und entwickelt schnell Handlungsalternativen.
Wie können wir Roboter mit kognitiven Fähigkeiten ausstatten?
In den letzten Jahren wurden durch Deep Learning beeindruckende Erfolge in verwandten Bereichen erzielt, zum Beispiel bei der visuellen Wahrnehmung, der Spracherkennung und -synthese sowie bei Dialogsystemen wie Chat GPT. Diese beruhen auf dem Training großer Modelle mit gigantischen Datenmengen. Solche Basismodelle erfassen umfangreiches Weltwissen und können beispielsweise durch Transfer-Lernen oder In-Kontext-Lernen schnell auf spezifische Aufgabenstellungen angepasst werden. Wie können wir diese Erfolgsstory nun auch für die Robotik fortschreiben?
Erste Schritte in diese Richtung sind multimodale Modelle, die nicht nur mit einer Modalität – also ausschließlich Texten, Bildern oder Sprache – trainiert werden, sondern mit Daten aus mehreren Modalitäten, wie etwa CLIP von Open AI. Auch wenn die Gewinnung von echten robotischen Interaktionsdaten aufwändig ist, gibt es Initiativen zur Zusammenführung von Daten verschiedener Roboter und Aufgaben, zum Beispiel Open X-Embodiment. Damit trainierte Modelle können eine Vielfalt von Manipulationsaufgaben besser lösen als Modelle, die nur mit spezifischen Daten trainiert wurden.
Eine weitere Möglichkeit ist es, Interaktionen in einer Simulation zu erzeugen. Hierbei sind die Herausforderungen, die Simulation realistisch zu gestalten sowie das in der Simulation Erlernte auf die Realität zu übertragen, man spricht auch vom Sim2Real-Gap.
Lernen aus großen Datenmengen auch in der Robotik?
Das menschliche Vorbild zeigt uns, dass dateneffizientes Lernen möglich ist. Hierfür sind spezifische Lernmodelle erforderlich, die evolutionär optimiert wurden und durch Verwendung von Vorwissen – Stichwort induktive Bias – wenig Daten erfordern. So können wir zwar nicht mehr beliebige Aufgaben lernen, aber dafür die Aufgaben schneller und besser erlernen, die das Leben uns stellt.
Um eine vergleichbare Dateneffizienz bei Robotern zu erreichen, werden ähnliche Lernmodelle benötigt, die eine passende induktive Bias haben. Hier ist aus meiner Sicht eine Orientierung an der Struktur des menschlichen kognitiven Systems hilfreich. Insbesondere benötigen Roboter nicht nur ein schnelles, paralleles sensomotorisches System 1 für Routineaufgaben, sondern auch ein System 2 für höhere kognitive Funktionen, wie Planung oder die Einschätzung der eigenen Grenzen.
Bei passender kognitiver Architektur bietet die Teleoperation große Chancen, um Schritt für Schritt menschliche Kompetenzen auf autonome Funktionen zu übertragen und so immer weniger auf Menschen als Bedienpersonen angewiesen zu sein.
Beitrag erschienen in:
Internet Of Things
April 2024