KI-gestützte Roboter verstehen unklare Anweisungen dank Sprachmodellen

Die Zusammenarbeit zwischen Mensch und Maschine wird immer intuitiver – doch was passiert, wenn ein Roboter eine unpräzise Anweisung erhält? Forscher des Massachusetts Institute of Technology (MIT) haben ein neues System entwickelt, das Robotern hilft, solche Ambivalenzen zu überwinden. Ihr Ansatz namens Masked Inverse Reinforcement Learning (Masked IRL) kombiniert kinästhetische Demonstrationen mit der Kraft großer Sprachmodelle (LLMs), um Roboter schneller und zuverlässiger zu trainieren.

Wenn Roboter mehr verstehen müssen als gesagt wird

Stellen Sie sich vor, Sie bitten einen Roboter, Ihnen während einer Videokonferenz einen Kaffee zu bringen – ohne dabei Ihr Laptop oder Ihre Konzentration zu stören. Eine einfache Anweisung wie „Bring mir Kaffee“ reicht nicht aus, um sicherzustellen, dass der Roboter die Distanz zum Laptop einhält oder mögliche Hindernisse erkennt. Genau hier setzt die Forschung von Minyoung Hwang und seinem Team am MIT an.

Das Problem: Herkömmliche Trainingsmethoden für Roboter erfordern entweder eine Fülle an physischen Demonstrationen oder detaillierte Anweisungen. Doch beides gleichzeitig zu liefern, ist für Menschen oft zeitaufwendig und fehleranfällig. Masked IRL automatisiert diesen Prozess, indem es Sprachmodelle nutzt, um unklare Anweisungen zu präzisieren und gleichzeitig die relevanten Umgebungsdetails zu filtern.

Wie Masked IRL Roboter trainiert – mit weniger Daten und mehr Präzision

Der Ansatz des MIT-Teams funktioniert in mehreren Schritten. Zunächst zeichnet das System die Bewegungen eines Roboters während einer kinästhetischen Demonstration auf – also wenn ein Mensch den Roboter physisch führt, um eine Aufgabe zu zeigen. Anschließend analysiert ein Sprachmodell die aufgezeichnete Trajektorie (Bewegungsabfolge) und vergleicht sie mit der effizientesten Route. Gleichzeitig klärt das Modell unklare Anweisungen auf. Aus einem vagen Befehl wie „Bleib nah“ wird so beispielsweise „Bleib nah an der Tischfläche“.

Ein zweites Sprachmodell bewertet dann die Umgebungseinzelheiten und filtert irrelevante Informationen heraus. Ob ein Nutzer während der Demonstration an einem Tisch lehnte, spielt für die Aufgabe keine Rolle. Solche Details werden als „maskiert“ (ignoriert) und mit einer Bewertung von 0 versehen. Wichtige Elemente wie Hindernisse oder die Form des Zielobjekts erhalten dagegen eine 1 und fließen in den finalen Bewegungsplan ein. Das Ergebnis: Roboter können Aufgaben zuverlässiger ausführen, ohne dass Nutzer alle Details explizit beschreiben müssen.

Weniger Trainingsdaten, mehr Effizienz – und reale Anwendungen

In Simulationen und realen Tests zeigte sich, dass Masked IRL Roboter bis zu 15 % häufiger die unausgesprochenen Präferenzen der Nutzer erkannte als vergleichbare Systeme. Ein besonderer Vorteil: Das System benötigt deutlich weniger Demonstrationsdaten. Während andere Ansätze oft hunderte Beispiele benötigen, kam Masked IRL bereits mit fünfmal weniger Daten aus.

Ein konkretes Beispiel aus den Tests: Ein Roboterarm bewegte eine Tasse auf einem Tisch, ohne ein Laptop als Hindernis zu berühren – obwohl die Anweisung nur „Bleib weg“ lautete. In einem anderen Szenario wischte der Roboter einen Tisch ab, indem er einer unklaren Anweisung wie „Bleib nah“ eine konkrete Distanz zuordnete. Sogar das Überreichen einer Chipstüte gelang, ohne dabei einen Menschen oder den Tisch zu berühren.

Die Zukunft: Roboter, die ihre Umgebung „sehen“ und dynamisch reagieren

Bisher verlässt sich Masked IRL auf Sensoren, um die Umgebung zu erfassen. Doch die Forscher planen bereits die nächste Stufe: die Integration von Kameras. Dadurch könnten Roboter nicht nur Hindernisse erkennen, sondern auch gezielt bestimmte Objekte identifizieren. Stellen Sie sich vor, Sie bitten einen Roboter, ein Spielzeug aufzuheben – er ignoriert dann automatisch eine daneben liegende Banane.

Diese Entwicklung könnte die Zusammenarbeit zwischen Mensch und Roboter revolutionieren, besonders in Bereichen wie Lagerlogistik, Pflege oder Haushalt. Die Technologie steht noch am Anfang, aber die Ergebnisse des MIT-Teams zeigen, dass Roboter bald komplexere Aufgaben zuverlässiger und mit weniger menschlichem Aufwand meistern könnten.

Langfristig könnte Masked IRL nicht nur in Fabriken oder Büros, sondern auch im privaten Alltag eine zentrale Rolle spielen. Die Vision: Roboter, die nicht nur Befehle ausführen, sondern die Absichten hinter diesen Befehlen verstehen – und dabei sogar lernen, was der Mensch eigentlich meint, ohne es explizit zu sagen.

KI-Zusammenfassung

Yapay zekâ destekli yeni bir sistem, robotların belirsiz komutları çözümlemelerine ve saklanması gereken detaylara odaklanmalarına yardımcı oluyor. MIT araştırmacıları tarafından geliştirilen yöntem, robotların görevleri daha az veri ile öğrenmesini ve kullanıcıların niyetini otomatik olarak anlamasını sağlıyor.

KI-gestützte Roboter verstehen unklare Anweisungen dank Sprachmodellen

Wenn Roboter mehr verstehen müssen als gesagt wird

Wie Masked IRL Roboter trainiert – mit weniger Daten und mehr Präzision

Weniger Trainingsdaten, mehr Effizienz – und reale Anwendungen

Die Zukunft: Roboter, die ihre Umgebung „sehen“ und dynamisch reagieren

Kommentare

David Autor übernimmt Leitung des MIT-Departements für Wirtschaftswissenschaften

Warum Neugierde in der Wissenschaft Amerikas größten Erfolge prägt

KI-Agenten optimieren: Neues System macht Workflows schneller und energiesparender