Viele unterschätzen, wie komplex es ist, wenn ein Modell einfache Computeraktionen wie Klicks oder Texteingaben selbstständig ausführt. Während die Aktionsmöglichkeiten überschaubar wirken, ist der Entscheidungsraum enorm: Ein Bildschirm mit 1920×1080 Pixeln bietet über zwei Millionen visuelle Informationen. An jedem Punkt muss das System nicht nur den aktuellen Zustand verstehen, sondern auch die beste nächste Aktion wählen und die Reaktion der Umgebung vorhersehen.
Genau diese Herausforderung löst Mano-P, ein Vision-Language-Action-Agent, der speziell für Endgeräte wie Laptops entwickelt wurde – nicht für Rechenzentren. Mit 4 Milliarden Parametern erreicht das Modell auf einem Apple M5 Pro-Chip eine Dekodierungsrate von etwa 80 Tokens pro Sekunde. Auf dem spezialisierten Benchmark OSWorld führt es die Rangliste mit 58,2 % an, während der Zweitplatzierte nur 45,0 % erreicht. Doch der wahre Clou liegt nicht in den Zahlen, sondern in der Trainingsmethodik: einer dreistufigen Pipeline, deren Reihenfolge entscheidend ist.
Warum eine einzige Trainingsphase scheitert
Ein Modell direkt mit Reinforcement Learning (RL) zu trainieren, scheitert meist an zwei grundlegenden Problemen. Erstens: Ohne Vorwissen führt das System zufällige Aktionen aus – Klicks auf leere Flächen, endloses Scrollen in Menüs – und sammelt kaum verwertbare Daten. Zweitens: Belohnungssignale sind oft zu spärlich. Ein Modell erkennt erst nach vielen Schritten, ob eine Aufgabe erfolgreich abgeschlossen wurde, was das Lernen extrem ineffizient macht.
Genau hier setzt Mano-P an. Die dreistufige Pipeline kombiniert Supervised Fine-Tuning (SFT), Offline-Reinforcement Learning und Online-Reinforcement Learning, wobei jede Phase gezielt ein anderes Defizit adressiert. Überspringt man eine Stufe oder verändert die Abfolge, bricht die Leistung ein.
Stufe 1: Supervised Fine-Tuning – Die Grundlagen lernen
Bevor ein Modell aus Belohnungen lernen kann, muss es zunächst grundlegende Kompetenzen entwickeln. Hier kommt Supervised Fine-Tuning (SFT) ins Spiel: Das Modell wird mit tausenden von Experten-Demonstrationen trainiert, um GUI-Interaktionen zu imitieren.
Die Trainingsdaten bestehen aus annotierten GUI-Interaktionsspuren, die aus (Bildschirmfoto, Gedanke, Aktion)-Tripeln aufgebaut sind. Das Modell lernt dabei:
- Visuelle Verankerung: Erkennen von UI-Elementen wie Buttons, Textfeldern oder Menüs allein anhand von Pixeln – ohne DOM-Bäume oder Accessibility-APIs, die nicht immer verfügbar sind.
- Aktionsvokabular: Definition der Grundaktionen wie Klick, Texteingabe, Scrollen oder Drag-and-Drop sowie deren Koordinaten auf dem Bildschirm.
- Aufgabenzerlegung: Umwandlung hoher Anweisungen (z. B. „Öffne die Einstellungen und ändere das Hintergrundbild“) in eine Sequenz konkreter Schritte.
Nach dieser Phase kann das Modell vertraute Aufgaben zuverlässig ausführen – etwa eine Datei im Finder zu öffnen oder Systemeinstellungen zu ändern. Allerdings ist es noch unflexibel: Unbekannte Oberflächen, unerwartete Dialogfenster oder mehrstufige Aufgaben mit Verzweigungen führen schnell zu Fehlern. Das Modell hat gelernt, Lösungen zu memorieren, nicht Strategien zu entwickeln.
Genau das ist der Zweck dieser ersten Stufe: einen fähigen, aber unflexiblen Ausgangspunkt zu schaffen, auf dem die folgenden Phasen aufbauen können.
Stufe 2: Offline-Reinforcement Learning – Aus Fehlern lernen
Der nächste Schritt wäre naheliegend: Das Modell direkt mit Online-Reinforcement Learning zu trainieren. Doch hier liegt das Problem: Ein frisch mit SFT trainiertes Modell ist noch nicht gut genug, um sinnvoll zu explorieren. In einer Live-Umgebung würde es meist in katastrophalen Zuständen landen – sinnlose Klicks, verschachtelte Menüs, nie abgeschlossene Aufgaben. Der Belohnungssignal ist zu unregelmäßig, um daraus zu lernen.
Offline-Reinforcement Learning füllt diese Lücke. Statt aus Echtzeit-Interaktionen lernt das Modell aus einem großen Datensatz vorab gesammelter Trajektorien – sowohl erfolgreicher als auch gescheiterter Versuche. Dieser Datensatz enthält:
- Experten-Demonstrationen (hohe Belohnung)
- Eigene Rollouts früherer Modellversionen (gemischte Belohnung)
- Trajektorien aus verschiedenen Checkpoints (unterschiedliche Qualität)
Der Kern der Methode: Selbst suboptimale Daten enthalten wertvolle Informationen. Ein gescheiterter Versuch liefert z. B. die Erkenntnis „Ein Klick hier führt in eine Sackgasse“. Das Modell lernt, Aktionen zu bevorzugen, die historisch zum Erfolg führten, und riskante Schritte zu vermeiden.
In dieser Phase entwickelt das Modell:
- Fehlerbehebung: Strategien für den Fall, dass eine Aktion nicht das erwartete Ergebnis liefert.
- Alternative Lösungswege: Mehrere Wege zum gleichen Ziel, wobei robustere Pfade bevorzugt werden.
- Zustandsbewertung: Erkennen, ob Fortschritte gemacht werden oder das System feststeckt.
Nach dem Offline-Training ist das Modell deutlich robuster. Es bewältigt unbekannte Layouts besser, da es nicht nur optimale Pfade, sondern auch Recovery-Strategien aus Fehlversuchen gelernt hat. Es entwickelt so etwas wie Intuition dafür, welche Aktionen riskant sind und welche sicher.
Doch auch hier gibt es Grenzen: Die Welt verändert sich ständig. Neue App-Versionen erscheinen, Layouts werden angepasst, und seltene Edge Cases häufen sich. Um diese Lücke zu schließen, benötigt das Modell echte Interaktion mit der Umgebung.
Stufe 3: Online-Reinforcement Learning – In der Praxis lernen
Erst in der Online-Phase darf das Modell selbstständig Aktionen in einer Live- (oder hochgradig simulierten) Umgebung ausprobieren und aus den Konsequenzen lernen. Voraussetzung ist, dass das Modell bereits so kompetent ist, dass es viele Aufgaben abschließen und häufige Fehler beheben kann. Dadurch wird die Exploration produktiv: Statt zufälliger Klicks führt es informierte Versuche aus, die manchmal bessere Strategien offenbaren.
In dieser Stufe steht Folgendes im Fokus:
- Umgebungsinteraktion: Das Modell führt Aktionen aus, beobachtet die Ergebnisse und passt seine Strategie an. Keine statischen Datensätze mehr.
- Belohnungsoptimierung: Direkte Optimierung anhand von Aufgabenabschluss und Effizienz (weniger Schritte = höhere Belohnung).
- Umgang mit Verteilungsverschiebungen: Das Modell trifft auf Zustände, die nicht in den Offline-Daten vorkamen, und lernt, damit umzugehen.
Die Belohnung setzt sich aus drei Komponenten zusammen:
- Aufgabenabschluss (binär: Erfolg oder Misserfolg)
- Effizienz (je weniger Schritte, desto höher die Belohnung)
- Verifikation (zusätzliche Prüfung der Lösung)
Ohne die Effizienzkomponente würde das Modell zwar Aufgaben abschließen, aber auf umständliche oder fragilen Wegen. Die Einführung der Schrittoptimierung führt zu robusteren und direkteren Lösungen.
Das Geheimnis hinter Mano-Action
Ein zentrales Element ist Mano-Action, eine bidirektionale Selektionsstrategie, die die Online-Lernphase steuert. Sie ermöglicht es dem Modell, nicht nur vorwärts zu planen, sondern auch rückwärts zu analysieren: „Welche Aktion hat zum aktuellen Zustand geführt?“ Diese Rückkopplung beschleunigt das Lernen und reduziert die Anzahl benötigter Interaktionen.
Fazit: Warum die Pipeline zählt
Mano-P beweist, dass komplexe GUI-Aufgaben auf Endgeräten machbar sind – aber nur mit der richtigen Trainingsstrategie. Die dreistufige Pipeline stellt sicher, dass das Modell von Grund auf lernt, aus historischen Daten verfeinert wird und schließlich in der realen Welt agieren kann. Jede Stufe löst ein spezifisches Problem, und die Abfolge ist entscheidend: Ohne SFT fehlt die Grundkompetenz, ohne Offline-RL die Robustheit, und ohne Online-RL die Anpassungsfähigkeit an neue Situationen.
Die Zukunft wird zeigen, wie weit solche Ansätze skalierbar sind – etwa in Bereichen wie automatisierter Software-Tests oder barrierefreier Bedienung. Eines ist sicher: Die Kombination aus visueller Intelligenz, sprachlicher Steuerung und präziser Aktion wird die Art und Weise, wie wir mit Computern interagieren, grundlegend verändern.
KI-Zusammenfassung
Discover how Mano-P’s SFT, offline RL, and online RL stages create a robust GUI agent that runs on laptops with top OSWorld benchmark results.