RecursiveMAS: KI-Agenten beschleunigen Inferenz um 240 % mit Latentraum-Kommunikation

Ein zentrales Problem heutiger Multi-Agenten-Systeme ist ihre ineffiziente Kommunikation: Agenten tauschen Informationen über erzeugte Textsequenzen aus, was Latenz verursacht, Token-Kosten in die Höhe treibt und das System als Ganzes schwer trainierbar macht.

Ein Forschungsteam der University of Illinois Urbana-Champaign und Stanford University hat mit RecursiveMAS ein Framework entwickelt, das diese Hürde überwindet. Statt Text zu generieren und zu teilen, kommunizieren die Agenten über Embedding-Räume. Dies führt nicht nur zu schnelleren Inferenzen, sondern senkt auch die Token-Nutzung drastisch – bei gleichbleibender oder sogar verbesserter Genauigkeit in komplexen Domänen wie Codegenerierung, medizinischer Diagnostik oder Informationsrecherche.

Die Trainingskosten von RecursiveMAS liegen zudem deutlich unter denen klassischer Fine-Tuning-Methoden oder LoRA-Ansätze. Damit bietet das Framework eine skalierbare und kosteneffiziente Blaupause für maßgeschneiderte Multi-Agenten-Systeme, die sich für Unternehmen jeder Größe eignet.

Warum Multi-Agenten-Systeme bisher an Grenzen stoßen

Multi-Agenten-Architekturen ermöglichen es, komplexe Aufgaben zu lösen, die einzelne KI-Modelle allein nicht bewältigen. Doch während solche Systeme an Komplexität gewinnen, wachsen auch die Herausforderungen: Wie lassen sich Agenten so gestalten, dass sie sich dynamisch an neue Szenarien anpassen und gemeinsam lernen können?

Eine gängige Methode ist die promptbasierte Anpassung: Durch iterative Verfeinerung des gemeinsamen Kontexts werden die Agenten zu besseren Antworten geführt. Allerdings bleibt dabei die zugrundeliegende Modellarchitektur unverändert – die Fähigkeiten der Agenten sind statisch. Eine nachhaltigere Lösung besteht darin, die Gewichte der Modelle selbst zu aktualisieren. Doch das Training eines gesamten Agenten-Netzwerks ist rechenintensiv, da jedes Modell vollständig oder teilweise neu trainiert werden muss.

Ein weiteres Kernproblem ist die textbasierte Kommunikation zwischen den Agenten. Da diese sequenziell abläuft, entsteht Latenz: Jeder Agent muss warten, bis der vorherige seine Antwort generiert hat, bevor er mit der Verarbeitung beginnen kann. Diese ineffiziente Methode führt nicht nur zu Verzögerungen, sondern treibt auch die Token-Kosten in die Höhe. Zudem erschwert sie iterative Lernprozesse, da die Weitergabe von Zwischenergebnissen in Textform sowohl langsam als auch unpräzise ist.

RecursiveMAS: Kommunikation im latenten Raum statt Text

RecursiveMAS setzt auf einen grundlegend anderen Ansatz: Statt jeden Agenten isoliert zu optimieren, wird das gesamte System als eine rekursive Einheit trainiert. Inspiriert von rekursiven Sprachmodellen (RLMs), die Daten durch wiederverwendete Schichten verarbeiten, überträgt RecursiveMAS dieses Prinzip auf Multi-Agenten-Systeme.

In einem Standard-Sprachmodell durchläuft die Eingabe eine lineare Abfolge von Schichten, wobei jede Schicht auf der vorherigen aufbaut. Bei rekursiven Modellen hingegen werden die Daten durch dieselben Schichten mehrfach geleitet, wodurch sich die Modelltiefe ohne zusätzliche Parameter erhöht. RecursiveMAS überträgt dieses Konzept auf eine Kette von Agenten, die iterativ kontinuierliche latente Repräsentationen austauschen – ähnlich wie die Schichten eines einzigen Modells.

Die Agenten fungieren dabei als Schichten eines riesigen, verteilten Modells. Statt Text zu generieren, reichen sie ihre latenten Zustände an den nächsten Agenten weiter, wodurch ein geschlossener Informationsfluss entsteht. Sobald der letzte Agent seine Verarbeitung abgeschlossen hat, werden die Ergebnisse zurück an den ersten Agenten geleitet, um eine neue Rekursionsrunde zu starten. Erst in der finalen Runde wird die latente Information in einen ausgabefähigen Text umgewandelt – eine Art „telepathische“ Kommunikation der Agenten, die erst am Ende in Worte gefasst wird.

Die Architektur: RecursiveLink als Schlüsselkomponente

Damit die latente Zusammenarbeit funktioniert, führten die Forscher eine spezielle Komponente ein: den RecursiveLink. Dieses zweischichtige Modul übernimmt die Übertragung und Verfeinerung latenter Zustände zwischen den Agenten, ohne dass diese Text generieren müssen.

Die letzten versteckten Schichten eines Sprachmodells enthalten hochdimensionale semantische Informationen über dessen Denkprozess. Der RecursiveLink ist darauf ausgelegt, diese Informationen zu konservieren und weiterzugeben – nicht als diskrete Tokens, sondern als kontinuierliche Vektoren. Um Rechenkosten zu sparen, bleiben die zugrundeliegenden Modelle dabei eingefroren. Stattdessen werden nur die Parameter der RecursiveLink-Module trainiert.

Das Framework nutzt zwei Varianten des RecursiveLink:

Der innere RecursiveLink arbeitet innerhalb eines Agenten und bildet dessen neu generierte Embeddings zurück in den eigenen Eingaberaum ab. Dadurch kann der Agent kontinuierlich eine Kette latenter Gedanken erzeugen, ohne diskrete Tokens auszugeben.
Der äußere RecursiveLink fungiert als Brücke zwischen Agenten mit unterschiedlichen Modellarchitekturen. Da diese oft unterschiedliche Dimensionsgrößen für ihre Embeddings nutzen, enthält diese Variante eine zusätzliche Schicht, die die Vektoren anpasst und so eine nahtlose Kommunikation ermöglicht.

In der Trainingsphase werden zunächst die inneren Links optimiert, um die Agenten auf die latente Kommunikation vorzubereiten. Anschließend werden die äußeren Links trainiert, um die Kompatibilität zwischen heterogenen Modellen sicherzustellen. Das Ergebnis ist ein System, das gemeinsam lernt, sich anpasst und effizient skaliert – ohne die typischen Engpässe textbasierter Multi-Agenten-Systeme.

Ausblick: Skalierbare KI-Systeme für die Praxis

RecursiveMAS markiert einen Paradigmenwechsel in der Entwicklung von Multi-Agenten-KI. Durch die Abkehr von textbasierter Kommunikation hin zu latenter Interaktion werden nicht nur die Kosten gesenkt, sondern auch die Skalierbarkeit und Anpassungsfähigkeit solcher Systeme deutlich verbessert.

Für Unternehmen, die komplexe KI-Lösungen einsetzen möchten, bietet das Framework eine vielversprechende Grundlage. Ob in der Softwareentwicklung, medizinischen Diagnostik oder unternehmensinternen Wissensverarbeitung – RecursiveMAS könnte den Weg ebnen für schnellere, günstigere und intelligentere Agenten-Netzwerke, die sich dynamisch weiterentwickeln.

Die Forscher arbeiten bereits an Erweiterungen, um die Methode auf noch größere Systeme und Anwendungsfälle zu übertragen. Sollte sich das Potenzial bestätigen, könnte RecursiveMAS zum Standard für zukunftsfähige KI-Architekturen werden.

KI-Zusammenfassung

Çoklu ajan yapay zekâ sistemlerinde gizli temsil alanında iletişim kuran RecursiveMAS, çıkarım hızını 2.4 kat artırırken token kullanımını %75 azaltıyor.

RecursiveMAS: KI-Agenten beschleunigen Inferenz um 240 % mit Latentraum-Kommunikation

Warum Multi-Agenten-Systeme bisher an Grenzen stoßen

RecursiveMAS: Kommunikation im latenten Raum statt Text

Die Architektur: RecursiveLink als Schlüsselkomponente

Ausblick: Skalierbare KI-Systeme für die Praxis

Kommentare

Fin Operator: Der erste KI-Assistent für KI-Supportteams

Warum die Steuerungsebene für KI-Agenten der nächste große Tech-Kampf wird

SOC2 Typ 2 für Solo-Gründer: Machbar oder Budget-Killer?