Sakana AI: 7B-Modell dirigiert GPT-5, Sonnet 4 und Gemini 2.5 als KI-Orchester

KI-Systeme scheitern oft an der Realität, sobald sich Nutzeranfragen oder Aufgabenanforderungen ändern. Genau dieses Problem adressiert das japanische Startup Sakana AI mit einer innovativen Lösung: dem RL Conductor, einem kleinen Sprachmodell, das durch Verstärkungslernen trainiert wird, um eine Gruppe hochspezialisierter KI-Agenten automatisch zu steuern.

Starre Agenten-Frameworks stoßen an Grenzen

Bestehende Multi-Agenten-Systeme wie LangChain oder Mixture-of-Agents basieren auf festgelegten Workflows, die Entwickler:innen manuell codieren. Diese Ansätze funktionieren zwar in kontrollierten Umgebungen, stoßen aber in der Praxis schnell an Grenzen. Yujin Tang, Mitautor der Studie und Forscher bei Sakana AI, erklärt im Gespräch mit VentureBeat:

"Obwohl hartkodierte Pipelines für bestimmte Anwendungsfälle gut geeignet sein können, versagen sie in Produktionsumgebungen mit heterogenen Nutzeranforderungen. Echte Generalisierung erfordert eine Flexibilität, die menschliche Designs nicht leisten können."

Ein weiteres zentrales Problem ist die Spezialisierung von KI-Modellen: Kein einzelnes Modell ist für alle Aufgaben optimal. Während ein Modell etwa in mathematischer Logik glänzt, eignet sich ein anderes besser für Programmierung oder wissenschaftliche Analysen. Die manuelle Zuweisung der passenden Expert:innen für jede Anfrage ist jedoch weder skalierbar noch effizient – ein automatisierter Ansatz wird hier unverzichtbar.

Wie der RL Conductor als Dirigent fungiert

Der RL Conductor löst diese Herausforderungen, indem er die Stärken mehrerer Spitzenmodelle dynamisch kombiniert. Im Gegensatz zu statischen Frameworks generiert er für jede Aufgabe einen individuellen Workflow – ähnlich einem Dirigenten, der Musiker:innen und Instrumente gezielt einsetzt. Die Kernmechanismen umfassen:

Aufgabenzerlegung: Komplexe Probleme werden in handhabbare Teilaufgaben unterteilt.
Agentenauswahl: Das Modell wählt die am besten geeigneten Expert:innen aus einem Pool aus (z. B. GPT-5 für kreative Texte, Gemini 2.5 Pro für Codegenerierung).
Kommunikationssteuerung: Natürliche Sprachanweisungen definieren, welche vorherigen Ergebnisse in den Kontext der nächsten Agent:innen einfließen.
Flexible Workflows: Je nach Komplexität entstehen sequenzielle Ketten, parallele Baumstrukturen oder rekursive Schleifen – ganz ohne manuelle Programmierung.

Das Besondere: Sämtliche Strategien lernt das Modell autonom durch Verstärkungslernen. Während der Trainingsphase erhält der Conductor eine Aufgabe, einen Pool an Worker-Modellen und ein Belohnungssignal, das Erfolg oder Misserfolg misst. Durch einfaches Ausprobieren entdeckt das System, welche Kombinationen aus Anweisungen und Kommunikationsstrukturen die besten Ergebnisse liefern. Dabei entwickelt es fortgeschrittene Techniken wie:

Gezielte Prompt-Optimierung für spezifische Teilaufgaben
Iterative Verfeinerung von Zwischenergebnissen
Meta-Prompting zur Steuerung des Gesamtworkflows

Das Ergebnis ist ein System, das sich dynamisch anpasst – ohne dass Entwickler:innen jeden Schritt vorgeben müssen.

Überzeugende Ergebnisse auf anspruchsvollen Benchmarks

Um die Leistungsfähigkeit des RL Conductors zu demonstrieren, trainierte das Team ein 7-Milliarden-Parameter-Modell (Qwen2.5-7B) mit dem neuen Framework. In den Tests stand der Conductor gegen:

Einzelne Spitzenmodelle wie GPT-5 oder Claude Sonnet 4
Selbstreflektierende Agenten, die ihre Antworten iterativ verbessern
Moderne Multi-Agenten-Routing-Systeme wie MASRouter, Mixture-of-Agents oder Smoothie

Die Ergebnisse sprechen für sich: Der kleine 7B-Conductor erreichte im Schnitt 77,27% korrekte Antworten über alle Benchmarks hinweg – und übertrumpfte damit etablierte Ansätze deutlich. Besonders beeindruckend waren die Leistungen in spezifischen Disziplinen:

93,3% auf AIME25 (mathematische Herausforderungen)
87,5% auf GPQA-Diamond (wissenschaftliche Fragen)
83,93% auf LiveCodeBench (Programmieraufgaben)

Gleichzeitig blieb der Ressourcenverbrauch moderat. Während etwa das Mixture-of-Agents-Modell durchschnittlich 11.203 Tokens pro Anfrage benötigte, kam der Conductor mit nur 1.820 Tokens aus – bei durchschnittlich drei Schritten pro Workflow. Noch deutlicher wird die Effizienz bei komplexen Aufgaben: Während einfache Faktenabfragen oft in einem Schritt gelöst wurden, umfasste die Bearbeitung anspruchsvoller Programmierprobleme bis zu vier Agent:innen mit klaren Rollen (Planung, Implementierung, Validierung).

Ausblick: KI-Orchestrierung wird zum Game-Changer

Die Technologie hinter dem RL Conductor ist bereits die Grundlage von Fugu, Sakana AIs kommerziellem Multi-Agenten-Orchestrierungsdienst. Doch die Implikationen gehen weit über einzelne Unternehmen hinaus. Automatisierte, adaptive KI-Systeme könnten die Art und Weise, wie Unternehmen KI einsetzen, grundlegend verändern – von der Kundenbetreuung bis zur Softwareentwicklung.

Die größte Stärke des Ansatzes liegt in seiner Skalierbarkeit und Generalisierbarkeit. Da der Conductor kontinuierlich dazulernt, wird er mit jeder neuen Aufgabe und jedem neuen Modell im Pool besser. Das könnte langfristig dazu führen, dass starre, manuelle Agenten-Frameworks der Vergangenheit angehören – ersetzt durch selbstoptimierende KI-Orchester, die sich dynamisch an jede Herausforderung anpassen.

KI-Zusammenfassung

Sakana AI, RL Conductor adlı bir model geliştirdi. Bu model, büyük dil modellerini otomatik olarak yönetmek ve difficile görevleri çözmek için tasarlandı.

Sakana AI: 7B-Modell dirigiert GPT-5, Sonnet 4 und Gemini 2.5 als KI-Orchester

Starre Agenten-Frameworks stoßen an Grenzen

Wie der RL Conductor als Dirigent fungiert

Überzeugende Ergebnisse auf anspruchsvollen Benchmarks

Ausblick: KI-Orchestrierung wird zum Game-Changer

Kommentare

Starglyphs: Ein Sternenrätselspiel mit Eulerpfaden als Inspiration

Adrafinil: Mac-Schlafverhinderung nur bei KI-Agenten-Aktivität

Claude Code beschleunigt die Softwareentwicklung – doch wer entscheidet noch, was gebaut wird?