KI-Agenten günstiger betreiben: So sparen Sie 90 % der Token-Kosten

Ein autonomer KI-Agent, der rund um die Uhr Aufgaben erledigt, kann schnell zum Kostenfaktor werden. Doch nicht die Intelligenz des Modells entscheidet über die Wirtschaftlichkeit, sondern die Art und Weise, wie es eingesetzt wird. Die Rechnung kommt früher oder später – und sie fällt oft höher aus als erwartet.

Ein Praxisbeispiel zeigt, wie schnell sich hohe Token-Kosten ansammeln: Ein Agent verbrannte in kurzer Zeit 136 Millionen Tokens, ohne dabei nennenswerte Ergebnisse zu liefern. Doch die Ursache war kein komplexer Algorithmus, sondern ein vermeidbarer Systemfehler.

Wie ein unscheinbarer Timer 136 Millionen Tokens kostete

Der Agent führte eine einfache Routine aus: Er sollte sich in regelmäßigen Abständen selbst aktivieren und eine Aufgabe erledigen. Doch statt effizient zu arbeiten, entstand ein teures Endlosschleifen-Problem. Zwei Faktoren trieben die Kosten in die Höhe:

Jede Nachricht wird neu übertragen. KI-Modelle arbeiten zustandslos – das bedeutet, dass der gesamte Gesprächsverlauf bei jedem Aufruf neu an das Modell gesendet wird. Ein Agent mit einem Kontext von 800.000 Tokens verursacht bei jedem Aufruf Kosten in Höhe von 800.000 Eingabetokens – selbst wenn nur zwei Sätze generiert werden.

Der Zwischenspeicher verfällt. Viele Anbieter speichern Kontexte vorübergehend, um wiederholte Übertragungen günstiger zu gestalten. Doch dieser Zwischenspeicher hat eine kurze Lebensdauer (oft nur wenige Minuten). Wenn der Agent sich langsamer aktiviert als der Zwischenspeicher hält, wird bei jedem Aufruf der gesamte Kontext erneut übertragen – diesmal jedoch ohne Cache und damit zu den vollen Kosten.

Das Ergebnis? Ein Agent, der sich selbst aufruft, einen immer größer werdenden Kontext wiederholt sendet und dabei ungebremst Tokens verbraucht. Ein vermeintlich einfacher Fehler mit gravierenden finanziellen Folgen.

Warum „weniger nutzen“ keine Lösung ist

Die naheliegende Reaktion auf hohe Token-Kosten ist die Einführung von Limits oder die Reduzierung der Nutzung. Doch diese Maßnahme behandelt nur die Symptome, nicht die Ursache. Der Agent läuft weiterhin auf teuren Modellen, sendet immer noch den gesamten Kontext und zahlt damit weiterhin Frontier-Preise für Arbeit, die eigentlich auch günstigere Modelle erledigen könnten.

Die eigentliche Lösung bestand darin, die Architektur grundlegend zu überdenken und vier kostensenkende Prinzipien umzusetzen. Diese Prinzipien sind nicht neu oder exotisch – doch die meisten Agenten-Frameworks setzen sie nicht als Standard um. Der Grund? Die meisten Anbieter profitieren davon, wenn der Token-Verbrauch steigt, nicht wenn er sinkt.

Vier Prinzipien für kosteneffiziente KI-Agenten

1. Keine automatischen Selbstaufrufe auf Frontier-Modellen

Ein Frontier-Modell, das in einer Endlosschleife läuft, ist der teuerste denkbare Einsatzfall in der Agenten-Entwicklung. Solche Muster wurden in der neuen Architektur verboten. Stattdessen werden wiederkehrende Aufgaben komplett aus dem Frontier-Modell herausgehalten. Ein günstiger Planer zerlegt die Aufgabe in Teilschritte, ein kostengünstiger Arbeiter führt sie aus und eine deterministische Prüfung sichert die Qualität. Das Frontier-Modell wird nur dann hinzugezogen, wenn eine echte menschliche Entscheidungsfindung erforderlich ist – und dann in einer frischen, schlanken Session.

2. Jeden Schritt zum günstigsten passenden Modell leiten

Dieser Hebel wird in der Praxis kaum genutzt – dabei ist er der effektivste. Die meisten Schritte in einem Agenten-Loop sind mechanisch: Dateien lesen, Befehle ausführen, Ausgaben formatieren oder Bedingungen prüfen. Dafür ist kein $15/M-Token-Modell nötig. Ein Modell für 0,14 $/M-Token oder sogar ein lokales Modell mit nahezu null Grenzkosten reicht völlig aus.

Die Routing-Strategie sieht wie folgt aus:

Routineaufgaben (z. B. Dateizugriff, Skriptausführung) → günstige API-Modelle wie DeepSeek oder Gemini Flash oder lokale Modelle (Ollama, MLX) mit null zusätzlichen Kosten.

Echte Entscheidungen oder komplexe Analysen → Frontier-Modelle, aber gezielt und nur für den notwendigen Schritt.

Branchenberichte zeigen, dass diese Strategie Einsparungen zwischen 60 % und 86 % ermöglicht. Im eigenen Betrieb sank der Token-Verbrauch um eine Größenordnung. Der Qualitätsverlust ist minimal – vorausgesetzt, der nächste Punkt wird umgesetzt.

3. Günstige Arbeit durch deterministische Prüfungen absichern

Die Sorge bei günstigen oder lokalen Modellen gilt deren Zuverlässigkeit. Die Lösung liegt nicht darin, dem günstigen Modell blind zu vertrauen, sondern dessen Ausgabe mit einer Prüfung zu validieren, die nicht lügen kann. Ein Test-Suite, ein Linter, eine Schema-Prüfung oder ein Exit-Code können sicherstellen, dass die Ausgabe korrekt ist. Fällt die Prüfung positiv aus, ist die Arbeit zuverlässig erledigt – ohne Frontier-Kosten. Bei Fehlern wird nachgebessert oder eskaliert. Diese Prüfschicht macht das aggressive Herunterschalten der Modellqualität erst sicher.

4. Harte Limits und transparente Kostenverfolgung

Jeder Agent arbeitet unter einem festen Kostenlimit. Wird dieses überschritten, pausiert der Agent statt weiterzuarbeiten und unkontrolliert Tokens zu verbrauchen. Zudem wird der Token-Verbrauch pro Agent erfasst. So lässt sich genau nachvollziehen, welcher Agent welche Kosten verursacht – statt am Monatsende vor einem undurchsichtigen Berg an Ausgaben zu stehen. Im Fall der 136 Millionen Tokens blieb der Fehler zunächst unsichtbar, weil keine klare Zuordnung der Kosten zu dem fehlerhaften Agenten existierte.

Der zweite Hebel: Session-Management statt ewiger Kontexte

Das Problem der wiederholten Kontextübertragung lässt sich nicht nur durch Caching lösen. Ein weiterer Ansatz ist, Sessions kurz und schlank zu halten und Kontinuität in dauerhaften Dateien statt in einem endlosen Gesprächsverlauf zu speichern. Die Agenten schreiben ihren Zustand, Entscheidungen und Erinnerungen auf die Festplatte. Eine neue Session liest nur eine kurze Zusammenfassung der relevanten Informationen statt eines 500.000-Token-Gesprächsverlaufs. Kurze Sessions sind günstige Sessions.

Warum die optimale Lösung nicht Standard ist

Wenn das Routing auf günstige Modelle Einsparungen von 60 bis 90 % ermöglicht – warum ist das nicht die Standardkonfiguration in jedem Agenten-Framework?

Die Antwort liegt in den Anreizsystemen der Branche. Die großen Agenten-Frameworks und Observability-Tools verdienen an Nutzung, Lizenzen und Traces – ihr Geschäftsmodell profitiert davon, wenn der Token-Verbrauch steigt, nicht wenn er sinkt. Auch die Modell-Anbieter haben kein Interesse daran, dass Kunden weniger ausgeben. Der wichtigste Kostensenkungshebel in der Agenten-Entwicklung wird daher von niemandem aktiv gefördert. Er bleibt den Entwicklern überlassen – und das ist der Grund, warum wir unser eigenes Laufzeitsystem als Open Source veröffentlicht haben.

Fazit: Die Architektur, die wirklich funktioniert

Ein funktionierendes Agenten-Netzwerk lässt sich nicht allein mit Frontier-Modellen betreiben. Die Kosten würden jedes Geschäftsmodell sprengen. Die Architektur, die sich bewährt hat, basiert auf diesen Grundsätzen:

Frontier-Modelle nur für echte Entscheidungen und in frischen, schlanken Sessions einsetzen.
Alle anderen Schritte gezielt zu günstigen oder lokalen Modellen leiten.
Günstige Arbeit durch deterministische Prüfungen absichern, um Qualität ohne Frontier-Kosten zu gewährleisten.
Harte Kostenlimits pro Agent und transparente Kostenverfolgung einführen.
Kontinuität nicht in endlosen Gesprächsverläufen, sondern in dauerhaften Dateien speichern.

Die harte Lektion haben wir auf die harte Tour gelernt – mit 136 Millionen Tokens. Doch wer diese Prinzipien von Anfang an umsetzt, spart sich diese Erfahrung.

Wir entwickeln dieses System transparent und als Open Source – ein kosteneffizientes, modellunabhängiges Laufzeitsystem für Agenten. Wer das Framework oder detaillierte Analysen nutzen möchte, kann uns folgen und die Entwicklung mitgestalten.

KI-Zusammenfassung

Running AI agents 24/7 can bankrupt you in weeks. Learn how one studio cut token costs by 90% by routing tasks to cheap models, enforcing hard caps, and eliminating self-looping sessions.