Claude Code führt Evaluator-Modelle ein, um Agenten präziser zu steuern

KI-gestützte Entwicklungsumgebungen wie Claude Code versprechen Effizienzgewinne durch autonome Code-Migrationen, Fehlerbehebungen oder Testautomatisierung. Doch ein wiederkehrendes Problem untergräbt diese Vorteile: Agenten beenden ihre Arbeit häufig zu früh – nicht wegen mangelnder Fähigkeiten, sondern weil sie selbstständig entscheiden, dass eine Aufgabe abgeschlossen ist.

Ein konkretes Beispiel sind Code-Migrationen, bei denen ein Agent scheinbar erfolgreich läuft, aber später festgestellt wird, dass Teile des Codes nie kompiliert wurden. Solche Fehler kosten Unternehmen wertvolle Zeit und Ressourcen. Anthropic hat nun mit der Einführung von /goals in Claude Code eine Lösung vorgestellt, die diesen Engpass adressiert.

Warum Agenten zu früh aufhören

Klassische KI-Agenten arbeiten in Schleifen: Sie analysieren Dateien, führen Befehle aus, bearbeiten Code und prüfen anschließend, ob die Aufgabe erfüllt ist. Problematisch wird es, wenn die Agenten ihre eigene Leistung bewerten – mit der Gefahr, die tatsächlichen Fortschritte zu überschätzen. Diese Selbstüberschätzung führt dazu, dass Agenten ihre Arbeit beenden, obwohl die eigentliche Aufgabe noch nicht vollständig erledigt ist.

Unternehmen wie LangChain, Google und OpenAI haben bereits Methoden entwickelt, um dieses Problem zu mildern. Diese Ansätze setzen jedoch oft auf externe Evaluierungssysteme oder erfordern manuelle Konfigurationen. Anthropic geht einen anderen Weg: Mit /goals wird die Evaluierung direkt in den Arbeitsprozess des Agenten integriert.

Die Trennung von Ausführung und Bewertung

Die neue Funktion von Claude Code führt eine zweite Ebene in den Arbeitsprozess ein. Nach der Definition eines Ziels durch den Nutzer führt der Agent weiterhin seine Aufgaben aus – doch nach jedem Schritt überprüft ein separates Evaluator-Modell, ob das Ziel tatsächlich erreicht wurde. Standardmäßig kommt hier das kleinere Haiku-Modell von Anthropic zum Einsatz.

Ein Beispiel verdeutlicht die Funktionsweise:

/goal "Alle Tests in test/auth bestehen und der Lint-Schritt ist sauber"

Claude Code führt die Aufgabe aus und versucht, das Ziel zu erreichen. Jedes Mal, wenn der Agent glaubt, fertig zu sein, überprüft das Evaluator-Modell die erreichte Bedingung. Ist das Ziel noch nicht erfüllt, läuft der Agent weiter. Ist es erreicht, wird dies im Protokoll dokumentiert und das Ziel als abgeschlossen markiert.

Diese Trennung hat mehrere Vorteile:

Verlässlichkeit: Der Agent kann nicht mehr selbst entscheiden, wann er fertig ist, sondern muss die externe Prüfung bestehen.
Einfachheit: Es ist keine zusätzliche Überwachungsplattform oder manuelle Logik nötig.
Effizienz: Kleinere Modelle wie Haiku reichen aus, da sie nur zwei Entscheidungen treffen müssen: Ist das Ziel erreicht oder nicht?

Vergleich mit anderen Lösungen

Anthropic ist nicht der erste Anbieter, der Evaluator-Modelle in Agenten integriert. LangChain und Google bieten ähnliche Ansätze, allerdings erfordern diese oft manuelle Konfigurationen oder den Einsatz externer Systeme:

OpenAI lässt den Agenten selbst über das Ende der Aufgabe entscheiden, ermöglicht aber die Integration externer Evaluatoren.
Google ADK unterstützt Evaluierungsmuster, erfordert jedoch die Definition eines LoopAgent und zusätzliche Logik.
LangGraph ermöglicht unabhängige Evaluierung, verlangt aber die Konfiguration von Kritiker-Knoten und Terminierungslogik.

Anthropics Ansatz unterscheidet sich darin, dass der Evaluator standardmäßig aktiviert ist und keine zusätzliche Infrastruktur erfordert. Unternehmen können zwar weiterhin externe Tools nutzen, doch die native Integration reduziert den Aufwand für die Einrichtung und Wartung.

Erfolgsfaktoren für klare Zielvorgaben

Damit die Evaluierung effektiv funktioniert, sollten die definierten Ziele bestimmte Kriterien erfüllen:

Ein messbarer Endzustand: Ein erfolgreicher Testlauf, ein Exit-Code 0, eine bestimmte Dateigröße oder eine leere Warteschlange.
Klare Prüfvorgaben: Wie soll der Erfolg nachgewiesen werden? Beispiel: „npm test muss Exit-Code 0 liefern“ oder „git status muss clean sein“.
Relevante Einschränkungen: Welche Bedingungen dürfen nicht verändert werden? Beispiel: „Keine anderen Testdateien dürfen modifiziert werden“.

Diese Struktur verhindert, dass Agenten ihre Arbeit zu früh beenden oder unerwünschte Nebeneffekte verursachen.

Ausblick: Agenten mit größerer Zuverlässigkeit

Die Einführung von Evaluator-Modellen ist Teil eines größeren Trends in der Agentik-Entwicklung. Mit der zunehmenden Verbreitung von zustandsbehafteten, langlaufenden und selbstlernenden Agenten wird die Notwendigkeit unabhängiger Bewertungssysteme immer dringlicher. Diese Systeme finden sich bereits in Reasoning-Systemen und fortschrittlichen Coding-Agenten wie Devin oder SWE-agent wieder.

Sean Brownell, Solutions Director bei Sprinklr, betont die Bedeutung dieser Trennung: „Die Idee funktioniert. Es ist klug, den Ersteller und den Richter zu trennen, denn grundlegend kann man einem Modell nicht vertrauen, seine eigene Arbeit zu bewerten. Das Modell, das die Arbeit erledigt, ist der schlechteste Richter dafür, ob es fertig ist.“

Doch Brownell warnt auch vor übertriebenen Erwartungen: Für deterministische Aufgaben mit klaren Endzuständen wie Code-Migrationen oder Test-Fixes eignet sich der Ansatz besonders gut. Bei komplexeren Aufgaben, die kreatives Urteilsvermögen erfordern, bleibt die menschliche Kontrolle unverzichtbar.

Mit /goals zeigt Anthropic, wie Agenten zuverlässiger und auditierbarer gestaltet werden können. Die Integration von Evaluator-Modellen direkt in die Arbeitsprozesse markiert einen wichtigen Schritt hin zu einer transparenteren und kontrollierbaren KI-Entwicklung.

KI-Zusammenfassung

Claude Code’un yeni /goals sistemiyle AI ajanlarının görevleri erkenden bitirmesi nasıl engelleniyor? Değerlendirme modeli ayrımı, işletmeler için ne anlam taşıyor? Ayrıntıları okuyun.

Claude Code führt Evaluator-Modelle ein, um Agenten präziser zu steuern

Warum Agenten zu früh aufhören

Die Trennung von Ausführung und Bewertung

Vergleich mit anderen Lösungen

Erfolgsfaktoren für klare Zielvorgaben

Ausblick: Agenten mit größerer Zuverlässigkeit

Kommentare

Neue Web-Scraper-API: Bis zu siebenmal schneller beim Strukturieren

Zweiter öffentlicher ODoH-Relay-Server: Mehr Privatsphäre ohne Benutzerkonto

Wie sich Spitzen-KI-Modelle über die Zeit entwickelt haben – Live-Tracking der ELO-Werte