Die Annahme, dass große Sprachmodelle (LLMs) jeden Fehler einer KI-Agenten-Interaktion perfekt erkennen, ist weit verbreitet. Doch aktuelle Tests auf hochkarätigen Benchmarks wie TRAIL und Who&When liefern ein überraschendes Ergebnis: Einfache heuristische Detektoren schlagen LLMs bei der Fehlererkennung klar.
Heuristiken dominieren auf TRAIL – mit 100 % Präzision
Die TRAIL-Benchmark von Patronus AI enthält 148 reale Agenten-Traces mit 841 menschlich gelabelten Fehlern aus 21 Kategorien. Sie gilt als einer der anspruchsvollsten Datensätze zur Fehlererkennung in Agentensystemen. Die besten Frontier-Modelle wie GPT-5.4 erreichen hier nur 11,9 % Genauigkeit, während Claude Sonnet 4.6 bei 6,9 % liegt.
Im direkten Vergleich schnitten 20 heuristische Detektoren des Pisama-Systems deutlich besser ab:
- Genauigkeit (joint accuracy): 60,1 %
- Präzision: 100 % (keine falschen Positiven)
- Kosten: 0 $
- Latenz: 21 Sekunden pro Trace
Die heuristischen Detektoren identifizierten Fehler in Kategorien wie Kontextverlust, Schleifen, Tool-Auswahl und Halluzinationen mit F1-Werten zwischen 0,829 und 1,000 – Werte, die LLMs in diesen Bereichen nicht erreichen.
Wer ist schuld? Heuristiken + LLM für die Schuldfrage
Die Herausforderung wird komplexer, wenn mehrere Agenten beteiligt sind. Der Who&When-Datensatz (ICML 2025) testet nicht nur wann ein Fehler auftrat, sondern auch welcher Agent dafür verantwortlich war.
Hier zeigen heuristische Detektoren ihre Grenzen:
- Agenten-Identifikation: 31,0 % Genauigkeit (vs. 60,3 % bei GPT-5.4 Mini)
- Schritt-Lokalisierung: 16,8 % Genauigkeit (vs. 22,4 % bei GPT-5.4 Mini)
Doch durch eine kombinierte Strategie lässt sich das Problem lösen:
- Heuristische Detektion identifiziert zunächst wann der Fehler auftrat (kostenlos, in Echtzeit).
- Ein einziger LLM-Aufruf (z. B. mit Sonnet 4) analysiert die Kausalität und bestimmt den verantwortlichen Agenten.
Diese Kombination übertrifft alle Einzellösungen:
| Methode | Agenten-Genauigkeit | Schritt-Genauigkeit | |-----------------------|---------------------|---------------------| | Pisama (heuristisch) | 31,0 % | 16,8 % | | Pisama + Haiku 4.5 | 39,7 % | 15,5 % | | Pisama + Sonnet 4 | 60,3 % | 24,1 % | | GPT-5.4 Mini | 60,3 % | 22,4 % |
Warum Heuristiken besser sind als LLMs
KI-Agenten scheitern oft an strukturellen Mustern, die sich ohne semantische Analyse erkennen lassen:
- Schleifen: Wiederholte Tool-Aufrufe oder zyklische Zustände werden durch Hash-Vergleiche oder Zustandshaashs sofort erkannt. Ein LLM müsste erst interpretieren, dass der Agent feststeckt.
- Kontextverlust: Fehlen von Schlüsselbegriffen (z. B. Daten, Namen, URLs) im Output trotz Erwähnung im Input deutet auf Kontextignoranz hin. Heuristische Detektoren messen die Abdeckung dieser Elemente.
- Halluzinationen: Wenn ein Agent behauptet, eine Websuche durchgeführt zu haben, aber das Tool einen Fehler zurückgibt, liegt eine Lüge vor. Ein heuristischer Detektor prüft die Tool-Antworten und Quellen.
- Spezifikationsabweichungen: Erwartet der Nutzer eine REST-API mit JWT-Authentifizierung, aber der Agent liefert eine HTML-Form, zeigt ein Schlüsselwort-Vergleich die Diskrepanz.
Diese Muster sind diagnostische Signale, die LLMs nur schwer oder gar nicht erfassen. Wie der Psychologe Gerd Gigerenzer in seinen Forschungen zeigt, führen einfache, fokussierte Regeln oft zu besseren Ergebnissen als komplexe Modelle – besonders in unsicheren Umgebungen mit klaren Mustern.
Wo LLMs weiterhin unverzichtbar bleiben
Trotz der Überlegenheit heuristischer Detektoren gibt es zwei Bereiche, in denen LLMs unersetzlich sind:
- Kausale Analysen in Multi-Agenten-Systemen:
- Beispiel: Ein Web-Surfer klickt auf einen falschen Link, weil der Orchestrator unklare Anweisungen gab.
- Eine heuristische Regel könnte erkennen, dass der Link irrelevant war, aber nicht, warum er ausgewählt wurde.
- Hier sind LLMs als Richtern ($0,02 pro Analyse mit Sonnet 4) die einzige Lösung.
- Neue, unbekannte Fehlerarten:
- Heuristische Detektoren erkennen nur bekannte Muster.
- Ein völlig neuer Fehlermechanismus (z. B. ein bisher unbekannter Tool-Fehler) wird erst durch semantische Analyse sichtbar.
Praktische Empfehlungen für Entwickler
Die Kombination aus heuristischen Detektoren und LLMs bietet das beste von beiden Welten:
- Phase 1: Heuristische Vorfilterung
- Kostenlos, schnell und präzise.
- Erkennt 60 % aller Fehler mit 100 % Genauigkeit.
- Phase 2: LLM-basierte Attribution
- Nur bei Bedarf einsetzen – für komplexe Kausalanalysen oder unbekannte Fehler.
- Geringe Kosten (ca. $0,02 pro Analyse).
Diese Strategie reduziert nicht nur die Fehlerrate, sondern spart auch bis zu 99 % der Kosten im Vergleich zu reinen LLM-basierten Ansätzen. Für Entwickler von KI-Agenten könnte dies der Schlüssel zu zuverlässigeren, kosteneffizienteren Systemen sein – ohne auf die Stärken von LLMs verzichten zu müssen.
KI-Zusammenfassung
New research shows heuristic detectors identify 60% of AI agent failures with zero false positives—far surpassing LLM-based methods. Learn how rule-based systems improve reliability and reduce costs.