Große Sprachmodelle (LLMs) werden zunehmend für strukturierte Ausgaben genutzt, etwa zur Umwandlung von Rechnungen in Tabellen oder von Meeting-Transkripten in Tickets. Doch selbst wenn das Schema korrekt ist, enthalten die Ausgaben oft Halluzinationen – wie falsche Datumsangaben oder falsch sortierte Listen. Diese Fehler fallen erst bei genauer Prüfung auf, besonders wenn die Werte plausibel wirken, aber inhaltlich falsch sind.
Bestehende Benchmarks wie JSONSchemaBench bewerten zwar die Schema-Konformität und Typen, ignorieren jedoch die tatsächlichen Werte. Genau hier setzt der neue Structured Output Benchmark (SOB) an. Er misst nicht nur die korrekte Struktur der Ausgabe, sondern auch die inhaltliche Richtigkeit der enthaltenen Werte – und zwar über drei Modalitäten hinweg: Text, Bilder und Audio.
Wie der SOB funktioniert: Präzision statt Schema-Compliance
Jeder Datensatz im SOB ist mit einem JSON-Schema und einer geprüften Referenzantwort verknüpft. Diese Referenz wurde manuell gegen die ursprüngliche Quelle validiert – sowohl durch menschliche Prüfer als auch durch einen zusätzlichen Abgleich mit einem LLM. So soll sichergestellt werden, dass selbst scheinbar korrekte Werte wie falsche Altersangaben oder verschobene Datenpunkte als Fehler erkannt werden.
Die Testergebnisse zeigen, dass die Leistung der Modelle stark von der Modalität abhängt:
- Textausgaben: GLM-4.7 führt die Rangliste an, gefolgt von GPT-5.4.
- Bildverarbeitung: Hier übertrifft Gemma-4-31B alle anderen Modelle.
- Audio: Gemini-2.5-Flash liegt in dieser Kategorie ganz vorne.
Ein besonders aufschlussreiches Beispiel ist die Audio-Verarbeitung: Während die korrekte Altersangabe im Testdatensatz bei "15 bis 35 Jahre" lag, lieferte ein Modell die plausible, aber falsche Angabe "25 bis 35 Jahre". Solche scheinbar kleinen Abweichungen können in automatisierten Workflows schwerwiegende Folgen haben.
Modellgröße vs. Genauigkeit: Überraschende Ergebnisse
Die Analyse zeigt, dass die Modellgröße – gemessen an der Anzahl der Parameter – nicht zwangsläufig mit besserer Wertgenauigkeit korreliert:
- Qwen3.5-35B und GLM-4.7 erreichen höhere Wertgenauigkeit als GPT-5 und Claude-Sonnet-4.6.
- Selbst kleinere Modelle wie Phi-4 (14B) schneiden in Textaufgaben besser ab als GPT-5 und dessen Mini-Version.
Diese Erkenntnisse deuten darauf hin, dass Trainingsdaten und Architektur eine größere Rolle spielen als reine Rechenleistung.
Warum strukturierte Halluzinationen so gefährlich sind
Strukturierte Halluzinationen sind besonders tückisch, weil sie scheinbar korrekt sind:
- Sie erfüllen das Schema und die Typenprüfung.
- Die Werte wirken plausibel und natürlich.
- Sie passieren oft unentdeckt durch gängige Validierungsmethoden.
Doch in deterministischen Workflows können selbst kleine Fehler zu Datenverlusten, falschen Geschäftsentscheidungen oder Sicherheitslücken führen. Der SOB soll diese Lücke schließen, indem er Modelle nicht nur nach Schema-Konformität, sondern nach tatsächlicher inhaltlicher Richtigkeit bewertet.
Ausblick: Determinismus durch bessere Messung
Die Entwickler des SOB betonen, dass deterministische Ausgaben eine Schlüsselanforderung für den produktiven Einsatz von LLMs sind. Ein kontrollierbarer und konsistenter Output ist unverzichtbar, um Workflows zu automatisieren, die auf präzisen Daten basieren.
Der erste Schritt zur Verbesserung besteht darin, die Leistung messbar zu machen. Mit dem SOB steht nun ein Werkzeug zur Verfügung, das Modelle objektiv vergleicht – und Entwicklern hilft, die besten Lösungen für ihre Anwendungsfälle zu identifizieren. Die Hoffnung ist, dass dieser Benchmark die Entwicklung robusterer und zuverlässigerer LLMs vorantreibt, die in der Praxis vertrauenswürdige Ergebnisse liefern.
KI-Zusammenfassung
Yapay zeka modellerinin yapısal çıktılarındaki değer doğruluğunu ölçen SOB, JSON şeması yanı sıra içerik doğruluğunu da test ediyor. GLM-4.7 ve GPT-5.4'in liderlik yarışındaki detaylar ve yapısal halüsinasyonların gizli tehlikeleri.

