Neuer Benchmark für deterministische LLMs: SOB misst Genauigkeit von strukturierten Ausgaben
Ein neuer Benchmark namens Structured Output Benchmark (SOB) überprüft, wie präzise große Sprachmodelle strukturierte Daten liefern. Im Gegensatz zu bestehenden Tests prüft SOB nicht nur Schema-Konformität, sondern auch die Richtigkeit der Werte – inklusive Text, Bilder und Audio. Erste Ergebnisse zeigen überraschende Unterschiede zwischen Modellen und Modalitäten.