LLM'lerde Kararlı Çıktılar İçin Yeni Bir Ölçüm Yöntemi: SOB
Yapay zeka modellerinin çıktılarındaki değer doğruluğunu ölçmek artık mümkün. Yeni geliştirilen Structured Output Benchmark (SOB), JSON şemasının yanı sıra içerdiği verilerin de doğru olup olmadığını test ediyor ve modeller arasındaki gizli performans farklarını ortaya çıkarıyor.