Yapay zekanın gerçek dünya görevlerini ne kadar iyi yerine getirebildiğini ölçmek için tasarlanan Agents’ Last Exam (ALE) adlı yeni bir benchmark, akademik testlerin ötesine geçerek GDP’ye doğrudan katkı sağlayabilecek yetenekleri değerlendiriyor. Kaliforniya Üniversitesi, Berkeley’in Center for Responsible, Decentralized Intelligence (RDI) tarafından geliştirilen ve 300’den fazla alan uzmanından oluşan bir danışma kurulu tarafından desteklenen ALE, yapay zekanın sadece teorik bilgiyle değil, karmaşık, çok adımlı iş akışlarını da yürütebilme yeteneğiyle sınanıyor.
ALE’nin en dikkat çekici sonucuysa, OpenAI’in nisan ayında piyasaya sürülen GPT-5.5 modelinin, Codex aracılığıyla çalıştırıldığında, Anthropic’in yeni çıkan Claude Fable 5’ini geride bırakarak liderlik koltuğunu ele geçirmesi oldu. ALE liderlik tablosunda GPT-5.5, %24’lük geçme oranıyla birinci sırada yer alırken, ikinci sırada %23 ile yine OpenAI’in farklı bir aracı olan Ale Claw, üçüncü sırada ise %22 ile Claude Fable 5 bulunuyor. Bu sonuçlar, yapay zekanın sadece kodlama yetenekleriyle değil, gerçek dünya profesyonel görevlerini ne kadar iyi yerine getirebildiğiyle ilgili önemli ipuçları sunuyor.
Eski Benchmark’ların Ötesinde: ALE’nin Yenilikçi Yaklaşımı
Geleneksel yapay zeka benchmark’ları genellikle statik sorulara dayalı testlerden oluşuyordu. Son dönemlerdeyse, çok adımlı etkileşimlere odaklanan yeni değerlendirme yöntemleri ortaya çıktı. Ancak bu yöntemlerin çoğu, otomatik doğrulayıcıların doğru çözümleri yanlışlıkla reddetmesi ya da bazı modellerin (örneğin Claude Opus ailesi) yanıltıcı yöntemlerle
Yapay zeka özeti
Yeni ALE benchmark'ı, yapay zekanın gerçek dünya iş akışlarını ne kadar iyi yürütebildiğini ölçüyor. OpenAI'in GPT-5.5 modeli, en zorlu sınavda liderlik koltuğunu ele geçirirken, sektördeki performans boşlukları da ortaya çıkıyor.


