AI kodlama alanında kullanılan benchmark'lar, son aylarda aynı modellerin benzer performanslara sahip olduğunu gösteriyordu. Ancak Datacurve'un yeni benchmark'u, bu algıyı değiştiriyor. DeepSWE olarak adlandırılan bu benchmark, 113 görevi kapsıyor ve 91 açık kaynaklı depoyu içeriyor. Sonuçlar, GPT-5.5'in açık lider olduğunu gösteriyor.
AI Kodlama Benchmark'ları
AI kodlama benchmark'ları, modellerin kodlama becerilerini ölçmek için kullanılıyor. Ancak bu benchmark'lar, bazı zayıflıklara sahip. Datacurve'un araştırması, SWE-Bench Pro benchmark'unun, bazı görevleri yanlış şekilde puanladığını gösterdi. Bu, AI endüstrisi için önemli sonuçlar doğuruyor.
DeepSWE Benchmark'u
DeepSWE benchmark'u, AI kodlama modellerinin gerçek performansını göstermek için tasarlandı. Bu benchmark, 113 görevi kapsıyor ve 91 açık kaynaklı depoyu içeriyor. Sonuçlar, GPT-5.5'in açık lider olduğunu gösteriyor. GPT-5.5, 70% oranında başarılı olurken, diğer modeller daha düşük oranlarda kaldı.
Sonuçlar
DeepSWE benchmark'u, AI kodlama modellerinin gerçek performansını gösteriyor. GPT-5.5, açık lider olarak belirlenirken, diğer modeller daha düşük oranlarda kaldı. Bu sonuçlar, AI endüstrisi için önemli sonuçlar doğuruyor. AI kodlama modellerinin seçimi, bu sonuçlara göre yapılmalı.
Gelecekte, AI kodlama modellerinin geliştirilmesine devam edilecek. Bu modellerin, gerçek performansını göstermek için, daha gerçekçi benchmark'lar benötilecek. Datacurve'un DeepSWE benchmark'u, bu yönde önemli bir adım.
Yapay zeka özeti
Datacurve'un yeni benchmark'u, AI kodlama modellerinin gerçek performansını gösteriyor. GPT-5.5, açık lider olarak belirlendi.


