Yapay zeka ajanları için bellek sistemlerine ihtiyaç olup olmadığı uzun süredir tartışılıyor. Gelişmiş bağlam pencereleri sayesinde bazı geliştiriciler, tüm sohbet geçmişini doğrudan bağlama yerleştirmenin yeterli olduğunu savunuyor. Ancak gerçek dünya uygulamalarında hangi yaklaşımın daha iyi performans gösterdiğini belirlemek için derinlemesine bir analiz yapıldı. Sonuçlar, bellek sistemlerinin özellikle uzun geçmişli sohbetlerde büyük avantaj sağladığını ortaya koyuyor.
Test düzeneği: Tam bağlam mı yoksa bellek mi?
Araştırmacılar, iki farklı yapılandırmayı karşılaştırdı. Tam bağlam yaklaşımı, tüm sohbet geçmişini her soruya dahil ederek modele sunuyor. Eidentic bellek sistemi ise geçmişi dört katmanlı bir motorla işleyerek yalnızca ilgili bilgileri sorgulamaya göre geri çağırmakta. Her iki sistem de aynı temel modeli ve aynı yargılayıcı modelini kullanırken, tüm veriler üzerinde eksiksiz testler gerçekleştirildi. Hem kazananlar hem de kaybedenler ayrıntılı olarak yayınlandı.
LongMemEval: Bellek avantajı tüm kategorilerde
LongMemEval, uzun geçmişli sohbetleri test etmek üzere tasarlandı. Yaklaşık 50 oturum ve 115 bin belirteç içeren bu veri seti, 500 soru üzerinden değerlendirildi. Bellek sisteminin avantajlı olması gereken bu senaryoda sonuçlar çarpıcı: Eidentic bellek sistemi, tam bağlam yaklaşımına göre 14,2 puan daha yüksek bir performans sergiledi. Tüm altı soru türünde de bellek sistemi öne çıktı.
| Soru türü | Tam bağlam | Eidentic bellek | |----------------------------|------------|------------------| | Tek oturum · kullanıcı | %67,1 | %84,3 | | Tek oturum · asistan | %73,2 | %92,9 | | Tek oturum · tercih | %3,3 | %26,7 | | Çoklu oturum | %27,8 | %42,1 | | Zamansal akıl yürütme | %20,3 | %34,6 | | Bilgi güncelleme | %66,7 | %70,5 | | Genel performans | %41,0 | %55,2 |
Bellek sistemi her soru için yalnızca 2.550 belirteç kullanırken, tam bağlam yaklaşımı geçmişi her seferinde yeniden okumak için 99.435 belirteç harcadı. Bu da bellek sisteminin, daha yüksek doğrulukla birlikte yaklaşık 39 kat daha az belirteç kullanarak çalıştığı anlamına geliyor.
LoCoMo: Küçük geçmişlerde tam bağlam öne çıkıyor
LoCoMo veri seti, çok daha küçük bir geçmiş hacmine sahip. Tüm geçmişin modele rahatça sığdığı durumlarda, tam bağlam yaklaşımı daha avantajlı hale geliyor. Model her şeyi aynı anda görebildiğinden, çoklu sorgulama gerektiren sorularda bellek sisteminin avantajı ortadan kalkıyor. Bu senaryoda tam bağlam, bellek sistemine göre 7,8 puan daha yüksek bir performans gösterdi. Yine de bellek sistemi yine de çok daha az belirteç kullanıyor (~893 belirteçe karşılık ~19.030).
"Geçmiş ne kadar büyük olursa, bellek sistemi o kadar avantajlı hale gelir — hem doğruluk hem de maliyet açısından. Küçük geçmişlerdeyse tam bağlam hâlâ rekabetçi kalabiliyor. Biz de size sadece olumlu sonuçları değil, tüm gerçekleri sunmayı tercih ediyoruz."
Pratik uygulamalarda ne anlama geliyor?
Eğer yapay zeka ajanlarınızın sohbetleri kısa ve sınırlıysa, bellek sistemi kullanmak zorunda olmayabilirsiniz. Ancak sohbet geçmişi büyüdükçe ve her sorguda tüm geçmişi yeniden okumak maliyetli hale geldikçe, bellek sistemleri iki önemli avantaj sunuyor: daha doğru yanıtlar ve çok daha düşük token kullanımı. Gerçek dünya uygulamalarında bu geçiş noktası oldukça hızlı bir şekilde ortaya çıkıyor.
Araştırmanın tamamı, kullanılan metodoloji ve ham veri kayıtları Eidentic belgelerinde yayınlandı. Aynı zamanda test altyapısına GitHub deposundan ulaşılabilir. Sonuçları yeniden üretmek ve farklı senaryoları test etmek için siz de katılabilirsiniz. Yanlış olduğunu düşündüğünüz noktaları bize bildirin.
Yapay zeka özeti
Yapay zeka ajanlarının performansını artırmak için bellek sistemleri mi yoksa tam bağlam mı tercih edilmeli? Yeni araştırma sonuçları ve karşılaştırmalı analiz burada.