RAG sistemlerinde gizli tehlike: Doğrulukta %40'a varan kayıp riski

Yapay zeka destekli iş akışlarını optimize etmek isteyen şirketler, genellikle yeniden ayarlanmış gömme modelleri kullanarak RAG (Retrieval-Augmented Generation) sistemlerinin hassasiyetini artırmaya çalışıyor. Ancak yeni bir araştırma, bu yaklaşımın aslında geri getirme (retrieval) performansını önemli ölçüde düşürdüğünü gösteriyor.

Redis tarafından yapılan ve "Yapısal Hassasiyet Eğitimi Yoğun Gömme Geri Getirmesini Azaltıyor" başlığını taşıyan araştırma, gömme modellerinin hassasiyetini artırmaya yönelik eğitimlerin, modellerin geniş konu ve alanlardaki genel performansını nasıl olumsuz etkilediğini inceliyor. Çalışmaya göre, bu tür eğitimler, modellerin benzer cümleleri ayırt etme yeteneğini geliştirirken, aynı zamanda onların geniş kapsamlı konularda doğru sonuçları geri getirme kabiliyetini de zayıflatıyor. Küçük modellerde performans kaybı %8-9 arasında görülürken, orta ölçekli bir modelde bu kayıp %40'a kadar ulaşabiliyor.

Araştırmanın başyazarlarından ve Redis'te AI Araştırma Lideri olan Srijith Rajamohan, bulguların yaygın bir varsayımı sorguladığını belirtiyor. "Semantik arama kullanıldığında doğru niyeti yakaladığımız genel bir kanı var. Ancak bu her zaman doğru değil" diyen Rajamohan, yüksek semantik benzerliğin her zaman doğru niyeti temsil etmediğinin altını çiziyor.

Geri getirme sisteminde gizlenen geometrik sorun

Gömme modelleri, bir cümleyi yüksek boyutlu bir uzaya sıkıştırarak çalışır. Bu uzayda, benzer konulara ait belgeler birbirine yakın konumlanır ve sorgulara en yakın noktalar geri getirilir. Ancak bu yaklaşımın bir zayıflığı var: Yapısal olarak çok benzer ancak anlam bakımından tamamen farklı cümleler de aynı bölgede konumlanabiliyor. Örneğin, "köpek adamı ısırdı" ile "adam köpeği ısırdı" cümleleri, kelime dağarcığına dayalı benzerlik nedeniyle aynı bölgede yer alabiliyor.

Araştırma, bu sorunun kökenini modellerin kelime içeriğine odaklanmasıyla açıklıyor. Cümlelerin yapısal farklılıklarını (örneğin olumsuzluk ekleri veya sözcük sıralaması değişiklikleri) dikkate almayan modeller, bu tür ince anlam farklarını yakalamakta zorlanıyor. Eğitim sırasında bu farklılıkları öğretmek için yapılan ayarlamalar, aslında modelin geniş konu araması için kullandığı vektör uzayını daraltıyor. Sonuç olarak, hassasiyeti artırmaya yönelik yapılan iyileştirmeler, genel geri getirme performansını olumsuz etkiliyor.

Araştırmada ayrıca, bu gerilemenin tüm hata türlerinde aynı şekilde gerçekleşmediği de ortaya konuyor. Olumsuzluk ekleri ve sözcük sıralaması değişikliklerine bağlı hatalar, yapısal eğitimle kısmen iyileştirilebilirken; bağlama bağlı hatalar (örneğin, bir sözleşmedeki yükümlülüklerin kime ait olduğunun karıştırılması) bu eğitimden neredeyse hiç etkilenmiyor. Bu durum, hassasiyet sorununun en kritik olduğu noktalarda çözümün daha da zorlaşmasına neden oluyor.

Neden standart çözümler yetersiz kalıyor?

Geri getirme hassasiyetindeki düşüşü telafi etmek için şirketler genellikle çeşitli yöntemlere başvuruyor. Ancak araştırma, bu yöntemlerin çoğunun ya sorunu tamamen çözemediğini ya da yeni sorunlara yol açtığını gösteriyor.

Hibrit arama: Gömme tabanlı geri getirmeye anahtar kelime aramasını eklemek, yaygın bir uygulamadır. Ancak bu yöntem, yapısal benzerlik sorunlarını çözmekte yetersiz kalıyor. Örneğin, "Roma Paris'ten daha yakın" ve "Paris Roma'dan daha yakın" cümleleri arasındaki anlam farkını algılayamıyor. Her iki cümlede de aynı kelimeler bulunduğundan, anahtar kelime araması bu farkı yakalayamıyor.

MaxSim yeniden sıralama: Bazı ekipler, sorguyu belgeyle karşılaştırmak yerine, sorgu ve belge içindeki bireysel kelimeleri karşılaştıran ikinci bir puanlama katmanı ekliyor. ColBERT gibi sistemlerde kullanılan bu yöntem (MaxSim veya geç etkileşim), ilgili puanlama ölçütlerinde iyileşme sağlasa da, yapısal benzerlik sorunlarını çözmekte başarısız oluyor. Bu yöntem, ilgili kelimeleri bulmada başarılı olsa da, cümlelerin tamamen aynı olduğunu düşünerek yanlış sonuçlar üretebiliyor.

Çapraz kodlayıcılar: Bu sistemler, sorguyu ve belgeyi aynı anda modele vererek her kelimenin birbirine karşı karşıya getirilmesini sağlıyor. Bu sayede yüksek doğruluk elde edilse de, üretim ölçeğinde çalıştırılması çok maliyetli olduğu için pratikte kullanılamıyor. Araştırma ekibi, bu yöntemin de gerçek sorgularda yetersiz kaldığını tespit etmiş.

Bağlamsal bellek: Ajans belleği olarak da adlandırılan bu sistemler, RAG'ın ötesine geçmeyi vaat ediyor. Ancak Rajamohan, bu sistemlerin de sorgulama sırasında geri getirmeye bağımlı olduğunu ve aynı hassasiyet sorunlarını taşıdığını belirtiyor. Bu sistemler, daha esnek gecikme gereksinimlerine sahip olsa da, hassasiyet sorununu çözmüyor.

Araştırmanın doğruladığı iki aşamalı çözüm

Araştırmada, yukarıda bahsedilen tüm yöntemlerin ortak bir zayıflığı olduğu vurgulanıyor: hepsi aynı sorunu, yani gömme vektörlerinin daraltılması sorununu çözmeye çalışıyor. Ancak Rajamohan ve ekibi, bu sorunun çözümü için farklı bir yol öneriyor. Araştırma, hassasiyeti artırmaya yönelik eğitimlerin yapısal hassasiyeti de dikkate alması gerektiğini savunuyor. Bunun için önerilen yaklaşım, iki aşamalı bir eğitim süreci:

Birinci aşama: Geniş konu arama yeteneğini koruyarak, yapısal hassasiyeti artırmaya yönelik eğitimler yapmak.
İkinci aşama: Elde edilen modelin, geri getirme performansını doğrudan ölçen metriklerle değerlendirilmesi ve gerekirse yeniden ayarlanması.

Bu yaklaşım, modellerin hem geniş konu arama yeteneğini korumasını hem de yapısal hassasiyeti artırmasını sağlıyor. Araştırmada, bu yöntemin geri getirme performansındaki kayıpları önemli ölçüde azalttığı gösteriliyor.

Rajamohan, şirketlerin bu sorunu çözmek için model boyutunu artırmanın yeterli olmadığını vurguluyor. "Bu sorunu, daha fazla boyut veya parametre ekleyerek çözemeyiz" diyen Rajamohan, çözümün mimari düzeyde olması gerektiğini belirtiyor.

Geleceğe yönelik çıkarımlar

Araştırma, RAG sistemlerinde hassasiyet artırma çabalarının, aslında geri getirme performansını nasıl riske attığını gözler önüne seriyor. Bu durum, özellikle ajans tabanlı AI sistemlerinde ciddi sonuçlara yol açabilir. Yanlış bir geri getirme, sadece yanlış bir yanıta değil, aynı zamanda zincirleme olarak yanlış eylemlere de neden olabilir.

Şirketlerin, RAG sistemlerini optimize ederken sadece hassasiyeti değil, aynı zamanda geniş konu arama yeteneğini de göz önünde bulundurması gerekiyor. Gelecekte, bu alandaki araştırmaların artmasıyla birlikte, daha sağlam ve güvenilir AI sistemlerinin geliştirilmesi mümkün olabilir.

Yapay zeka özeti

RAG modellerini hassasiyet için yeniden eğitmek, geri getirmede %40'a varan kayıplara yol açabilir. Araştırma, gizli tehlikeyi ve çözüm önerilerini ortaya koyuyor.

Etiketler

#yapay zeka #rag sistemleri #gömme modeli #geri getirme doğruluğu #ajans tabanlı ai #semantik arama #yapısal hassasiyet #redis araştırması

RAG sistemlerinde gizli tehlike: Doğrulukta %40'a varan kayıp riski

Geri getirme sisteminde gizlenen geometrik sorun

Neden standart çözümler yetersiz kalıyor?

Araştırmanın doğruladığı iki aşamalı çözüm

Geleceğe yönelik çıkarımlar

Yorumlar

Spotify’dan Yapay Zeka Sanatçılara Karşı Doğrulanmış Sanatçı rozeti

Müşteri Hizmetlerinde AI Devrimi: Netomi 110 Milyon Dolar Yatırım Aldı

AWS'ın OpenAI hamlesi: Bulut savaşlarında yeni bir dönem başlıyor