Yapay zeka destekli arama sistemleri, günümüzde çoğunlukla web sayfalarını ve belgeleri öncelikle metne dönüştürerek işliyor. Bu süreç, Retrieval-Augmented Generation (RAG) sistemlerinin doğruluğunu artırmak için kritik bir adım olarak görülse de, yeni bir araştırma bu yaklaşımın aslında hataların ana kaynağı olduğunu ortaya koyuyor.
Kaliforniya Üniversitesi Berkeley, Princeton Üniversitesi, EPFL ve Databricks araştırmacıları tarafından geliştirilen PixelRAG, bu soruna radikal bir çözüm sunuyor. Sistem, web sayfalarını metne çevirmek yerine doğrudan ekran görüntüsü olarak işleyerek hem doğruluk oranını yükseltiyor hem de maliyetleri önemli ölçüde azaltıyor. Araştırma sonuçlarına göre, PixelRAG metin tabanlı RAG sistemlerine kıyasla doğrulukta %18.1’lik bir artış sağlarken, AI ajanların token kullanımını da 10 kata yakın azaltıyor.
Geleneksel Metin Ayrıştırma Yöntemleri Neden Yetersiz Kalıyor?
Günümüzdeki çoğu kurumsal RAG sistemi, web sayfalarını ve belgeleri önce metne dönüştürerek çalışıyor. Ancak bu yöntem, sayfaların görsel hiyerarşisi, vurgulanan metinler, tablolar ve düzen gibi önemli bilgilerin kaybolmasına neden oluyor. UC Berkeley doktora öğrencisi ve araştırmanın baş yazarı Yichuan Wang, konuyla ilgili olarak şunları söylüyor:
"Her web sitesi için özel ayrıştırma yöntemleri geliştirmek sonsuz bir süreçtir. Biz ise bu problemi çözmek yerine, görüntü dili modellerinin (VLM) son gelişmelerinden faydalanarak, web sitelerine özel mühendislik gerektirmeyen bir sistem oluşturmayı hedefledik."
Araştırmacılar, metin ayrıştırmanın üç temel dezavantajını ortaya koyuyor:
- Çeviri kaybı (%36.6 hata oranı): HTML’den metne dönüştürme sırasında yapısal içerik tamamen yok olabiliyor ve cevabın bulunduğu içerik korpusta yer alamıyor.
- Sıralama kaybı (%55.2 hata oranı): Doğru cevap korpusta bulunmasına rağmen, yoğun anahtar kelimelere sahip bilgiler tarafından geriye itiliyor ve erişilemez hale geliyor.
- Okuyucu kaybı (%8.2 hata oranı): Doğru içerik modele ulaştırılsa bile, düzensiz metin yapısı nedeniyle yanlış anlama riski artıyor.
PixelRAG Nasıl Çalışıyor?
PixelRAG, geleneksel metin tabanlı RAG sistemlerinden tamamen farklı bir yaklaşım benimsiyor. Sistem, web sayfalarını öncelikle ekran görüntüsü olarak kaydediyor ve bu görüntüleri doğrudan bir görüntü-dil modeline (VLM) aktarıyor. Bu sayede, model sayfayı insan gibi okuyabiliyor ve düzeni, vurguları ve tabloları kaybetmeden anlayabiliyor.
Araştırmacılar, PixelRAG’ın dört aşamalı bir mimariye sahip olduğunu belirtiyor:
- Röprodüksiyon: Sayfalar, Playwright adlı tarayıcı otomasyon aracı kullanılarak 875 piksel genişliğinde ve 1024 piksel yüksekliğindeki parçalara ayrılıyor. Örneğin, Wikipedia’nın 7 milyon makalesi yaklaşık 30 milyon parçaya bölünüyor. Bu parçalar yerel olarak önbelleğe alınıyor ve çevrimdışı olarak işleniyor.
- Dizinleme: Her parça, Qwen3-VL-Embedding-2B modeli kullanılarak 2048 boyutlu bir vektöre dönüştürülüyor ve FAISS adlı bir yaklaşık en yakın komşu dizininde saklanıyor. Tam dizin yaklaşık 120 GB boyutunda olup, artımlı güncellemeleri destekliyor.
- Eğitim: Çekmece modeli, senteik karşıt veriler kullanılarak ince ayar yapılıyor. Dinamik zor negatif madenciliği yöntemiyle yanlış negatifler filtreleniyor ve LoRA (Low-Rank Adaptation) adı verilen hafif bir ince ayar yöntemi hem dil modeli hem de görüntü kodlayıcı üzerinde uygulanıyor. Eğitim, yaklaşık 40 bin veri çifti üzerinde tek bir H100 GPU’da üç saatten kısa sürede tamamlanıyor.
- Depolama: Wikipedia’nın ekran görüntüleri ham haliyle 5.6 TB yer kaplasa da, PixelRAG render-on-demand adı verilen bir yaklaşımla çalışıyor. Bu sayede, vektör dizini saklanırken görüntüler sadece sorgulama anında yeniden oluşturuluyor. Vektör dizini yaklaşık 120 GB boyutunda kalıyor.
PixelRAG’in Başarıları ve Sınırları
Araştırmacılar, PixelRAG’ı basit Wikipedia sorularından tablolara dayalı sorgulara, çok modlu sorulardan canlı haberlere kadar altı farklı benchmark üzerinde test etti. Sonuçlar, sistemin tüm benchmarklarda metin tabanlı RAG sistemlerini geride bıraktığını gösteriyor. Örneğin, SimpleQA adlı standart bir veri setinde PixelRAG %78.8 doğruluk oranına ulaşırken, en güçlü metin ayrıştırıcı sadece %71.6’ya ulaşabiliyor. Tablolara dayalı sorgularda ise fark daha da açılıyor: PixelRAG %48.8 doğruluk sağlarken, metin tabanlı sistemler %42.5’te kalıyor.
Ancak PixelRAG’in en büyük avantajı, maliyetlerdeki dramatik düşüş. Testlerde, bir AI ajanı PixelRAG’ı arama motoru olarak kullanırken 3.6 milyon token harcarken, metin tabanlı sistemler 37.5 milyon token harcamış. Bu da maliyetleri yaklaşık 2-4 kat arasında azaltırken, doğrulukta da artış sağlamış. Görüntü sıkıştırma teknikleriyle token maliyetleri üçte bir oranında daha da azaltılabiliyor.
Araştırmacılar, PixelRAG’in en büyük eksikliğinin ise görsel parçalama olduğunu völüyor. Metin tabanlı RAG sistemleri yıllardır belgeleri anlamlı bölümler halinde ayırmak için gelişmiş yöntemler kullanıyor. PixelRAG ise şu anda sabit piksel yüksekliklerine dayalı bir yaklaşım benimsiyor ve bu da tablolar gibi yapısal içeriklerin doğru şekilde ayrıştırılamamasına yol açıyor. Gelecekte geliştirilecek daha akıllı görsel parçalama algoritmaları, sistemin performansını daha da artırabilir.
Yapay zeka özeti
Yeni geliştirilen PixelRAG sistemi, web sayfalarını metne çevirmek yerine doğrudan ekran görüntüsü olarak işleyerek AI modellerinin doğruluğunu %18 artırıyor ve token maliyetlerini 10 kata kadar azaltıyor.
