İşletmeler ve bireyler giderek artan bir şekilde, karmaşık belge işleme görevlerini yapay zekaya devretme eğiliminde. Ancak yeni bir araştırma, bu modellerin belgeleri sadece okumakla kalmayıp, gizlice yeniden yazdığını ve içerik kaybına yol açtığını ortaya koyuyor. Microsoft'un yürüttüğü çalışma, önde gelen dil modellerinin bile belge bütünlüğünü korumada ciddi zafiyetler taşıdığını gösteriyor.
Belgeleri Yeniden Yazan YZ Modellerinin Tehlikesi
Microsoft araştırmacıları, yapay zeka sistemlerinin belge işleme sırasında nasıl içerik kaybına yol açtığını inceleyen çığır açıcı bir çalışma yayınladı. Çalışma, kullanıcıların belgeleri otomatik olarak düzenleyen, analiz eden ve yeniden biçimlendiren "delege edilmiş görev" paradigmasını mercek altına alıyor. Bu yaklaşım, sadece kodlama değil, finansal kayıtların sınıflandırılması, bilimsel belgelerin düzenlenmesi ve hatta müzik notalarının analizini de kapsıyor.
Araştırmacılar, modellerin belge bütünlüğünü nasıl koruduğunu test etmek için DELEGATE-52 adlı bir değerlendirme aracı geliştirdi. Bu araç, 52 farklı profesyonel alanda 310 farklı çalışma ortamını simüle ederek, modellerin belge üzerinde yaptığı değişiklikleri ölçüyor. Testler, her bir belgeye 2.000 ila 5.000 token arasında içerik eklenmesi ve ardından karmaşık düzenleme görevleri uygulanması şeklinde gerçekleştiriliyor.
Round-Trip Relay: Belgelerin 'Yeniden Doğrulanması'
DELEGATE-52’nin temel yeniliği, "round-trip relay" adı verilen bir değerlendirme yöntemi kullanması. Bu yöntem, dil çeviri sistemlerinde kullanılan "geri çeviri" tekniğine benzer şekilde çalışıyor. Örneğin, bir belgeyi farklı kategorilere ayırma talimatı verilen model, daha sonra bu kategorileri tekrar birleştirmek zorunda bırakılıyor. Bu sayede, modelin yaptığı değişikliklerin ne kadar güvenilir olduğu otomatik olarak ölçülüyor.
Philippe Laban, Microsoft Research Kıdemli Araştırmacısı ve çalışmanın yazarlarından biri, bu yöntemin insanların aksine yapay zekaya özel olduğunu vurguluyor. "İnsanlar bir görevi tamamladıktan sonra anında unutamazlar, ancak yapay zeka için yeni bir oturum başlatarak tamamen bağımsız bir şekilde ters işlemi gerçekleştirebiliyoruz" diyor.
En İyi Modeller Bile %25 Hata Oranına Sahip
Araştırmada, OpenAI, Anthropic, Google, Mistral, xAI ve Moonshot gibi firmaların 19 farklı dil modeli test edildi. Sonuçlar oldukça çarpıcıydı: Tüm modellerin belge içeriğinde ortalama %50 oranında bozulma yaşandı. En iyi performans gösteren modeller olan Google'ın Gemini 3.1 Pro, Anthropic'in Claude 4.6 Opus ve OpenAI'in GPT 5.4 bile belgelerin ortalama %25'ini bozdu.
Test edilen 52 alandan sadece Python programlama dili, modellerin %98'in üzerinde başarı gösterdiği tek alan oldu. Doğal dil işleme ve karmaşık alanlarda ise modeller ciddi zorluklar yaşadı. Örneğin, kurgu, bildiriler veya yemek tarifleri gibi alanlarda modellerin performansı oldukça düşük çıktı.
Küçük Hatalar Değil, Büyük Kayıplar Tehlikeli
Araştırmanın en şaşırtıcı bulgularından biri, içerik kaybının yavaş yavaş biriken küçük hatalardan değil, ani ve büyük kayıplardan kaynaklanması. Modellerin yaklaşık %80'inde toplam bozulmanın %80'ini, belge içeriğinin en az %10'unu birdenbire kaybettiren kritik hatalardan oluştuğu belirlendi. Bu durum, modellerin küçük hataları daha iyi önleyemediğini, ancak büyük hataları daha geç yaptığını gösteriyor.
Bu bulgular, yapay zekanın belge işleme görevlerinde kullanımına dair önemli bir uyarı niteliğinde. Özellikle hassas verilerle çalışan sektörlerde, otomatik belge işleme sistemlerine tam yetki vermek yerine, insan denetiminin şart olduğunu gösteriyor.
Yapay zeka özeti
Microsoft araştırması, önde gelen yapay zeka modellerinin belgeleri yeniden yazdığını ve ortalama %25 içerik kaybına yol açtığını ortaya koydu. Otomasyon için dikkat edilmesi gereken riskler.



