Mistral AI, Salı günü yaptığı açıklamada, belge zekası alanında önemli bir adım attığını duyurdu. OCR 4 adı verilen yeni nesil optik karakter tanıma modeli, sadece metin çıkarımının ötesine geçerek, belgeyi tamamen yapılandırılmış bir şekilde sunmayı hedefliyor. Bu yenilik, şirketin Avrupa yapay zekası bağımsızlığına yönelik stratejisinin de ticari açıdan en uygun noktada olduğunu gösteriyor.
Model, 170 dilde ve 10 farklı dil grubunda hizmet sunarken, PDF, DOC, PPT ve OpenDocument formatlarını destekliyor. Ayrıca OCR 4, kurumların hassas verilerini ABD hukukuna tabi bulut hizmetlerine aktarmadan kendi altyapılarında çalıştırabilecekleri şekilde tasarlandı. Bu özellik, özellikle düzenlemelere tabi sektörlerde faaliyet gösteren işletmeler için büyük önem taşıyor.
Mistral AI’nin açıklamasında yer alan ifadelere göre, "OCR 4, geniş bir belge yelpazesinden içerik çıkarır ve yapılandırır. Önceki nesiller sadece sayfaları temiz metne ve tablolara dönüştürürken, OCR 4 belgeyi tamamen yapılandırılmış bir temsil olarak sunar."
OCR 4: Belgeleri semantik bir haritaya dönüştürmek
OCR 4’ün en önemli mühendislik yeniliği, belgeyi düz bir metin duvarı olarak değil, katmanlı bir semantik harita olarak işlemesinde yatıyor. Geleneksel OCR sistemleri onlarca yıldır sadece çıkarılmış metni düz bir akış olarak sunarken, yeni model her bloğu konumlandırmak için sınırlayıcı kutularla birlikte sunuyor. Bu bloklar ayrıca türlerine göre sınıflandırılıyor — başlık, tablo, denklem, imza ve diğer kategorilerde — ve hem sayfa hem de kelime düzeyinde güven puanlarıyla destekleniyor.
Mistral’e göre, sınırlayıcı kutular en çok talep edilen özelliklerden biriydi. Bunun nedeni basit: Konum verisi olmadan, çıkarılan bir bilginin kaynağını sayfa üzerinde izlemek mümkün değil. Bu durum, RAG (Retrieval-Augmented Generation) sistemleri ile uyumlu çalışan uygulamalar için ciddi bir sorun teşkil ediyor. Ayrıca, çıkarılan verilerin kaynağına dair denetlenebilir yanıtlar gerektiren uyumluluk iş akışlarında da bu özellik kritik bir rol oynuyor.
Blok sınıflandırması, ilgili bir diğer problemin çözümüne de katkı sağlıyor. Başlık olarak etiketlenen bir paragraf, belgeyi anlamsal arama için hiyerarşik parçalara ayırabilir. Tablo olarak etiketlenen bir blok, yapılandırılmış veri işlem hattına yönlendirilirken, imza olarak etiketlenen bir blok da uyumluluk sistemi tarafından otomatik olarak gizlenebilir. Bu özellikler, tek başına yeni olmasalar da, OCR modelinin çıktıları olarak doğrudan sunulmaları, şirketlerin daha önce harici olarak geliştirmek zorunda kaldıkları entegrasyon katmanını ortadan kaldırıyor.
Güven puanları da çifte bir amaç taşıyor. Ölçeklenebilir sistemlerde, düşük güven puanına sahip bölgelerin insan incelemesine yönlendirilmesini ve yüksek güven puanına sahip çıkarımın otomatik olarak onaylanmasını sağlıyor. Bu sayede, insan-in-the-loop doğrulama sistemi kurulabilirken, her sayfa ve belgeyi manuel olarak kontrol etmek zorunda kalınmıyor. Üretim sistemlerinde OCR, genellikle nihai hedef değil, daha büyük bir iş akışının ilk adımıdır. OCR 4, bu yeniden yapılandırma adımını ortadan kaldırmayı hedefliyor ve eğer başarılı olursa, sadece OCR maliyetlerinde değil, tüm belge işleme hattındaki mühendislik saatlerinde de önemli tasarruflar sağlayabilir.
Bağımsız değerlendirmelerde OCR 4'ün performansı nasıl?
Mistral, OCR 4’ün rakiplerine karşı yürüttüğü karşılaştırmalı insan değerlendirmesinde %72’lik ortalama bir galibiyet oranı elde ettiğini bildirdi. Bu test, bağımsız etiketleyiciler tarafından 12’den fazla dilde 600’den fazla gerçek dünya belgesi üzerinde gerçekleştirildi. Model ayrıca OlmOCRBench üzerinde 85.20 puanla genel liderliği alırken, OmniDocBench testinde 93.07 puan aldı.
Ancak Mistral, bu sayıların yorumlanmasında dikkatli olunması gerektiğini vurguladı. Şirket, puanlama sırasında karşılaşılan bazı hataları kamuoyuyla paylaştı. Bunlar arasında referans anotasyonlardaki hatalar, LaTeX gösterimindeki eşdeğer notasyonların yanlış puanlandırılması, sütun okuma sırasındaki varsayımlar ve başlık/altbilgi atama sorunları yer alıyor. Mistral’in açıklamasında, "Bu nedenle toplu puanı kesin değil, yönlendirici olarak değerlendiriyoruz" denildi — bu, ürün duyurusunda nadiren görülen şeffaflık örneğiydi.
Bu şeffaflık, iyi bir zamanda geldi. OlmOCRBench liderlik tablosunda, OCR 4’ün üçüncü sırada yer aldığı görülüyor. Açık kaynaklı modellerden Chandra OCR 2 lider konumda bulunurken, bazı açık ağırlıklı modellerin OmniDocBench bileşik puanlarında daha yüksek değerlere ulaştığı iddia ediliyor — örneğin PaddleOCR-VL-1.6 modeli 96.33 puan bildiriyor. Ancak bu sonuçlar henüz kamu liderlik tablosunda bağımsız olarak doğrulanmadı.
Enterprise kullanıcıları arasında erken dönem geri bildirimler olumlu seyrediyor. Finansal yapay zeka firması Rogo’da AI mühendisi olarak görev yapan Aidan Donohue, OCR 4’ü yoğun grafiklere sahip finansal soru-cevap veri setlerinde lider ajan belgeleri parse edici sistemler karşısında test ettiklerini ve "eşdeğer doğruluk ve yapılandırılmış veri kalitesi elde ettiklerini" belirtti. Ancak, Donohue ekibinin henüz modelin uzun belge işleme yetenekleri ve çok dilli performansı konusunda kapsamlı testler yapmadığını da sözlerine ekledi.
OCR 4'ün geleceği: Belgelerin ötesinde yeni olanaklar
OCR 4, belge analizi alanında önemli bir boşluğu doldurmaya aday gibi görünüyor. Geleneksel OCR sistemlerinin ötesine geçerek, belgeleri yapılandırılmış veri kaynaklarına dönüştürme yeteneği, yapay zeka uygulamalarının daha güvenilir ve denetlenebilir hale gelmesine katkı sağlayabilir. Mistral’in Avrupa odaklı yaklaşımı ve yerel altyapılarda çalışabilme özelliği, özellikle veri gizliliği konusunda hassas olan kurumlar için cazip bir seçenek sunuyor.
Ancak, modelin performansının çeşitli senaryolarda nasıl karşılaştırılacağı ve rakiplerine kıyasla gerçek dünya uygulamalardaki avantajları, gelecekte yapılacak daha geniş çaplı değerlendirmelerle netleşecek. Teknoloji ilerledikçe, OCR sistemlerinin belgeyi sadece okumaktan öte, anlayıp yorumlayabilen yapay zeka destekli araçlara dönüşmesi bekleniyor. Mistral OCR 4, bu dönüşümün ilk adımlarından biri olabilir.
Yapay zeka özeti
Mistral AI, belge çıkarımında devrim yaratan OCR 4 modelini tanıttı. 170 dilde destek sunan ve yerel altyapılarda çalışabilen model, hassas verilerin güvenliğini artırıyor.



