İnsanlar yapıyı anlamada son derece yeteneklidir.
Birine şu klasörü gösterin:
- Fişler
- Denetim raporları
- Sözleşmeler
- Araç fotoğrafları
- Özgeçmişler
Kısa sürede verilerin şeklini anlarlar.
Bir fişte şunlar vardır:
- Satıcı bilgisi
- Toplam tutar
- Tarih
Bir araç fotoğrafında ise:
- Marka
- Model
- Renk
Bir denetim raporunda:
- Bulgular
- Kategoriler
- Geçme/kalma durumu
Yapı nettir. Ancak çoğu yazılım sistemi bunu göremez.
Geri getirme tuzağı
Modern yapay zeka araçları genellikle belgeleri parçalayarak ve benzerlik arama ile işler.
Belgeleri parçalara ayırın, gömüler oluşturun, benzerlik araması yapın, parçaları büyük dil modeline verin.
Bu yaklaşım aşağıdaki gibi sorular için oldukça iyi çalışır:
- “GDPR’den bahseden sözleşmeyi bulun”
- “Mart ayında gelen faturayı göster”
- “Bu belgeyi özetle”
Ancak gerçek dünyadaki birçok soru, geri getirme sorusu değildir. Bunlar toplama sorularıdır.
Örnekler:
- Bu fotoğraf koleksiyonunda en sık hangi araçlar görülüyor?
- Kaç denetim raporu güvenlik kontrollerini geçemedi?
- Hangi tedarikçilerin fiyatları zamanla arttı?
- 90 gün içinde sona eren kaç sözleşme var?
- Bu fişlere göre aylık ortalama harcama ne kadar?
Geri getirme sistemleri, ilgili parçaları döndürmeye odaklıdır. Toplama işlemleri ise tamamen farklı bir yaklaşım gerektirir: yapısal kayıtlar.
Yapı zaten mevcut
Önemli olan şu gerçek:
Yapı zaten belgelerin içinde mevcut.
İnsanlar bunu anında görür.
Büyük dil modelleri de artık bunu güvenilir şekilde çıkarabilir.
Bu durum mimariyi tamamen değiştirir.
Eski yaklaşım:
belgeler → parçalar → gömüler → geri getirme
Yeni yaklaşım:
belgeler → yapısal kayıtlar → sorgulama motoru
Fark derindir.
Belgeler kayıtlara dönüştüğünde:
- Filtreleme belirleyici hale gelir
- Toplama işlemleri tam olarak hesaplanabilir
- Kontrol panelleri basitleşir
- API’ler mümkün olur
- Doğal dil, gerçek veriler üzerinde bir sorgulama katmanı haline gelir
Sifter yaklaşımı
Bu fikir, Sifter adlı aracın geliştirilmesine yol açtı.
İş akışı kasıtlı olarak basittir:
- Bir belge koleksiyonunu yükleyin
- Önemli unsurları doğal dilde tanımlayın
- Sifter şemayı çıkarır
- Belgeler tipik kayıtlara dönüştürülür
- Oluşturulan veri kümesini doğal dilde sorgulayın
Belgeler aşağıdakiler olabilir:
- PDF dosyaları
- Resimler
- Fotoğraflar
- Taranmış belgeler
- Çok dilli içerik
Ana fikir, sistemin parçaları geri getirmek yerine kayıtları sorgulamasıdır.
Neden bu önemli?
Çoğu kuruluş, zaten büyük miktarda gizli yapısal veriye sahiptir.
Sorun verinin olmaması değil. Sorun, yapının belge içinde hapsolmuş olmasıdır.
Bir klasör genellikle var olan bir veritabanı gibidir — sadece var olmaya bekliyor.
Yapay zeka özeti
Belgelerinizi otomatik olarak yapısal veriye dönüştüren yeni bir yaklaşım keşfedin. İşletmelerin verilerini daha verimli analiz etmesine ve anında sorgulamasına olanak tanıyan bu teknoloji nasıl çalışıyor?