ZATRON: Veri Aramalarınızı Anlamlı ve Gizli Tutmanın Yeni Yolu

Günümüzde veri tabanlarında yapılan aramaların çoğu, basit anahtar kelime eşleşmelerine dayanıyor. Ancak bu yöntem, belge içeriğinin anlamını göz ardı ediyor. Anlamsal arama sistemleri bu sorunu çözmek için geliştirildi; metinleri vektörlere dönüştürerek benzerliklerine göre sıralama yapıyor. Peki ya bu vektörler gizliliğinizi riske atıyor olabilir mi?

Geçtiğimiz aylarda, ZATRON adı verilen yeni bir sistem geliştirildi. Bu sistem, belge aramalarını anlamlı sonuçlarla yaparken, aynı zamanda gizliliği de korumayı hedefliyor. Geliştiricisi Zahra Arman, sistemin nasıl çalıştığını ve ne kadar güvenli olduğunu kendi kendine test etmek için ilginç bir yol izledi: bir yapay sinir ağı eğiterek ZATRON’un gizliliğini kırmaya çalıştı.

Anlamsal Aramanın Gizlilik Tehlikesi

Standart anlamsal arama sistemlerinde, belgeler önce vektörlere (veya gömülü vektörlere) dönüştürülür. Bu vektörler, bir veri tabanında saklanır ve benzerliklerine göre karşılaştırılır. Ancak bu vektörler, veri tabanına erişimi olan herkes tarafından incelenebilir. Örneğin, bir saldırgan, vektörleri kümeleyerek belgelerin konularını ve hatta içeriğini tahmin edebilir — tek bir kelime okumadan.

ZATRON, bu sorunu çözmek için vektörleri modüler barkodlara dönüştürüyor. Bu işlem sırasında, her belgeye özel bir anahtar kullanılarak vektörler karıştırılıyor ve asal sayılar kullanılarak modüler aritmetik uygulanıyor. Sonuç olarak, orijinal vektörler hiçbir şekilde geri elde edilemiyor. Arama işlemi ise barkodlar arasındaki benzerliklere göre gerçekleştiriliyor.

Düşük Korelasyon Yeterli Değil: Yapay Sinir Ağı Testi

Geliştirici ilk olarak, barkodlar arasındaki mesafe ile gerçek benzerlik arasındaki Spearman korelasyonunu inceledi. Sonuçlar umut vericiydi: korelasyon neredeyse sıfır çıktı (ρ ≈ 0.05). Ancak bu, sadece doğrusal bir ilişkinin olmadığını gösteriyordu. Bir yapay sinir ağı, doğrusal olmayan ilişkileri de öğrenebilir. Bu yüzden, ZATRON’un gizliliğini gerçekten test etmek için, saldırgana mümkün olan en fazla avantaj verildi.

Saldırganın Güçlendirilmiş Tehdit Modeli

Testlerde kullanılan saldırgan modeli, bilinen düz metin saldırısı olarak adlandırılan en güçlü tehdit modellerinden biriydi. Bu modelde saldırgan:

Tüm saklanan barkodlara erişebiliyor.
80.000 belge çiftinin gerçek kosinüs benzerliklerini biliyor (örneğin, bir miktar düz metin sızdırılmış olabilir).
Bu verileri kullanarak, lineer bir prob ve 3 katmanlı bir çok katmanlı algılayıcı (MLP) eğitiyor. Bu modeller, barkodlardaki dairesel farklılık özelliklerini kullanarak yeni belge çiftlerinin benzerliklerini tahmin etmeye çalışıyor.
Eğitim ve test veri setleri arasında ortak belge bulunmuyor, böylece modelin ezberlemesi engelleniyor.

Aynı saldırı, korumasız sinyaller üzerinde de uygulandı. Eğer saldırı korumasız sinyalleri kıramıyorsa, saldırı yöntemi çok zayıf kabul ediliyor ve testin anlamı kalmıyordu.

Saldırı Sonuçları: ZATRON’un Dayanıklılığı Kanıtlandı

50.000 MSMARCO belge üzerinde, 100.000 etiketli çift üzerinde yapılan testlerde şu sonuçlar elde edildi:

| Girdi Türü | Lineer Prob | 3 Katmanlı MLP | Korumasız Sinyaller (Kontrol) | |------------|-------------|----------------|-------------------------------| | ZATRON barkodları | ρ = 0.00, AUC = 0.498 | ρ = 0.01, AUC = 0.505 | ρ = 0.90, AUC = 0.999 |

Aynı ağ, korumasız sinyallerdeki benzerliği neredeyse mükemmel bir şekilde (AUC = 0.999) tahmin ederken, ZATRON barkodlarında sadece rastgele tahmin düzeyinde (AUC = 0.50) kaldı. 80.000 etiketli çift ile eğitilen model, ZATRON’un gizliliğini kırmak için hiçbir şey öğrenemedi.

Klasik Yöntemlerle Karşılaştırma: ASPE’nin Sınırları

ZATRON’un performansı, klasik ASPE (Wong vd., SIGMOD 2009) yöntemiyle karşılaştırıldı. ASPE, gizli k-en yakın komşu araması için geliştirilmiş bir yöntemdir ve kosinüs benzerliklerini tam olarak korur. Bu da saldırganın doğrudan benzerlikleri okuyabilmesi anlamına gelir.

Karşılaştırma sonuçları aşağıdaki gibidir:

| Özellik | ASPE (SIGMOD '09) | ZATRON | |---------|-------------------|--------| | Geri getirme başarısı (strict) | %100 | %81 | | Gözlemci tarafından doğrudan benzerlik okunması | ρ = +0.87 | ρ = -0.06 | | Öğrenilmiş saldırı (MLP) | ρ = +0.91, AUC = 0.99 | ρ = +0.01, AUC = 0.52 |

ASPE, en katı geri getirme metriğinde bile mükemmel sonuçlar verse de, gizlilik açısından ciddi bir risk taşıyor. ZATRON ise biraz daha düşük bir geri getirme başarısına karşılık, hem doğrudan saldırganlara hem de eğitilmiş modellere karşı sıfır bilgi sızıntısı sağlıyor.

ZATRON’un Sınırları ve Geleceği

ZATRON’un geliştiricisi, sistemin bazı sınırlarını açıkça belirtiyor:

Bu testler, sadece gözlemci tehdit modeli altında yapıldı. Anahtar sahibi olan bir saldırgan, çoklu uzaklık hesaplamaları yoluyla geometriyi kısmen geri elde edebilir (ρ ≈ 0.35). Bu, herhangi bir uzaklık koruyan şemanın doğasında olan bir durumdur.
ZATRON, tersine çevrilebilir bir şifre değil; rastgele bir gizlilik koruma kodlamasıdır ve henüz bağımsız bir kriptografi denetiminden geçmemiştir. Üretim kullanımı için bu adım atlanmamalıdır.
Kullanılan strict recall metriği, diğer metriklerden daha katıdır. Aynı sistemde uygulansa da, daha zorlu bir ölçüttür.

ZATRON’u Kendiniz Test Edin

Sistem, tamamen çoğaltılabilir şekilde sunuluyor:

pip install zatron

Saldırı senaryoları ve ASPE karşılaştırması, depodaki çalıştırılabilir betikler olarak yer alıyor (benchmarks/ klasöründe). Eğer ZATRON’un gizliliğini kırmayı başarabilirseniz — modeli daha uzun süre eğitin, daha fazla veri kullanın, daha iyi özellikler ekleyin — geliştirici bunu görmek istiyor. Zayıflık bulmak, sistemin amacıdır.

Sistemin kod deposuna ve canlı demo versiyonuna aşağıdaki bağlantılardan ulaşabilirsiniz:

Kod ve karşılaştırma araçları: github.com/zahraarmantech/ZATRON
Canlı demo: huggingface.co/spaces/zahraarman/ZATRON

Zahra Arman, "Bu sistemin zayıflığını şimdi bulmamı tercih ederim, sonra çok iddialı açıklamalar yaptıktan sonra bulmasını değil" diyor.

Gizlilik korumalı veri arama sistemleri, geleceğin teknolojilerinden biri olma potansiyeline sahip. ZATRON, bu alanda önemli bir adım olarak karşımıza çıkıyor — ancak gerçek güvenlik, sürekli test ve denetimlerle mümkün olacaktır.

Yapay zeka özeti

Veri tabanlarında anlamsal arama yaparken gizliliğinizi korumanın yeni yolu: ZATRON sistemi nasıl çalışır, güvenlik testi sonuçları nelerdir?

Etiketler

#veri gizliliği #veri güvenliği #anlamsal arama #yapay sinir ağı #zaton #gizli veri arama #modüler barkod #gömülü vektör

ZATRON: Veri Aramalarınızı Anlamlı ve Gizli Tutmanın Yeni Yolu

Anlamsal Aramanın Gizlilik Tehlikesi

Düşük Korelasyon Yeterli Değil: Yapay Sinir Ağı Testi

Saldırganın Güçlendirilmiş Tehdit Modeli

Saldırı Sonuçları: ZATRON’un Dayanıklılığı Kanıtlandı

Klasik Yöntemlerle Karşılaştırma: ASPE’nin Sınırları

ZATRON’un Sınırları ve Geleceği

ZATRON’u Kendiniz Test Edin

Yorumlar

Uzun bellek mi yoksa tam bağlam mı? Hangisi AI ajanlarınıza avantaj sağlar

Eidentic ile AI ajanlarınızı geliştirirken bellek ve üretim sorunlarını sona erdirin

TypeScript Türleri: Primitiflerden Nesnel Türlere Rehber