Vor wenigen Monaten entwickelte ich eine Methode, um Dokumente nach semantischer Ähnlichkeit zu durchsuchen – ohne die zugrundeliegenden Embeddings preiszugeben. Das System namens ZATRON sollte selbst dem Server, der die Suche durchführt, keine Einblicke in die Daten gewähren.
Doch die entscheidende Frage blieb: Schützt die Methode wirklich vor unerwünschtem Datenabfluss – oder sieht sie nur zufällig verschlüsselt aus? Anstatt mich auf Zahlen zu verlassen, ging ich einen mutigen Schritt: Ich trainierte ein neuronales Netz darauf, die versteckten Informationen zu entschlüsseln. Der Versuch, eine Schwachstelle zu finden, wurde zur ultimativen Prüfung – und das Ergebnis widerlegt alle Zweifel.
Wie ZATRON semantische Suchdaten verschlüsselt – ohne die Suche zu verlangsamen
Standard-Systeme zur semantischen Suche speichern Vektoren, die semantische Beziehungen abbilden. Wer Zugriff auf diese Datenbank hat, kann Muster erkennen und Inhalte ableiten – selbst ohne die Originaltexte zu lesen. ZATRON geht einen anderen Weg: Jeder Vektor wird in eine modulare Barcode-Struktur umgewandelt. Dabei kommen mehrere Schritte zum Einsatz:
- Projektion auf Hauptkomponenten (PCA-Kanäle)
- Quantisierung der Werte
- Anwendung einer dokumentenspezifischen Maskierung
- Reduktion der Werte modulo einer Reihe von Primzahlen
Die Suche erfolgt direkt im modularen Raum, ohne dass die ursprünglichen Embeddings rekonstruiert werden müssen. Trotz dieser Verschlüsselung bleibt die Suchqualität nahezu unverändert: Auf über 626.000 MSMARCO-Passagen erreicht das System eine Kosinus-Ähnlichkeit von 98 Prozent.
Warum Korrelationswerte allein nicht ausreichen
Mein erster Sicherheitscheck maß die Spearman-Korrelation zwischen Barcode-Distanz und tatsächlicher Ähnlichkeit. Das Ergebnis war ernüchternd: ρ ≈ 0,05. Ein Wert nahe null deutet darauf hin, dass keine linearen Zusammenhänge bestehen. Doch neuronale Netze arbeiten nicht linear. Sie können komplexe Muster erkennen – selbst wenn diese in den Daten nur subtil vorhanden sind.
Die eigentliche Herausforderung bestand darin, einen Angreifer so stark wie möglich zu machen. Ich simulierte einen Known-Plaintext-Angriff – die realistischste Bedrohungsszenario:
- Der Angreifer erhält Zugriff auf alle gespeicherten Barcodes.
- Zusätzlich stehen ihm 80.000 Dokumentpaare mit ihren tatsächlichen Kosinus-Ähnlichkeiten zur Verfügung – als wäre ein Teil der Originaldaten durchgesickert.
- Trainiert werden zwei Modelle: ein linearer Prober und ein dreischichtiges MLP (multilayer perceptron).
- Die Trainings- und Testdaten teilen keine gemeinsamen Dokumente, um Memorisierung auszuschließen.
Als Kontrollgruppe diente dasselbe Experiment mit ungeschützten, quantisierten Signalen. Konnte der Angriff hier erfolgreich sein, wäre das ein Zeichen dafür, dass die Methode selbst zu schwach ist.
Das Ergebnis: Ein neurales Netz scheitert kläglich an verschlüsselten Daten
Das Experiment wurde auf 50.000 MSMARCO-Passagen mit 100.000 gelabelten Paaren durchgeführt. Die Ergebnisse sprechen für sich:
| Eingabedaten | Linearer Prober | MLP (3-Schichten) | Kontrollgruppe (ungeschützt) | |-----------------------------|-----------------------|--------------------------|-----------------------------| | ZATRON-Barcodes | ρ = 0,00, AUC = 0,498 | ρ = 0,00, AUC = 0,505 | ρ = 0,79, AUC = 0,985 |
Das gleiche neuronale Netz, das bei ungeschützten Signalen eine fast perfekte Vorhersage traf (AUC 0,999), scheiterte vollständig an den verschlüsselten Barcodes. Ein AUC-Wert von 0,50 entspricht einer zufälligen Entscheidung – dem Ergebnis eines Münzwurfs. Das Netzwerk hatte nichts gelernt.
Direkter Vergleich mit dem Klassiker: Sicherheit vs. Leistungsfähigkeit
Die Aussage "Achtmal schneller als FHE" klingt beeindruckend, ist aber irreführend. Homomorphe Verschlüsselung (FHE) ist bekanntlich langsam. Ein fairer Vergleich bietet stattdessen ASPE (Wong et al., SIGMOD 2009), ein klassisches Schema zum verschlüsselten k-NN-Suchen. ASPE bewahrt exakte Skalarprodukte – und damit auch die Ähnlichkeitswerte. Das Problem: Jeder Beobachter kann diese Ähnlichkeiten direkt aus den Chiffren ablesen.
| Metrik | ASPE (SIGMOD '09) | ZATRON | |----------------------------|-------------------|----------------------------| | Recall@10 (streng) | 100 % | 81 % | | Ähnlichkeit direkt lesbar | Ja (ρ = +0,87) | Nein (ρ = –0,06) | | Gelerntes neuronales Netz | ρ = +0,91, AUC = 0,99 | ρ = +0,01, AUC = 0,52 |
Während ASPE eine perfekte Trefferquote bietet, geht dies mit einem vollständigen Verlust der Privatsphäre einher. ZATRON hingegen opfert einen kleinen Teil der Genauigkeit, um absolute Datensicherheit zu gewährleisten – sowohl für direkte Beobachter als auch für trainierte Angreifer.
Was ZATRON NICHT leistet – und warum das wichtig ist
Transparenz ist der Schlüssel zu vertrauenswürdigen Systemen. Deshalb hier die klaren Grenzen des Ansatzes:
- Beobachtungsmodell: Die Tests gelten nur für Angreifer, die Zugriff auf gespeicherte Barcodes haben. Ein Schlüsselinhaber, der viele paarweise Distanzen berechnet, könnte durch multidimensionale Skalierung (MDS) grobe geometrische Strukturen ableiten (ρ ≈ 0,35). Das ist eine inhärente Einschränkung jeder distanzerhaltenden Verschlüsselung – ähnlich wie bei FHE.
- Keine kryptografische Garantie: ZATRON ist eine zufällige, privatsphärenbewahrende Kodierung, keine reversible Chiffre. Eine unabhängige Prüfung durch Kryptografen steht noch aus. Das ist der richtige Maßstab, bevor von einem produktionsreifen System gesprochen werden kann.
- Strenge Metriken: Die hier verwendeten Recall@10-Werte (vollständige Überlappung der Top-10-Ergebnisse) sind strenger als die sonst oft zitierte Top-1-in-Top-10-Metrik. Das System bleibt dasselbe – nur die Bewertung ist härter.
Jetzt selbst testen – oder einen Fehler finden
Die Reproduzierbarkeit steht im Mittelpunkt: Alle Experimente und Benchmarks sind öffentlich zugänglich. Mit diesen Schritten können Sie ZATRON selbst ausprobieren oder einen Angriff starten:
pip install zatronDie Angriffsskripte und ASPE-Vergleiche finden Sie im Repository unter benchmarks/. Wenn Sie es schaffen, das neuronale Netz zu überlisten – länger trainieren, mehr Daten verwenden oder bessere Features einsetzen – würde ich das Ergebnis gerne sehen. Eine Schwachstelle jetzt zu finden ist besser, als sie später in einem vermeintlich sicheren System zu entdecken.
Der beste Weg, Vertrauen in eine neue Technologie aufzubauen, ist durch offene Prüfung. ZATRON lädt ausdrücklich dazu ein, seine Grenzen auszutesten. Denn am Ende zählt nicht, was wir behaupten – sondern was die Daten beweisen.
KI-Zusammenfassung
Veri tabanlarında anlamsal arama yaparken gizliliğinizi korumanın yeni yolu: ZATRON sistemi nasıl çalışır, güvenlik testi sonuçları nelerdir?