KI-Schwarm lernt sich selbst zu heilen: Von 53 % auf 90 % Verteidigung

Ein Team von Entwicklern aus Queensland, Australien, hat einen lokalen KI-Schwarm entwickelt, der sich selbst vor Angriffen schützt und dabei kontinuierlich lernt. Innerhalb von vier Iterationen und über 200 simulierten Angriffsszenarien verbesserte sich die Abwehrrate des Schwarmes von ursprünglich 53 % auf beeindruckende 90 % – und das auf einer einzigen Grafikkarte mit nur 12 GB VRAM. Die Innovation: ein selbstheilendes System, das aus jedem erfolgreichen Angriff eine „Impfung“ gegen zukünftige Angriffe generiert.

Der Durchbruch: Weniger als 2 % der Angriffe durchkamen

Der lokale KI-Schwarm bestand ursprünglich aus acht Agenten, die jeweils mit Modellen von nur 1,2 Milliarden Parametern betrieben wurden. Diese kleinen Modelle hatten jedoch Schwierigkeiten, komplexe Angriffe von hochparametrisierten Cloud-Modellen wie DeepSeek-V3.2 (671 Milliarden Parameter), Qwen 3.5 (397 Milliarden) oder Gemma 4 (31 Milliarden) abzuwehren. Die anfängliche Erfolgsquote lag bei nur 53 % – ein Wert, der in der Praxis nicht ausgereicht hätte.

Doch durch eine Kombination aus strategischer Prompt-Optimierung und einem selbstlernenden Abwehrmechanismus gelang es dem Team, die Verteidigung so zu stärken, dass schließlich weniger als 2 % der Angriffe erfolgreich waren. Alle Tests liefen auf einer NVIDIA RTX 5070 mit 12 GB VRAM, vollständig lokal und ohne Cloud-Anbindung oder zusätzliche API-Kosten.

Vier Iterationen: Vom Basis-Schutz zur autonomen Immunität

Version 6.0: Schwache Ausgangslage

Die erste Version des Schwarmes zeigte klare Schwächen: Die Angriffsrate bei Autoritätseskalation lag bei 41 %, bei Prompt-Injection bei 44 % und bei Logik-Bomben bei 55 %. Ein zentrales Problem war, dass das Auditor-Modell llama-tulu3-8b nicht im Ollama-Registry verfügbar war. Dadurch blieben Angriffe unbemerkt, und die Verteidiger scheiterten.

Version 6.1: Schnellerer Auditor, bessere Erkennung

In der zweiten Iteration wurde das Auditor-Modell durch DeepSeek-Coder-V2 16B ersetzt, das mit 202,9 Tokens pro Sekunde (TPS) und einer Verzögerung von nur 8 Millisekunden (TTFT) arbeitete. Dies führte zu einer deutlichen Verbesserung: Die Erkennungsrate stieg von 62 % auf 88 %, und die Angriffsrate von DeepSeek-V3.2 halbierte sich von 78 % auf 45 %. Dennoch blieb die Konsensbildung der Verteidiger lückenhaft – insbesondere bei der Autoritätseskalation.

Version 6.2: Angriffssimulation für die Verteidiger

Die dritte Iteration führte eine bahnbrechende Methode ein: die „Verteidiger-Vanguard“-Prompt-Injektion. Drei der 1.2-Milliarden-Modelle erhielten einen speziellen System-Prompt, der sie dazu anleitete, wie ein Angreifer zu denken. Ohne die Modellgewichte oder den VRAM-Verbrauch zu erhöhen, verbesserte sich die Erkennungsrate bei Autoritätseskalation von 44 % auf 90 % und bei Logik-Bomben auf 100 %. Allerdings zeigte sich ein unerwarteter Nebeneffekt: Die Erkennungsrate bei Social Engineering sank von 100 % auf 50 %.

Version 6.3: Selbstheilung durch Impfungen

Die vierte und finale Iteration führte das Konzept der Selbstheilung ein. Nach jedem erfolgreichen Angriff wurden die Angriffsmuster extrahiert und als „Impfstoff“ in die System-Prompts der Verteidiger integriert. Zusätzlich wurde eine Blocklist erstellt, die wiederkehrende Angriffsmuster sofort blockierte, ohne den gesamten Schwarm aktivieren zu müssen.

Blocklist-Patching: Wiederkehrende Phasen wie „ignore all previous“ oder „urgent“ wurden automatisch in die Blocklist aufgenommen und blockierten 33 von 50 Angriffen ohne Schwarm-Aktivierung.
Prompt-Antikörper: Die vollständigen Angriffstexte wurden als bekannte Bedrohungen in die System-Prompts der Verteidiger integriert.

Das Ergebnis: Die Gesamtverteidigungsrate stieg auf 90 %, die Social-Engineering-Erkennung erholte sich von 50 % auf 80 %, und die Prompt-Injection-Erkennung erreichte 100 %.

Die kleinsten Modelle profitierten am meisten

Besonders die 1,2-Milliarden-Modelle zeigten eine deutliche Verbesserung durch die Impfungen. Während das Auditor-Modell (DeepSeek-V2 16B) seine Erkennungsrate von 88 % auf 96 % steigerte, verbesserten sich die kleinen Modelle wie der Guardian Nexus-Tiny von 56 % auf 86 % und der Sentinel Nexus-Tiny von 60 % auf 76 %. Die Impfungen allein führten zu einer Steigerung von 10 bis 16 Prozentpunkten.

Wie die Selbstheilung funktioniert: Ein biologisches Vorbild

Das selbstheilende System orientiert sich an biologischen Immunmechanismen:

Erkennung: Jeder erfolgreiche Angriff wird detailliert analysiert.
Extraktion: Schlüsselphrasen und Muster werden identifiziert.
Blocklist: Die Muster werden in eine dynamische Blocklist aufgenommen, die zukünftige Angriffe sofort blockiert.
Impfung: Die vollständigen Angriffstexte werden als Beispiele in die System-Prompts der Verteidiger integriert.

Nach nur 50 Angriffsszenarien verfügte das System bereits über sieben Blocklist-Muster, fünf Impfstoffe und hatte die Abwehrrate dauerhaft gestärkt.

Aktueller Stand: Version 6.4 und zukünftige Pläne

Aktuell läuft Version 6.4 mit einem erweiterten Schwarm aus sechs Verteidigern, darunter ein spezialisierter Social-Engineering-Experte. Das Guardian-Modell wurde auf 7 Milliarden Parameter aufgewertet, und das selbstheilende System ist voll aktiv. Die Ergebnisse dieser Iteration werden in Kürze veröffentlicht.

Warum das für lokale KI-Systeme wichtig ist

Die Ergebnisse zeigen, dass selbst kleine KI-Modelle mit lokaler Hardware effektiv gegen hochparametrisierte Angriffe verteidigen können. Die Kombination aus strategischer Prompt-Optimierung und selbstheilenden Mechanismen macht lokale KI-Schwärme widerstandsfähiger und kostengünstiger als cloudbasierte Lösungen.

Die RTX 5070 wurde zu keinem Zeitpunkt zu mehr als 50 % ausgelastet – ein Beweis dafür, dass leistungsstarke KI-Sicherheit auch auf Consumer-Hardware möglich ist. Das Projekt unterstreicht die Bedeutung von lokaler Datenhoheit und zeigt, wie adaptive Sicherheitsmechanismen die Abwehrfähigkeiten von KI-Systemen kontinuierlich verbessern können.

Sovereign Hive ist eine lokal betriebene KI-Sicherheitsplattform mit Sitz in Queensland, Australien, und wird vollständig von indigenen Gemeinschaften betrieben (ABN 24 661 737 376).

KI-Zusammenfassung

A lightweight AI defense swarm hit a 90% threat detection rate using only prompt engineering and a self-healing immune system—all on a single RTX 5070 GPU.