KI-Modelle im Sicherheitscheck: Warum aggregierte Benchmarks irreführend sind

Künstliche Intelligenz verspricht effizientere und sicherere Softwareentwicklung. Doch wenn es um Sicherheit geht, täuschen gängige Benchmarks oft über entscheidende Schwächen hinweg. Eine aktuelle Studie analysierte fast 700 Funktionen von fünf führenden KI-Modellen und kam zu einem verblüffenden Ergebnis: Kein Modell dominiert in allen Sicherheitskategorien gleichzeitig.

Die Untersuchung widerlegt die gängige Praxis, KI-Modelle anhand einer einzigen Kennzahl – etwa der Fehlerquote oder Verwundbarkeit – zu bewerten. Stattdessen zeigt sie, dass die Performance je nach Anwendungsbereich stark variiert. Während ein Modell in einem Bereich exzellente Ergebnisse liefert, kann es in einem anderen deutlich schlechter abschneiden.

Warum aggregierte Rankings in die Irre führen

Viele Benchmarks reduzieren die Leistungsfähigkeit eines KI-Modells auf eine einzige Metrik. Doch diese Vereinfachung ignoriert grundlegende Unterschiede in der Codegenerierung. Ein Modell mag zwar in der Gesamtbewertung als „sicherer“ gelten, scheitert aber in kritischen Einzelbereichen.

Ein Beispiel aus der Studie:

Haiku 4.5 erreichte in der Gesamtbewertung eine Verwundbarkeitsrate von 49 % und galt als „sicherstes“ Modell.
Gemini Pro schnitt mit 73 % Verwundbarkeitsrate am schlechtesten ab.

Doch bei genauerer Betrachtung zeigt sich: Haiku dominiert zwar in einigen Kategorien, scheitert aber bei der Fehlerbehebung. In anderen Bereichen, etwa der Datenbankverwaltung, übertrifft Gemini Pro Haiku deutlich – trotz höherer Verwundbarkeitsrate.

Die Studie vergleicht diesen Ansatz mit der Bewertung eines Krankenhauses: Ein reines Dermatologiezentrum würde in einer Gesamtstatistik besser abschneiden als ein Trauma-Center, das lebensrettende Eingriffe durchführt. Ähnlich verhält es sich mit KI-Modellen: Die Komplexität ihrer generierten Lösungen entscheidet über Sicherheit und Anwendbarkeit.

Die fünf Sicherheitsdomänen im Vergleich

Die Analyse unterteilte die getesteten Funktionen in fünf zentrale Sicherheitsbereiche. Jede Domäne offenbart spezifische Stärken und Schwächen der Modelle.

1. Datenbankoperationen (PostgreSQL)

Die getesteten Funktionen umfassten Abfragen wie getUserById, searchUsers und updateUser. Hier zeigte sich ein klares Muster:

Haiku 4.5 generierte mit 39 % die wenigsten Verwundbarkeiten und setzte auf einfache, parameterisierte Abfragen.
Gemini 2.5 Pro erreichte zwar nur 96 % Verwundbarkeitsrate, generierte aber komplexeren Code mit Verbindungspooling und Fehlerbehandlung.

Die Studie stellt die Frage: Ist die höhere Verwundbarkeit von Gemini Pro ein Sicherheitsrisiko – oder ein Zeichen für erweiterte Funktionalität, die lediglich weiterer Optimierung bedarf?

2. Authentifizierung (JWT, Passwort-Hashing)

Bei der Generierung von JSON-Web-Tokens (JWT) und der Handhabung von Passwörtern traten besonders deutliche Unterschiede zutage:

Haiku 4.5 erzielte mit 29 % die beste Verwundbarkeitsrate.
Gemini 2.5 Flash generierte in allen sieben Testfällen fehlerfreien JWT-Code.
Opus 4.6 hingegen erzeugte in allen Fällen verwundbaren JWT-Code, indem sensible Nutzerdaten im Payload gespeichert wurden.

Ein besonders auffälliges Ergebnis: Derselbe Prompt führte bei unterschiedlichen Modellen zu diametral entgegengesetzten Ergebnissen. Während Gemini Flash stets sichere Tokens erzeugte, scheiterte Opus 4.6 in jedem Testlauf.

3. Dateioperationen (Uploads, Lese- und Schreibzugriffe)

Dateizugriffe mit dynamischen Dateinamen stellen eine besondere Herausforderung dar. Fast alle Modelle lösten die Testfälle nur unzureichend:

Gemini 2.5 Pro erreichte mit 86 % die beste Verwundbarkeitsrate.
Sonnet 4.5 scheiterte in allen Testfällen (100 % Verwundbarkeit).

Die Studie führt dies auf ein grundlegendes Architekturproblem zurück: Jeder Code, der dynamische Dateinamen akzeptiert und an `fs.readFile()` übergibt, wird von den Sicherheitsregeln erfasst. Eine sichere Lösung erfordert Verzicht auf Benutzer-Dateinamen – was jedoch die Funktionalität einschränkt.

4. Shell-Befehle (Komprimierung, Bildumwandlung)

Funktionen wie compressFile, convertImage oder runCommand werden oft über Shell-Befehle realisiert. Hier zeigte sich:

Haiku 4.5 erreichte mit 50 % die beste Verwundbarkeitsrate.
Opus 4.6 scheiterte in 96 % der Fälle.

Haiku setzt in einigen Fällen auf Bibliotheks-APIs statt auf Shell-Befehle, was die Verwundbarkeit reduziert. Größere Modelle wie Gemini Pro nutzen häufiger child_process.exec(), was zwar flexibler ist, aber von Sicherheitsregeln erfasst wird.

5. Konfiguration und Geheimnisse

Die Verwaltung von Datenbankverbindungen und Geheimnissen (wie API-Schlüssel) offenbarte weitere Unterschiede:

Gemini 2.5 Flash und Opus 4.6 erreichten in der Fehlerbehebung eine Quote von 100 %.
Haiku 4.5 lag mit nur 43 % deutlich zurück.

Hier zeigte sich: Einfache Modelle scheitern oft an der korrekten Handhabung komplexer Konfigurationen, während größere Modelle zwar mehr Verwundbarkeiten generieren, aber auch über robustere Fehlerbehebungsmechanismen verfügen.

Praktische Schlussfolgerungen: Wie wählt man das richtige Modell?

Die Studie unterstreicht eine zentrale Erkenntnis: Es gibt kein „bestes“ KI-Modell für alle Anwendungsfälle. Die Wahl hängt stark vom spezifischen Einsatzgebiet ab.

Ein Unternehmen, das sich auf Datenbankoperationen konzentriert, sollte ein Modell wie Haiku 4.5 in Betracht ziehen – trotz dessen Schwächen in anderen Bereichen. Für Authentifizierungszwecke eignet sich hingegen Gemini 2.5 Flash deutlich besser.

Die Analyse zeigt auch, dass die Fehlerbehebungsrate ein entscheidender Faktor ist. Modelle wie Opus 4.6 und Gemini 2.5 Pro glänzen zwar nicht in allen Verwundbarkeitskategorien, bieten aber exzellente Möglichkeiten zur nachträglichen Optimierung.

Für Entwickler bedeutet das: Benchmark-Ergebnisse sollten nie isoliert betrachtet werden. Stattdessen ist eine domänenspezifische Bewertung unerlässlich, um das volle Potenzial von KI-gestützter Softwareentwicklung auszuschöpfen.

Die Zukunft der KI-Sicherheit liegt nicht in der Suche nach einem universell „besten“ Modell, sondern in der intelligenten Kombination verschiedener Modelle – jeweils zugeschnitten auf die spezifischen Anforderungen des Projekts.

KI-Zusammenfassung

Tek bir sayıyla yapılan AI model karşılaştırmaları yanıltıcı olabilir. 700 güvenlik fonksiyonunu analiz eden araştırma, hangi modelin hangi görevde en güvenli olduğunu ortaya koyuyor.