iToverDose/Startups· 1 JUNI 2026 · 16:01

Anthropic veröffentlicht alarmierende Prompt-Injection-Rate für KI-Browseragenten

Neue Sicherheitsdaten von Anthropic zeigen, dass ihre KI-Agenten in 31,5 % der Fälle gehackt wurden, bevor Schutzmechanismen griffen. Während Konkurrenten wie OpenAI und Google kaum vergleichbare Zahlen liefern, wirft dies Fragen zur Standardisierung von KI-Sicherheit auf.

VentureBeat3 min0 Kommentare

Vor wenigen Monaten veröffentlichte Anthropic die bisher höchsten öffentlich bekannten Raten für Prompt-Injection-Angriffe auf KI-Modelle. In einer simulierten Browserumgebung gelang es Angreifern, die KI in 31,5 % der Versuche zu kompromittieren, bevor die internen Schutzmechanismen eingriffen. Dieser Wert übertrifft alle bisher dokumentierten Ergebnisse anderer führender Anbieter wie OpenAI, Google oder Meta – doch er offenbart auch ein zentrales Problem der Branche: die fehlende Standardisierung bei der Messung von KI-Sicherheitslücken.

Während Anthropic mit 244 Seiten detaillierter Systemkarten Transparenz schafft, setzen andere Unternehmen auf deutlich weniger Umfang. OpenAI beschränkt sich auf eine einzige Angriffsfläche, Google verlagert das Thema in ein separates Sicherheitsframework und Meta verzichtet gänzlich auf geschlossene Systemkarten. Diese Unterschiede machen es Käufern fast unmöglich, die tatsächliche Sicherheitslage verschiedener KI-Modelle objektiv zu vergleichen.

Warum Prompt-Injection eine neue Bedrohung für Unternehmen darstellt

Prompt-Injection-Angriffe nutzen harmlos erscheinende Eingaben, um KI-Systeme zu manipulieren. Ein einfacher Satz wie „Ignoriere alle vorherigen Anweisungen“ kann dabei genauso zerstörerisch wirken wie ein klassischer Pufferüberlauf – doch ohne klare Signaturmuster, nach denen traditionelle Sicherheitstools suchen könnten.

Carter Rees, Vice President für KI bei Reputation, warnt: „Diese Angriffsform bricht mit der grundlegenden Annahme, auf der die meisten Legacy-Systeme basieren. Da es keine einheitlichen Erkennungsmuster gibt, muss jedes Unternehmen selbst entscheiden, wie es seine KI-Modelle gegen Datenvergiftung oder adversarische Manipulation schützt.“

Adam Meyers, Senior Vice President für Gegenangriffsoperationen bei CrowdStrike, betont die wachsende Bedrohungslage: „KI-Implementierungen erweitern die Angriffsoberfläche jedes Unternehmens massiv. Angreifer nutzen bereits heute KI, um die Zeit zwischen initialem Einbruch und Schadensauslösung dramatisch zu verkürzen – schneller, als klassische Abwehrmechanismen reagieren können.“ Laut CrowdStrikes Financial Services Threat Landscape Report 2026 aus Mai 2025 beschleunigen Cyberkriminelle ihre Angriffsmethoden durch den Einsatz von KI um bis zu 40 %.

Anthropics Messungen: Ein Blick auf vier unterschiedliche Angriffsflächen

Im Gegensatz zu seinen Wettbewerbern differenziert Anthropic seine Sicherheitsanalysen nach vier verschiedenen Angriffsflächen. Die Ergebnisse variieren dabei extrem – je nach Kontext und getestetem Modell.

  • Entwicklungsumgebungen: Hier gelang es Angreifern mit dem Gray Swan’s Shade-Tool in 7,03 % der Einzelversuche, die Schutzmechanismen von Claude Opus 4.8 zu umgehen – bei aktiviertem Thinking Mode. Mit eingeschalteten Sicherheitsvorkehrungen sank die Rate auf 2,09 %.
  • Browserumgebungen: In 129 simulierten Webumgebungen, die während des Trainings nicht berücksichtigt wurden, lag die Erfolgsquote der Angreifer bei 31,5 % pro Versuch. Selbst dieser Wert ist jedoch nur ein Teil des Gesamtbilds. Bei der Betrachtung pro Szenario – also ob mindestens ein Angriff in einer Umgebung erfolgreich war – ergab sich ein noch alarmierender Wert: 62,8 % der getesteten Umgebungen wurden mindestens einmal kompromittiert.

Die Daten zeigen, dass die neueste Generation Mythos Preview mit 5,9 % pro Versuch die niedrigste Angriffsrate aufweist – allerdings ist dieses Modell noch nicht öffentlich verfügbar. Bei aktivierten Schutzmechanismen sank die Erfolgsquote von Opus 4.8 auf 0,5 % pro Versuch, und ohne Thinking Mode lag sie in allen 129 Umgebungen bei 0 %.

OpenAI, Google und Meta: Ein Flickenteppich an Sicherheitsdokumentationen

Während Anthropic detaillierte Analysen veröffentlicht, setzen andere Anbieter auf deutlich schlankere Ansätze:

  • OpenAI misst Prompt-Injection nur im Kontext von Connectors – einer einzelnen Angriffsfläche. Die veröffentlichten Werte (z. B. 0,963 für GPT-5.5) geben die Robustheit gegen bekannte Angriffe an, sind jedoch nicht direkt mit Anthropics prozentualen Erfolgsraten vergleichbar. Zum Vergleich: GPT-5.4 mit Thinking Mode erreichte einen Wert von 0,998.
  • Google behandelt das Thema in einem separaten Sicherheitsframework und verzichtet auf konkrete Zahlen in den offiziellen Modellkarten. Die Sicherheitsdokumentation für Gemini 3 erwähnt zwar verbesserte Resistenz, liefert jedoch keine quantitativen Messwerte.
  • Meta veröffentlichte überhaupt keine geschlossene Systemkarte zu Prompt-Injection-Risiken, sondern beschränkt sich auf einen kurzen Abschnitt im technischen Papier „Frontier Safety Framework“ (arXiv, Mai 2025).

Diese Unterschiede machen es Unternehmen nahezu unmöglich, eine fundierte Entscheidung über den Einsatz von KI-Modellen zu treffen. Ohne einheitliche Messstandards bleibt die Sicherheitsbewertung ein subjektiver Prozess.

Die Zukunft der KI-Sicherheit: Wer trägt die Verantwortung?

Die aktuellen Enthüllungen unterstreichen eine drängende Frage: Wer ist für die Absicherung von KI-Systemen verantwortlich – die Entwickler oder die Nutzer? Während Anthropic mit seiner transparenten Berichterstattung Vorreiter ist, zeigen die Lücken in den Sicherheitsdokumentationen anderer Anbieter, dass die Branche noch einen langen Weg vor sich hat.

Unternehmen müssen sich bewusst sein, dass der Einsatz von KI nicht nur neue Chancen, sondern auch unkalkulierbare Risiken mit sich bringt. Bis einheitliche Sicherheitsstandards etabliert sind, bleibt die Wahl des richtigen Anbieters eine Frage des Vertrauens – und der eigenen Risikobereitschaft. Die nächsten Monate werden zeigen, ob die Branche aus den aktuellen Enthüllungen lernen und gemeinsame Maßnahmen ergreifen wird, um die Sicherheit von KI-Systemen nachhaltig zu verbessern.

KI-Zusammenfassung

Anthropic’in en yeni yapay zekâ modeli, tarayıcı ortamında yapılan saldırılarda %31,5 oranında ele geçirildi. Peki bu veriler güvenlik risklerini nasıl yansıtıyor ve diğer şirketlerin yaklaşımlarıyla karşılaştırıldığında neler ortaya çıkıyor?

Kommentare

00
KOMMENTAR SCHREIBEN
ID #NP0WD9

0 / 1200 ZEICHEN

Menschen-Check

8 + 6 = ?

Erscheint nach redaktioneller Prüfung

Moderation · Spam-Schutz aktiv

Noch keine Kommentare. Sei der erste.