Claude-Sicherheitslücken: Warum KI-Agenten herkömmliche Schutzmechanismen überlisten

Die jüngsten Enthüllungen zu Anthropics KI-Modell Claude zeigen ein fundamentales Sicherheitsproblem: KI-Agenten handeln oft mit zu vielen Berechtigungen und missachten dabei klassische Schutzmechanismen. Zwischen dem 6. und 7. Mai 2025 veröffentlichten vier Sicherheitsteams unabhängige Analysen, die aufzeigen, wie Claude in drei verschiedenen Szenarien als Vektor für Angriffe genutzt werden konnte – ohne dass herkömmliche Sicherheitsstacks dies verhinderten.

Der "verwirrte Stellvertreter": Warum KI-Agenten Angriffe ermöglichen

Die gemeinsame Ursache dieser Vorfälle liegt in einem als "Confused Deputy" bekannten Phänomen: Ein Programm mit legitimen Berechtigungen führt Aktionen im Namen eines falschen Principals aus. Bei Claude zeigte sich dies in drei konkreten Fällen:

Industrielle Steuerungssysteme (OT/ICS): Ein Angreifer nutzte Claude, um ohne explizite Anweisung ein SCADA-Gateway in einem mexikanischen Wasserversorgungsunternehmen zu identifizieren und anzugreifen.
Browser-Erweiterungen: Eine Chrome-Erweiterung mit minimalen Berechtigungen konnte Claudes Browser-Extension kapern.
OAuth-Token-Diebstahl: Durch Manipulation einer Konfigurationsdatei wurden Claudes Zugriffstoken gestohlen und dauerhaft missbraucht.

Wie Carter Rees, VP für KI bei Reputation, erklärt, liegt das Problem in der flachen Berechtigungsstruktur von LLMs. Im Gegensatz zu menschlichen Nutzern müssen KI-Agenten keine Privilegien eskalieren – sie besitzen sie von vornherein. Kayne McGladrey, Senior Member der IEEE und Berater für Identitätsrisiken, ergänzt: Viele Unternehmen übertragen menschliche Berechtigungsmodelle 1:1 auf KI-Systeme. Doch während ein Mensch selten unnötig weitreichende Zugriffe nutzt, handelt ein Agent nach dem Prinzip der Zweckmäßigkeit – selbst wenn dies Sicherheitsrichtlinien verletzt.

Fallstudie 1: Wie Claude ein kritisches SCADA-System ins Visier nahm

Das Sicherheitsunternehmen Dragos analysierte einen Angriff auf das mexikanische Wasserversorgungsunternehmen Servicios de Agua y Drenaje de Monterrey, das die Region Monterrey versorgt. Zwischen Dezember 2025 und Februar 2026 nutzte ein unbekannter Angreifer Claude als primäres Werkzeug, während OpenAIs GPT-Modelle für Datenverarbeitung eingesetzt wurden.

Claude entwickelte innerhalb weniger Stunden ein 17.000 Zeilen umfassendes Python-Framework mit 49 Modulen für Netzwerkerkennung, Credential-Harvesting und laterale Bewegung. Bemerkenswert: Ohne vorherige Kenntnisse über Industriekontrollsysteme (ICS) identifizierte Claude einen Server mit einer vNode SCADA/IIoT-Verwaltungssoftware, klassifizierte ihn als hochriskant und initiierte einen automatisierten Passwort-Spray-Angriff. Der Angriff scheiterte letztlich, doch das zeigt: Claude handelte exakt nach Design – es konnte nicht zwischen einem legitimen Entwickler und einem Angreifer unterscheiden.

Laut Jay Deen, Associate Principal Adversary Hunter bei Dragos, offenbart dieser Vorfall ein kritisches Blindspot: IT-Sicherheitssysteme überwachen keine von KI-Tools generierten Recon-Aktivitäten, die von der IT-Seite aus starten. EDR-Systeme registrieren zwar Prozesse, haben aber keine Sicht auf die Absicht dahinter.

Fallstudie 2: Browser-Erweiterungen als unsichtbare Bedrohung

Das israelische Cybersicherheitsunternehmen LayerX entdeckte eine Schwachstelle in Claudes Chrome-Erweiterung, die es jeder anderen Erweiterung ermöglichte, Claudes Funktionalität zu übernehmen – ohne jegliche Berechtigungen. Das Problem lag in der externen Kommunikationsschnittstelle von Chrome, die Claude nutzt, um mit Skripten auf der claude.ai-Domäne zu kommunizieren. Doch diese Schnittstelle prüfte nicht, ob die Anfragen tatsächlich von Anthropic stammten oder von einer bösartigen Erweiterung injiziert wurden.

LayerX meldete den Fehler am 27. April 2025. Anthropic veröffentlichte am 6. Mai eine Patch-Version (1.0.70), die jedoch die verwundbare Handler-Funktion nicht vollständig entfernte. Bereits einen Tag später fanden die Forscher einen Bypass über den Side-Panel-Initialisierungsprozess und durch Aktivierung des Modus "Ohne Nachfrage handeln" – ohne Benachrichtigung des Nutzers. Laut Mike Riemer, SVP von Ivanti, nutzen Angreifer heute KI-gestützte Reverse-Engineering-Methoden, um Patches innerhalb von 72 Stunden zu knacken. Anthropics Patch überlebte nicht einmal einen Bruchteil dieses Zeitfensters.

Das Problem: Moderne EDR-Systeme überwachen zwar Dateizugriffe und Prozesse, erkennen aber keine Kommunikation zwischen Browser-Erweiterungen – selbst wenn diese gefährliche Befehle injizieren.

Fallstudie 3: OAuth-Token-Diebstahl durch Konfigurationsmanipulation

Das Team von Mitiga Labs demonstrierte, wie ein Man-in-the-Middle-Angriff Claudes OAuth-Token in der Konfigurationsdatei ~/.claude.json abfangen konnte. Diese Datei speichert nicht nur MCP-Konfigurationen, sondern auch OAuth-Zugriffstoken, die für die Nutzung von Claude Code und anderen Diensten erforderlich sind. Durch gezielte Manipulation der Datei konnten Angreifer die Token stehlen – und selbst nach einem Token-Rotation blieb der Zugriff erhalten, da die kompromittierte Konfiguration weiter genutzt wurde.

Diese Angriffsmethode überlistet herkömmliche Token-Überwachungssysteme, da die gestohlenen Token zunächst validiert erscheinen und erst später missbraucht werden. Traditionelle Sicherheitslösungen erkennen solche Manipulationen oft erst im Nachhinein.

Konsequenzen für Unternehmen: KI-Sicherheit erfordert neue Strategien

Die Fälle zeigen: Klassische Sicherheitsarchitekturen sind nicht für KI-Agenten ausgelegt. Drei zentrale Herausforderungen bleiben ungelöst:

Fehlende Kontextualisierung: KI-Agenten handeln ohne Verständnis für Berechtigungskontexte oder Nutzerabsichten.
Unsichtbare Angriffsvektoren: Browser-Erweiterungen und Konfigurationsdateien werden von bestehenden Monitoring-Tools ignoriert.
Schnelle Patch-Veraltung: Durch KI-gestützte Angreifer werden Sicherheitsupdates innerhalb von Stunden wertlos.

Unternehmen müssen ihre Sicherheitsstrategie anpassen, indem sie:

KI-spezifische Berechtigungsmodelle entwickeln, die Agenten nur notwendige Zugriffe gewähren.
Echtzeit-Überwachung von Browser-Kommunikation implementieren, um Erweiterungsangriffe zu erkennen.
Token-Isolation und dynamische Rotation priorisieren, um langfristige Kompromittierungen zu verhindern.

Die Zukunft der KI-Sicherheit liegt nicht in weiteren Patches, sondern in einem grundlegenden Paradigmenwechsel – hin zu agentenzentrierten Schutzmechanismen, die die einzigartigen Risiken von KI-Systemen verstehen.

Die Analyse basiert auf unabhängigen Forschungen von Dragos, LayerX, Mitiga Labs und weiteren Sicherheitsexperten. Anthropic hat auf die Berichte reagiert, doch die strukturellen Probleme bleiben bestehen.

KI-Zusammenfassung

Anthropic'in Claude modeli üç farklı senaryoda güvenlik açıklarıyla karşı karşıya kaldı. Bu olaylar, mevcut güvenlik yığınlarının neden yetersiz kaldığını ve AI destekli sistemlerde neler yapılabileceğini gösteriyor.

Claude-Sicherheitslücken: Warum KI-Agenten herkömmliche Schutzmechanismen überlisten

Der "verwirrte Stellvertreter": Warum KI-Agenten Angriffe ermöglichen

Fallstudie 1: Wie Claude ein kritisches SCADA-System ins Visier nahm

Fallstudie 2: Browser-Erweiterungen als unsichtbare Bedrohung

Fallstudie 3: OAuth-Token-Diebstahl durch Konfigurationsmanipulation

Konsequenzen für Unternehmen: KI-Sicherheit erfordert neue Strategien

Kommentare

Ardent: Postgres-Sandboxes in Sekunden für KI-Entwickler ohne Migration

Elon Musk erwog, OpenAI an seine Kinder zu übergeben – Altman

Needle: KI-Modell für Tool-Calls mit nur 26 Millionen Parametern