AgentGuardian: Lokale Sicherheitsprüfung für KI-Agenten in Echtzeit

Künstliche Intelligenz entwickelt sich rasant von einfachen Chatbots zu autonomen Agenten, die eigenständig Tools nutzen, Daten verarbeiten und sogar Entscheidungen treffen. Doch diese Fortschritte werfen eine entscheidende Frage auf: Wie können Unternehmen sicherstellen, dass ihre KI-Agenten keine ungewollten Aktionen ausführen oder sensible Daten preisgeben?

Genau hier setzt AgentGuardian an – ein innovatives, lokal betriebenes Webtool, das Sicherheitsrisiken in KI-Agenten-Workflows systematisch analysiert. Die Anwendung prüft unter anderem auf Prompt-Injection, Tool-Missbrauch, unkontrollierte Autonomie, Datenlecks und mangelnde menschliche Kontrolle, bevor ein Agent in der Produktion eingesetzt wird.

Das Projekt nutzt ausschließlich lokale Komponenten und verzichtet auf externe KI-Dienste. Entwickelt wurde es mit:

Python für die Logik
Streamlit als Webframework
Pandas zur Datenverarbeitung
Ollama für lokale Sprachmodelle
Einem deterministischen Regelwerk zur Risikobewertung

Ein großer Vorteil: Es wird kein API-Schlüssel für externe KI-Dienste benötigt – eine bewusste Entscheidung für mehr Datensicherheit.

Warum AgentGuardian entstanden ist

Moderne KI-Agenten sind längst keine isolierten Chatfunktionen mehr. Sie interagieren mit einer Vielzahl von Tools, darunter:

E-Mail-Systeme
Dateisysteme
Datenbanken
CRM-Plattformen
Ticketsysteme
Kalender
Zahlungsabwicklungen
Webbrowser

Diese Integration macht die Agenten nützlicher, erhöht aber gleichzeitig das Sicherheitsrisiko. Ein Agent, der nur öffentliche Dokumente zusammenfasst, hat ein völlig anderes Risikoprofil als einer, der Kundenbeschwerden ausliest, Bestellhistorien prüft, Rückerstattungen bearbeitet und automatisiert E-Mails versendet.

Der zweite Agent hat Zugang zu sensiblen Daten, externen Eingaben und geschäftskritischen Tools – und benötigt daher eine detaillierte Sicherheitsprüfung vor dem Einsatz. AgentGuardian hilft dabei, folgende Fragen zu beantworten:

Welche Tools darf der Agent nutzen?
Mit welchen Daten arbeitet er?
Erhält er unkontrollierte externe Eingaben?
Kann er eigenständig Aktionen ausführen?
Ist eine menschliche Freigabe erforderlich?
Welche Risiken müssen vor dem Deployment behoben werden?

So funktioniert die Sicherheitsanalyse

AgentGuardian arbeitet nach dem Prinzip: Beschreibe den KI-Agenten, und das Tool generiert eine Risikoanalyse.

Der Nutzer gibt dazu folgende Informationen ein:

Name und Zweck des Agenten
Verfügbare Tools (z. B. E-Mail, Datenbanken, Zahlungssysteme)
Verarbeitete Datentypen (finanzielle Daten, Kundendaten, Zugangsdaten)
Externe Eingaben (E-Mails, hochgeladene Dateien, API-Antworten)
Autonomiestufe (manuell, teilautomatisiert, vollautomatisiert)
Erforderliche Freigaben (keine, optional, zwingend)

Das Tool liefert daraufhin:

Einen Risikoscore von 0 bis 100
Eine Klassifizierung (Niedrig, Mittel, Hoch, Kritisch)
Eine detaillierte Risikobewertung nach Kategorien
Eine Tabelle mit erkannten Risiken
Empfohlene Gegenmaßnahmen
Eine Zusammenfassung durch ein lokales Sprachmodell
Einen downloadbaren Sicherheitsbericht im Markdown-Format

Zwei Ebenen für präzise Risikobewertung

AgentGuardian besteht aus zwei Hauptkomponenten, die zusammen eine zuverlässige Risikoanalyse ermöglichen:

1. Regelbasierte Risiko-Engine

Das Herzstück des Tools ist ein deterministisches Python-System, das Risikopunkte nach klaren Regeln vergibt. Der Vorteil: Im Gegensatz zu KI-gestützten Bewertungen ist die Auswertung reproduzierbar und nachvollziehbar.

Beispiele für die Regelauswertung:

Prompt-Injection-Risiko steigt, wenn der Agent E-Mails, hochgeladene Dateien oder Webseiten verarbeitet.
Tool-Missbrauch wird wahrscheinlicher, wenn er Zugriff auf E-Mail-Systeme, Datenbanken, Zahlungsabwicklungen oder Code-Ausführung hat.
Datenlecks sind kritischer, wenn der Agent mit finanziellen Daten, Gesundheitsinformationen, Zugangsdaten oder Kundendaten arbeitet.
Unkontrollierte Autonomie liegt vor, wenn der Agent eigenständig Aktionen ausführen kann.
Human Oversight fehlt, wenn keine manuelle Freigabe erforderlich ist.

Diese klare Logik stellt sicher, dass die Bewertung konsistent und transparent bleibt – ein entscheidender Faktor für Sicherheitsverantwortliche.

2. Lokale KI-gestützte Zusammenfassung

Während die Regel-Engine die Risikopunkte vergibt, übernimmt ein lokales Sprachmodell die Aufgabe, die Ergebnisse verständlich aufzubereiten. Dabei nutzt AgentGuardian Ollama, um einen lesbaren Sicherheitsbericht zu generieren – ohne externe Abhängigkeiten.

Wichtig: Die KI entscheidet nicht über den Risikoscore, sondern erklärt ihn. So bleibt die Bewertung objektiv, während die Ausgabe dennoch für Entwickler, Sicherheits-Teams und Entscheidungsträger nutzbar ist.

Lokale Verarbeitung für maximale Datensicherheit

Ein zentrales Designprinzip von AgentGuardian ist der lokal-first-Ansatz. Das bedeutet:

Keine Übertragung sensibler Daten an externe KI-Dienste
Unabhängigkeit von Cloud-basierten Sprachmodellen
Einfache Integration in geschlossene Systeme

Um dies zu erreichen, setzt das Tool auf Ollama, das lokale Sprachmodelle wie folgt ein:

ollama pull llama3.2

oder:

ollama pull llama3.1:8b

Diese Modelle laufen vollständig auf der eigenen Infrastruktur und ermöglichen so die Generierung von Sicherheitsberichten ohne Datenschutzrisiken. Besonders für Unternehmen mit sensiblen Geschäftsprozessen oder internen Daten ist dieser Ansatz ideal.

Benutzerfreundlichkeit durch Streamlit

Die Oberfläche von AgentGuardian wurde mit Streamlit entwickelt, einem Framework für schnelle Web-Apps. Die Anwendung besteht aus drei Hauptbereichen:

Agenten-Workflows-Scanner – Hier werden die Agenten-Konfigurationen eingegeben.
Risiko-Wissensdatenbank – Erklärt typische Sicherheitsrisiken wie Prompt-Injection, Tool-Missbrauch oder unsichere Ausgabeverarbeitung.
Beispiel-Szenarien – Ermöglicht das Testen mit realistischen KI-Agenten-Workflows.

Ein besonderer Fokus lag auf der Benutzerfreundlichkeit: Das Tool prüft, ob alle Pflichtfelder ausgefüllt sind, bevor ein Bericht generiert wird. Diese kleine, aber entscheidende Funktion verhindert leere Ausgaben und macht AgentGuardian zu einem praktikablen Sicherheitswerkzeug statt eines Prototyps.

KI-Zusammenfassung

Discover AgentGuardian, an open-source tool that locally scans AI agent workflows for prompt injection, data leaks, and autonomy risks—no cloud APIs required.

AgentGuardian: Lokale Sicherheitsprüfung für KI-Agenten in Echtzeit

Warum AgentGuardian entstanden ist

So funktioniert die Sicherheitsanalyse

Zwei Ebenen für präzise Risikobewertung

1. Regelbasierte Risiko-Engine

2. Lokale KI-gestützte Zusammenfassung

Lokale Verarbeitung für maximale Datensicherheit

Benutzerfreundlichkeit durch Streamlit

Kommentare

DevOps-Videos auf YouTube Shorts: Warum einfache Fehler viral gehen

Echtzeit-Textstreaming im Browser: So funktioniert die SSE-Produktionslösung

Vom SEO-Schreiber zum technischen Lernenden: Ein Einblick in meine SaaS-Workflows