Künstliche Intelligenz entwickelt sich rasant von einfachen Chatbots zu autonomen Agenten, die eigenständig Tools nutzen, Daten verarbeiten und sogar Entscheidungen treffen. Doch diese Fortschritte werfen eine entscheidende Frage auf: Wie können Unternehmen sicherstellen, dass ihre KI-Agenten keine ungewollten Aktionen ausführen oder sensible Daten preisgeben?
Genau hier setzt AgentGuardian an – ein innovatives, lokal betriebenes Webtool, das Sicherheitsrisiken in KI-Agenten-Workflows systematisch analysiert. Die Anwendung prüft unter anderem auf Prompt-Injection, Tool-Missbrauch, unkontrollierte Autonomie, Datenlecks und mangelnde menschliche Kontrolle, bevor ein Agent in der Produktion eingesetzt wird.
Das Projekt nutzt ausschließlich lokale Komponenten und verzichtet auf externe KI-Dienste. Entwickelt wurde es mit:
- Python für die Logik
- Streamlit als Webframework
- Pandas zur Datenverarbeitung
- Ollama für lokale Sprachmodelle
- Einem deterministischen Regelwerk zur Risikobewertung
Ein großer Vorteil: Es wird kein API-Schlüssel für externe KI-Dienste benötigt – eine bewusste Entscheidung für mehr Datensicherheit.
Warum AgentGuardian entstanden ist
Moderne KI-Agenten sind längst keine isolierten Chatfunktionen mehr. Sie interagieren mit einer Vielzahl von Tools, darunter:
- E-Mail-Systeme
- Dateisysteme
- Datenbanken
- CRM-Plattformen
- Ticketsysteme
- Kalender
- Zahlungsabwicklungen
- Webbrowser
Diese Integration macht die Agenten nützlicher, erhöht aber gleichzeitig das Sicherheitsrisiko. Ein Agent, der nur öffentliche Dokumente zusammenfasst, hat ein völlig anderes Risikoprofil als einer, der Kundenbeschwerden ausliest, Bestellhistorien prüft, Rückerstattungen bearbeitet und automatisiert E-Mails versendet.
Der zweite Agent hat Zugang zu sensiblen Daten, externen Eingaben und geschäftskritischen Tools – und benötigt daher eine detaillierte Sicherheitsprüfung vor dem Einsatz. AgentGuardian hilft dabei, folgende Fragen zu beantworten:
- Welche Tools darf der Agent nutzen?
- Mit welchen Daten arbeitet er?
- Erhält er unkontrollierte externe Eingaben?
- Kann er eigenständig Aktionen ausführen?
- Ist eine menschliche Freigabe erforderlich?
- Welche Risiken müssen vor dem Deployment behoben werden?
So funktioniert die Sicherheitsanalyse
AgentGuardian arbeitet nach dem Prinzip: Beschreibe den KI-Agenten, und das Tool generiert eine Risikoanalyse.
Der Nutzer gibt dazu folgende Informationen ein:
- Name und Zweck des Agenten
- Verfügbare Tools (z. B. E-Mail, Datenbanken, Zahlungssysteme)
- Verarbeitete Datentypen (finanzielle Daten, Kundendaten, Zugangsdaten)
- Externe Eingaben (E-Mails, hochgeladene Dateien, API-Antworten)
- Autonomiestufe (manuell, teilautomatisiert, vollautomatisiert)
- Erforderliche Freigaben (keine, optional, zwingend)
Das Tool liefert daraufhin:
- Einen Risikoscore von 0 bis 100
- Eine Klassifizierung (Niedrig, Mittel, Hoch, Kritisch)
- Eine detaillierte Risikobewertung nach Kategorien
- Eine Tabelle mit erkannten Risiken
- Empfohlene Gegenmaßnahmen
- Eine Zusammenfassung durch ein lokales Sprachmodell
- Einen downloadbaren Sicherheitsbericht im Markdown-Format
Zwei Ebenen für präzise Risikobewertung
AgentGuardian besteht aus zwei Hauptkomponenten, die zusammen eine zuverlässige Risikoanalyse ermöglichen:
1. Regelbasierte Risiko-Engine
Das Herzstück des Tools ist ein deterministisches Python-System, das Risikopunkte nach klaren Regeln vergibt. Der Vorteil: Im Gegensatz zu KI-gestützten Bewertungen ist die Auswertung reproduzierbar und nachvollziehbar.
Beispiele für die Regelauswertung:
- Prompt-Injection-Risiko steigt, wenn der Agent E-Mails, hochgeladene Dateien oder Webseiten verarbeitet.
- Tool-Missbrauch wird wahrscheinlicher, wenn er Zugriff auf E-Mail-Systeme, Datenbanken, Zahlungsabwicklungen oder Code-Ausführung hat.
- Datenlecks sind kritischer, wenn der Agent mit finanziellen Daten, Gesundheitsinformationen, Zugangsdaten oder Kundendaten arbeitet.
- Unkontrollierte Autonomie liegt vor, wenn der Agent eigenständig Aktionen ausführen kann.
- Human Oversight fehlt, wenn keine manuelle Freigabe erforderlich ist.
Diese klare Logik stellt sicher, dass die Bewertung konsistent und transparent bleibt – ein entscheidender Faktor für Sicherheitsverantwortliche.
2. Lokale KI-gestützte Zusammenfassung
Während die Regel-Engine die Risikopunkte vergibt, übernimmt ein lokales Sprachmodell die Aufgabe, die Ergebnisse verständlich aufzubereiten. Dabei nutzt AgentGuardian Ollama, um einen lesbaren Sicherheitsbericht zu generieren – ohne externe Abhängigkeiten.
Wichtig: Die KI entscheidet nicht über den Risikoscore, sondern erklärt ihn. So bleibt die Bewertung objektiv, während die Ausgabe dennoch für Entwickler, Sicherheits-Teams und Entscheidungsträger nutzbar ist.
Lokale Verarbeitung für maximale Datensicherheit
Ein zentrales Designprinzip von AgentGuardian ist der lokal-first-Ansatz. Das bedeutet:
- Keine Übertragung sensibler Daten an externe KI-Dienste
- Unabhängigkeit von Cloud-basierten Sprachmodellen
- Einfache Integration in geschlossene Systeme
Um dies zu erreichen, setzt das Tool auf Ollama, das lokale Sprachmodelle wie folgt ein:
ollama pull llama3.2oder:
ollama pull llama3.1:8bDiese Modelle laufen vollständig auf der eigenen Infrastruktur und ermöglichen so die Generierung von Sicherheitsberichten ohne Datenschutzrisiken. Besonders für Unternehmen mit sensiblen Geschäftsprozessen oder internen Daten ist dieser Ansatz ideal.
Benutzerfreundlichkeit durch Streamlit
Die Oberfläche von AgentGuardian wurde mit Streamlit entwickelt, einem Framework für schnelle Web-Apps. Die Anwendung besteht aus drei Hauptbereichen:
- Agenten-Workflows-Scanner – Hier werden die Agenten-Konfigurationen eingegeben.
- Risiko-Wissensdatenbank – Erklärt typische Sicherheitsrisiken wie Prompt-Injection, Tool-Missbrauch oder unsichere Ausgabeverarbeitung.
- Beispiel-Szenarien – Ermöglicht das Testen mit realistischen KI-Agenten-Workflows.
Ein besonderer Fokus lag auf der Benutzerfreundlichkeit: Das Tool prüft, ob alle Pflichtfelder ausgefüllt sind, bevor ein Bericht generiert wird. Diese kleine, aber entscheidende Funktion verhindert leere Ausgaben und macht AgentGuardian zu einem praktikablen Sicherheitswerkzeug statt eines Prototyps.
KI-Zusammenfassung
Discover AgentGuardian, an open-source tool that locally scans AI agent workflows for prompt injection, data leaks, and autonomy risks—no cloud APIs required.