AI-Agenten vermeiden falsche Abfragen dank SQL-Protokollen und DataHub

KI-Agenten scheitern in Unternehmen oft an der Komplexität von Datenbanken. Ein aktuelles Beispiel zeigt: Bei Miro lieferten Agenten in über 65 Prozent der Fälle falsche Antworten, als sie direkt auf Snowflake zugriffen. Der Grund war kein Modellproblem, sondern fehlender Kontext. Mit über 10.000 Tabellen und ohne semantische Schicht wussten die Agenten nicht, welche Daten zu welcher Frage passen.

Context Intelligence nutzt SQL-Protokolle als lebendige Wissensbasis

DataHub bringt nun eine neue Lösung auf den Markt: Context Intelligence. Die Technologie analysiert bestehende SQL-Protokolle, um einen semantischen Index zu erstellen – und stellt diesen Agenten über Schnittstellen wie MCP, LangChain oder CrewAI zur Verfügung. Das Ziel: Agenten sollen keine unsicheren Joins mehr durchführen, sondern auf bewährte Abfragen zurückgreifen, die von Analysten validiert wurden.

Die Idee dahinter ist nicht neu, aber die Umsetzung ist innovativ. DataHub, ursprünglich als Open-Source-Projekt bei LinkedIn gestartet, nutzt seit Jahren SQL-Protokolle, um Datenflüsse zu tracken. Jetzt wird diese Infrastruktur genutzt, um Agenten mit Kontext zu versorgen – ohne zusätzliche Metadaten zu erstellen. Shirshanka Das, Mitgründer und CTO von DataHub, erklärt:

"Unternehmen können erstmals jahrelange Abfragehistorien in eine lebendige, abrufbare Wissensbasis verwandeln. Agenten hören auf, Joins zu halluzinieren, weil sie Zugriff auf funktionierende Abfragen haben – validiert von den Menschen, die sie genutzt haben."

Warum Abfragehistorien besser sind als reine Schemas

DataHub entstand ursprünglich, um zwei Probleme zu lösen: Daten leichter auffindbar zu machen und gleichzeitig ihre korrekte Nutzung sicherzustellen. Das Open-Source-Projekt wurde 2020 veröffentlicht, nachdem es intern bei LinkedIn sechs Jahre lang entwickelt wurde. Der Hauptfokus lag zunächst auf der Nachverfolgbarkeit von Datenflüssen – etwa für Compliance-Audits oder die Einarbeitung neuer Mitarbeiter.

Heute unterstützt die Plattform über 100 Datenquellen, darunter PostgreSQL, MySQL, Oracle und Cloud-Warehouses wie Snowflake oder Google BigQuery. Die Abfrageprotokolle, die DataHub ausliest, stammen aus der Produktionsumgebung und wurden nicht speziell für KI-Agenten erstellt. Doch genau diese Protokolle sind jetzt der Schlüssel.

"Die Art der Nutzung hat sich geändert: von Menschen zu Agenten", so Das. Während Menschen Schemas interpretieren können, brauchen Agenten Kontext – und der liegt in den Abfragehistorien verborgen.

Wie Context Intelligence funktioniert: Filterung, Transformation und Validierung

Context Intelligence ist eine neue Fähigkeitsschicht, die auf der bestehenden Open-Source-Infrastruktur von DataHub aufbaut. Der Prozess funktioniert in drei Schritten:

Filterung von Signal statt Rauschen: Nicht jede Abfrage ist relevant. Das System extrahiert nur „goldene Abfragen“ – hochwertige Analystenabfragen und geplante Pipelines, die bewährte Geschäftslogik repräsentieren.

Umkehrung von SQL zu semantischen Definitionen: Das System analysiert wiederkehrende Muster in Abfragen und wandelt sie in strukturierte Textdefinitionen um – sogenannte semantische Anker. Diese dienen als Grundlage für die Abfragegenerierung durch Agenten.

Menschliche Validierung: Domain-Experten können KI-vorschlagene Kontexte prüfen, Konflikte lösen und die Auswirkungen von Änderungen simulieren, bevor sie veröffentlicht werden. DataHub hebt Fälle hervor, in denen Teams dieselben Metriken unterschiedlich berechnen – und stellt sie zur Abstimmung.

Miro setzt auf Context Intelligence für 10.000 Snowflake-Tabellen

Miro, die Plattform für digitale Zusammenarbeit, nutzte DataHub bereits für die Nachverfolgbarkeit von Datenflüssen. Als das Team begann, KI-Agenten gegen Snowflake zu testen, zeigte sich schnell das Problem: Direkte Abfragen über das Snowflake MCP führten in über 65 Prozent der Fälle zu falschen Antworten. Die schiere Menge an über 10.000 Tabellen überforderte die Agenten.

Die Lösung bestand darin, Daten in klar definierte Data Products zu organisieren – eine Architektur, die den Agenten nur eingeschränkten Zugriff auf relevante Tabellen ermöglicht. Der Workflow läuft nun so ab:

Nutzeranfragen werden über Claude Chat oder Claude Cowork eingereicht.
Ein Kontext-Layer nutzt DataHubs MCP, um die Anfrage auf die passenden Datenassets abzubilden.
Snowflakes MCP generiert schließlich die SQL-Abfrage.

Ronald Angel, Produktmanager für die Datenplattform bei Miro, erklärt:

"Der Kontext-Layer integriert Metadaten, Entitätsbeziehungen, Abfragehistorien und Geschäftsabsichten für jede Snowflake-Tabelle. Er zeigt explizit, welche geschäftliche Frage jede Entität beantworten soll. Diese semantischen Signale ermöglichen es dem Agenten, die richtigen Tabellen zu identifizieren – bevor er SQL schreibt."

Integration in bestehende Tech-Stacks: Pinecone, Oracle, Redis & Microsoft

DataHub ist nicht die einzige Lösung für Kontextmanagement. Anbieter wie Pinecone, Oracle und Redis bieten eigene Ansätze für kontextuelles Gedächtnis. Auf Plattformseite setzt Microsoft mit Fabric IQ auf semantische Intelligenz. DataHub positioniert sich dabei als neutrale, quelloffene Schicht, die bestehende Systeme ergänzt – ohne sie zu ersetzen.

Die Technologie eignet sich besonders für Unternehmen mit komplexen Datenlandschaften, die KI-Agenten zuverlässig einsetzen möchten. Durch die Nutzung von Abfragehistorien als Wissensquelle können Agenten nicht nur Fehler reduzieren, sondern auch schneller und präziser antworten. Die Zukunft der agentischen KI liegt nicht in größeren Modellen, sondern in besserem Kontext – und DataHub liefert genau das.

Mit Context Intelligence zeigt das Unternehmen, wie bestehende Infrastruktur in ein mächtiges Werkzeug für KI-Agenten verwandelt werden kann. Die Technologie ist bereit für den Einsatz – und die Nachfrage nach zuverlässigeren Agenten wird weiter steigen.

KI-Zusammenfassung

AI ajanları veri tabanlarında %65 hata yapıyordu. DataHub’un Context Intelligence katmanı, yıllık SQL sorgularını analiz ederek ajanlara rehberlik eden semantik bir endeks sunuyor ve hataları minimize ediyor.

AI-Agenten vermeiden falsche Abfragen dank SQL-Protokollen und DataHub

Context Intelligence nutzt SQL-Protokolle als lebendige Wissensbasis

Warum Abfragehistorien besser sind als reine Schemas

Wie Context Intelligence funktioniert: Filterung, Transformation und Validierung

Miro setzt auf Context Intelligence für 10.000 Snowflake-Tabellen

Integration in bestehende Tech-Stacks: Pinecone, Oracle, Redis & Microsoft

Kommentare

Ktx: Open-Source-Kontextschicht für zuverlässige Datenagenten

Figma Make wird zum visuellen Code-Editor: KI-Design fließt nun direkt in GitHub

Datenhoheit in kritischen Infrastrukturen: Warum Kontrolle und Konnektivität kein Widerspruch sind