Ktx: Open-Source-Kontextschicht für zuverlässige Datenagenten

Datenagenten versprechen Effizienz: Sie analysieren Daten, erstellen Berichte und beantworten komplexe Fragen – oft mit beeindruckender Geschwindigkeit. Doch in der Praxis stolpern viele über dieselben Stolpersteine. Die Probleme reichen von veralteten Spalten in Tabellen bis hin zu falschen Join-Logiken, die zu doppelten oder fehlenden Werten führen. Das Ergebnis? Berichte, die zwar technisch korrekt aussehen, aber inhaltlich falsch sind. Genau hier setzt Ktx an – ein neues Open-Source-Projekt, das als ausführbare Kontextschicht für Datenagenten fungiert.

Warum Agenten in der Praxis oft scheitern

Die Liste der typischen Fallstricke ist lang. Ein klassisches Beispiel ist die Verwendung veralteter oder unbekannter Geschäftsregeln: Ein Finanzanalyst fragt einen Agenten nach dem „jährlichen wiederkehrenden Umsatz (ARR) nach Kundensegment“. Der Agent generiert ein SQL-Skript, das scheinbar korrekt Daten aus Tabellen wie subscriptions, plans und accounts abruft und nach accounts.industry gruppiert. Doch was der Agent nicht weiß: Die Spalte industry wurde vor Monaten durch eine neue Logik ersetzt, oder pausierte Abonnements wurden in der ARR-Berechnung bisher nicht berücksichtigt. Das Ergebnis ist ein Bericht, der auf veralteten oder unvollständigen Daten basiert.

Ein weiteres Problem ist die Join-Fanout-Falle. Ein Einzelhändler lässt einen Agenten einen Quartalsbericht zu den Umsätzen nach Produkt erstellen. Der Agent verbindet orders mit order_items und summiert orders.total_amount_cents gruppiert nach order_items.product_id. Die Abfrage läuft fehlerfrei – doch jeder Auftrag wird so oft gezählt, wie er Zeilen in der order_items-Tabelle hat. Bei Aufträgen mit nur einem Artikel fällt der Fehler kaum auf, doch bei großen Aufträgen mit vielen Positionen führt dies zu massiven Überschätzungen.

Auch die Attributionslogik stellt Agenten vor Herausforderungen. Ein Marketingteam fragt nach den „kampagnen, die den meisten Umsatz generiert haben“. Der Agent verbindet marketing_touches mit users und orders und gruppiert nach utm_campaign. Doch ohne Wissen darüber, ob die Attribution nach Erstem Kontakt, Letztem Kontakt oder Multi-Touch erfolgt, wird die Analyse wertlos. Entscheidungen basieren dann auf falschen Annahmen – mit potenziell kostspieligen Konsequenzen.

Vom Kontextmanagement zur ausführbaren Lösung

Frühe Ansätze, um diese Probleme zu lösen, konzentrierten sich auf zwei Strategien:

Erweiterter Kontext: Agenten erhielten Zugriff auf interne Wikis oder Skill-Bibliotheken, um zusätzliche Informationen zu nutzen. Doch dies löste nur teilweise das Problem, da die Agenten weiterhin selbstständig SQL generieren mussten – mit allen damit verbundenen Risiken.

Semantische Schichten: Klassische Tools wie LookML oder MetricFlow boten eine strukturierte Abstraktionsebene. Doch diese Lösungen waren primär für BI-Tools konzipiert, schwer zu warten und berücksichtigten keine unstrukturierten Datenquellen wie interne Dokumentationen oder Chat-Protokolle.

Ktx kombiniert die Stärken beider Ansätze und geht einen Schritt weiter: Die Lösung trennt Geschäftskontext und ausführbare Definitionen in zwei klar getrennte Ebenen.

1. Geschäftskontext in Markdown-Dateien

Ktx ermöglicht es Teams, relevante Geschäftsregeln, Definitionen und Konventionen in Markdown-Dateien zu hinterlegen. Diese werden automatisch eingelesen und in die Wissensbasis des Agenten integriert. Beispiele:

„Der ARR wird berechnet als Summe aller aktiven Abonnements, wobei pausierte Abonnements ausgeschlossen werden.“
„Die Spalte `industry` in der Tabelle `accounts` wurde durch `customer_segment` ersetzt. Verwende stattdessen die neue Spalte.“
„Die Attribution erfolgt nach dem ‚Last-Touch‘-Modell. Jeder Auftrag wird der letzten Kampagne zugeordnet, die vor dem Kauf besucht wurde.“

Diese Informationen stehen dem Agenten in Echtzeit zur Verfügung, ohne dass er sie selbst interpretieren oder in SQL umwandeln muss.

2. Ausführbare Metrikdefinitionen in YAML

Für wiederkehrende Metriken wie ARR, Umsatz pro Kunde oder Kampagnenperformance definiert Ktx YAML-Konfigurationen, die folgende Elemente enthalten:

Tabellen und deren Granularität: Welche Datenquellen werden verwendet und auf welcher Ebene (z. B. pro Auftrag oder pro Kunde)?
Joins und Beziehungen: Wie sind die Tabellen miteinander verknüpft? Werden inner joins, left joins oder spezielle Logiken wie Chasm Joins benötigt?
Maßnahmen und Dimensionen: Welche Kennzahlen (z. B. revenue) und Gruppierungen (z. B. by customer_segment) sind relevant?
Filter und Filtergruppen: Welche Bedingungen müssen erfüllt sein (z. B. nur aktive Kunden, Zeitraum-Einschränkungen)?

Wenn ein Agent eine Metrik anfordert, fragt er nicht mehr selbstständig eine SQL-Abfrage ab, sondern ruft stattdessen die entsprechende Definition aus der Ktx-Konfiguration ab. Ktx übernimmt dann:

Die Auswahl des optimalen Join-Pfads
Die Berücksichtigung der Granularität, um Fehler wie Join-Fanouts zu vermeiden
Die Generierung des korrekten SQL-Codes unter Einbeziehung aller relevanten Kontextinformationen

Integration und Anwendungsfälle

Ktx ist als Apache-2.0-lizenziertes Open-Source-Projekt verfügbar und unterstützt eine Vielzahl von Datenquellen und Tools:

Datenbanken: BigQuery, Snowflake, PostgreSQL und weitere
Modellierungstools: dbt, MetricFlow, LookML
BI-Tools: Looker, Metabase
Dokumentationssysteme: Notion
Benutzerfeedback: Korrekturen und Ergänzungen aus direkten Interaktionen

Die Einrichtung ist einfach:

npm install -g @kaelio/ktx

ktx setup

Alternativ kann der Agent selbst die Installation vornehmen, indem er folgenden Befehl ausführt:

npx skills add Kaelio/ktx --skill ktx

Ein Blick in die Zukunft: Zuverlässigere Agenten durch Kontext

Datenagenten haben das Potenzial, die Art und Weise, wie Unternehmen mit ihren Daten arbeiten, grundlegend zu verändern. Doch ihr Erfolg hängt maßgeblich davon ab, ob sie die richtigen Annahmen treffen – und das ohne manuelle Nacharbeit. Ktx stellt hier eine entscheidende Brücke dar: Es verbindet menschliches Fachwissen mit maschineller Ausführbarkeit und schafft so eine Grundlage für Agenten, die nicht nur schnell, sondern auch zuverlässig arbeiten.

Die Entwickler von Ktx laden insbesondere Nutzer von Tools wie Claude Code, Codex oder Teams, die eigene Agenten für Analytics-Warehouses gebaut haben, ein, Feedback zu geben. Wo sind Agenten in der Praxis gescheitert? Welche Lösungen wurden ausprobiert – und welche Ansätze haben sich bewährt? Die Diskussion könnte den Weg für noch robustere Systeme ebnen.

Die Zukunft der Datenanalyse liegt nicht nur in der Automatisierung, sondern in der intelligenten Kombination von Kontext und Ausführung. Ktx ist ein Schritt in diese Richtung – und ein Appell an die Community, gemeinsam an der nächsten Generation zuverlässiger Datenagenten zu arbeiten.

KI-Zusammenfassung

Veri analizlerinde yapay zeka ajanlarının hatalardan arındırılması için geliştirilen Ktx, açık kaynaklı bir çözüm sunuyor. Detayları ve kurulum adımları burada.

Ktx: Open-Source-Kontextschicht für zuverlässige Datenagenten

Warum Agenten in der Praxis oft scheitern

Vom Kontextmanagement zur ausführbaren Lösung

1. Geschäftskontext in Markdown-Dateien

2. Ausführbare Metrikdefinitionen in YAML

Integration und Anwendungsfälle

Ein Blick in die Zukunft: Zuverlässigere Agenten durch Kontext

Kommentare

Figma Make wird zum visuellen Code-Editor: KI-Design fließt nun direkt in GitHub

AI-Agenten vermeiden falsche Abfragen dank SQL-Protokollen und DataHub

Datenhoheit in kritischen Infrastrukturen: Warum Kontrolle und Konnektivität kein Widerspruch sind