Für Dateningenieure endet die Arbeit oft erst nach einem Alarm – wenn die Pipeline bereits fehlgeschlagen ist, die Daten unvollständig oder veraltet sind. Besonders kritisch wird das bei agentischen KI-Systemen, die auf saubere und zeitnahe Daten angewiesen sind. Ein stiller Pipeline-Ausfall oder veraltete Eingaben können hier nicht nur Dashboards, sondern die gesamte KI-Funktionalität lahmlegen.
Genau dieses Problem adressiert Definity, ein in Chicago ansässiges Startup, das KI-Agenten direkt in die Ausführungsschicht von Spark- oder DBT-Pipelines integriert. Während herkömmliche Monitoring-Tools erst nach einem Durchlauf warnen, greift Definity direkt in den Prozess ein – und das mit messbaren Ergebnissen: Einem Erstkunden gelang es, innerhalb der ersten Woche 33 % der Optimierungspotenziale zu identifizieren und den Aufwand für Fehlersuche sowie Optimierung um 70 % zu reduzieren. Zudem behauptet das Unternehmen, komplexe Spark-Probleme bis zu zehnmal schneller zu lösen.
„Für agentische Datenoperationen sind drei Elemente entscheidend: Echtzeit-Transparenz über den gesamten Stack, Kontrolle über die Pipeline und die Fähigkeit, in einem Feedback-Loop zu validieren“, erklärt Roy Daniel, CEO und Mitgründer von Definity in einem exklusiven Gespräch mit VentureBeat. „Ohne diese Komponenten beobachtet man das Geschehen nur von außen – und liest bestenfalls eine nachträgliche Analyse.“
Warum klassisches Pipeline-Monitoring bei großen Datenmengen versagt
Die meisten gängigen Ansätze zur Überwachung von Datenpipelines arbeiten von außen – etwa Tools wie Datadog (das kürzlich den Datenqualitätsmonitor Metaplane übernommen hat), Databricks System Tabellen oder Plattformen wie Unravel Data und Acceldata. Diese Lösungen sammeln Metriken erst nach Abschluss eines Jobs und können daher nur nachträglich auf Probleme hinweisen. Selbst wenn Dynatrace Monitoring-Funktionen bietet, war es auch an Definitys Series-A-Runde beteiligt.
Definitys Ansatz hebt sich durch seine Architektur ab: Laut Daniel erkennen herkömmliche Tools ein Problem erst, wenn die Pipeline bereits durchgelaufen ist – der Fehler, verschwendete Rechenleistung oder schlechte Daten befinden sich dann bereits im downstream-Bereich.
„Es ist immer nachträglich“, so Daniel. „Bis wir uns bewusst sind, dass etwas schiefging, ist es längst passiert.“
Wie Definitys Agenten während der Ausführung eingreifen
Der entscheidende Unterschied liegt in der Positionierung der Agenten: Sie arbeiten nicht als externe Beobachter, sondern sind direkt in die Pipeline integriert.
- Inline-Instrumentierung: Die Lösung installiert einen JVM-Agenten über eine einzige Codezeile direkt in der Ausführungsschicht von Spark. Dieser läuft unterhalb der Plattformschicht und zieht Daten direkt aus den Spark-Prozessen.
- Echtzeit-Kontext während der Ausführung: Der Agent erfasst während des Durchlaufs Abfragen, Speicherdruck, Datenverzerrungen, Shuffle-Muster und Infrastrukturauslastung. Zudem leitet er dynamisch Abhängigkeiten zwischen Pipelines und Tabellen ab – ohne dass ein vorgefertigter Datenkatalog erforderlich ist.
- Aktive Intervention statt passiver Beobachtung: Die Agenten können Ressourcen während des Laufs anpassen, Jobs vor der Verbreitung schlechter Daten stoppen oder Pipelines basierend auf upstream-Datenbedingungen abbrechen. Daniel beschreibt einen Fall, in dem der Agent erkannte, dass ein upstream-Job vorzeitig beendet wurde und die erwartete Eingabetabelle veraltet war – und stoppte die downstream-Pipeline, bevor diese überhaupt startete.
- Echtzeit-Erkennung vs. nachgelagerte Analyse: Die Erkennung und Verhinderung von Fehlern erfolgt in Echtzeit. Ursachenanalysen und Optimierungsempfehlungen werden erst auf Anfrage eines Ingenieurs erstellt, wobei der Agent bereits den vollständigen Ausführungskontext zusammengetragen hat.
- Leistungsaufwand und Compliance: Der Agent verursacht etwa eine Sekunde zusätzlichen Rechenaufwand bei einem einstündigen Joblauf. Zudem überträgt er nur Metadaten extern; für Umgebungen mit strengen Compliance-Anforderungen steht eine vollständig lokale Bereitstellung zur Verfügung.
Praktische Anwendung: Wie Nexxen von Definity profitiert
Ein früher Nutzer von Definity ist Nexxen, eine Ad-Tech-Plattform, die groß angelegte Spark-Pipelines für werbekritische Anwendungen in einer On-Premises-Umgebung betreibt.
Dennis Meyer, Director of Data Engineering bei Nexxen, beschreibt das zentrale Problem nicht als Pipeline-Ausfälle, sondern als ineffiziente Ressourcennutzung in einer Umgebung ohne elastische Cloud-Kapazitäten. „Unser Hauptproblem war nicht das Brechen von Pipelines, sondern die Kosten, die durch ineffiziente Abläufe in einem komplexen, skalierenden System entstehen“, erklärt Meyer. „Da wir vor Ort hosten, haben wir nicht die Flexibilität, Verschwendung kurzfristig auszugleichen – jeder ineffiziente Job hat direkte finanzielle Auswirkungen.“
Bestehende Monitoring-Tools boten nur unvollständige Einblicke und ermöglichten keine systematische Optimierung. „Wir hatten bereits Tools im Einsatz, aber uns fehlte die ganzheitliche Sicht, um das Verhalten der Workloads umfassend zu verstehen und Optimierungen priorisiert anzugehen“, so Meyer. Nach der Implementierung von Definity – ohne Codeänderungen an den Pipelines – identifizierte das Team innerhalb einer Woche 33 % der Optimierungspotenziale. Der Aufwand für Fehlersuche und Optimierung sank um 70 %, während gleichzeitig Infrastrukturkapazitäten freigesetzt wurden. Dies ermöglichte es Nexxen, das Workload-Volumen ohne zusätzliche Hardware zu bewältigen.
„Der entscheidende Wandel bestand darin, von reaktivem Fehlermanagement zu proaktiver, kontinuierlicher Optimierung überzugehen“, resümiert Meyer. „Auf Scale ist das größte Hindernis oft nicht das Fehlen von Tools, sondern fehlende handlungsrelevante Transparenz.“
Konsequenzen für Daten-Teams in Unternehmen
Für Teams, die Spark-Umgebungen in der Produktion betreiben, hat der Wechsel von reaktivem Monitoring zu proaktiver, in Echtzeit agierender Intelligenz sowohl technische als auch organisatorische Implikationen:
- Pipeline-Operations wird zur KI-Infrastruktur: Datenpipelines, die einst primär der Analyse dienten, tragen heute direkt zu geschäftskritischen KI-Anwendungen bei. Ausfälle, die früher nur lästig waren, blockieren nun die gesamte KI-Produktion.
- Fehlersuche als Einsparpotenzial: Die Zeit, die für das Aufspüren und Beheben von Problemen aufgewendet wird, lässt sich durch präventive Ansätze deutlich reduzieren. Unternehmen können so Engineering-Ressourcen freistellen und gleichzeitig die Zuverlässigkeit ihrer Systeme steigern.
- Architektonische Anpassungen erforderlich: Die Integration von Agenten in die Ausführungsschicht erfordert neue Denkansätze in der Pipeline-Entwicklung. Teams müssen lernen, mit Echtzeit-Interventionen umzugehen und ihre Prozesse entsprechend anzupassen.
- Compliance und Datenschutz im Fokus: Besonders in regulierten Branchen oder bei sensiblen Daten ist die lokale Bereitstellung von Agenten entscheidend. Definity bietet hier mit seiner Metadaten-Übertragung und On-Premises-Option eine Lösung, die Compliance-Anforderungen erfüllt.
Die Zukunft der Datenpipeline-Überwachung liegt nicht mehr im nachträglichen Erkennen von Fehlern, sondern in ihrer Verhinderung – noch bevor sie Auswirkungen auf die Produktion haben. Mit Lösungen wie Definity vollzieht sich dieser Wandel bereits heute. Für Unternehmen, die ihre KI-Systeme stabil und leistungsfähig halten wollen, könnte dies zum entscheidenden Wettbewerbsvorteil werden.
KI-Zusammenfassung
Definity, Spark boru hatlarına ajanlar yerleştirerek hataları önlemek için bir çözüm sunuyor ve veri mühendisliği ekiplerine gerçek zamanlı görünürlük sağlıyor.


