KI-Modelle verändern Dokumente – und die Fehler bleiben oft unbemerkt

Die Idee klingt verlockend: Ein KI-System analysiert ein Dokument, führt komplexe Bearbeitungen durch und liefert das fertige Ergebnis – ganz ohne manuellen Aufwand. Doch eine aktuelle Studie des Microsoft-Forschungsteams zeigt, dass große Sprachmodelle (LLMs) bei solchen delegierten Aufgaben systematisch Inhalte verfälschen. Die Fehler bleiben oft unbemerkt, selbst wenn Nutzer die Änderungen nicht direkt überprüfen.

Die Ergebnisse sind alarmierend: Selbst Spitzenmodelle wie Gemini 3.1 Pro, Claude 4.6 Opus oder GPT 5.4 korrumpieren im Schnitt 25 % des Dokumenteninhalts, wenn sie über 20 aufeinanderfolgende Bearbeitungsschritte hinweg arbeiten. Die Studie widerlegt damit die Annahme, dass KI-Systeme zuverlässig komplexe Wissensaufgaben übernehmen können – zumindest mit dem aktuellen Stand der Technik.

Warum vertrauenswürdige KI noch Zukunftsmusik ist

Das Forschungsteam unter der Leitung von Philippe Laban, Senior Researcher bei Microsoft, untersucht in seiner Arbeit das Konzept der delegierten Arbeit: Nutzer überlassen KI-Systemen Aufgaben, die eigentlich menschliches Fachwissen oder aufwendige Prüfungen erfordern. Ein Beispiel ist Vibe Coding, bei dem Entwickler:innen KI-Tools nutzen, um Code zu schreiben, zu refaktorieren oder zu debuggen. Doch die Delegation erstreckt sich längst auf andere Bereiche – von der Finanzbuchhaltung bis hin zur Musiknotation.

Ein typisches Szenario: Ein:e Buchhalter:in lädt einen umfangreichen Ledger hoch und bittet das Modell, die Datei nach Ausgabenkategorien zu splitten. Die KI soll anschließend separate Dateien erstellen, die später wieder zusammengeführt werden können. Doch was passiert, wenn die KI dabei sensible Daten löscht, falsche Einträge hinzufügt oder den Kontext verliert?

Genau diese Frage untersucht die Studie mithilfe des neuen Benchmarks DELEGATE-52. Dieser simuliert 310 Arbeitsumgebungen in 52 verschiedenen Berufsfeldern – von der Softwareentwicklung bis hin zur Kristallographie. Jede Umgebung enthält reale Dokumente mit 2.000 bis 5.000 Tokens sowie komplexe Bearbeitungsaufgaben, die eine präzise Reversibilität erfordern.

Wie die Studie die KI auf die Probe stellt

Die Forscher:innen setzen auf einen innovativen Ansatz: den Round-Trip-Relay. Dabei wird jede Bearbeitungsaufgabe so gestaltet, dass sie vollständig umkehrbar ist. Eine Anweisung zum Aufteilen eines Dokuments wird später durch eine Anweisung zum Zusammenführen ersetzt – und die KI muss beide Schritte unabhängig voneinander ausführen.

Um die Zuverlässigkeit der Modelle zu testen, wurden 19 verschiedene Sprachmodelle von OpenAI, Anthropic, Google, Mistral, xAI und Moonshot einem 20-stufigen Bearbeitungsmarathon unterzogen. Die Ergebnisse waren ernüchternd:

Im Durchschnitt korrumpierten die Modelle 50 % des Dokumenteninhalts.
Selbst die besten Modelle (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) verursachten durchschnittlich 25 % Datenverlust.
Nur im Bereich Python erreichten die meisten Modelle eine Fehlerquote von unter 2 % – ein klarer Hinweis darauf, dass strukturierte, regelbasierte Aufgaben besser bewältigt werden.

Ein weiteres Problem: Die Fehler häufen sich nicht schleichend an. Stattdessen kommt es zu plötzlichen, massiven Ausfällen. Rund 80 % des Datenverlusts entstehen durch einzelne Interaktionen, in denen die KI mindestens 10 % des Inhalts löscht oder verändert. Diese katastrophalen Ausfälle sind besonders tückisch, weil sie schwer vorhersehbar sind.

Warum Ablenkungen die KI überfordern

Um die Robustheit der Modelle weiter zu prüfen, integrierten die Forscher:innen in jede Aufgabe Distraktor-Dokumente – irrelevante, aber thematisch ähnliche Texte mit 8.000 bis 12.000 Tokens. Das Ziel: Testen, ob die KI den Fokus behält oder sich von unwichtigen Informationen ablenken lässt.

Das Ergebnis war eindeutig: Die meisten Modelle schnitten mit Distraktoren schlechter ab. Das wirft eine kritische Frage auf: Wie zuverlässig können KI-Systeme wirklich sein, wenn sie in realen Arbeitsumgebungen mit unzähligen Störfaktoren konfrontiert werden?

Was bedeutet das für die Zukunft der KI-delegierten Arbeit?

Die Studie zeigt, dass aktuelle Sprachmodelle noch nicht bereit sind, komplexe Wissensaufgaben vollständig zu übernehmen – zumindest nicht ohne menschliche Aufsicht. Die Forscher:innen betonen, dass die Ergebnisse ein Weckruf für Entwickler:innen und Unternehmen sein sollten, die KI-Systeme in sensiblen Bereichen einsetzen möchten.

Doch es gibt auch Hoffnung: Die Ergebnisse legen nahe, dass strukturierte, regelbasierte Aufgaben (wie Programmierung) besser bewältigt werden als natürliche Sprache oder kreative Inhalte. Für Unternehmen bedeutet das, dass KI zwar unterstützen, aber nicht vollständig ersetzen kann – zumindest noch nicht.

Die nächsten Schritte der Forschung werden sich darauf konzentrieren, wie sich die Zuverlässigkeit von Sprachmodellen in langfristigen Workflows verbessern lässt. Bis dahin bleibt die Devise: Vertrauen ist gut, Kontrolle ist besser – besonders wenn es um wichtige Dokumente geht.

KI-Zusammenfassung

Microsoft araştırması, önde gelen yapay zeka modellerinin belgeleri yeniden yazdığını ve ortalama %25 içerik kaybına yol açtığını ortaya koydu. Otomasyon için dikkat edilmesi gereken riskler.

KI-Modelle verändern Dokumente – und die Fehler bleiben oft unbemerkt

Warum vertrauenswürdige KI noch Zukunftsmusik ist

Wie die Studie die KI auf die Probe stellt

Warum Ablenkungen die KI überfordern

Was bedeutet das für die Zukunft der KI-delegierten Arbeit?

Kommentare

KI-Intelligenztests: Warum Startups Sprachmodelle mit IQ-Werten vergleichen

Anthropic führt Agent-SDK-Credits für Claude ein – Nutzung externer Tools wieder möglich

Anthropic überholt OpenAI bei KI in Unternehmen – doch drei Risiken bedrohen den Vorsprung