KI-Modelle lernen Diagramme lesen: Neues Datenset von MIT verbessert Chart-Verständnis

Die Fähigkeit, Diagramme zu verstehen und zu interpretieren, wird für Unternehmen immer wichtiger – sei es in der Finanzanalyse, Marktforschung oder wissenschaftlichen Auswertungen. Doch selbst moderne KI-Systeme stoßen hier oft an Grenzen, weil sie visuelle, numerische und sprachliche Informationen gleichzeitig verarbeiten müssen. Ein neues Projekt des Massachusetts Institute of Technology (MIT) und des MIT-IBM Computing Research Lab könnte diese Herausforderung lösen.

Warum KI an Diagrammen scheitert – und wie ChartNet Abhilfe schafft

Vision-Language-Modelle (VLMs) wie große Sprachmodelle mit Bildverarbeitungskomponenten sind zwar in der Lage, natürliche Sprache und Bilder zu analysieren. Doch bei der Interpretation komplexer Diagramme – etwa Balkendiagramme, Liniengrafiken oder Tortendiagramme – stoßen sie häufig an ihre Grenzen. Die Ursache liegt oft in mangelnder Trainingsdatenqualität: Viele bestehende Datensätze enthalten unvollständige oder unstrukturierte Informationen, die es Modellen erschweren, Zusammenhänge zu erkennen.

Die MIT-Forscher um Jovana Kondic, Doktorandin am MIT Department of Electrical Engineering and Computer Science, haben daher ein innovatives Datenset namens ChartNet entwickelt. Dieses umfasst über eine Million unterschiedlichster Diagramme, die nicht nur als Bilder vorliegen, sondern auch mit zugehörigem Quellcode, textuellen Beschreibungen, numerischen Datentabellen und Frage-Antwort-Paaren angereichert sind. Dadurch können KI-Modelle nicht nur die visuelle Darstellung, sondern auch die zugrundeliegenden Daten und deren Bedeutung erfassen.

„Unser Ziel war es, eine umfassende Ressource zu schaffen, die alles abdeckt, was ein KI-Modell und ein Entwickler für die Chart-Interpretation benötigen“, erklärt Kondic. „Wir wollen zeigen, dass selbst kleinere, open-source Modelle in der Lage sind, größere kommerzielle Systeme zu übertreffen – ohne dabei auf riesige Rechenkapazitäten angewiesen zu sein.“

Synthetische Daten als Schlüssel zur Skalierung

Ein zentrales Problem bei der Entwicklung von VLMs für die Chart-Interpretation ist der Mangel an hochwertigen Trainingsdaten. Die meisten frei verfügbaren Datensätze stammen aus dem Internet und enthalten oft unvollständige oder inkonsistente Informationen. Die MIT-Forscher gingen deshalb einen anderen Weg: Sie generierten synthetische Daten.

Der Prozess funktioniert in zwei Schritten:

Zunächst werden bestehende Diagramme in ausführbaren Quellcode umgewandelt.
Anschließend wird dieser Code systematisch variiert – etwa durch Änderung von Datensätzen, Farben, Beschriftungen oder Diagrammtypen.

„Aus einem einzigen Diagramm können wir so Hunderttausende Varianten erzeugen. Dadurch konnten wir ein Datenset mit über einer Million einzigartigen Diagrammen aufbauen“, erklärt Kondic. Ein automatisiertes Qualitätssicherungssystem stellt dabei sicher, dass die generierten Diagramme korrekt und die zugehörigen Daten konsistent sind.

Neben den synthetischen Daten enthält ChartNet auch eine Auswahl an von Experten annotierten Diagrammen. Diese zusätzlichen Datensätze ermöglichen es Entwicklern, ihre Modelle gezielt auf spezifische Anwendungsfälle zu trainieren – etwa für die Finanzanalyse oder wissenschaftliche Visualisierungen.

Praxistauglichkeit: Open-Source-Modelle übertreffen kommerzielle Systeme

Um die Effektivität von ChartNet zu testen, trainierten die Forscher mehrere open-source VLMs, darunter IBMs Granite Vision-Reihe. Die Ergebnisse sind vielversprechend: Trotz ihrer geringeren Größe übertrafen die getesteten Modelle viele große, proprietäre Systeme in Aufgaben wie Datenextraktion und Zusammenfassung von Diagrammen.

Dhiraj Joshi, Senior Scientist bei IBM Research und Co-Autor der Studie, betont die praktischen Vorteile: „Die Finanzbranche lebt von Diagrammen. Wenn KI-Systeme Trends oder Entwicklungen direkt aus Charts extrahieren können, beschleunigt das zahlreiche Arbeitsabläufe – von der Risikoanalyse bis zur Berichterstattung.“

Die Offenheit des Datensets bietet zudem kleinen Unternehmen und Forschungseinrichtungen die Chance, KI-gestützte Chart-Analysen zu nutzen, ohne teure proprietäre Lösungen einsetzen zu müssen. Kondic fasst die Vision zusammen: „Wir möchten Forscher motivieren, Spitzenleistungen mit kleineren Modellen zu erreichen, die ohne immense Rechenressourcen auskommen.“

Ausblick: KI-gestützte Diagrammanalyse für Wissenschaft und Wirtschaft

Das ChartNet-Projekt könnte die Art und Weise, wie Unternehmen und Wissenschaftler Daten visualisieren und interpretieren, grundlegend verändern. Die Forscher planen, das Datenset kontinuierlich zu erweitern und weitere Anwendungsfälle zu erschließen – etwa die Integration in Business-Intelligence-Tools oder die Unterstützung von KI-gestützten Entscheidungsprozessen.

Die Studie wird auf der IEEE Computer Vision and Pattern Recognition Conference vorgestellt und könnte den Grundstein für eine neue Generation robusterer, kostengünstigerer KI-Systeme für die Chart-Analyse legen. Für Entwickler und Unternehmen bedeutet dies: Die nächste Welle der Datenauswertung könnte bald nicht mehr nur der Rechenleistung großer Konzerne vorbehalten sein.

Die Verfügbarkeit von ChartNet markiert damit einen wichtigen Meilenstein in der Demokratisierung von KI-Technologien – und zeigt einmal mehr, wie synthetische Daten die Grenzen des Machbaren verschieben können.

KI-Zusammenfassung

MIT ve IBM araştırmacıları tarafından geliştirilen ChartNet veri kümesi, yapay zeka modellerinin grafikleri daha doğru yorumlamasını sağlıyor. Açık kaynak modelleri ticari rakiplerinin önüne geçiren yenilikçi yaklaşım hakkında tüm detaylar.

KI-Modelle lernen Diagramme lesen: Neues Datenset von MIT verbessert Chart-Verständnis

Warum KI an Diagrammen scheitert – und wie ChartNet Abhilfe schafft

Synthetische Daten als Schlüssel zur Skalierung

Praxistauglichkeit: Open-Source-Modelle übertreffen kommerzielle Systeme

Ausblick: KI-gestützte Diagrammanalyse für Wissenschaft und Wirtschaft

Kommentare

MIT baut Quantenlabor in Massachusetts – Warum das für Innovation und Wirtschaft entscheidend ist

KI und Arbeitsmarkt: Wer profitiert von neuen Jobs durch Technologie?

Wie KI chemische Prinzipien entschlüsselt – und neue Medikamente entdeckt