DeepSWE-Tests entlarven: GPT-5.5 führt bei KI-Codegenerierung klar vorne

Seit Monaten suggerieren gängige KI-Benchmarks für Softwareentwicklung, dass die Spitzenmodelle von OpenAI, Anthropic und Google ähnlich leistungsstark seien. Doch eine neue Studie der Datacurve-Startup wirft dieses Narrativ über den Haufen: DeepSWE, ein umfassender Test mit 113 Aufgaben aus 91 Open-Source-Projekten, offenbart dramatische Unterschiede – und kürt GPT-5.5 von OpenAI als unangefochtenen Marktführer.

Die Ergebnisse von DeepSWE widerlegen die bisherige Annahme, wonach die besten KI-Codegeneratoren nur minimal voneinander abweichen. Stattdessen zeigt sich ein Leistungsgefälle von bis zu 70 Prozentpunkten. „Auf öffentlichen Leaderboards wirken die Spitzenmodelle oft ähnlich leistungsfähig“, erklärt Serena Ge, Mitgründerin von Datacurve. „Doch DeepSWE deckt auf, wo sie tatsächlich divergieren – und spiegelt damit die Realität von Entwicklern wider, die täglich mit diesen Tools arbeiten.“

Warum etablierte Benchmarks die KI-Codeleistung systematisch falsch darstellen

Die meisten AI-Coding-Benchmarks wie SWE-Bench Pro folgen einem ähnlichen Muster: Sie extrahieren Fehlerbehebungen oder neue Funktionen aus öffentlichen GitHub-Repositories, rollen den Code auf den Zustand vor der Korrektur zurück und prüfen, ob ein KI-Modell die ursprüngliche Änderung reproduzieren kann. Die Testsuite des Original-Pull-Requests entscheidet dann über Erfolg oder Misserfolg. Diese Methode erscheint schlüssig, birgt jedoch laut Datacurve drei zentrale Schwächen.

Erstens: Datenkontamination. Da die Aufgaben aus öffentlichem GitHub-Code stammen, sind Problemstellung, Diskussion und sogar die Lösung oft bereits in den Trainingsdaten großer KI-Modelle enthalten. „SWE-Bench scrapebt bestehende GitHub-Issues und Pull-Requests – das führt zu zwei Problemen: Modelle haben die Lösung bereits gesehen, und die meisten Aufgaben sind trivial“, so Ge.

Zweitens: unrealistische Komplexität. Während SWE-Bench Pro im Schnitt nur 120 Zeilen Code in fünf Dateien verlangt, erfordern DeepSWE-Aufgaben durchschnittlich 668 Zeilen verteilt auf sieben Dateien – fast das Sechsfache. Interessanterweise sind die Prompts bei DeepSWE mit 2.158 Zeichen deutlich kürzer als bei SWE-Bench Pro (4.614 Zeichen). Die KI erhält also weniger Anleitung, muss aber deutlich mehr leisten – eine Situation, die eher der täglichen Arbeit von Entwicklern entspricht.

Drittens und entscheidend: unzuverlässige Bewertungssysteme. Datacurve überprüfte 30 zufällig ausgewählte Aufgaben aus beiden Benchmarks, führte drei Durchläufe mit zehn verschiedenen Modellkonfigurationen durch und ließ einen KI-basierten Richter unabhängig bewerten, ob die Lösung tatsächlich funktionierte. Dabei zeigte sich: Die automatischen Grader von SWE-Bench Pro akzeptierten in 8,5% der Fälle fehlerhafte Implementierungen und lehnten in 24% korrekte Lösungen ab. DeepSWE lag mit 0,3% bzw. 1,1% deutlich besser.

Besonders problematisch sind falsche Negativbewertungen, da sie kreative Lösungsansätze bestrafen. In einem dokumentierten Fall refaktorierte ein Entwickler in der Original-Pull-Request eine private Hilfsfunktion. Ein KI-Modell löste die Aufgabe korrekt, indem es die gleiche Logik direkt inline setzte – doch der Test scheiterte, weil er nach einer spezifischen Implementierung suchte, die nur im Originalcode existierte.

GPT-5.5 dominiert mit Effizienz – während andere Modelle auf tönernen Füßen stehen

Die DeepSWE-Ergebnisse neu ordnen die bisherige Hierarchie der KI-Codegeneratoren grundlegend. Während die Modelle auf SWE-Bench Pro innerhalb einer Spanne von 30 Prozentpunkten rangierten, dehnt DeepSWE diesen Abstand auf 70 Punkte aus.

GPT-5.5 von OpenAI führt mit 70% korrekt gelösten Aufgaben, gefolgt von GPT-5.4 mit 56% und Claude Opus 4.7 mit 54%. Danach folgt ein steiler Abfall: Claude Sonnet 4.6 erreicht 32%, Google’s Gemini 3.5 Flash 28%, während GPT-5.4-mini und Kimi K2.6 bei jeweils 24% landen. Selbst Modelle wie Claude Haiku 4.5, das auf SWE-Bench Pro noch 39% erzielte, erreichen auf DeepSWE null Punkte – ein Hinweis darauf, dass einige Mittelklasse-Modelle auf einfacheren, möglicherweise kontaminierten Benchmarks überbewertet wurden.

GPT-5.5 glänzt nicht nur durch Leistung, sondern auch durch Effizienz: Das Modell erreicht seine 70% mit medianen Kosten von 5,80 US-Dollar pro Durchlauf, einer Bearbeitungszeit von 20 Minuten und 47.000 Ausgabentoken. Im Vergleich dazu benötigen andere Spitzenmodelle deutlich mehr Ressourcen für deutlich geringere Erfolge.

Die Ergebnisse werfen jedoch auch unbequeme Fragen auf: Wenn selbst etablierte Benchmarks wie SWE-Bench Pro mit einer Fehlerquote von über 30% bei der Bewertung arbeiten, auf welcher Grundlage treffen Unternehmen, Investoren und Forschungseinrichtungen dann milliardenschwere Entscheidungen über KI-Codewerkzeuge? Die Industrie, so scheint es, hat möglicherweise lange mit einem defekten Kompass navigiert.

Für Entwicklerteams, die nach zuverlässigen KI-Partnern für die Softwareentwicklung suchen, bieten die DeepSWE-Ergebnisse eine klare Orientierung – und eine dringende Erinnerung, Benchmarks kritisch zu hinterfragen. Die Zukunft der KI-gestützten Programmierung wird nicht nur von Rohleistung, sondern auch von robuster Bewertungsmethodik abhängen.

KI-Zusammenfassung

Datacurve'un yeni benchmark'u, AI kodlama modellerinin gerçek performansını gösteriyor. GPT-5.5, açık lider olarak belirlendi.

DeepSWE-Tests entlarven: GPT-5.5 führt bei KI-Codegenerierung klar vorne

Warum etablierte Benchmarks die KI-Codeleistung systematisch falsch darstellen

GPT-5.5 dominiert mit Effizienz – während andere Modelle auf tönernen Füßen stehen

Kommentare

Cyberangriffe auf Finanzsektor: Wie Angreifer MFA zurücksetzen und Tokens stehlen

Minicor revolutioniert Desktop-Automatisierung mit KI-gestützten RPAs

Wie KI-Schulden Unternehmen vor neue Risiken stellen