
DeepSWE-Tests entlarven: GPT-5.5 führt bei KI-Codegenerierung klar vorne
Die neue DeepSWE-Benchmark zeigt, dass führende KI-Modelle für Codegenerierung weitaus ungleicher performen als bisher angenommen. GPT-5.5 von OpenAI setzt sich mit 70% Durchsatz deutlich ab – während andere Modelle auf fragwürdigen Bewertungssystemen aufbauen.