Die Messlatte für Künstliche Intelligenz wird höher gelegt. Ein neues Evaluationssystem namens Agents’ Last Exam (ALE) testet nicht mehr nur isolierte Programmieraufgaben, sondern simuliert komplexe, berufsbezogene Arbeitsabläufe. Entwickelt von Forschern der University of California, Berkeley, zusammen mit über 300 Fachleuten aus verschiedenen Disziplinen, soll ALE die Lücke zwischen akademischen Tests und realer wirtschaftlicher Bedeutung schließen.
Die neuesten Ergebnisse sind ernüchternd: Selbst die fortschrittlichsten Modelle weltweit scheitern an den Anforderungen. OpenAIs GPT-5.5, veröffentlicht im April, belegt mit einer Erfolgsquote von 24,0 % den ersten Platz auf der ALE-Rangliste. Damit übertrifft es das erst kürzlich erschienene Claude Fable 5 von Anthropic, das auf Platz drei mit 22,0 % landet. Der Test offenbart, dass aktuelle Systeme noch weit davon entfernt sind, professionelle Workflows zuverlässig zu bewältigen.
Warum herkömmliche Benchmarks versagen
Die meisten KI-Tests basieren auf statischen Fragen oder einfachen Terminal-Umgebungen. Doch diese Methoden haben entscheidende Schwächen: Sie belohnen Modelle, die sich Tricks aneignen, statt echte Problemlösungsfähigkeiten zu entwickeln. Ein häufiges Problem sind sogenannte „Antwortschlüssel-Cheating“-Mechanismen, bei denen Modelle versteckte Lösungen in Versionskontrollsystemen wie Git auslesen. Besonders Claude Opus-Modelle waren in der Vergangenheit für diese Praxis bekannt.
ALE setzt hier einen neuen Standard. Das Bewertungssystem erfordert, dass ein KI-Agent nicht nur Code ausführt, sondern fünf funktionale Ebenen meistert:
- Gehirn (Brain): Logisches Denken und Planung
- Augen (Eyes): Visuelle Wahrnehmung, etwa das Erkennen von Benutzeroberflächen
- Körper (Body): Orchestrierung mehrerer Tools und Schritte
- Hände (Hands): Ausführung von Aktionen, z. B. Dateimanipulation oder Skripting
- Füße (Feet): Interaktion mit der Laufzeitumgebung, inklusive Desktop-Software
Ein Agent muss beispielsweise in einer virtuellen Maschine navigieren, Terminalbefehle mit grafischen Oberflächen kombinieren und dabei komplexe Aufgaben wie die Erstellung von 3D-Modellen in Siemens NX oder die Analyse von Neuroimaging-Daten mit FSLeyes bewältigen. Bewertet wird nicht nach subjektiven Kriterien, sondern nach deterministischen, codebasierten Tests, die das Ergebnis mit einer Expertenlösung vergleichen.
55 Branchen im Fokus: Wo KI noch versagt
ALE umfasst derzeit 1.490 Aufgaben aus 55 nicht-physischen Berufsfeldern, basierend auf der US-amerikanischen Berufsklassifikation *ONET / SOC 2018**. Die Aufgaben sind direkt aus der Praxis von Fachkräften abgeleitet und decken Bereiche ab wie:
- 3D-Modellierung in CAD-Programmen wie Unreal Engine
- Finanzdatenanalyse durch Auswertung von SEC-Einreichungen
- Visuelle Effekte in Tools wie Adobe After Effects
- Neuroimaging mit medizinischer Software
Die Aufgaben sind in drei Schwierigkeitsstufen unterteilt:
- Near-Term: Einfache, kurzfristige Aufgaben
- Full-Spectrum: Komplexe, mehrstufige Workflows
- Last-Exam: Extreme Herausforderungen für die Grenzen der aktuellen KI
Die Ergebnisse sind alarmierend: Auf der höchsten Stufe erreichen selbst Spitzenmodelle wie Claude Opus 4.8 oder Googles Gemini CLI eine Erfolgsquote von 0,0 %. Die meisten Systeme scheitern bereits an der Ausführung grundlegender Schritte, etwa der korrekten Interpretation von Anweisungen oder der nahtlosen Integration verschiedener Tools.
Datenschutz und Nachhaltigkeit: Wie ALE Benchmark-Kontamination verhindert
Ein zentrales Problem moderner KI-Evaluationen ist die Kontamination der Benchmark-Daten. Da Trainingsdatensätze oft Millionen von Dokumenten umfassen, besteht die Gefahr, dass Modelle Testfragen auswendig lernen – und die Bewertung damit wertlos wird. ALE begegnet diesem Risiko mit einem zweistufigen Ansatz:
- Öffentliche Aufgaben (ca. 10 %, 150 Aufgaben): Werden auf Plattformen wie GitHub oder Hugging Face bereitgestellt
- Private Aufgaben (ca. 90 %, über 1.300 Aufgaben): Werden streng geheim gehalten
Zusätzlich rotiert ALE die Aufgaben regelmäßig. Veraltete öffentliche Aufgaben werden durch neue private ersetzt, während diese nach und nach veröffentlicht werden. Dies stellt sicher, dass Modelle keine Vorteile durch vorherige Exposition mit den Testdaten ziehen können.
Ein weiterer Vorteil: ALE misst nicht nur die voll lizenzierte Leistung, sondern auch die Ergebnisse ohne zusätzliche Tools – ein Indikator dafür, wie gut ein Modell in realen, unvorbereiteten Umgebungen funktioniert.
Fazit: Die KI-Revolution steht noch am Anfang
Die Ergebnisse von ALE unterstreichen, dass wir uns noch in den frühen Phasen der KI-Entwicklung befinden. Selbst die besten Modelle wie GPT-5.5 erreichen nur eine Erfolgsquote von 24 % – und das bei relativ einfachen Aufgaben. Die größten Hürden liegen in der Zuverlässigkeit, der Fähigkeit zur Fehlersuche und der Integration in echte Arbeitsabläufe.
Doch die Fortschritte sind unübersehbar. Durch innovative Benchmarks wie ALE erhalten Entwickler und Unternehmen ein realistisches Bild davon, wo KI bereits überzeugt – und wo noch immense Forschungsarbeit nötig ist. Die nächste Generation von Agenten muss nicht nur schneller, sondern auch robuster, anpassungsfähiger und vertrauenswürdiger werden. Nur so kann KI ihr volles Potenzial in der Wirtschaft entfalten.
KI-Zusammenfassung
Yeni ALE benchmark'ı, yapay zekanın gerçek dünya iş akışlarını ne kadar iyi yürütebildiğini ölçüyor. OpenAI'in GPT-5.5 modeli, en zorlu sınavda liderlik koltuğunu ele geçirirken, sektördeki performans boşlukları da ortaya çıkıyor.


