Kleines chinesisches KI-Modell VibeThinker-3B stellt Benchmarks infrage

Eine Gruppe von neun Wissenschaftlern des chinesischen Tech-Riesen Sina Weibo sorgte am vergangenen Sonntag mit einer unerwarteten Veröffentlichung für Aufsehen: Das Team veröffentlichte einen 14-seitigen Forschungsbericht auf der Plattform arXiv, der die KI-Forschungsgemeinschaft in Aufruhr versetzte. Darin behaupten die Forscher, ein Sprachmodell mit lediglich 3 Milliarden Parametern könne komplexe mathematische und logische Aufgaben genauso gut oder sogar besser lösen als viel größere Modelle von Google DeepMind, OpenAI oder DeepSeek.

Das Modell mit dem Namen VibeThinker-3B erreichte einen Score von 94,3 auf dem AIME 2026 – einer der anspruchsvollsten Mathematikwettbewerbe weltweit, der American Invitational Mathematics Examination. Damit platziert es sich auf Augenhöhe mit DeepSeek V3.2 (671 Milliarden Parameter) und sogar vor Googles Spitzenmodell Gemini 3 Pro (91,7 Punkte). Durch eine spezielle Skalierungstechnik namens Claim-Level Reliability Assessment steigerte das Modell seine Leistung sogar auf 97,1 Punkte und übertrifft damit die meisten öffentlich dokumentierten Ergebnisse.

Die Veröffentlichung löste innerhalb weniger Stunden eine Flut von Reaktionen aus. Auf der Plattform Hugging Face erhielt der Forschungsbericht 62 Upvotes, das Modell wurde 130 Mal positiv bewertet, und das zugehörige GitHub-Repository verzeichnete bereits nach kurzer Zeit 685 Sternchen. Doch die Begeisterung war nicht einhellig. Besonders auf der Social-Media-Plattform X herrschte Skepsis – einige Nutzer warfen die Frage auf, ob Benchmarks in der KI-Forschung mittlerweile zu leicht manipulierbar seien.

Ein Nutzer mit dem Handle @orcus108 kommentierte beispielsweise: „Was zum Teufel geht hier in der KI-Welt vor? Ein Modell mit nur 3 Milliarden Parametern erzielt Code-Benchmark-Ergebnisse auf dem Niveau von Claude Opus 4.5 … Ich weiß nicht, ob das ein echter Durchbruch ist oder ob die Benchmarks einfach kaputt sind.“ Diese Ambivalenz zwischen wissenschaftlichem Fortschritt und der wachsenden Kritik an fragwürdigen Bewertungsmethoden prägt die Diskussion um VibeThinker-3B.

Mathematik- und Code-Benchmarks, die bisherige Skalierungsgesetze infrage stellen

Die in dem Forschungsbericht genannten Ergebnisse sind, gemessen an herkömmlichen Maßstäben, außergewöhnlich. Auf mathematischen Benchmarks erzielte VibeThinker-3B folgende Leistungen:

91,4 Punkte auf AIME 2025
94,3 Punkte auf AIME 2026
89,3 Punkte auf HMMT 2025 (Harvard-MIT Mathematics Tournament)
93,8 Punkte auf BruMO 2025 (Brown University Math Olympiad)
76,4 Punkte auf IMO-AnswerBench (400 Aufgaben auf dem Niveau der Internationalen Mathematik-Olympiade)

Im Bereich Programmierung erreichte das Modell einen Pass@1-Wert von 80,2 auf LiveCodeBench v6, einem Benchmark für ausführbaren Code. Zudem löste es 96,1 % aller Aufgaben in den wöchentlichen und zweiwöchentlichen LeetCode-Wettbewerben zwischen April und Mai 2026 erfolgreich. Auf dem IFEval-Benchmark zur Befolgung von Anweisungen erzielte es 93,4 Punkte.

Zum Vergleich: Das viel größere Modell DeepSeek V3.2 verfügt über 671 Milliarden Parameter – das entspricht etwa dem 224-fachen der Parameter von VibeThinker-3B. Noch größer sind Modelle wie GLM-5 von Zhipu AI (744 Mrd. Parameter) oder Kimi K2.5 von Moonshot AI (über 1 Billion Parameter). Ein Modell mit nur 3 Milliarden Parametern könnte theoretisch sogar auf einem handelsüblichen Laptop betrieben werden.

Die Forscher führen diese Ergebnisse nicht auf einen Zufall zurück, sondern präsentieren eine neue Hypothese: die „Parametric Compression-Coverage Hypothesis“. Diese besagt, dass unterschiedliche KI-Fähigkeiten unterschiedliche Beziehungen zur Modellgröße aufweisen. Verifizierbares logisches Denken – wie es in Mathematik- und Programmierwettbewerben getestet wird – ist laut der Studie eine „parameterdichte“ Fähigkeit, die sich in einem kompakten Kern verdichten lässt. Allgemeinwissen hingegen ist „parameteraufwendig“, da es breite Abdeckung von Fakten, Konzepten und Randfällen erfordert – und damit zwangsläufig mehr Parameter benötigt.

Die Forscher betonen ausdrücklich, dass ihr Modell keine Allround-Lösung darstellt. Auf dem GPQA-Diamond-Benchmark, der fortgeschrittenes naturwissenschaftliches Wissen testet, erreichte VibeThinker-3B lediglich 70,2 Punkte – deutlich hinter Gemini 3 Pro (91,9 Punkte) und Claude Opus 4.5 (87,0 Punkte). Die Autoren erklären dies mit ihrer Hypothese: „Unser Hauptbefund ist nicht, dass ein 3-Milliarden-Parameter-Modell führende Allzweckmodelle ersetzt, sondern dass ein kleines Modell auf vielen verifizierbaren Denkaufgaben Spitzenleistungen erbringen kann.“

Die vierstufige Trainingspipeline: Wie aus einem Basismodell ein Hochleistungs-Rechner wurde

VibeThinker-3B wurde nicht von Grund auf neu entwickelt, sondern basiert auf einem bestehenden Modell: Qwen2.5-Coder-3B von Alibaba. Die Forscher nutzten eine spezielle Nachtrainingsmethode, die sie als „Speculative Post-Training“ bezeichnen. Diese vierstufige Pipeline umfasst:

Spezialisierung auf Reasoning: Zunächst wurde das Modell gezielt auf mathematische Logik und Programmierung trainiert, um seine Fähigkeit zu verbessern, komplexe Aufgaben zu analysieren und zu lösen.

Datenqualitätsfilterung: Die Forscher nutzten hochwertige Datensätze, die speziell auf verifizierbare Aufgaben zugeschnitten waren. Durch automatisierte Filterung wurden irrelevante oder fehlerhafte Daten aussortiert.

Skalierungslogik: Durch die Anwendung der Claim-Level Reliability Assessment-Technik wurde sichergestellt, dass Antworten des Modells nicht nur plausibel, sondern auch überprüfbar sind. Diese Methode bewertet die Zuverlässigkeit einzelner Aussagen innerhalb einer Antwort.

Feinabstimmung mit Feedback-Schleifen: Das Modell wurde in mehreren Iterationen mit menschlichem Feedback und automatisierten Bewertungen weiter optimiert, um seine Leistung in realen Szenarien zu maximieren.

Die Kombination dieser Schritte ermöglichte es dem Team, aus einem vergleichsweise kleinen Basismodell ein Hochleistungs-Reasoning-System zu entwickeln. Die Forscher betonen, dass ihr Ansatz nicht nur die Leistung verbessert, sondern auch die Effizienz steigert – sowohl in Bezug auf Rechenressourcen als auch auf Energieverbrauch.

Fazit: Ein Weckruf für die KI-Forschung oder nur ein weiterer Benchmark-Trick?

Die Veröffentlichung von VibeThinker-3B wirft grundlegende Fragen über die Zukunft der KI-Entwicklung auf. Einerseits könnte das Modell ein Beweis dafür sein, dass Effizienz und Kompaktheit genauso wichtig sind wie reine Rechenleistung. Andererseits unterstreicht es die wachsende Skepsis gegenüber Benchmarks, die möglicherweise nicht mehr die reale Leistungsfähigkeit von KI-Systemen widerspiegeln.

Die KI-Community steht vor der Herausforderung, neue Bewertungsmethoden zu entwickeln, die nicht nur die Fähigkeit zum Auswendiglernen, sondern auch echtes logisches Denken messen. Gleichzeitig könnte VibeThinker-3B ein Vorbild für andere Forschungsprojekte werden, die sich auf effizientere und nachhaltigere KI-Modelle konzentrieren. Eines ist sicher: Die Debatte über die richtige Richtung der KI-Entwicklung hat gerade erst begonnen.

KI-Zusammenfassung

Weibo’nun dokuz kişilik araştırma ekibi, sadece 3 milyar parametreye sahip VibeThinker-3B modeliyle AI dünyasına bomba gibi düştü. Peki bu model nasıl devleri geride bıraktı ve AI benchmark’larının güvenilirliği ne kadar?

Kleines chinesisches KI-Modell VibeThinker-3B stellt Benchmarks infrage

Mathematik- und Code-Benchmarks, die bisherige Skalierungsgesetze infrage stellen

Die vierstufige Trainingspipeline: Wie aus einem Basismodell ein Hochleistungs-Rechner wurde

Fazit: Ein Weckruf für die KI-Forschung oder nur ein weiterer Benchmark-Trick?

Kommentare

Z.ai veröffentlicht GLM-5.2: KI-Modell übertrifft GPT-5.5 in Langzeit-Coding mit 753 Mrd. Parametern

Databricks revolutioniert Datenpipelines: Echtzeit-Analyse und Transaktionen in einem System

VoiceDraw: Systemdesign per Sprache skizzieren lassen – Werkzeug für Teams