Cerebras Systems hat weniger als eine Woche nach dem größten Technologie-Börsengang des Jahres 2026 einen weiteren Meilenstein erreicht: Das Unternehmen beweist mit seinem Wafer-Scale-Chip, dass es das chinesische Billionen-Parameter-Modell Kimi K2.6 für Unternehmen mit einer Geschwindigkeit von fast 1.000 Tokens pro Sekunde verarbeiten kann – ein Tempo, das herkömmliche GPU-basierte Cloud-Anbieter nicht einmal ansatzweise erreichen.
Laut unabhängigen Messungen des Benchmarking-Unternehmens Artificial Analysis verarbeitet der Chip des kalifornischen Herstellers pro Sekunde 981 Tokens. Damit ist Cerebras 6,7-mal schneller als der schnellste GPU-Anbieter und übertrifft den Branchendurchschnitt sogar um das 23-fache. Bei einer typischen Agenten-Aufgabe mit 10.000 Eingabetokens lieferte das System die vollständige Antwort inklusive Verarbeitung, Reasoning und 500 Ausgabetokens in nur 5,6 Sekunden – während die offizielle Kimi-K2.6-API dafür 163,7 Sekunden benötigte. Eine 29-fache Beschleunigung für die Zeit bis zur finalen Antwort.
Warum Cerebras auf ein chinesisches Modell setzt – und damit die KI-Inferenz revolutioniert
Die Entscheidung, das Kimi K2.6-Modell als Flaggschiff für seine Wafer-Scale-Chips einzusetzen, ist sowohl technisch als auch geschäftlich strategisch. Das von Moonshot AI entwickelte Modell – veröffentlicht am 20. April – ist ein Trillion-Parameter-Mixture-of-Experts-Modell und gilt derzeit als das leistungsfähigste Open-Weight-Modell für Codegenerierung und agentenbasierte Aufgaben. Auf Benchmarks wie SWE-Bench Pro erreicht es 58,6 Punkte und übertrifft damit Modelle wie Claude Opus 4.6 oder GPT-5.4. Seine Architektur aktiviert pro Token 32 Milliarden von insgesamt 1 Billion Parametern, nutzt 384 Expertenmodule (davon 8 selektiert plus ein gemeinsames Modul pro Durchlauf) und unterstützt einen Kontext von 256.000 Tokens.
Für Unternehmen bedeutet dies: Kimi K2.6 könnte als kostengünstige Alternative zu teuren Closed-Source-APIs von Anthropic oder OpenAI dienen – insbesondere für anspruchsvolle Workloads wie Softwareentwicklung oder langfristige Agentenaufgaben. Die Version 2.6 erweitert die Fähigkeiten des Modells sogar um Full-Stack-Workflows wie Authentifizierung, Datenbankoperationen und langfristige Agentenausführung.
James Wang, Director of Product Marketing bei Cerebras, betont die praktischen Vorteile: „Unternehmen suchen dringend nach Alternativen zu Anthropic. Die Modelle sind zwar exzellent, aber extrem teuer und ständig an Kapazitätsgrenzen. Ich selbst habe erlebt, wie eine Anwendung über ein Wochenende ausgefallen ist, weil die API keine Ressourcen mehr hatte.“ Diese Erfahrung spiegle die Nachfrage nach zuverlässigeren und kosteneffizienteren Lösungen wider.
Allerdings wirft die Zusammenarbeit auch geopolitische Fragen auf: Moonshot AI stammt aus Peking, und die Bereitstellung eines chinesischen Modells durch einen US-Hersteller erfolgt in einer Phase verstärkter Regulierung für chinesische KI-Unternehmen in den USA. Unternehmen mit strengen Compliance-Anforderungen – etwa aus den Bereichen Finanzen, Gesundheitswesen oder Verteidigung – müssen diese Aspekte zusätzlich bewerten.
Wie Wafer-Scale-Chips die Grenzen der GPU-basierten Inferenz sprengen
Um zu verstehen, warum Cerebras solche Geschwindigkeiten erreicht, muss man die fundamentale Hardware-Architektur betrachten. Die meisten KI-Inferenz-Systeme basieren auf Clustern aus Nvidia-GPUs, oft in der von Nvidia vermarkteten NVL72-Konfiguration mit 72 GPUs pro Rack organisiert. Bei diesen Systemen werden die Modellparameter auf zahlreiche Chips verteilt, die über Hochgeschwindigkeitsnetzwerke miteinander kommunizieren. Die Datenübertragung zwischen den GPUs wird dabei zum Flaschenhals – besonders bei Modellen mit Hunderten von Milliarden oder Billionen von Parametern.
Cerebras verfolgt einen radikal anderen Ansatz: Sein Wafer-Scale Engine 3 (WSE-3) ist ein einziger Chip in Wafer-Größe – etwa so groß wie ein Teller – und verfügt über 44 Gigabyte On-Chip-SRAM. Im Gegensatz zu GPUs, die auf High-Bandwidth Memory (HBM) setzen, liegt der Speicher direkt auf dem Chip. Dies eliminiert Latenzzeiten durch Datenübertragung und ermöglicht eine nahtlose Skalierung selbst für extrem große Modelle.
Wafer-Scale Engine 3 (WSE-3) – Schlüsselspezifikationen:
- Chip-Größe: ~814 mm² (entspricht einer Wafer-Größe)
- SRAM: 44 GB
- Transistoren: 900 Milliarden
- Energieverbrauch: <20 kW pro Chip
- Netzwerk: 220 Petabit/s anonymer On-Chip-KommunikationDiese Architektur ermöglicht es, Kimi K2.6 ohne Kompromisse bei der Performance zu betreiben. Während GPU-basierte Systeme oft Multi-Chip-Interconnects benötigen, um Modelle zu verteilen, läuft bei Cerebras alles auf einem einzigen Chip ab – ohne Datenübertragungsverluste. Die 220 Petabit/s anonymer On-Chip-Kommunikation sorgen dafür, dass selbst komplexe Inferenzaufgaben mit Billionen von Parametern in Echtzeit verarbeitet werden können.
Ausblick: Der Wettlauf um die effizienteste KI-Hardware geht in die nächste Phase
Mit diesem Meilenstein positioniert sich Cerebras nicht nur als schnellerer, sondern auch als skalierbarerer Anbieter für die KI-Inferenz der Zukunft. Die Kombination aus Wafer-Scale-Chips und hochperformanten Open-Weight-Modellen wie Kimi K2.6 könnte die Abhängigkeit von teuren Closed-Source-APIs verringern und gleichzeitig die Kosten für Unternehmen drastisch senken.
Für Investoren sendet das Unternehmen damit ein klares Signal: Nach dem Rekord-Börsengang mit einer Marktkapitalisierung von 95 Milliarden Dollar und frischen 5,55 Milliarden Dollar aus dem IPO will Cerebras nicht nur bei der Geschwindigkeit, sondern auch bei der Modellgröße und -verfügbarkeit die Führung übernehmen. Die Frage ist nicht mehr, ob Wafer-Scale-Chips die GPU-Ära ablösen können – sondern wie schnell die Branche diese Revolution adaptiert.
KI-Zusammenfassung
Cerebras runs Moonshot AI’s Kimi K2.6 at 981 tokens per second—6.7x faster than GPUs—proving wafer-scale chips can handle trillion-parameter models efficiently for enterprise use.



