Die rasante Entwicklung großer Sprachmodelle (LLMs) führt oft zu einem Wettlauf um immer mehr Parameter und Rechenleistung. Doch während Tech-Giganten wie OpenAI und Anthropic ihre Modelle weiter vergrößern, setzt das weniger bekannte Startup Zyphra aus Palo Alto auf eine gegensätzliche Strategie: Effizienz statt Größe.
Mit dem neuen KI-Modell ZAYA1-8B beweist das Unternehmen, dass auch kompakte Modelle hohe Leistungsfähigkeit bieten können. Mit gerade einmal 8,4 Milliarden Gesamtparametern – davon nur 760 Millionen aktiv – übertrifft das Modell in Benchmarks Modelle mit bis zu 30- bis 50-mal mehr aktiven Parametern. Zu den Referenzmodellen zählen etwa GPT-5-High und DeepSeek-V3.2, gegen die sich ZAYA1-8B behaupten kann.
Ein besonderer Vorteil: Das Modell steht unter der Apache-2.0-Lizenz kostenlos zur Verfügung und kann sowohl von Unternehmen als auch von Entwicklern sofort genutzt und angepasst werden. Über die Plattform Zyphra Cloud können Nutzer das Modell direkt testen und erste Erfahrungen sammeln.
**Warum AMD-Grafikprozessoren ZAYA1-8B möglich machten
Ein zentraler Erfolgsfaktor für ZAYA1-8B liegt in der Hardware, auf der es trainiert wurde: eine vollständige Infrastruktur aus AMD Instinct MI300-Grafikprozessoren. Diese GPUs, die vor knapp drei Jahren von AMD als Alternative zu Nvidias dominierender Position auf den Markt gebracht wurden, zeigen damit ihr Potenzial für das Training effizienter KI-Modelle. Die MI300-Serie gilt als ernstzunehmende Konkurrenz zu Nvidias A100- und H100-Prozessoren und unterstreicht die Bedeutung von Vielfalt im Hardware-Markt für KI-Entwickler.
Zyphra nutzt dabei nicht nur die reine Rechenleistung der MI300-GPUs, sondern setzt auf eine vollständig optimierte Trainingspipeline, die Architektur, Vorverarbeitung und Verstärkungslernen (Reinforcement Learning) kombiniert. Das Ergebnis ist ein Modell, das trotz seiner geringen Größe eine hohe „Intelligenzdichte“ aufweist – ein Konzept, das Zyphra als „Full-Stack-Innovation“ bezeichnet.
**MoE++: Eine Architektur für effizientes Reasoning
Der Kern von ZAYA1-8B basiert auf der proprietären MoE++-Architektur (Mixture-of-Experts Plus Plus), die drei zentrale Neuerungen gegenüber herkömmlichen Transformer-Architekturen einführt:
- Compressed Convolutional Attention (CCA): Standard-Attentionsmechanismen in LLMs leiden unter dem Problem des steigenden Speicherbedarfs bei wachsenden Kontextfenstern. CCA löst dieses Problem, indem die Sequenzverarbeitung in einen komprimierten latenten Raum verlegt wird. Dadurch reduziert sich der KV-Cache (Key-Value-Cache) um das Achtfache im Vergleich zu herkömmlicher Multi-Head-Attention. Dies ermöglicht eine effizientere Verarbeitung langer Kontexte ohne signifikanten Leistungsverlust.
- ZAYA1 MLP-Router: Viele MoE-Modelle nutzen einfache lineare Router, um Tokens an Experten zu verteilen. Zyphra ersetzt diesen Ansatz durch ein mehrschichtiges MLP-basiertes Design, das eine bessere Entscheidungsfindung ermöglicht. Um Stabilität während des Trainings zu gewährleisten – ein häufiges Problem bei MoE-Architekturen – setzt das Team auf ein Bias-Balancing-Schema, inspiriert von PID-Reglern aus der klassischen Regelungstechnik.
- Learned Residual Scaling: Dieser Mechanismus kontrolliert das Wachstum der Residualnorm in den 40 Schichten des Modells. Dadurch werden Probleme wie verschwindende oder explodierende Gradienten vermieden, ohne nennenswerten zusätzlichen Rechenaufwand zu verursachen.
**Reasoning-first Pretraining: Von der Theorie zur Praxis
Ein entscheidender Unterschied zu vielen anderen Modellen liegt darin, dass ZAYA1-8B Reasoning von Anfang an in den Mittelpunkt stellt. Während viele Modelle erst nach dem Training mit Methoden wie Chain-of-Thought (CoT) nachgerüstet werden, integrierte Zyphra diese Fähigkeiten bereits während der Vorverarbeitung.
Um lange CoT-Abläufe zu ermöglichen, die den initialen Kontext von 4.000 Tokens überschreiten, entwickelte das Team die Answer-Preserving (AP) Trimming-Methode. Diese Technik funktioniert ähnlich wie das Schneiden eines Films: Statt die Lösung oder den Problemaufriss zu entfernen, werden die überflüssigen Zwischenschritte gestrichen. So bleibt die Beziehung zwischen Problem und Lösung erhalten, selbst wenn der volle interne Logikpfad nicht in den Speicher passt.
Ein praktisches Beispiel: Bei der Frage nach der Entfernung von Flecken auf Arbeitsplatten generierte ZAYA1-8B eine detaillierte Schritt-für-Schritt-Anleitung – ohne dabei den Kontext zu überladen.
**Markovian RSA: Intelligentes Testzeit-Computing für bessere Ergebnisse
Die größte Leistungssteigerung von ZAYA1-8B geht auf Markovian RSA (Reasoning through Subsampling and Aggregation) zurück – eine innovative Methode für das Testzeit-Computing (TTC).
Traditionell führt längeres Chain-of-Thought zu „Kontext-Bloat“, bei dem das Modell den Fokus verliert, weil die Historie zu lang wird. Markovian RSA umgeht dieses Problem, indem es „Denktiefe“ und „Kontextgröße“ voneinander entkoppelt:
- Das Modell generiert mehrere parallele Reasoning-Spuren (Kandidaten).
- Anschließend werden nur die letzten Tokens (typischerweise 4.000) dieser Spuren extrahiert.
- Diese Tokens werden subsampled und dem Modell in einem neuen Aggregationsprompt präsentiert, der es auffordert, die verschiedenen Ansätze zu einer optimierten Lösung zu verschmelzen.
Durch diesen Prozess kann ZAYA1-8B unendlich lange Reasoning-Pfade verfolgen, ohne dass der Kontext überläuft. In der Praxis führte dies zu einem 91,9 %-Score auf dem AIME ’25-Benchmark – ein Ergebnis, das Modelle mit 30- bis 50-mal mehr aktiven Parametern erreicht. Besonders bemerkenswert: Trotz seiner kompakten Größe eignet sich ZAYA1-8B damit auch für On-Device-Deployment auf Endgeräten oder Edge-Geräten.
Für Unternehmen eröffnet dies neue Möglichkeiten, hochwertige Reasoning-Fähigkeiten lokal oder in der Cloud bereitzustellen – ohne Abhängigkeit von teuren API-Abos oder Datenresidenzproblemen.
**Fazit: Effizienz als Schlüssel für die Zukunft der KI
ZAYA1-8B von Zyphra zeigt, dass Größe nicht der einzige Weg zu leistungsstarker KI ist. Mit seiner MoE++-Architektur, optimiertem Training und innovativen Ansätzen wie Markovian RSA beweist das Modell, dass Kompaktheit und Effizienz keine Kompromisse bei der Qualität bedeuten müssen. Die Nutzung von AMD-Grafikprozessoren unterstreicht zudem die wachsende Bedeutung von Hardware-Alternativen in einem Markt, der bisher von Nvidia dominiert wurde.
Mit der Veröffentlichung unter Apache-2.0-Lizenz und der Bereitstellung über Zyphra Cloud wird ZAYA1-8B Entwicklern weltweit zugänglich gemacht. Ob für lokale Anwendungen, Edge-Computing oder kosteneffiziente Cloud-Lösungen – das Modell könnte den Weg für eine neue Generation effizienter KI-Modelle ebnen, die Leistung und Nachhaltigkeit vereinen.
KI-Zusammenfassung
8 milyar parametreye rağmen yalnızca 760 milyon aktif parametreyle çalışan ZAYA1-8B, AMD Instinct MI300 GPU’larıyla eğitildi. Ücretsiz ve yerel kullanım için ideal.
