Die KI-Landschaft entwickelt sich rasant – doch viele der neuesten Modelle sind für den heimischen PC einfach zu groß. Kürzlich sorgten gleich drei Modelle für Aufsehen: DeepSeek V4-Pro, DeepSeek V4-Flash und Zyphra ZAYA1-8B. Doch trotz beeindruckender Leistungsdaten scheitern sie an den Hardware-Grenzen selbst gut ausgestatteter Heimlabore. Warum das so ist und welche Modelle tatsächlich lokal laufen, zeigt diese Analyse.
Ein leistungsstarker Heimrechner – aber nicht für die neuesten Modelle
Unser Testsystem ist alles andere als schwach: eine NVIDIA RTX 5090 mit 32 GB VRAM, 64 GB DDR5-RAM, einem AMD Ryzen 9 9950X3D (16 Kerne / 32 Threads) und einer 1,8-TB-NVMe-Festplatte. Die Inference läuft über llama.cpp auf der Grafikkarte.
Bisher liefen problemlos Modelle wie Qwen 3.5 35B-A3B, Devstral oder DeepSeek R1 14B mit Geschwindigkeiten von über 200 Tokens pro Sekunde. Doch die neuesten Modelle sprengen diesen Rahmen. Sie liegen nicht mehr im Bereich von 20 bis 35 Milliarden Parametern, sondern bewegen sich in völlig neuen Dimensionen.
DeepSeek V4-Pro: Ein Titan, der selbst Rechenzentren fordert
DeepSeek V4-Pro ist das neue Flaggschiff des Unternehmens und sprengt alle bisherigen Maßstäbe:
- Gesamtparameter: 1,6 Billionen
- Aktivierte Parameter pro Token: 49 Milliarden (Mixture-of-Experts mit 256 Experten und Top-6-Routing)
- Modellgewicht (FP4+FP8-Mix): 805 GB auf der Festplatte
- Kontextfenster: 1 Million Tokens
Die 805 GB Modellgewicht sind das größte Hindernis. Unser System bietet insgesamt 96 GB adressierbaren Speicher (32 GB VRAM + 64 GB RAM). Das Modell ist damit 8,4-mal größer als der verfügbare Speicher. Zudem gibt es keine GGUF-Quantisierungen für Consumer-Hardware – und selbst wenn, gäbe es kein System, das sie sinnvoll ausführen könnte.
Ein Vergleich: Der Versuch, das ähnlich große Kimi K2.6 (1 Billion Parameter) auszuführen, endete in weniger als einem Token pro Sekunde. Die Gewichte landeten im langsamen RAM, und die DDR5-Bandbreite (ca. 80 GB/s) wurde zum Flaschenhals – im Vergleich zu den 1,8 TB/s der 5090.
Fazit: DeepSeek V4-Pro bleibt Cloud-Nutzern vorbehalten. Die offizielle API unter api.deepseek.com wird bereits in unserem Benchmark-Setup als Cloud-Anbieter geführt.
DeepSeek V4-Flash: Fast, aber nicht ganz passend
DeepSeek V4-Flash ist die kleinere Variante von V4-Pro und eigentlich ein vielversprechender Kandidat für lokale Inference:
- Gesamtparameter: 284 Milliarden
- Aktivierte Parameter pro Token: 13 Milliarden (Mixture-of-Experts mit 256 Experten und Top-6-Routing)
- Kleinste GGUF-Quantisierung (Q2_K): 96,2 GB
- Beliebteste Quantisierung (Q4_K_M): 160,2 GB
- Kontextfenster: 1 Million Tokens
Auf den ersten Blick klingt eine Aktivierung von nur 13 Milliarden Parametern pro Token vielversprechend – sogar kleiner als unser bisheriges DeepSeek R1 14B. Doch der Teufel steckt im Detail: Bei Mixture-of-Experts-Modellen müssen alle Expertengewichte im Speicher liegen, auch wenn pro Token nur ein Bruchteil davon aktiviert wird. Die 284 Milliarden Gesamtparameter müssen also zugänglich sein.
Die Berechnung zeigt: Selbst die kleinste Quantisierung (Q2_K) übersteigt unseren verfügbaren Speicher um 0,2 GB – bevor überhaupt der KV-Cache berücksichtigt wird. Andere Quantisierungen wie Q3_K_M (126,2 GB) oder Q4_K_M (160,2 GB) benötigen massive Offloads auf die Festplatte, was die Performance stark beeinträchtigt.
Hinzu kommt ein weiteres Problem: llama.cpp unterstützt die DeepSeek-V4-Architektur noch nicht. Alle bestehenden GGUFs erfordern spezielle Forks. Die offiziellen PRs für die Hauptunterstützung sind noch offen und werden diskutiert. Selbst wenn ein Quantisierungsset knapp in den Speicher passte, müsste man auf eine ungetestete Branch zurückgreifen.
Fazit: DeepSeek V4-Flash ist aktuell noch nicht lokal lauffähig. Wir haben das Modell vorerst als Cloud-API in unser Benchmark-Setup aufgenommen. Sobald llama.cpp die V4-Unterstützung implementiert und eine brauchbare Quantisierung unter 90 GB verfügbar ist, werden wir es erneut testen.
ZAYA1-8B: Perfekt dimensioniert – aber mit falscher Architektur
ZAYA1-8B von Zyphra wirkt auf den ersten Blick wie der ideale Kandidat für lokale Inference:
- Gesamtparameter: 8,4 Milliarden
- Aktivierte Parameter pro Token: 760 Millionen (Mixture-of-Experts mit 16 Experten und Top-1-Routing)
- VRAM-Bedarf (bf16): ~17 GB
- Kontextfenster: 128.000 Tokens
- AIME-26-Score: 89,1
Mit 8,4 Milliarden Parametern und einem VRAM-Bedarf von nur 17 GB würde das Modell problemlos auf der RTX 5090 laufen. Die Leistung ist beeindruckend: Mit einem Score von 89,1 im AIME-26-Benchmark übertrifft es Modelle, die 10- bis 15-mal größer sind.
Doch der Haken liegt in der Architektur: ZAYA1 nutzt CCA (Cross-Channel Attention) – eine Kombination aus Mamba-ähnlicher Rekursion und klassischer Attention. Diese Hybrid-Schicht verwendet kleine 1D-Konvolutionen, benutzerdefinierte Q/K-Projektionen und gelernte Residual-Skalierung.
Aktuell gibt es keine Unterstützung für CCA in llama.cpp. Ein offener Feature-Request existiert zwar, doch bisher gibt es nur Zustimmungen ohne konkrete Implementierung. Zudem existieren keine GGUF-Quantisierungen, da es schlicht keine Laufzeitumgebung dafür gibt. Selbst Zyphras ältere Zamba2-Architektur bleibt in llama.cpp unberücksichtigt.
Die einzige Möglichkeit, ZAYA1-8B aktuell auszuführen, ist über Zyphras eigenen vLLM-Fork – eine komplett separate Serving-Infrastruktur. Das würde zwar auf der RTX 5090 funktionieren, erfordert aber den Aufbau und die Wartung einer zusätzlichen Inference-Pipeline.
Fazit: ZAYA1-8B steht auf unserer To-do-Liste. Sobald llama.cpp CCA unterstützt oder wir Zeit für die Einrichtung von vLLM als zweiter Serving-Option finden, werden wir das Modell testen.
Welche Modelle laufen tatsächlich auf einer 32-GB-Grafikkarte?
Die Realität ist ernüchternd: Die Modelle, die aktuell die größte Aufmerksamkeit erregen, lassen sich nicht lokal ausführen. Die Modelle, die tatsächlich auf einer 32-GB-Grafikkarte flüssig laufen – mit Geschwindigkeiten von über 100 Tokens pro Sekunde und nützlicher Agenten-Performance – sind auf etwa 24 bis 28 GB Modellgewicht begrenzt (inklusive KV-Cache).
- Dichte Modelle: Bis zu ~14B bei Q8, ~20B bei Q6, ~27B bei Q4
- Mixture-of-Experts-Modelle: Bis zu ~35B Gesamtparameter bei Q4 (z. B. Qwen3-MoE-A22B)
Die Zukunft der lokalen Inference hängt davon ab, ob sich die Architekturvielfalt verlangsamt oder ob es gelingt, effizientere Quantisierungen zu entwickeln. Bis dahin bleibt der heimische PC für viele der spannendsten Modelle ein Traum – zumindest bis die nächste Hardware-Generation Einzug hält.
KI-Zusammenfassung
DeepSeek V4-Pro, V4-Flash, and Zyphra ZAYA1-8B exceed local GPU limits despite 32GB VRAM. Discover why even high-end hardware struggles with today's models.