Ein kürzlich durchgeführter Benchmark auf einem AMD-Ryzen-APU-System enthüllte ein zentrales Problem für KI-Agenten: DDR5-Bandbreite wird zum Flaschenhals, wenn mehrere Sprachmodelle gleichzeitig Inferenz durchführen sollen. Die Tests auf einem Minisforum UM790Pro mit integrierter Radeon 780M-Grafikeinheit zeigen, dass bereits die Kombination aus einem 35 Milliarden Parameter großen Modell und einem kleineren 1,5 Milliarden Parameter Modell zu spürbaren Leistungseinbußen führt.
Die Ergebnisse widerlegen die Annahme, dass moderne APUs dank Unified Memory Architecture effizient mehrere KI-Modelle parallel betreiben können. Stattdessen offenbart sich ein fundamentales Hardware-Limit, das Entwickler bei der Planung verteilter LLM-Architekturen berücksichtigen müssen.
Warum ein 35B-Modell plötzlich wie ein 4B-Modell läuft
Die Initialzündung für die Tests lieferte eine überraschende Erkenntnis über das Qwen3.6-35B-Modell: Obwohl es über 36 Milliarden Parameter verfügt, aktiviert es pro generiertem Token nur acht von 256 Experten. Diese Mixture-of-Experts-Architektur kombiniert mit State-Space-Modellen (SSM) reduziert den Rechenaufwand pro Token auf etwa 4-5 Milliarden Parameter – ein Niveau, das mit herkömmlichen kleinen Modellen vergleichbar ist.
Diese Einsicht führte zu der Frage, ob ein zusätzliches leichtes Modell für Klassifizierungs- oder Tool-Aufrufe parallel betrieben werden könnte, ohne die Performance des Hauptmodells zu beeinträchtigen. Die Antwort der Benchmarks fiel jedoch vernichtend aus.
Testumgebung: AMD APU als gemeinsamer Engpass
Das getestete System basiert auf einem AMD Ryzen 9 7940HS mit integrierter Radeon 780M-Grafikeinheit (12 RDNA-3-Compute-Units). Die Hardwarekonfiguration zeigt, warum die Ergebnisse so problematisch sind:
- Einziger DDR5-Speichercontroller mit ~80 GB/s Bandbreite
- 96 GB DDR5-5600-RAM, davon 48 GB als GPU-accessible Speicher (GTT) verfügbar
- Kein separater GDDR6-Bus – alle Komponenten teilen sich denselben Speicher
Zum Vergleich: Eine diskrete NVIDIA-Grafikkarte würde für GPU- und CPU-Berechnungen separate Speicherbusse nutzen. Auf der APU hingegen müssen sich CPU-Kerne, iGPU und Systemoperationen die verfügbare Bandbreite teilen.
Benchmark-Ergebnisse: Performance-Einbrüche bis zu 53%
Die Tests umfassten vier Modelle mit unterschiedlichen Parametern, die sowohl einzeln als auch in Kombination ausgeführt wurden. Die Messungen erfolgten über ollama ps und direkte API-Abfragen mit festgelegten Prompts. Die Ergebnisse zeigen ein klares Muster:
Einzelausführung als Baseline
| Modell | Parameter | GPU (Tokens/s) | CPU (Tokens/s) | |--------|-----------|----------------|-----------------| | Qwen3.6:35b | 36B (MoE) | 17,8 | — | | gemma4-e2b-abliterated | 4,6B | 42,9 | 28,7 | | qwen3:4b-instruct | 4B | 26,2 | 19,6 | | qwen2.5:1,5b | 1,5B | — | 53,4 |
Dual-Modell-Ausführung: Deutliche Performance-Verluste
Die Kombination aus einem großen GPU-Modell und einem kleineren CPU-Modell führte zu dramatischen Einbußen:
Szenario 1: Beide Modelle auf der GPU
- Qwen3.6:35b: 17,8 → 13,1 Tokens/s (-26%)
- gemma4-e2b: 42,9 → 25,3 Tokens/s (-41%)
Szenario 2: Großes Modell GPU + kleines Modell CPU
- Qwen3.6:35b: 17,8 → 14,9 Tokens/s (-16%)
- qwen2.5:1,5b: 53,4 → 26,2 Tokens/s (-51%)
Szenario 3: Großes Modell GPU + 4B-Modell CPU mit vollem Kontext
- Qwen3.6:35b: 17,8 → 11,6 Tokens/s (-35%)
- qwen3:4b-instruct: 19,6 → 11,1 Tokens/s (-43%)
Der schlechteste Fall trat bei der Kombination aus dem 35B-Modell auf der GPU und einem 4B-Modell mit 256K Kontext auf. Die KV-Caches des kleinen Modells beanspruchten allein 24,2 GB RAM, während das große Modell weitere 32 GB GPU-Speicher benötigte. Das System war damit an der Grenze seiner DDR5-Bandbreite angelangt.
Der technische Hintergrund: Warum Shared Memory scheitert
Der fundamentale Unterschied zwischen APUs und diskreten GPUs liegt im Speicherzugriffsmodell:
- Diskrete GPU: Separater GDDR6-Speicher (300+ GB/s) + DDR5 für die CPU
- APU: Einziger DDR5-Speichercontroller für CPU und iGPU
LLM-Inferenz ist primär speichergebunden. Jedes generierte Token erfordert das Laden von Modellgewichten in die Compute-Einheiten. Selbst bei MoE-Modellen müssen die aktivierten Expertengewichte bei jedem Schritt von DDR5 gelesen werden. Wenn ein zweites Modell gleichzeitig dieselben Ressourcen nutzt, entsteht ein Bandbreiten-Wettlauf.
Konsequenzen für KI-Agenten-Architekturen
Die Testergebnisse haben direkte Auswirkungen auf die Planung verteilter KI-Systeme:
- Agenten-Frameworks, die auf parallele Modellausführung setzen, stoßen auf APUs an fundamentale Hardware-Grenzen
- Memory-Mapped-Dateien und KV-Caches großer Kontextmodelle verschärfen den Bandbreitenmangel
- Hybridansätze (GPU für große Modelle + CPU für kleine Aufgaben) führen zu inakzeptablen Performance-Verlusten
Die ursprüngliche Idee eines Planer-Executor-Agenten – mit einem 35B-Modell für strategische Entscheidungen und einem 4B-Modell für Tool-Aufrufe – scheitert auf APUs an der gemeinsamen Speichernutzung. Entwickler müssen entweder auf diskrete GPUs ausweichen oder alternative Architekturen wählen, die den Speicherbedarf minimieren.
Ausblick: Lösungsansätze und zukünftige Hardware
Die Benchmarks zeigen klar, dass APUs für Multi-LLM-Szenarien aktuell ungeeignet sind, sofern nicht extrem kleine Modelle eingesetzt werden. Drei mögliche Lösungswege zeichnen sich ab:
- Diskrete GPUs mit separatem GDDR6-Speicher nutzen
- Speichereffiziente Modelle (z. B. quantisierte Versionen) einsetzen, um den Bandbreitenbedarf zu reduzieren
- Batch-Verarbeitung implementieren, um die Speichernutzung zu optimieren
Hardware-Hersteller arbeiten bereits an Lösungen wie HBM (High Bandwidth Memory) für APUs, die höhere Speicherbandbreiten ermöglichen könnten. Bis dahin bleiben diskrete Grafikkarten die zuverlässigere Wahl für anspruchsvolle LLM-Anwendungen auf Consumer-Hardware.
Für Entwickler bedeutet dies: Bei der Planung von KI-Agenten-Architekturen muss die Hardware-Infrastruktur frühzeitig berücksichtigt werden – sonst drohen unerwartete Performance-Probleme, die sich nicht durch Software-Optimierungen beheben lassen.
KI-Zusammenfassung
Benchmarks show dual LLM inference on AMD APUs cuts performance by over 50% due to shared DDR5 bandwidth. Discover why MoE models worsen the bottleneck.