Apples neue KI-Architektur: 20 Milliarden Parameter lokal nutzen – ganz ohne RAM-Engpass

Die Entwicklung lokaler KI-Modelle stand lange vor einem unüberwindbaren Hindernis: Alle Gewichte eines Modells mussten im Arbeitsspeicher (DRAM) liegen – eine harte Begrenzung für die Modellgröße. Doch was, wenn die Gewichte stattdessen in kostengünstigem Flash-Speicher abgelegt werden könnten? Apple setzt mit seiner neuen AFM-3-Architektur genau diesen Ansatz um und ermöglicht so erstmals die Nutzung eines 20-Milliarden-Parameter-Modells direkt auf dem Gerät.

Die Lösung entstand in Zusammenarbeit mit Google und wurde kürzlich auf der WWDC26 vorgestellt. Sie besteht aus fünf Modellen, darunter zwei rein lokale und drei serverbasierte Varianten, die im Rahmen von Apples Private Cloud Compute laufen. Während die Cloud-Modelle auf Nvidia-GPUs in Googles Rechenzentren laufen, setzt Apple bei den On-Device-Modellen auf eine innovative Speichertechnik, die die bisherige RAM-Abhängigkeit überwindet.

Warum RAM bisher der Flaschenhals war

Jeder Entwickler, der lokale KI-Modelle einsetzen wollte, stand vor demselben Problem: Ein Modell mit 20 Milliarden Parametern lässt sich nicht vollständig im DRAM eines Smartphones oder Laptops unterbringen – zumindest nicht in einer für den Alltagseinsatz geeigneten Geschwindigkeit. Awni Hannun, ehemaliger Apple-Forscher und heute bei Anthropic tätig, brachte es auf den Punkt: „Man kann nicht einfach 20 Milliarden Parameter in den Arbeitsspeicher packen – zumindest nicht in einer Präzision, die für den praktischen Einsatz taugt.“

Die traditionellen Ansätze wie Mixture-of-Experts-Modelle (MoE) versuchten, dieses Problem durch dynamische Routing-Mechanismen zu umgehen. Doch selbst diese Methode scheiterte an der begrenzten Bandbreite zwischen NAND-Flash und DRAM. Apple löst diesen Engpass nun mit einem radikal neuen Konzept: Statt die Gewichte während der Inferenz zwischen Flash und RAM zu verschieben, werden sie einmalig pro Anfrage geladen und bleiben dann für die gesamte Bearbeitung im Arbeitsspeicher.

Drei Kerninnovationen der AFM-3-Architektur

Apples Lösung besteht aus drei zentralen Komponenten, die zusammen die bisherige Hardware-Grenze sprengen:

Gewichte permanent in Flash-Speicher ausgelagert

Das AFM-3-Core-Advanced-Modell speichert alle 20 Milliarden Parameter dauerhaft in NAND-Flash – nicht im DRAM. Damit entfällt die Notwendigkeit, die gesamte Modellgröße im Arbeitsspeicher zu halten. Apple bezeichnet diese Technik als Instruction-Following Pruning (IFP) und entwickelt sie in enger Zusammenarbeit mit eigenen Forschungsteams.

Routing einmal pro Anfrage statt pro Token

Bei herkömmlichen MoE-Modellen wird für jedes generierte Token eine Auswahl der Experten getroffen – was einen ständigen Datentransfer zwischen Flash und RAM erfordern würde. Apples Ansatz lädt stattdessen einmalig zu Beginn einer Anfrage die benötigten Experten in den Arbeitsspeicher und nutzt diese Konfiguration für die gesamte Antwortgenerierung. „Der entscheidende Unterschied zu klassischen MoE-Modellen liegt darin, dass die Routing-Entscheidung nur einmal pro Abfrage getroffen wird und dann alle Tokens mit derselben Expertenauswahl generiert werden“, erklärt Hannun.

Aktive Parameterzahl skaliert je nach Aufgabe

Statt für jede Anfrage dieselbe Menge an Parametern zu aktivieren, passt AFM 3 Core Advanced die Größe dynamisch an. Einfache Aufgaben nutzen etwa 1 Milliarde Parameter, während komplexere Anfragen bis zu 4 Milliarden aktivieren – alles aus dem 20-Milliarden-Parameter-Pool im Flash.

Was Apple noch nicht verrät – und warum das problematisch sein könnte

Trotz der vielversprechenden Architektur bleiben zentrale Fragen offen, die für Unternehmen entscheidend sein könnten:

Energieverbrauch, Wärmeentwicklung und Speicherbandbreite

Apple liefert in den aktuellen Dokumentationen keine Details zu kritischen Leistungsmetriken wie Energieeffizienz, Speicherbandbreite oder thermischer Belastung. Marco Abis, Entwickler des Profiling-Tools Ziraph für lokale KI auf Apples Silizium, kritisiert: „Wo bleibt die Dokumentation zu Energie, Speicherbandbreite und Wärme? Das sind die Faktoren, die letztlich über die Praxistauglichkeit entscheiden – und sie fehlen komplett.“

Transparenz bei der Offloading-Entscheidung

Noch unklar ist, unter welchen Umständen eine Anfrage vom lokalen Modell auf die Cloud umgeleitet wird – und ob dieser Prozess für Entwickler oder Endnutzer sichtbar ist. Für Unternehmen, die ihre KI-Implementierung dokumentieren müssen, stellt dies ein Compliance-Risiko dar. Apple hat bisher weder in den Core-AI-Dokumentationen noch in den Sicherheitshinweisen zu Private Cloud Compute konkrete Angaben dazu gemacht.

Fehlende Benchmarks und technische Details

Apple hat angekündigt, im Sommer einen vollständigen technischen Bericht mit Benchmarks zu veröffentlichen. Bis dahin bleiben viele praktische Fragen zur Performance und Skalierbarkeit unbeantwortet.

Konsequenzen für Unternehmen: Ein neues Entscheidungskriterium bei der KI-Implementierung

Für Unternehmen, die agentenbasierte KI-Lösungen ohne Cloud-Anbindung einsetzen möchten, eröffnet Apples AFM-3-Architektur neue Möglichkeiten – aber auch neue Herausforderungen:

Die RAM-Grenze ist gesprengt – doch Hardware bleibt entscheidend

Mit AFM 3 Core Advanced können Unternehmen erstmals ein 20-Milliarden-Parameter-Modell lokal betreiben. Die bisherige Begrenzung durch den Arbeitsspeicher entfällt. Allerdings verschiebt sich das Problem nun auf die Hardware-Infrastruktur: Geräte müssen über ausreichend leistungsfähigen Flash-Speicher und eine schnelle Speicherbandbreite verfügen.

Private Cloud Compute wird zur architektonischen Wahl

Einfache Anfragen können lokal auf dem Gerät verarbeitet werden, während komplexe agentenbasierte Aufgaben an AFM 3 Cloud Pro in der Private Cloud Compute ausgelagert werden. Allerdings gibt Apple nicht vor, wann eine solche Umleitung erfolgt oder ob sie für Entwickler sichtbar ist. Für regulierte Branchen wie Gesundheitswesen oder Finanzdienstleistungen könnte diese Intransparenz ein Hindernis darstellen.

Abhängigkeit von Google Cloud bleibt bestehen

Die serverbasierten AFM-3-Modelle laufen auf Nvidia-GPUs in Googles Rechenzentren. Selbst wenn Private Cloud Compute hohe Datenschutzstandards garantiert, bleibt die Abhängigkeit von einem externen Cloud-Anbieter für viele Unternehmen ein kritischer Faktor.

Die Einführung von AFM 3 Core Advanced markiert einen Wendepunkt in der lokalen KI-Entwicklung. Mit 20 Milliarden Parametern setzt Apple neue Maßstäbe – doch ob das Modell in der Praxis skalierbar ist, hängt von den noch ausstehenden Details ab. Sobald Apple im Sommer die vollständigen Benchmarks und technischen Spezifikationen veröffentlicht, wird sich zeigen, ob die Architektur den Sprung vom Labor in den produktiven Einsatz schafft. Bis dahin bleibt sie ein vielversprechender Ansatz mit noch ungeklärten Fragen.

KI-Zusammenfassung

Apple’ın WWDC26’da tanıttığı AFM 3 Core Advanced, 20 milyar parametreli AI modelini yerel olarak çalıştırarak bellek sınırlarını aşmayı başardı. Nasıl çalıştığını ve kurumlar için ne anlama geldiğini öğrenin.

Apples neue KI-Architektur: 20 Milliarden Parameter lokal nutzen – ganz ohne RAM-Engpass

Warum RAM bisher der Flaschenhals war

Drei Kerninnovationen der AFM-3-Architektur

Was Apple noch nicht verrät – und warum das problematisch sein könnte

Konsequenzen für Unternehmen: Ein neues Entscheidungskriterium bei der KI-Implementierung

Kommentare

Kleines chinesisches KI-Modell VibeThinker-3B stellt Benchmarks infrage

Z.ai veröffentlicht GLM-5.2: KI-Modell übertrifft GPT-5.5 in Langzeit-Coding mit 753 Mrd. Parametern

Databricks revolutioniert Datenpipelines: Echtzeit-Analyse und Transaktionen in einem System