Googles TPU-Split: Warum zwei Chips den KI-Agenten-Schub bringen

Google hat eine radikale Kehrtwende vollzogen: Beim Cloud Next ’26 in San Francisco präsentierte der Tech-Riese die achte Generation seiner Tensor Processing Units – doch diesmal nicht als Einzelchip, sondern als zwei spezialisierte Prozessoren. Die Trennung von Training und Inferenz markiert einen Paradigmenwechsel, der direkt auf die Bedürfnisse von KI-Agenten zugeschnitten ist. Doch was bedeutet diese Aufteilung konkret für Entwickler, Unternehmen und die Zukunft des maschinellen Lernens?

Warum Google die TPU-Architektur neu denken musste

Trainings- und Inferenzphasen folgen seit jeher unterschiedlichen physikalischen Gesetzen. Während beim Training maximale Rechenleistung im Vordergrund steht, geht es bei der Inferenz um schnelle Antwortzeiten – besonders bei Agenten-Systemen. Diese autonomen KI-Systeme zerlegen komplexe Aufgaben in Teilschritte, koordinieren spezialisierte Unteragenten und optimieren ihre Entscheidungen in Echtzeit. Doch genau hier stießen Googles bisherige TPUs an ihre Grenzen: Ein Chip, der für hohe Durchsatzraten bei der Modellausbildung ausgelegt ist, kann diese dynamischen Workflows nicht effizient bedienen.

Die Lösung? Eine klare Trennung: Der TPU 8t übernimmt das Training, während der TPU 8i für Inferenz und agentenbasierte Anwendungen optimiert ist. Diese Aufteilung ist kein Zufall, sondern das Ergebnis jahrelanger interner Erfahrungen mit Projekten wie Gemini und komplexen Agenten-Workloads. Googles Infrastruktur-Teams hatten erkannt, dass ein einheitlicher Chip zwangsläufig Kompromisse erzwingt – etwa zwischen Latenz und Skalierbarkeit.

TPU 8t: Der Titan für die Modellausbildung

Der TPU 8t ist kein gewöhnlicher Beschleuniger, sondern ein Hochleistungsrechner im Superpod-Format. Ein einzelnes System vereint 9.600 Chips, die gemeinsam 121 Exaflops Rechenleistung und zwei Petabyte gemeinsam genutzten Speicher bereitstellen. Die Datenkommunikation zwischen den Chips erfolgt über ultraschnelle Interconnects, die eine nahtlose Skalierung ermöglichen – ein entscheidender Vorteil für die Ausbildung großer Sprachmodelle.

Im Vergleich zur Vorgängergeneration (Ironwood) bietet der 8t etwa die dreifache Rechenleistung, während die Bandbreite der Chip-zu-Chip-Kommunikation verdoppelt wurde. Noch beeindruckender: Google kann nun über eine Million TPUs in verteilten Rechenzentren zu einem globalen Supercomputer verbinden. Diese Infrastruktur ermöglicht es Unternehmen, selbst die größten Modelle effizient zu trainieren – ohne auf externe Hardware angewiesen zu sein.

TPU 8i: Die Revolution für Agenten und Inferenz

Der TPU 8i hingegen setzt auf eine komplett neuartige Architektur, die speziell für agentenbasierte Workloads entwickelt wurde. Sein Herzstück ist der sogenannte Collectives Acceleration Engine (CAE), ein dedizierter Beschleuniger für die schnelle Aggregation von Ergebnissen über mehrere Kerne hinweg. Diese Technologie reduziert die Latenz bei Kollektivoperationen um das Fünffache – ein Gamechanger für autoregressive Modelle wie Chatbots oder Planungsagenten.

Ein weiteres Highlight ist das neue Boardfly-Netzwerk, das die Chips in einer vollvermaschten Topologie verbindet. Diese Architektur minimiert die Anzahl der Datenhops und senkt die Kommunikationslatenz um bis zu 50%. In der Praxis bedeutet das: Agenten können Aufgaben schneller abarbeiten, selbst wenn tausende parallele Sessions laufen. Die Leistungsdaten sprechen für sich: Pro Pod liefert der 8i 9,8-mal mehr FP8-EFlops, 6,8-mal mehr HBM-Speicher und unterstützt 4,5-mal mehr Chips (von 256 auf 1.152) als sein Vorgänger. Wirtschaftlich gesehen verspricht Google eine um 80% bessere Performance pro Dollar im Vergleich zur letzten Generation.

Wo die neuen TPUs bereits eingesetzt werden

Die Aufteilung der TPUs adressiert drei zentrale Anwendungsfälle:

1. Training von Frontier-Modellen Der TPU 8t wurde in enger Zusammenarbeit mit Google DeepMind entwickelt und eignet sich ideal für die Ausbildung von Weltmodellen wie Genie 3. Solche Modelle ermöglichen es Agenten, in simulierten Umgebungen zu lernen und ihre Entscheidungsfähigkeit zu verfeinern – eine Technologie, die künftig in Robotik, Logistik oder sogar Spieleentwicklung eingesetzt werden könnte.

2. Hochskalierbare Agenten-Inferenz Der TPU 8i glänzt bei workloads mit hoher Parallelität, etwa Multi-Agenten-Pipelines, Mixture-of-Experts-Modellen oder Chain-of-Thought-Reasoning. Die optimierte Netzwerktopologie sorgt dafür, dass selbst komplexe Agenten-Abläufe in Echtzeit ablaufen – ohne teure Verzögerungen.

3. Verstärktes Lernen nach dem Training Zwischen Inferenz und Training liegt oft eine Phase des Reinforcement Learning, in der Agenten durch Trial-and-Error ihre Performance verbessern. Google setzt hier auf seine neuen Axion-basierten N4A-CPU-Instanzen, die bis zu 30% bessere Preis-Leistung für Agenten-Workloads bieten als vergleichbare Lösungen bei anderen Hyperscalern.

Die ideale Architektur sieht laut Google folgendermaßen aus: TPU 8t für das Pre-Training, TPU 8i für Inferenz und Reinforcement Learning, sowie Axion-CPUs für die Orchestrierung. Ergänzt wird das Ganze durch Googles überarbeitetes Netzwerk Virgo, das mit der vierfachen Bandbreite der Vorgängergeneration aufwartet und bis zu 134.000 TPUs in einem einzigen Rechenzentrum verbinden kann.

Kein Kampf gegen Nvidia, sondern eine Portfolio-Erweiterung

Die naheliegendste Interpretation dieser Ankündigung wäre ein direkter Wettbewerb mit Nvidia. Doch Google selbst betont, dass die neuen TPUs keine Ersatz-, sondern eine Ergänzungsstrategie darstellen. Der Tech-Riese plant, noch im Jahr 2026 Nvidias neueste Vera Rubin-GPUs in seiner Cloud anzubieten und arbeitet sogar an der Weiterentwicklung des offenen Falcon-Netzwerkprotokolls mit – ein Zeichen für die wachsende Bedeutung offener Standards.

Der wahre Paradigmenwechsel liegt vielmehr in der Erkenntnis, dass die Zukunft der KI nicht mehr nur in einzelnen Modellen liegt, sondern in Agenten-Systemen, die eigenständig handeln, planen und sich anpassen. Mit den getrennten TPU-Architekturen hat Google die Infrastruktur geschaffen, um diese Vision Realität werden zu lassen. Für Entwickler bedeutet das: Endlich gibt es Hardware, die genau auf die Anforderungen von Agenten zugeschnitten ist – und das könnte der entscheidende Schritt sein, um KI-Systeme vom Labor in die reale Welt zu bringen.

Die nächsten Monate werden zeigen, wie schnell die Industrie diese neuen Möglichkeiten nutzt. Eines ist jedoch schon jetzt klar: Googles TPU-Split ist mehr als nur eine technische Spielerei. Es ist der Beweis, dass die KI-Ära nicht nur schneller, sondern auch intelligenter werden wird.

KI-Zusammenfassung

Google’s TPU Gen 8 splits into dedicated training and inference chips to boost agentic AI performance. Learn how TPU 8t and 8i optimize latency, scale, and cost.

Googles TPU-Split: Warum zwei Chips den KI-Agenten-Schub bringen

Warum Google die TPU-Architektur neu denken musste

TPU 8t: Der Titan für die Modellausbildung

TPU 8i: Die Revolution für Agenten und Inferenz

Wo die neuen TPUs bereits eingesetzt werden

Kein Kampf gegen Nvidia, sondern eine Portfolio-Erweiterung

Kommentare

VR-Therapie gegen Angst: Wie 60 Tage Immersive Technologie mein Wohlbefinden veränderten

Qualitative Nutzdatenanalyse: So wandeln Sie Feedback in klare Erkenntnisse

PHP 8.5: Warum der Pipe-Operator bei Arrays an Grenzen stößt