Googles TPU v8: Warum das Unternehmen den „Nvidia-Monopolpreis“ umgehen kann

Google hat mit seiner achten Generation der Tensor Processing Units (TPU) einen entscheidenden Schachzug in der KI-Infrastruktur vollzogen. Während die meisten Tech-Firmen auf Nvidias GPUs für das Training von Frontier-Modellen setzen, stellt Google nun zwei spezialisierte Chips vor, die unterschiedliche Anforderungen der modernen KI-Workloads adressieren. Die Präsentation auf einer exklusiven Veranstaltung in Las Vegas unterstrich, wie Googles vertikale Integration – vom Chipdesign bis zur Software – die Kosten pro Token drastisch senken kann.

Ein neues Kapitel: Zwei Chips für zwei KI-Workloads

Bisher dominierte die Strategie, jährlich einen Chip für alle KI-Anwendungen zu entwickeln. Doch Google erkannte bereits 2024, dass diese Herangehensweise nicht mehr ausreicht. Die Entscheidung, zwei spezialisierte Chips zu bauen, war damals noch ein Wagnis. Heute, da Agenten-basierte Modelle und Reinforcement Learning die KI-Landschaft prägen, erscheint sie weitsichtig. Amin Vahdat, Googles Senior Vice President für KI und Infrastruktur, betonte: „Ein Chip pro Jahr reicht nicht mehr aus. Mit TPU v8 liefern wir nun zwei Hochleistungs-Chips, die jeweils auf eine spezifische Aufgabe zugeschnitten sind.“

Die beiden neuen Chips – TPU 8t für das Training von Frontier-Modellen und TPU 8i für agentenbasierte Inferenz und Echtzeit-Anwendungen – markieren einen Paradigmenwechsel. Während TPU 8t auf Skalierbarkeit und Effizienz im Training setzt, optimiert TPU 8i die Netzwerktopologie für niedrige Latenz und hohe Speicherkapazität. Diese Zweiteilung adressiert nicht nur technische Herausforderungen, sondern auch wirtschaftliche: Sie ermöglicht es Unternehmen, genau die Ressourcen zu nutzen, die sie benötigen – ohne teure Überkapazitäten.

TPU 8t: Maximale Skalierbarkeit für das Training

Googles TPU 8t ist ein Quantensprung im Vergleich zur Vorgängergeneration. Laut Unternehmensangaben bietet der Chip eine 2,8-fache Steigerung der FP4-EFlops pro Pod (121 gegenüber 42,5 bei Ironwood, der TPU-Generation von 2025). Die bidirektionale Bandbreite wurde auf 19,2 Tb/s pro Chip verdoppelt, während die Skalierbarkeit nach außen auf 400 Gb/s pro Chip vervierfacht wurde. Die Pod-Größe wächst leicht von 9.216 auf 9.600 Chips, die durch Googles 3D-Torus-Topologie verbunden sind.

Der entscheidende Vorteil für Unternehmen liegt jedoch in der Skalierbarkeit auf über eine Million TPUs in einem einzigen Training-Job. Möglich wird dies durch Googles neue Virgo-Netzwerktechnologie, die eine effizientere Datenübertragung zwischen den Chips ermöglicht. Zudem führt TPU 8t die TPU Direct Storage ein, die Daten direkt aus Googles verwaltetem Speichertier in den HBM-Speicher (High Bandwidth Memory) überträgt – ohne Umweg über die CPU. Dies reduziert die Pod-Stunden pro Trainingsepoch erheblich und senkt die Gesamtkosten.

TPU 8i: Revolution in der Agenten-Infrastruktur

Während TPU 8t vor allem für das Training optimiert ist, setzt TPU 8i auf eine grundlegend neu überarbeitete Netzwerktopologie, um die Anforderungen agentenbasierter KI zu erfüllen. Die Spezifikationen sind beeindruckend: 9,8-fache Steigerung der FP8-EFlops pro Pod (11,6 gegenüber 1,2), 6,8-fache Erhöhung der HBM-Kapazität pro Pod (331,8 TB gegenüber 49,2 TB) und eine 4,5-fache Vergrößerung der Pod-Größe von 256 auf 1.152 Chips.

Der Schlüssel zur Leistungssteigerung liegt in Boardfly, einer von Google und DeepMind entwickelten Netzwerktopologie. Während herkömmliche Netzwerke primär auf Bandbreite ausgelegt sind, priorisiert Boardfly niedrige Latenzzeiten – entscheidend für Echtzeit-Anwendungen wie Reinforcement Learning oder agentenbasierte Inferenz. Kombiniert mit einem Collective Acceleration Engine und großzügigem On-Chip-SRAM verspricht TPU 8i eine fünffache Verbesserung der Latenz bei der Verarbeitung von LLMs (Large Language Models).

Der Wettbewerbsvorteil: Warum Google den „Nvidia-Monopolpreis“ vermeidet

Googles Strategie der vertikalen Integration ist der entscheidende Faktor, der es dem Unternehmen ermöglicht, die hohen Margen von Nvidia zu umgehen. Während andere KI-Labore wie OpenAI, Anthropic oder Meta auf Nvidias GPUs angewiesen sind – und damit indirekt die „Nvidia-Steuer“ zahlen –, entwickelt Google seine Chips selbst. Dies spart nicht nur Hardwarekosten, sondern auch Stromverbrauch und Engineering-Aufwand.

Die sechs Schichten von Googles KI-Stack – von der Energieversorgung bis zu den bereitgestellten Services – sind aufeinander abgestimmt. Vahdat erklärte: „Wenn jede Schicht isoliert entwickelt wird, landet man beim kleinsten gemeinsamen Nenner. Google hingegen entwirft alles im Zusammenspiel.“ Für Unternehmen bedeutet dies: niedrigere Kosten pro Token, höhere Skalierbarkeit und eine flexiblere Infrastruktur für zukünftige KI-Anwendungen.

Was bedeutet TPU v8 für die Zukunft der KI-Infrastruktur?

Die Einführung von TPU v8 markiert einen Wendepunkt in der Debatte um KI-Infrastruktur. Unternehmen, die große proprietäre Modelle trainieren, sollten besonders auf die Verfügbarkeit von TPU 8t, Virgo-Netzwerk und SLAs für den Durchsatz achten. Teams, die agentenbasierte Anwendungen entwickeln, müssen hingegen die Latenzzeiten, HBM-Kapazität und die Effizienz von TPU 8i evaluieren.

Für Nutzer von Googles Gemini Enterprise bringt TPU v8 ebenfalls Vorteile: Die verbesserte Hardware ermöglicht es, größere und leistungsfähigere Modelle in der Produktion einzusetzen. Allerdings bleibt abzuwarten, wann die Chips ab Ende 2026 allgemein verfügbar sein werden. Bis dahin bleibt TPU v8 ein vielversprechendes Versprechen – aber noch kein fertiges Produkt für den Massenmarkt.

KI-Zusammenfassung

Google’s new TPU v8 chips replace Nvidia’s high-margin GPUs with custom silicon designed for AI training and real-time agents. See how v8t and v8i cut costs and improve performance.

Googles TPU v8: Warum das Unternehmen den „Nvidia-Monopolpreis“ umgehen kann

Ein neues Kapitel: Zwei Chips für zwei KI-Workloads

TPU 8t: Maximale Skalierbarkeit für das Training

TPU 8i: Revolution in der Agenten-Infrastruktur

Der Wettbewerbsvorteil: Warum Google den „Nvidia-Monopolpreis“ vermeidet

Was bedeutet TPU v8 für die Zukunft der KI-Infrastruktur?

Kommentare

Spotify bestätigt echte Künstler: Verified Badge gegen KI-Flood auf Streaming-Plattformen

Netomi sammelt 110 Millionen Dollar: Warum Accenture und Adobe auf KI für Kundenservice setzen

Amazon und OpenAI: Eine neue Ära in der KI-Cloud