Der Kampf um Grafikprozessoren (GPUs) hat eine paradoxe Dynamik in Unternehmen ausgelöst: Trotz explodierender Kosten und chronischer Unterauslastung werden teure Chips gehortet. Laut dem Cast AI State of Kubernetes Optimization Report 2026 liegt die durchschnittliche Auslastung von GPU-Flotten bei gerade einmal fünf Prozent. Für Laurent Gil, Mitgründer und Präsident von Cast AI, ist diese Zahl kein Zufall, sondern das Ergebnis eines gefährlichen Kreislaufs aus FOMO (Fear Of Missing Out) und struktureller Ineffizienz.
„Viele dieser Cloud-Infrastrukturen sind keine echten Cloud-Lösungen, sondern eher Neo-Immobilien“, so Gil. Die GPUs werden zu einem Statussymbol – bezahlt wird nach Stunden, unabhängig davon, ob sie tatsächlich genutzt werden. Dabei wäre eine Auslastung von 30 % bei menschlich verwalteten Clustern realistisch, wenn man Geschäftszeiten, Wochenenden und typische Nutzungsmuster berücksichtigt. Doch die Realität sieht anders aus: Unternehmen zahlen für teure Infrastruktur, die zu 95 % ungenutzt bleibt.
Ein Markt mit zwei Geschwindigkeiten: Kommodität vs. Premium
Die aktuelle Preisentwicklung zeigt, wie stark sich der GPU-Markt gespalten hat. Während im Kommoditätssegment die klassischen Deflationsmechanismen noch greifen, herrscht im Premium-Bereich das genaue Gegenteil: Knappheit treibt die Preise nach oben.
- Kommoditätsschicht: Hier sind GPUs wie Nvidias H100 oder A100 in den letzten Monaten günstiger geworden. On-Demand-Preise für H100 sanken von rund 7,57 US-Dollar pro GPU-Stunde im September 2025 auf etwa 3,93 US-Dollar. Noch günstigere Angebote gibt es bei Anbietern wie Lambda Labs oder RunPod, wo H100s unter 3 US-Dollar pro Stunde gemietet werden können. Selbst ältere Chips wie die A100 sind für weniger als zwei US-Dollar pro Stunde erhältlich.
- Premium-Schicht: Hier explodieren die Kosten. Nvidia hat für 2026 Bestellungen für zwei Millionen H200-Chips erhalten – bei einem aktuellen Lagerbestand von nur 700.000 Einheiten. Die Engpässe in der fortschrittlichen Verpackungstechnik (Advanced Packaging) von TSMC sind bis mindestens Mitte 2027 ausgebucht. AMD warnt ebenfalls vor Preiserhöhungen ab 2026, verursacht durch die anhaltende Knappheit an HBM-Speicher.
AWS erhöhte die Preise für reservierte H200-Instanzen im Januar 2026 überraschend um 15 % – ohne offizielle Ankündigung. Gleichzeitig stiegen die Preise für HBM3e-Speicher um 20 %. Dies markiert einen historischen Bruch: Seit dem Launch von EC2 im Jahr 2006 waren Preissenkungen bei reservierten Instanzen die Regel – nun dreht sich der Trend um.
Der Beschaffungszyklus: Warum Unternehmen auf teure Kapazitäten verzichten
Wie kommt es zu dieser extremen Unterauslastung? Laut Gil beginnt der Teufelskreis bereits bei der GPU-Beschaffung. Unternehmen melden sich auf Wartelisten von Hyperscalern an, oft mit unklaren Lieferzeiten. Nach Wochen oder Monaten folgt dann ein Anruf: „Sie haben 48 GPUs angefordert, aber wir können Ihnen nur 36 anbieten. Die sind nur im Rahmen eines ein- oder dreijährigen Vertrags erhältlich – und der dreijährige Vertrag ist preiswerter.“ Die Alternative? Die Kapazität an ein anderes Unternehmen abzugeben und monatelang auf neue Zuteilungen zu warten.
Die Entscheidung fällt oft zugunsten des Vertrags – selbst wenn unklar ist, ob die GPUs überhaupt benötigt werden oder ob die gewählte Generation für die geplanten Workloads geeignet ist. „Die operative Frage lautet nicht, ob die GPUs passt, sondern ob man das Angebot annimmt oder riskiert, leer auszugehen“, erklärt Gil. Sobald die GPUs im Unternehmen sind, werden sie zu einem kaum lösbaren Problem: Wer sie freigibt, riskiert, sie nie wieder zu bekommen. Also bleiben sie aktiv – und werden weiter abgerechnet, egal ob sie genutzt werden oder nicht.
Ein weiteres Paradox: Viele Unternehmen zahlen sogar On-Demand-Preise, die etwa dreimal so hoch sind wie die von einjährigen Reservierungen. Der Grund? Die Angst vor Engpässen überwiegt die kurzfristigen Kostenvorteile. „Selbst die teurere Option fühlt sich sicherer an als das Risiko, Kapazitäten abzugeben und später nicht nachrüsten zu können“, so Gil.
Die Architektur-Falle: Warum selbst genutzte GPUs ineffizient sind
Selbst wenn die Beschaffung optimiert würde, bliebe ein weiteres Problem: Die Architektur vieler GPU-Flotten ist von Grund auf verschwendet. Studien zeigen, dass Kubernetes-Nutzer häufig Ressourcen um das Fünf- bis Zehnfache überprovisionieren. Der Grund? Die Kosten für Unterprovisionierung sind sichtbar – ein Pager-Alarm, ein Systemabsturz – während die Kosten für Überprovisionierung unsichtbar bleiben: eine einzelne Zeile in der Cloud-Rechnung, die niemand prüft.
Forrester-Analystin Tracy Woo bestätigt diesen Befund: Praktiker schätzen ihre Kubernetes-Kostenverschwendung auf 60 % ein – ein Wert, der sich mit den direkten Messungen von Cast AI deckt. Die Folge: Selbst wenn GPUs technisch verfügbar sind, werden sie oft nur zu einem Bruchteil ihrer Kapazität genutzt, weil die Workloads nicht effizient verteilt oder optimiert sind.
Ein Kreislauf, der sich selbst verstärkt
Die aktuelle Situation ist ein klassisches Beispiel für einen sich selbst verstärkenden Mechanismus:
- Unternehmen horten GPUs aus Angst vor Engpässen.
- Die Unterauslastung führt zu höheren Preisen.
- Höhere Preise verstärken die Angst vor Knappheit – und der Zyklus beginnt von Neuem.
Gil warnt: „Solange Unternehmen nicht bereit sind, kurzfristige Risiken einzugehen, wird sich an der Situation nichts ändern. Die Preise werden weiter steigen, die Auslastung bleibt im Keller – und die GPU-Knappheit wird zum Dauerzustand.“
Die einzige Lösung? Eine Kombination aus strategischer Kapazitätsplanung, automatisierter Ressourcenoptimierung und der Bereitschaft, ungenutzte GPUs aktiv freizugeben – auch wenn das kurzfristig Unsicherheit bedeutet. Andernfalls bleibt der Markt gefangen in einer Spirale aus FOMO und Ineffizienz.
KI-Zusammenfassung
Şirketlerin GPU filolarını %5 oranında kullanmasının ardındaki FOMO ve tedarik zinciri sorunlarını keşfedin. Bulut GPU fiyatlarındaki artışın nedenlerini öğrenin.


