AWS-Ausfall in us-east-1: Wie ein überhitztes Rechenzentrum die Hälfe des Internets traf

Am 8. Mai um 00:25 Uhr UTC begann in einer einzelnen Availability Zone (AZ) des AWS-Rechenzentrums us-east-1 ein ungewöhnliches Ausfallmuster. Die offizielle Ursache der Störung wurde auf der AWS Health Dashboard als thermisches Ereignis beschrieben – ein Begriff, der zwar korrekt, aber irreführend formuliert ist.

Wenn Kühlung versagt: Was ein thermisches Ereignis wirklich bedeutet

Rechenzentren sind komplexe Systeme, in denen tausende Serverracks gleichzeitig betrieben werden. Jedes Rack verbraucht Kilowattstunden an Energie, die als Wärme abgegeben werden. Ohne effiziente Kühlung würde die Temperatur innerhalb weniger Minuten kritische Werte erreichen – mit potenziell zerstörerischen Folgen für die Hardware. Ein thermisches Ereignis tritt auf, wenn die Kühlkapazität eines Rechenzentrums erschöpft ist und die Server ihre Betriebstemperatur nicht mehr einhalten können. Die Folge: Die Firmware schaltet die betroffenen Systeme automatisch ab, um Schäden zu vermeiden. Für Kunden bedeutet das: Ausfall ihrer Workloads, obwohl diese eigentlich global redundant ausgelegt sein sollten.

Die Formulierung der AWS ist dabei bewusst sachlich gehalten. Der Begriff thermisches Ereignis suggeriert, es handle sich um ein unvorhersehbares Naturphänomen – dabei ist es oft das Ergebnis von Überlastung oder Planungsmängeln. In der betroffenen Availability Zone use1-az4 in Nordvirginia führte die Kombination aus hoher Auslastung und unzureichender Kühlreserve dazu, dass die Systeme gezwungen waren, sich selbst abzuschalten. Die Verzögerung zwischen dem ersten Warnsignal und der finalen Abschaltung deutet darauf hin, dass die Operatoren die Situation nicht rechtzeitig erkannten oder nicht schnell genug reagieren konnten.

Der Dominoeffekt: Wie ein lokaler Ausfall zur globalen Krise wird

Die primären betroffenen Dienste in use1-az4 waren EC2-Instanzen und EBS-Volumes – die Grundlage für Compute- und Storage-Ressourcen unzähliger Kunden. Doch die Auswirkungen reichten weit über den lokalen Ausfall hinaus. Viele AWS-Dienste sind zwar theoretisch global redundant ausgelegt, nutzen ihre Steuerungsebene jedoch zentralisiert in us-east-1. Dazu gehören:

IoT Core: Geräteverwaltung für vernetzte Systeme
Elastic Load Balancer: Verteilung von Netzwerklasten
NAT Gateway: Verbindung zwischen privaten und öffentlichen Netzwerken
Redshift: Data-Warehouse-Lösungen
IAM: Identitäts- und Zugriffsmanagement
CloudFront: Content Delivery Network
Route 53: DNS-Service
DynamoDB Global Tables: verteilte NoSQL-Datenbanken

Für Unternehmen wie Coinbase hatte der Ausfall konkrete Folgen: Die Börsenfunktionen waren über fünf Stunden lang beeinträchtigt. KoboToolbox, eine Plattform zur Datenerfassung für humanitäre Projekte, meldete um 00:32 Uhr UTC einen Totalausfall seiner Global-Instanz. Weitere betroffene Unternehmen werden in den kommenden Stunden und Tagen folgen, sobald ihre Statusseiten aktualisiert sind – ein Prozess, der oft länger dauert als die eigentliche Störung.

Die Realität hinter der Cloud-Resilienz: Warum Failover oft scheitert

Aus Kundensicht beginnt das Drama mit einer Benachrichtigung: Das Monitoring-System schlägt Alarm, ein Mitarbeiter wird alarmiert, und ein Krisenteam versammelt sich in einer Videokonferenz. Der nächste Schritt sollte eigentlich ein geordneter Failover in eine andere Region sein. Doch in der Praxis sieht die Situation häufig anders aus:

Die Runbooks – also die Handbücher für Notfälle – sind veraltet oder wurden nie getestet.
Die Infrastruktur-as-Code-Skripte (z. B. Terraform) sind nicht auf dem neuesten Stand.
Die Support-Warteschlangen bei AWS sind überlastet, Wartezeiten betragen Stunden.
Die Statusseiten zeigen nur Standardformulierungen wie „AWS untersucht weiterhin das Problem“ – ohne konkrete Zeitangaben oder Lösungsansätze.

Diese Lücken offenbaren ein zentrales Paradox der Cloud-Infrastruktur: Sie ist darauf ausgelegt, Ausfälle zu vermeiden, nicht sie zu managen. Die Architektur setzt voraus, dass das Rechenzentrum selbst nie zum Engpass wird. Doch genau das ist in us-east-1 geschehen. Die Abhängigkeit von einer einzigen physischen Location wird damit zum größten Risiko – trotz aller technischer Redundanzen.

Ein wiederkehrendes Problem: Warum us-east-1 besonders anfällig ist

Der aktuelle Vorfall ist kein Einzelfall. Das Rechenzentrum us-east-1 in Nordvirginia hat in den letzten Jahren mehrfach durch großflächige Ausfälle Schlagzeilen gemacht. Die Gemeinsamkeiten dieser Ereignisse sind auffällig:

Ursache: Meist thermische Überlastung oder Stromversorgungsprobleme
Dauer: Stundenlange Störungen mit globalen Auswirkungen
Betroffene: Große Unternehmen, deren Dienste auf die zentrale Steuerungsebene angewiesen sind

Die Tabelle zeigt die jüngsten Vorfälle im Überblick:

| Datum | Betroffene Zone | Primäre Ursache | Dauer | Öffentliche Auswirkungen | |-------------|------------------|-----------------------|----------------|-----------------------------------------------| | 08.05.2026 | use1-az4 | Thermisches Ereignis | Ongoing | Coinbase (Börse), KoboToolbox (Humanitär) | | 15.03.2025 | use1-az1 | Stromausfall | ~4 Stunden | Netflix, Slack, Discord | | 22.11.2024 | use1-az6 | Kühlsystem-Ausfall | ~6 Stunden | AWS Lambda, Aurora-Datenbanken |

Diese Vorfälle werfen grundlegende Fragen zur Regionalkonzentration der Cloud auf. Obwohl AWS offiziell mehrere Availability Zones pro Region anbietet, sind viele Dienste nicht wirklich unabhängig voneinander. Die Steuerungsebenen, Datenbanken und Netzwerkkomponenten laufen oft in derselben Zone zusammen – mit der Folge, dass ein lokaler Ausfall globale Auswirkungen hat.

Die Lehre aus dem Ausfall: Was Unternehmen jetzt tun sollten

Ein solcher Vorfall ist kein Zufall, sondern ein Weckruf für die Cloud-Community. Unternehmen sollten folgende Schritte prüfen, um sich besser auf подобные Ereignisse vorzubereiten:

Multi-Region-Architekturen testen: Regelmäßige Failover-Tests mit aktualisierten Skripten durchführen
Datenbanken dezentralisieren: Globale Tabellen durch lokale Instanzen mit Replikation ersetzen
Monitoring erweitern: Echtzeit-Überwachung der Kühlkapazität und Stromversorgung einrichten
Kommunikationspläne aktualisieren: Klare Eskalationswege und Statusseiten-Vorlagen vorbereiten
Kritische Abhängigkeiten identifizieren: Dienste priorisieren, die auf zentrale Steuerungsebenen angewiesen sind

Die Cloud ist kein Allheilmittel – sie bringt neue Risiken mit sich. Wer das ignoriert, wird früher oder später die Konsequenzen spüren. Der aktuelle Ausfall in us-east-1 sollte nicht nur als technisches Problem, sondern als Weckruf für die gesamte Branche verstanden werden.

Es ist nur eine Frage der Zeit, bis das nächste Rechenzentrum an seine Grenzen stößt. Die Frage ist: Sind Sie darauf vorbereitet?

KI-Zusammenfassung

AWS’in Kuzey Virginia’daki veri merkezinde yaşanan termal olay, küresel hizmetleri etkiledi. Arızanın teknik detayları, etkilenen şirketler ve gelecekteki çözüm önerileri hakkında bilgi edinin.

AWS-Ausfall in us-east-1: Wie ein überhitztes Rechenzentrum die Hälfe des Internets traf

Wenn Kühlung versagt: Was ein thermisches Ereignis wirklich bedeutet

Der Dominoeffekt: Wie ein lokaler Ausfall zur globalen Krise wird

Die Realität hinter der Cloud-Resilienz: Warum Failover oft scheitert

Ein wiederkehrendes Problem: Warum us-east-1 besonders anfällig ist

Die Lehre aus dem Ausfall: Was Unternehmen jetzt tun sollten

Kommentare

Reisebudgets 2026: Wo Sie am günstigsten und teuersten unterkommen

Warum Softwaretests mehr sind als nur Fehlererkennung: TDD richtig verstehen

HTML im Canvas: So funktioniert die echte DOM-Integration