Google- und Oracle-Cloud-Ausfälle aufgrund der Hitzewelle in Großbritannien

Ausfälle von Google Cloud und Oracle Cloud sind nach dem Ausfall von Kühlsystemen in den Rechenzentren der Unternehmen aufgrund einer anhaltenden Hitzewelle im Vereinigten Königreich aufgetreten.

Großbritannien hat in der vergangenen Woche eine anhaltende rekordverdächtige Hitzewelle ertragen, die zu steigenden Temperaturen in der gesamten Region geführt hat.

Dennoch haben heute Kühlsysteme in Rechenzentren, die von Google und Oracle zum Hosten ihrer Cloud-Infrastruktur verwendet werden, damit begonnen, nicht mehr zu funktionieren, wenn die Temperaturen rekordverdächtige 40,2 Grad Celsius (104,4 Fahrenheit) erreichen.

Mit dem Ziel, einen längeren Ausfall zu schaffen, um dauerhafte Schäden an Hardwarekomponenten zu vermeiden, haben sowohl Google als auch Oracle die Ausrüstung beendet, was zu Ausfällen in ihren Cloud-Diensten führte.

Das Phänomen betraf zunächst das Oracle, als das Unternehmen heute gegen 11:30 Uhr EST einen Kühlfehler meldete, der dazu führte, dass „unkritische Hardware“ heruntergefahren wurde.

In einer Oracle Cloud-Statusmeldung, die anscheinend zuerst von TheRegister entdeckt wurde, heißt es: „Aufgrund ungewöhnlicher Temperaturen in der Region trat bei einer Teilmenge der Kühlinfrastruktur im Rechenzentrum von UK South (London) ein Problem auf. Dies führte zu einer Teilmenge unserer Serviceinfrastruktur musste heruntergefahren werden, um unkontrollierte Hardwareausfälle zu verhindern.”

“Dieser Schritt wurde mit der Absicht unternommen, das Potenzial für langfristige Auswirkungen auf unsere Kunden zu begrenzen.”

Laut Oracle können Kunden in dieser Region jedoch möglicherweise nicht auf ihre Oracle Cloud Infrastructure-Ressourcen zugreifen, selbst wenn nur unkritische Hardware ausgeschaltet ist.

Etwa zwei Stunden später wurden von Google auch Kühlausfälle in einem ihrer Gebäude gemeldet, in denen die Zone europe-west2-a für die Region europe-west2 untergebracht ist.

„In einem unserer Gebäude, das die Zone europe-west2-a für die Region europe-west2 beherbergt, ist ein kühlungsbedingter Fehler aufgetreten. Dies führte zu einem teilweisen Kapazitätsausfall in dieser Zone, was zu VM-Beendigungen und einem geringen Maschinenverlust führte Reihe unserer Kunden”, heißt es im Google Cloud-Vorfallsbericht.

„Wir arbeiten hart daran, die Kühlung wieder online zu bringen und Kapazität in dieser Zone zu schaffen. Wir rechnen nicht mit weiteren Auswirkungen in der Zone europe-west2-a, und derzeit ausgeführte VMs sollten nicht beeinträchtigt werden. Ein kleiner Prozentsatz der replizierten persistenten Festplattengeräte ist betroffen läuft im einfach redundanten Modus.”

“Um Schäden an Maschinen und einen längeren Ausfall zu verhindern, haben wir einen Teil der Zone heruntergefahren und schränken präemptive GCE-Starts ein. Wir arbeiten daran, die Redundanz für alle verbleibenden betroffenen replizierten persistenten Festplatten wiederherzustellen.“

Ähnlich wie bei Oracle werden auch Google Cloud-Kunden durch diesen Kühlausfall unterbrochen, da Geräte beendet werden, Systeme unzugänglich sind und Geräte mit persistenter Festplatte im Modus mit einfacher Redundanz ausgeführt werden.

Kein zusätzlicher Schlag wurde von beiden Unternehmen erwartet, da daran gearbeitet wird, die Kühlsysteme wieder in Betrieb zu nehmen.