Interruzioni del cloud di Google e Oracle causate dall’ondata di caldo nel Regno Unito

Le interruzioni di Google Cloud e Oracle Cloud si sono verificate dopo il guasto dei sistemi di raffreddamento nei data center delle aziende a causa di un’ondata di caldo in corso nel Regno Unito.

Il Regno Unito ha sopportato un’ondata di caldo da record continua nell’ultima settimana, che ha portato all’impennata delle temperature in tutta l’area.

Tuttavia, oggi, i sistemi di raffreddamento dei data center utilizzati da Google e Oracle per ospitare la loro infrastruttura cloud hanno iniziato a smettere di funzionare con temperature che hanno raggiunto il record di 40,2 gradi Celsius (104,4 Fahrenheit).

Allo scopo di creare un’interruzione prolungata per evitare danni permanenti ai componenti hardware, sia Google che Oracle hanno interrotto le apparecchiature, provocando interruzioni nei loro servizi cloud.

Il fenomeno ha inizialmente colpito Oracle poiché la società ha segnalato un guasto di raffreddamento intorno alle 11:30 EST di oggi, provocando lo spegnimento di “hardware non critico”.

Un messaggio di stato di Oracle Cloud che sembra essere stato individuato per la prima volta da TheRegister affermava: “A causa delle temperature non stagionali nella regione, un sottoinsieme di infrastrutture di raffreddamento all’interno del data center del Regno Unito meridionale (Londra) ha riscontrato un problema. Ciò ha portato a un sottoinsieme della nostra infrastruttura di servizio doveva essere spenta per prevenire guasti hardware incontrollati.”

“Questo passo è stato intrapreso con l’intenzione di limitare il potenziale per qualsiasi impatto a lungo termine sui nostri clienti”.

Tuttavia, secondo Oracle, i clienti in questa regione potrebbero non essere in grado di accedere alle proprie risorse Oracle Cloud Infrastructure anche con solo l’hardware non critico spento.

Circa due ore dopo, Google ha segnalato anche guasti di raffreddamento in uno dei loro edifici che ospitano la zona europe-west2-a per la regione europe-west2.

“Si è verificato un guasto relativo al raffreddamento in uno dei nostri edifici che ospita la zona europa-ovest2-a per la regione europa-ovest2. Ciò ha causato un’interruzione parziale della capacità in quella zona, che ha portato a terminazioni di macchine virtuali e alla perdita di macchine per un piccolo insieme dei nostri clienti”, si legge nel rapporto sull’incidente di Google Cloud.

“Stiamo lavorando duramente per riportare online il raffreddamento e creare capacità in quella zona. Non prevediamo un ulteriore impatto nella zona europe-west2-a e le VM attualmente in esecuzione non dovrebbero risentirne. Una piccola percentuale di dispositivi Persistent Disk replicati sono in esecuzione in modalità ridondante singola.”

“Al fine di prevenire danni alle macchine e un’interruzione prolungata, abbiamo spento parte della zona e stiamo limitando i lanci prerilasciabili di GCE. Stiamo lavorando per ripristinare la ridondanza per tutti i restanti dispositivi Persistent Disk replicati interessati”.

Analogamente a Oracle, anche i clienti di Google Cloud vengono interrotti da questo guasto di raffreddamento, con dispositivi chiusi, sistemi inaccessibili e dispositivi Persistent Disk in esecuzione in modalità di ridondanza singola.

Nessuna delle due società si aspettava alcun colpo aggiuntivo poiché i sistemi di raffreddamento sono in lavorazione per riportarli online.