Panne de cloud Google et Oracle causée par la vague de chaleur au Royaume-Uni

Les pannes de Google Cloud et d’Oracle Cloud sont survenues après la défaillance des systèmes de refroidissement dans les centres de données des entreprises en raison d’une vague de chaleur en cours au Royaume-Uni.

Le Royaume-Uni a subi une vague de chaleur record au cours de la semaine dernière, entraînant une flambée des températures dans toute la région.

Néanmoins, aujourd’hui, les systèmes de refroidissement des centres de données utilisés par Google et Oracle pour héberger leur infrastructure cloud ont commencé à cesser de fonctionner avec des températures atteignant un record de 40,2 degrés Celsius (104,4 Fahrenheit).

Dans le but de créer une panne prolongée pour éviter des dommages permanents aux composants matériels, Google et Oracle ont mis fin à l’équipement, entraînant des pannes dans leurs services cloud.

Le phénomène a d’abord affecté Oracle, car la société a signalé une panne de refroidissement vers 11 h 30 HNE aujourd’hui, provoquant la mise hors tension du “matériel non critique”.

Un message d’état d’Oracle Cloud qui semble avoir été repéré pour la première fois par TheRegister a déclaré : “En raison de températures non saisonnières dans la région, un sous-ensemble d’infrastructures de refroidissement au sein du centre de données du sud du Royaume-Uni (Londres) a rencontré un problème. Cela a conduit à un sous-ensemble de notre infrastructure de service devait être mise hors tension pour éviter les pannes matérielles incontrôlées.”

“Cette mesure a été prise dans le but de limiter le potentiel d’impact à long terme sur nos clients.”

Pourtant, selon Oracle, les clients de cette région peuvent ne pas être en mesure d’accéder à leurs ressources Oracle Cloud Infrastructure, même si seuls les matériels non critiques sont éteints.

Environ deux heures plus tard, des pannes de refroidissement ont également été signalées par Google dans l’un de leurs bâtiments hébergeant la zone europe-west2-a pour la région europe-west2.

“Il y a eu une panne liée au refroidissement dans l’un de nos bâtiments qui héberge la zone europe-west2-a pour la région europe-west2. Cela a provoqué une panne partielle de capacité dans cette zone, entraînant des arrêts de machines virtuelles et une perte de machines pour une petite ensemble de nos clients”, lit-on dans le rapport d’incident de Google Cloud.

“Nous travaillons dur pour remettre le refroidissement en ligne et créer de la capacité dans cette zone. Nous ne prévoyons pas d’impact supplémentaire dans la zone europe-ouest2-a et les machines virtuelles en cours d’exécution ne devraient pas être affectées. Un petit pourcentage de périphériques de disque persistant répliqués sont s’exécutant en mode simple redondant.”

“Afin d’éviter d’endommager les machines et une panne prolongée, nous avons mis hors tension une partie de la zone et limitons les lancements préemptifs de GCE. Nous nous efforçons de restaurer la redondance pour tous les disques persistants répliqués impactés restants.”

À l’instar d’Oracle, les clients de Google Cloud sont également interrompus par cette panne de refroidissement, avec des appareils arrêtés, des systèmes inaccessibles et des appareils de disque persistant fonctionnant en mode de redondance unique.

Aucun coup supplémentaire n’a été prévu par l’une ou l’autre des sociétés car les systèmes de refroidissement sont en cours de remise en ligne.