英国の熱波によって引き起こされたGoogleとOracleのクラウドの停止

GoogleCloudとOracleCloudの停止は、英国で進行中の熱波のために企業のデータセンターの冷却システムが故障した後に発生しました。

英国はこの1週間、記録的な猛暑に耐えてきました。その結果、この地域全体で気温が急上昇しました。

それにもかかわらず、今日、GoogleとOracleがクラウドインフラストラクチャをホストするために使用するデータセンターの冷却システムは、記録的な摂氏40.2度(華氏104.4度)に達する温度で機能を停止し始めています。

ハードウェアコンポーネントへの恒久的な危害を回避するために長期の停止を作成する目的で、GoogleとOracleの両方が機器を終了し、クラウドサービスが停止しました。

オラクルは本日午前11時30分頃に冷却障害を報告し、「重要ではないハードウェア」の電源を切ることになったため、この現象は当初Oracleに影響を及ぼしました。

TheRegisterによって最初に発見されたと思われるOracleCloudステータスメッセージは、次のように述べています。「この地域の季節外れの気温の結果、UK South(London)データセンター内の冷却インフラストラクチャのサブセットで問題が発生しました。制御されていないハードウェア障害を防ぐために、サービスインフラストラクチャの電源を切る必要がありました。」

「この措置は、お客様への長期的な影響の可能性を制限することを目的として行われました。」

ただし、Oracleによると、この地域の顧客は、重要ではないハードウェアの電源をオフにしても、OracleCloudInfrastructureリソースにアクセスできない可能性があります。

約2時間後、Googleは、europe-west2(europe-west2地域のゾーン)をホストしている建物の1つで冷却障害も報告しました。

「ゾーンeurope-west2-a(リージョンeurope-west2)をホストしている建物の1つで冷却関連の障害が発生しました。これにより、そのゾーンの容量に部分的な障害が発生し、VMが終了し、小規模なマシンが失われました。一連のお客様」と述べ、GoogleCloudインシデントレポートを読みます。

「私たちは冷却をオンラインに戻し、そのゾーンで容量を作成するために懸命に取り組んでいます。ゾーンeurope-west2-aでのさらなる影響は予想されておらず、現在実行中のVMは影響を受けないはずです。複製された永続ディスクデバイスのごく一部はシングル冗長モードで実行しています。」

「マシンの損傷と長時間の停止を防ぐために、ゾーンの一部の電源を切り、GCEプリエンプティブ起動を制限しています。影響を受ける残りの複製された永続ディスクデバイスの冗長性の復元に取り組んでいます。」

Oracleと同様に、Google Cloudのお客様もこの冷却障害によって中断されており、デバイスが終了し、システムにアクセスできず、永続ディスクデバイスが単一の冗長モードで実行されています。

冷却システムがオンラインに戻るように作業されているため、どちらの会社もこれ以上の打撃は予想されていません。