特定のお客様に影響を及ぼした最近のインシデントに関する詳細情報
Google Cloud Customer Support
※この投稿は米国時間 2024 年 5 月 25 日に、Google Cloud blog に投稿されたものの抄訳です。
今月発生した Google Cloud のインシデントは、オーストラリアのお客様である UniSuper 様に影響を及ぼしました。Google の最優先事項は、お客様と連携してお客様のシステムを完全に復旧させることでした。インシデントの発生後すぐに、お客様との共同声明にてインシデントについて公式に発表しています。
お客様のシステムは完全に復旧し、Google Cloud の社内確認も完了しました。このインシデントの性質を明らかにし、正確な説明を行って透明性を確保するために、Google Cloud は情報を公共に開示しています。Google Cloud は、この特定の単独のインシデントが二度と起こらないよう対策を講じました。お客様に影響が及んでしまったことは大変遺憾であり、お客様にご不便をお掛けしましたことを深くお詫び申し上げます。
影響の範囲
影響が及んだテクノロジーおよびサービスを示す以下の一覧は、Google が管理するサービスのみを記載しています。
このインシデントは以下に影響を及ぼしました。
-
特定のクラウド リージョンに属する特定のお客様
-
そのお客様が利用していた Google Cloud サービス のうち、Google Cloud VMware Engine(GCVE)のみ。
-
そのお客様の複数の GCVE プライベート クラウド(2 つのゾーンにまたがる)の一つ。
このインシデントは、以下には影響を及ぼしませんでした。
-
Google Cloud VMware Engine(GCVE)以外の Google Cloud サービス。
-
GCVE または他の Google Cloud サービスを使用している他のお客様。
-
今回該当する特定のお客様の他の GCVE プライベート クラウド、Google アカウント、組織、フォルダ、プロジェクト。
-
同じリージョン内の Google Cloud Storage(GCS)に保存されている、そのお客様のデータのバックアップ。
事象と対応
要約
内部ツールを使用してお客様の Google Cloud VMware Engine(GCVE)プライベート クラウドを最初にデプロイする際、Google のオペレーターがパラメータを空白のままにするという、不注意による GCVE サービスの構成ミスがありました。これにより、お客様の GCVE プライベート クラウドにデフォルトの固定期間が設定され、その期間の終了時に自動削除されるという、意図しない前例のない結果となりました。このような事態が二度と起こらないよう、インシデントのきっかけとなったトリガーとシステムの動作はどちらも修正されております。
このインシデントは、このお客様の特定の GCVE プライベート クラウド以外の Google Cloud サービスに影響を及ぼすことはありませんでした。他のお客様へのこのインシデントによる影響はありませんでした。
インシデント発生経緯の説明
例外プロセスを使用したデプロイ
2023 年初頭、Google のオペレーターは、特定の容量配置のニーズに対応するために、内部ツールを使用してお客様の GCVE プライベート クラウドの一つをデプロイしました。この容量管理用の内部ツールは、2023 年第 4 四半期に非推奨となり、処理は完全に自動化されたため(つまり、人の介入が不要)、現在は利用されておりません。
入力パラメータを空白にしたことで意図しない動作が発生
Google のオペレーターは、社内の管理手順に沿って操作していましたが、内部ツールを使用してお客様のプライベート クラウドをプロビジョニングする際に、1 つの入力パラメータを空白のままにしてしまいました。パラメータを空白のままにした結果、このパラメータに、それまで使用したことがなかったデフォルトの 1 年の固定期間の値がシステムによって割り当てられました。
システムによって割り当てられた 1 年の期間が終了後、そのお客様の GCVE プライベート クラウドは削除されました。この削除は、Google オペレーターが内部ツールを使用してパラメータを空白のままにした結果として引き起こされたものであり、お客様の削除リクエストによるものではなかったため、お客様への通知は送信されませんでした。なお、お客様が削除をリクエストした場合は、削除する前にお客様に通知がされます。
復旧
お客様と Google チームは、数日間休みなしでお客様の GCVE プライベート クラウドの復旧、ネットワークとセキュリティ構成の復元、アプリケーションの復元、データの復元にあたり、運用を完全に復旧しました。
復旧できたのは、お客様が堅牢で復元力のあるアーキテクチャ アプローチでサービス中断や障害のリスクを管理していたおかげです。
同じリージョン内の Google Cloud Storage に保存されていたデータのバックアップは削除の影響を受けておらず、サードパーティのバックアップ ソフトウェアとともに、迅速な復元に役立ちました。
復旧対策
Google Cloud は、このようなインシデントが二度と起こらないよう、次のようないくつかの措置を講じました。
-
この一連の出来事の引き金となった内部ツールをの利用を停止しました。この処理は現在、完全に自動化されており、特定の容量管理が必要な場合でも、お客様がユーザー インターフェースを介して制御しています。
-
GCVE サービスの構成データベースを確認し、該当のお客様を含むすべてのお客様の GCVE プライベート クラウドにて本現象の発生リスクがないことを確認しています。
-
サービスのデプロイ ワークフローにおいて GCVE プライベート クラウドを自動削除するシステム動作を修正しました。
まとめ
-
今回以前に、Google Cloud 内でこの性質のインシデントが発生したことはありません。これはシステムの問題ではありません。
-
Google Cloud サービスは、一定期間復元可能なソフト削除の採用、事前通知、削除時の人間による確認を適切に組み合わせた強固な安全保護対策を実施しています。
-
今回のインシデントのタイミングで、上記の安全保護対策が適応されていることを確認しました。
-
迅速な復旧には、お客様との緊密な連携が不可欠です。お客様の CIO と技術チームは、Google Cloud チームと緊密に連携して、24 時間休みなしで復旧を実施してくださいました。その迅速かつ的確なご対応に敬意を表します。
-
予期しないインシデントが発生した場合に迅速に復旧するには、フェイルセーフを実現する復元力と堅牢なリスク管理が不可欠です。
-
Google Cloud は、世界で最も復元力と安定性の高いクラウド インフラストラクチャを引き続き提供してまいります。今回の単独のインシデントにかかわらず、Google の稼働時間と復元力は、主要クラウドの中でも最高水準であることが独自に検証されています。
-Google Cloud Customer Support