インシデントと Google Cloud Service Health

Google Cloud プロダクトの最新状況を把握するには、以下を確認してください。

  • Personalized Service Health - プロジェクトまたは組織全体で使用されている Google Cloud プロダクトとリージョンの、パーソナライズされたビューを表示します。プロジェクトやリソースに影響を与える可能性がある、Google Cloud で進行中のインシデントや過去のインシデントに関する通知は、Personalized Service Health で確認してください。

    Personalized Service Health には、次の方法でアクセスできます。

  • Google Cloud Service Health - Google Cloud リージョン全体にわたる Google Cloud プロダクトすべての健全性について、プラットフォーム全体を俯瞰し、全ユーザーが利用できるビューで表示します。広い範囲に影響を及ぼす Google Cloud のインシデントに関する情報を提供します。

    Google Cloud Service Health には、次を通じてアクセスできます。

特定のプロダクトでサービスに障害が発生した場合は、最初に Personalized Service Health を確認します。ここには、Google Cloud のお客様が利用できる最新情報が常に表示されます。Personalized Service Health と、インシデント管理ワークフローに統合する方法については、こちらで詳細をご覧ください。

現在進行中の障害については、Google Cloud コンソールの [サポート] ページで確認することもできます。Google Cloud コンソールの [サポート] ページに表示される既知の問題には、軽微で限定的なインシデントも含まれています。報告されている問題のページを使用すると、掲載されたインシデントからサポートケースを作成できます。これにより、定期的に最新情報を入手できるだけでなく、サポート スタッフに問い合わせることもできます。サポートケースの使用は、インシデントに該当しない問題や、サポート スタッフとの 1 対 1 のやり取りで対応する必要がある問題に適しています。プレミアム サポート、エンハンスト サポート、スタンダード サポートをご利用の場合は、Google Cloud コンソールでサポートケースを作成してインシデントを報告できます。これらのサポートをご利用いただいていない場合は、こちらのフォームを使用してください。

このドキュメントでは、Google Cloud Service Health について説明します。

Google Cloud Service Health とは

Google Cloud Service Health には、リージョンとグローバル ロケール別に分類された Google Cloud サービスのステータス情報が表示されます。この情報には、プロダクトの障害、停止、一時的な問題に関する情報メッセージなどが含まれます。

Google Cloud Service Health は、Personalized Service Health 自体が利用できない、または中断の影響を受けるという状況、あるいは影響を受けるプロダクトがまだ Personalized Service Health にオンボーディングされていない場合など、まれな状況で利用できるように設計されています。

Google Cloud Service Health にインシデントが表示されるタイミング

ほとんどの Google Cloud インシデントにおいて、影響を受けるお客様は、Google Cloud コンソールの Personalized Service Health から直接インシデントに関する通知を受け取ります。アラート条件を満たしている場合、これらのインシデントにより、構成した Service Health アラートもトリガーされます。

次の条件のいずれかに該当するインシデントは、Google Cloud Service Health に表示されます。

重大インシデント

Google Cloud では、インシデントが次の条件をすべて満たす場合、そのインシデントを重大なインシデントと定義しています。

  • 高範囲 - インシデントがグローバルに影響を与えている、または 1 つ以上のリージョンでお客様のプロジェクトの相当な割合に影響を与えている。
  • 高重大度 - 1 つ以上のサービスが利用できないか、大幅に低下している。

万が一、重大インシデントが発生した場合、Google では迅速に対応し、問題の解決に取り組みます。

重大インシデントが発生している間、問題のステータスは Google Cloud Service Health ダッシュボードに表示されます。重大インシデントは、ステータス ダッシュボードに「 サービス停止」として表示されます。問題が解決したら、インシデントの原因となった要因の詳細と、このようなインシデントの再発防止策を含む一般公開のインシデント レポートを公開します。

範囲が限定されたインシデントの場合、非公開レポートが提供されることがあります。

インシデントのライフサイクル

プロダクトの品質低下が検出されると、Google Cloud サポートチームとプロダクト エンジニアリング チームが協力してインシデントを解決し、お客様に最新情報をお知らせします。

次の図では、プロダクト エンジニアリング チームとサポートチームの責任を示します。

ライフサイクルの図

これらの責任の詳細については、以降のセクションをご覧ください。

検出

Google Cloud ではインシデントを検出するために内部でブラック ボックス モニタリングを使用しています。詳しくは、Google の書籍『Site Reliability Engineering』の第 6 章をご覧ください。

初期対応

インシデントが検出されると、Google Cloud カスタマーケア チームがお客様とのコミュニケーションを管理します。通常、インシデントの最初の通知には多くの情報は含まれません。該当するプロダクトのみが記載されていることもよくあります。これは、詳細よりも迅速な通知を優先しているためです。詳細は、以降のアップデートで提供できます。

お客様に影響のない問題で煩わせることなく、かつできるだけ多くの情報を提供するために、問題の範囲と重大度に応じて通信チャネルを使い分けています。

通信チャネルの図

調査

インシデントの根本原因の調査は、プロダクト エンジニアリング チームが担当します。通常、インシデントの管理はサイト信頼性エンジニアが行いますが、状況とプロダクトによってはソフトウェア エンジニアや他の担当者が行うこともあります。詳しくは、Google の書籍『サイト信頼性エンジニアリング』の第 12 章をご覧ください。

緩和策と修正

問題が解決したとみなされるのは、Google が確信を持って加えた変更により、問題の影響が完全になくなった場合のみです。たとえば、インシデントの原因となった変更をロールバックして解決する場合もあります。

インシデントが継続している間は、カスタマーケアとプロダクト チームが問題の軽減を試みます。問題の軽減により、その影響や範囲を小さくできる可能性があります。たとえば、負荷によってパフォーマンスが低下しているプロダクトに一時的にリソースを追加するなどして問題を軽減します。

問題の軽減が見られない場合、可能であれば、カスタマーケア チームが回避策を見つけて連絡します。回避策とは、インシデントがあっても基本的なニーズを満たすために講じることができる対策を指します。たとえば、問題のあるコードパスを避けるために API 呼び出しに異なる設定を使用するといった回避策があります。

フォローアップ

インシデントが継続している間は、カスタマーケア チームが定期的な更新情報を提供します。通常は、次の情報が提供されます。

  • インシデントに関する詳細。エラー メッセージ、影響を受けるゾーン / リージョン、影響を受ける機能、影響の割合などが含まれます。

  • 問題軽減に向けた進捗状況。これには回避策も含まれます。

  • 連絡のタイムライン。インシデントに合わせて調整されます。

  • ステータスの変更。インシデントが解決された場合などにステータスが変更されます。

事後分析

インシデントを完全に把握し、信頼性に関して Google が行える改善策を特定するために、すべてのインシデントは社内で事後分析されます。事後分析によって特定された改善策が追跡および実装されます。Google での事後分析について詳しくは、Google の書籍『サイト信頼性エンジニアリング』の第 15 章をご覧ください。

インシデント報告

広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント報告書をリリースします。事後分析と同様、問題から学び、信頼性を改善するために講じる措置に特に注意を払っています。Google が事後分析報告書を作成して公開する目的は、透明性を確保し、お客様に安定したプロダクトを提供するという Google の取り組みを示すことにあります。

インシデント データモデル

インシデントは、1 つ以上のロケーションにある 1 つ以上のサービスに影響を与えます。インシデントには、開始時刻、終了時刻、全体的な重大度があります。インシデントには、ステータスや影響を受けたロケーションなど、時間の経過とともにインシデントがどのように変化したかを説明する更新情報が含まれています。インシデント情報は JSON スキーマで利用できます。

JSON スキーマには、Stable および Unstable と示されたフィールドがあります。一般に、ID フィールドは Stable と見なされます。一方、表示名などのフィールドは Unstable と見なされ、警告なしに変更されることがあります。Stable フィールドは、外部システムと統合する場合や自動化を構築する場合にのみ使用します。Google Cloud Service Health ダッシュボードに表示されるデータをプログラムで統合して使用できますか?をご覧ください。

よくある質問

過去のプロダクトの中断と停止に関する情報はどこで調べることができますか?

Google Cloud Service Health は、Google Cloud プロダクトの障害や停止の情報を最長 5 年間保持します。ダッシュボードの [概要] タブに、ロケールごとのプロダクトの現在のステータスが表示されます。昨年のプロダクトの中断と停止に関する情報を表示するには、ダッシュボードで [履歴を表示] をクリックします。過去 5 年間のプロダクトの停止履歴を表示するには、そのプロダクトの [もっと見る] をクリックします。

Google Cloud プロダクトの地域ごとのステータス情報を表示するにはどうすればよいですか?

Google Cloud Service Health には、すべての Google Cloud プロダクトのステータスがリージョンとグローバル ロケール別に表示されます。マルチリージョンのステータスを表示するには、リージョン固有のタブを選択します。

Google Cloud Service Health に表示されるデータをプログラムで統合して使用できますか?

はい。Google Cloud Service Health に表示されるデータは、次の方法で使用できます。

  • RSS フィードを使用する
  • JSON の履歴ファイルを使用する

    JSON ファイルのスキーマはこちらからダウンロードできます。

RSS フィードと JSON 履歴ファイルには、インテグレーションで利用できるインシデント ステータス情報が含まれています。

JSON 履歴ファイルで、Unstable と示されたフィールドではなく、Stable と示されたフィールドを使用します。たとえば、特定のプロダクト群に影響を与えるインシデントをプログラムで特定する場合は、表示名ではなくプロダクト ID(affected_products>id)を使用します。

プロダクト ID とプロダクト名

これまで、Google Cloud Service Health ダッシュボードには、特定プロダクトの ID を特定するメカニズムが備わっていませんでした。2023 年初頭より、Google Cloud Service Health では、すべてのプロダクトのマッピングを提供するプロダクト カタログが利用可能になりました。プロダクト ID では、プロダクトの表示名を変更できる一方で、キーオフするための安定したフィールドが提供されます。一連のプロダクトに影響するインシデントをプログラムで特定する場合は、プロダクト ID を参照することを優先してください。

リージョン別のステータス レポートの導入と Google Cloud Service Health ダッシュボードの名称変更を行う前に、Google Cloud Service Health に基づいて事前に構築されたインテグレーションがある場合はどうすればよいですか?

RSS フィードと JSON ファイルの両方で、リージョン ステータス情報は、リージョン ステータス レポートの導入と Google Cloud Service Health の名前の変更前にすでに公開されていた情報に追加されます。既存のインテグレーションは引き続き機能します。ただし、統合を介してリージョン ステータス情報を使用する場合は、変更する必要があります。

ここでは、RSS フィードと JSON ファイルの両方でリージョンの情報を表示する方法について詳しく説明します。

  • RSS フィード

    リージョン ステータス情報は、リージョン ステータスの導入前に提供されたフィード情報に新たに追加されたものです。影響を受けたと報告された場所は RSS メッセージに追加されます。

  • JSON ファイル

    リージョン ステータスの更新前は、Google Cloud でインシデントのストリームを公開しました。各インシデントには、影響を受けるプロダクトのリストと、それぞれのステータスの更新のリスト(存在する場合)が含まれていました。これらのステータス更新には、位置情報を含む、または含まない非構造化文字列フィールドが含まれていました。

    現在、Google Cloud では、これまでと同様にインシデントのストリームが公開されています。ただし、インシデントごとに、ステータスが更新されるたびに次の新しいフィールドが含まれます。

    • updates.affected_locations: 更新の投稿時点で影響を受けるロケーションのリストが構造化されています。すべての更新レコードと most_recent_update レコードにこのフィールドが含まれます。
    • currently_affected_locations: インシデントの影響を受けるアクティブ ロケーションに関する最新情報が含まれています。updates.affected_locations とは異なり、このリストはインシデントが解決された後(つまり、end が空でない値に設定されたとき)に空になります。
    • previously_affected_locations: 以前にインシデントの影響を受けていたものの、現在は影響を受けていないロケーションのリストが含まれます。インシデントの進捗状況によっては、一部のロケーションでサービス停止の解決が継続される場合があります。これらのロケーションは、previously_affected_locations field に引き続き存在します。インシデントが解決されると(つまり、end が空値でない場合)、このフィールドにはインシデントの影響を受けるすべてのロケーションのリストが含まれます。

ダッシュボードにリストされていない問題が発生した場合はどうすればよいですか?

Google Cloud Service Health ダッシュボードでは、Google Cloud プロダクトとサービスに影響する重大なインシデントの、現在および過去のステータス情報が表示されます。ダッシュボードに表示されない問題が発生している場合は、その問題がプロジェクトまたはインスタンスだけに限定されているか、一部のお客様のみに影響している可能性があります。範囲が狭いインシデントは、カスタマーケア ポータルに表示される場合があります。ダッシュボードに表示されていない問題が発生した場合は、カスタマーケアまでお問い合わせください。

すでに [Personalized Service Health] ダッシュボードを使用している場合は、問題がここに表示されているかどうかを調べて、プロジェクトやインスタンスに影響するかどうかを確認します。

Google Cloud コンソールを使用している場合、右上隅にあるフィードバックの送信ツールをクリックすると、問題を報告できます。

ダッシュボードを更新しているのは誰ですか?

全世界のカスタマーケア チームが、さまざまな種類のシグナルを使用してプロダクトのステータスをモニタリングし、広範囲で問題が発生した場合はダッシュボードを更新します。また、必要に応じて、インシデントの解決後に詳細なインシデント解析レポートを投稿します。