インシデントと Google Cloud Service Health ダッシュボード

Google Cloud Service Health(CSH)ダッシュボードには、リージョンとグローバル ロケール別に分類された Google Cloud サービスのステータス情報が表示されます。

重大インシデント

重大インシデントの影響は、以下の 2 つ以上のシナリオに及びます。

  • 複数のサービス
  • 複数のリージョン
  • 数時間
  • 複数のお客様

まれに重大なインシデントが発生した場合に、迅速に対応して問題の解決を行います。

重大なインシデントの発生中に、問題のステータスが Google Workspace ステータス ダッシュボードGoogle Cloud Service Health ダッシュボードを介して伝達されます。重大なインシデントは、ステータス ダッシュボードで [サービス停止] と表示されます。問題が解決したら、インシデントに貢献した要素の詳細や再発防止のための手順を記載した公開インシデント レポートを発行します。

対象範囲の狭いインシデントの場合、お客様に非公開レポートが提供されることがあります。

インシデントのライフサイクル

プロダクトのパフォーマンス低下が検出されると、Cloud カスタマーケア チームとプロダクト エンジニアリング チームが協力して、インシデントの解決とお客様への連絡を担当します。

ライフサイクルの図

検出

Google Cloud ではインシデントを検出するために内部でブラック ボックス モニタリングを使用しています。詳しくは、Google の書籍『Site Reliability Engineering』の第 6 章をご覧ください。

プレミアム、優先、スタンダード、ロールベース、エンタープライズのいずれかのサポートをご利用の場合は、Google Cloud Console でサポートケースを作成してインシデントを報告できます。プラチナ、ゴールド、シルバーのサポートをご利用の場合は、Google Cloud サポート センターでサポートケースを作成してインシデントを報告できます。そうでない場合は、こちらのフォームを使用できます。

最初の対応

インシデントが検出されると、カスタマーケア チームからお客様に連絡が届きます。通常、インシデントの最初の通知には多くの情報は含まれません。該当するプロダクトに触れるだけの場合もよくあります。これは、詳細よりも迅速な通知を優先しているためです。詳細は、以降のアップデートで提供できます。

できるだけ多くの情報を提供するとともに、お客様に関連のない問題まで報告しないよう、問題の影響範囲と重大度に応じて通信チャネルを使い分けています。

通信チャネルの図

問題が起こっていることがわかったら、最初に Google CSH ダッシュボードを確認してください。このダッシュボードには多くのお客様に影響するインシデントが示されるので、ここに示されているインシデントが問題に関連している可能性が考えられます。重大度を示すために、ダッシュボードではインシデントを「中断」または「停止」のいずれかとしてマークしています。マイナーながらも広範囲に及ぶ問題は、一時的なお知らせとして掲載されます。

関連する Google Cloud プロダクトまたはサービスにより Cloud CSH ダッシュボードで問題が報告される際には、Cloud Console にもサービス停止に関する通知が表示されます。Cloud Console に停止通知が表示された場合は、通知をクリックすると問題のステータスについての詳細を確認できます。

一部の Google Cloud プロダクトには、Google CSH ダッシュボードの新しいインシデントのお知らせと通知を受け取るために登録できる Google グループがあります。

Google Cloud サポート センターCloud Console の [サポート] ページには、極めて包括的な既知の問題が表示されます。これらの問題には、ダッシュボード上に示される問題ほど多くのユーザーに影響しないものも含まれます。GCP の問題が疑われる一方、ダッシュボード上に問題が見当たらなければ、既知の問題のページを確認してください。

インシデントに該当しない問題や、サポート スタッフと直接やり取りする必要がある問題には、サポートケースの使用が適しています。既知の問題のページを使用してインシデントを投稿すると、サポートケースが作成されます。これにより、定期的に最新情報を入手できるだけでなく、サポート スタッフに問い合わせることもできます。

調査

インシデントの根本原因の調査は、プロダクト エンジニアリング チームが担当します。通常、インシデントの管理はサイト信頼性エンジニアが行いますが、状況とプロダクトによってはソフトウェア エンジニアや他の担当者が行うこともあります。詳しくは、Google の書籍『Site Reliability Engineering』の第 12 章をご覧ください。

軽減 / 解決

問題が解決したとみなされるのは、Google が確信を持って行った変更により、問題の影響が完全になくなった場合のみです。たとえば、インシデントの原因となった変更をロールバックして解決する場合もあります。

インシデントが継続している間は、カスタマーケアとプロダクト チームが問題の軽減を試みます。問題の軽減により、その影響や範囲を小さくできる可能性があります。たとえば、負荷によってパフォーマンスが低下しているサービスに一時的にリソースを追加するなどして問題を軽減します。

問題の軽減が見られない場合、可能であれば、カスタマーケア チームが回避策を見つけて連絡します。回避策とは、インシデントがあっても基本的なニーズを満たすために講じることができる対策を指します。たとえば、問題のあるコードパスを避けるために、API 呼び出しに異なる設定を使用するといった回避策があります。

フォローアップ

インシデントが継続している間は、カスタマーケア チームが定期的な更新情報を提供します。通常は、次の情報が提供されます。

  • インシデントに関する詳細。エラー メッセージ、影響を受けるゾーン / リージョン、影響を受ける機能、影響の割合などです。

  • 問題軽減に向けた進捗状況。これには回避策も含まれます。

  • 連絡のタイムライン。インシデントに合わせて調整されます。

  • ステータスの変更。インシデントが解決された場合などにステータスが変更されます。

事後分析

インシデントを完全に把握し、信頼性に関して Google が行える改善策を特定するために、すべてのインシデントは社内で事後分析されます。事後分析によって特定された改善策が追跡および実装されます。Google での事後分析について詳しくは、Google の書籍『Site Reliability Engineering』の第 15 章をご覧ください。

インシデント報告書

広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント報告書をリリースします。事後分析と同じく、Google が特に注意を向けるのは、問題から学び、信頼性を改善するために講じる措置です。Google が事後分析報告書を作成してリリースする上での目標は、透明性を維持し、お客様向けの安定したサービスを構築するという Google の取り組みを明らかにすることにあります。

よくある質問

Google CSH ダッシュボードには、どのような種類のステータス情報が表示されますか?

Google CSH ダッシュボードには、Google Cloud に含まれるサービスのステータス情報が表示されます。ステータスの種類には、サービス中断、サービス停止、一時的な問題に関する情報メッセージなどが含まれます。

過去のサービス中断とサービス停止に関する情報はどこで調べることができますか?

Google CSH ダッシュボードは、Google Cloud サービスの中断と停止の記録を最大 5 年間保持します。ダッシュボードの [Overview] タブに、現在のサービスのステータスがロケール別に表示されます。昨年のサービスの中断と停止に関する情報を表示するには、ダッシュボードで [履歴を表示] をクリックします。過去 5 年間のサービス停止履歴を表示するには、対象サービスの [詳細] をクリックします。

Google Cloud サービスのリージョン別のステータス情報を表示するにはどうすればよいですか?

Google CSH ダッシュボードには、すべての Google Cloud サービスのステータス(リージョンとグローバル ロケール別)が表示されます。マルチリージョンのサービス ステータスを表示するには、リージョン固有のタブをクリックします。

Google CSH ダッシュボードに表示されるデータをプログラムで使用するための統合を構築できますか?

はい。Google CSH ダッシュボードに表示されるデータは次の方法で使用できます。

  • RSS フィードを使用
  • JSON 履歴ファイルを使用

    JSON ファイルのスキーマは、こちらからダウンロードできます。

RSS フィードと JSON 履歴ファイルにより、統合で利用できるインシデントのステータス情報が提供されます。

リージョン別のステータス レポートの導入と Google Cloud Service Health ダッシュボードの名称変更を行う前に、Google Cloud ステータス ダッシュボードに基づいて事前に構築された統合がある場合はどうすればよいですか?

RSS フィードと JSON ファイルの両方で、リージョン ステータス情報は、リージョン別のステータス レポートの導入と Google Cloud ステータス ダッシュボードの変更前にすでに公開されていた情報に追加されます。そのため、既存の統合は引き続き機能します。ただし、統合を介してリージョン ステータス情報を使用する場合は、これらを変更する必要があります。

ここでは、RSS フィードと JSON ファイルの両方でリージョンの情報を表示する方法について詳しく説明します。

  • RSS フィード

    リージョンのステータス情報は、リージョン別のステータスの導入前に提供されたフィード情報に新たに追加されたものです。影響を受けると報告された場所は RSS メッセージに追加されます。

  • JSON ファイル

    リージョン ステータスの更新前に、Google Cloud でインシデントのストリームを公開しました。このストリームで各インシデントには、影響を受けるプロダクトのリストと、各プロダクトのステータス更新のリスト(存在する場合)が含まれていました。これらのステータス更新には、ロケーション情報が含まれている、または含まれていない非構造化文字列フィールドが含まれていました。

    現在、Google Cloud は以前と同様にインシデントのストリームを公開しています。ただし、インシデントごとに、各ステータス更新に次の新しいフィールドが含まれます。

    • updates.affected_locations: 更新が投稿された時点で影響を受けるロケーションの構造化リストが含まれます。すべての更新レコードと most_recent_update レコードに、このフィールドが含まれています。
    • currently_affected_locations: インシデントによってアクティブに影響を受けるロケーションの最新情報が含まれています。updates.affected_locations とは異なり、このリストはインシデントが解決された後(つまり、end が空でない値に設定されている場合)に空になります。
    • previously_affected_locations: 以前はインシデント中に影響を受けたものの、現在は影響を受けないロケーションのリストが含まれます。インシデントが進行するにつれ、一部のロケーションでサービスが停止する場合もあります。これらの場所は previously_affected_locations field に引き続き存在します。インシデントが解決されると(つまり、end が空でない値に設定されている場合)、このフィールドには、このインシデント中に影響を受けたすべてのロケーションのリストが含まれます。

ダッシュボードにリストされていない問題が発生した場合はどうすればよいですか?

その問題がお客様のプロジェクトまたはインスタンスだけで発生しているか、影響を受けているユーザーの数が少ない可能性があります。ダッシュボードにリストされていない問題が発生した場合は、その問題についてカスタマーケアにお問い合わせください。

Cloud Console を使用されている場合は、右上隅にあるフィードバックの送信ツールをクリックすると、問題をご報告いただけます。

ダッシュボードを更新しているのは誰ですか?

全世界のカスタマーケア チームが、さまざまな種類のシグナルを使用してサービスのステータスをモニタリングし、広範囲で問題が発生した場合はダッシュボードを更新します。また、必要に応じて、インシデントの解決後に詳細なインシデント解析レポートを投稿します。

インシデントとサービス停止の違いは何ですか?

この 2 つの用語は同じ意味で使われることがよくありますが、Google CSH ダッシュボードとお客様への連絡では、「インシデント」はサービスのパフォーマンスが劣化している状態を意味し、「サービス停止」はサービスがほとんど機能していない極めて深刻な状態を意味します。