Personalized Service Health を導入してインシデント対応時のコミュニケーションをレベルアップ
Google Cloud Japan Team
※この投稿は米国時間 2023 年 8 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
利用しているクラウド サービスがインシデントによって中断したときの効果的なインシデント対応は、中断の原因を特定し、影響の範囲を評価することから始まります。関係者に連絡するにせよ障害復旧手順を実施するにせよ、この最初のステップを行わなければ活動方針を決められません。しかし、クラウド サービス プロバイダを利用している場合、効果的なインシデント対応を開始できるかどうかは、プロバイダから送られてくるインシデント通知の透明性、適時性、実用性によって左右されます。
本日は、Personalized Service Health についてご紹介します。Google Cloud サービスの中断について、透明性かつ関連性のある実用的な通知を迅速に提供するサービスです。Personalized Service Health は現在プレビュー版として使用可能で、インシデント対応の中継地として、Google Cloud サービスの中断に関するきめ細かいアラートを受信できます。既存のインシデント対応ツール / モニタリング ツールに統合することもできます。
Personalized Service Health を使うべき理由
現在、Google はお客様に影響を与える可能性があるインシデントを検出すると、その情報を Google Cloud Service Health で包み隠さず公開しています。これは信頼性の高い Google の公開ダッシュボードで、広く周知する必要があるアクティブなインシデント(通常は影響の範囲が大きいか、または重大度が高いインシデント)に関する情報を提供するものです。Google Cloud Service Health には、Google Cloud プロダクトに影響を与えているインシデントに関するリアルタイムの情報が、プロダクトと各プロダクトの運用リージョン別に整理して表示されます。また、サービス中断履歴をダウンロードするメカニズムも備わっています。
これらの利点をレベルアップする Personalized Service Health は、多くのお客様にとってインシデント対応に向けた取り組みの絶好の出発点になります。Personalized Service Health には次の利点があります。
通知対象とするサービス中断の関連度を調整可能: Google Cloud Service Health には、発生したありとあらゆるインシデントではなく、多くのお客様に影響するインシデントが投稿されます。影響の規模が小さくても、より多くのインシデントを、より早く、より頻繁に確認したりアラートを受け取ったりしたい場合は、Personalized Service Health を使用することで、インシデントに関するアラートの起動方法とタイミングを構成できます。
既存のインシデント管理ワークフローに統合可能: Personalized Service Health は、ご希望のインシデント管理ツールおよびワークフローにさまざまな方法で統合できます。たとえば、PagerDuty にアラートを統合して、サービス中断が始まった時点で該当するインシデント対応担当者にアラートを送信できます。
プロアクティブにインシデントを検出可能: Personalized Service Health はログを出力するため、ワークフローでインシデントが見つけやすくなるよう、カスタマイズ可能なアラートを push することもできます。
これらの利点を詳しく見ていきましょう。
イベントの検出方法を選んでアラートを構成
Personalized Service Health は、Google Cloud サービスの中断が投稿または更新されたときに、さまざまな宛先にアラートを送信できます。これらの宛先のうち、どの宛先にどのような条件でアラートを送信するかを選択し、アラートの内容をカスタマイズして、インシデントに関する重要な情報(影響を受ける Google サービスと場所、プロジェクトとの現在の関連度、観測可能な現象、既知の軽減策など)を追加できます。
アラートは Personalized Service Health で直接構成することも、Cloud Monitoring で、または Terraform を介して構成することもできます。各アラートは、メール、SMS、Pub/Sub、Webhook、PagerDuty などのうち、1 つ以上の宛先に送信できます。また、1 つのプロジェクトを対象に複数のアラートを作成して、粒度をさらに高めることもできます。
Personalized Service Health は、プロジェクトにさまざまな程度で影響する可能性がある中断に関する情報を公開するように設計されています。このアプローチでは本質的に、絶対的に必要と思える情報よりも多くの情報が提供されることになります。バランスを取るために、次の統合ポイントでインシデントをフィルタして、関連すると思われるものだけを確認できます。
ダッシュボード: 表示される任意のフィールドとインシデントの新しさを基準にインシデント テーブルをフィルタできます。
アラート: 任意のインシデント フィールド(Google Cloud プロダクト、場所、プロジェクトとの関連度など)を条件にしたアラート ポリシーを作成できます。
API: API リクエストにリクエスト フィルタを含めて、アプリケーション内でプログラムによりさらにイベントを絞り込むことができます。
ログ: Cloud Logging でサポートされている堅牢なクエリ言語を使用して、ログがログシンクから別の宛先にルーティングされる際にログをフィルタできます。
既存のインシデント管理ワークフローに統合
インシデント対応には組織内の多数の人、チーム、ツールが関与する場合があります。既存のインシデント対応プロセスに組み込めるよう、Personalized Service Health にはさまざまなインテグレーション オプションが用意されているので、プログラムによるアクセス、事前対応的 / 事後対応的なインタラクションといったご希望の方法、あるいは既存のツールに応じて柔軟に統合できます。
Personalized Service Health は、Google Cloud コンソールでダッシュボードとして直接使用することも、ご希望のワークフロー内の既存のインシデント対応ツール / モニタリング ツールに組み込むこともできます。Service Health ダッシュボードには、プロジェクトに関連するアクティブなインシデントの一覧が表示され、各インシデントの影響に関する詳細を確認したり、Google Cloud サポートによる最新情報を追跡したりできます。このダッシュボードは迅速にセットアップして容易に管理できます。
Personalized Service Health を外部のアラートツール、モニタリング ツール、またはインシデント対応ツールに統合する場合は、Service Health API を介して、特定のプロジェクト、あるいは組織の全プロジェクトに関連するすべてのインシデントにプログラムでアクセスできます。この API では、関連するすべてのインシデントの完全なリスト、Google Cloud からの最新情報、影響の説明にもプログラムでアクセスできます。
サービス中断イベントの履歴を記録し、レポートを作成して、過去の中断から学ぶ
サービス中断が始まった時点で、その中断イベントのすべての最新情報について Cloud Logging が Personalized Service Health のログ収集を開始します。イベントの履歴を記録するために、これらのログを Storage バケットに保持できます。BigQuery によるログ分析を使用して、過去のサービス中断を分析することもできます。
一度統合すれば、経時的に大きくなるメリットを享受
このたび、Personalized Service Health は、Compute Engine、Cloud Storage、すべての Cloud ネットワーキング サービス、BigQuery、Google Kubernetes Engine をはじめ、50 を超える Google Cloud プロダクトおよびサービスに統合されました。統合された Google Cloud プロダクトでお客様に影響を与える可能性がある中断が検出されると、Personalized Service Health が影響を評価し、現象や既知の緩和策を含む最新情報、あるいは解決時期の目安を共有します。
プロダクトによっては、Personalized Service Health により、最初の投稿までの時間短縮、確定的な影響のシグナルといったさらに高度な機能を使用できる場合もあります。また、影響範囲が小さいインシデントについては、公開 Google Cloud Service Health ダッシュボードに投稿しないようにすることもできます。Personalized Service Health が統合された Google Cloud プロダクトの完全なリストについては、こちらをご覧ください。サポート対象の Google Cloud プロダクトと機能は今後も拡大されていく見込みです。
Google のお客様とパートナー様からの声
「クラウド プロバイダは、サービス停止を早急に発表することについて過度に慎重になるものです。ですが顧客にとっては、知らないうちにワークロードが停止するよりも、プロアクティブにワークロードを移動して、後で、実際には問題がなかったことを知るほうが好ましいのです。Google Cloud が顧客に対してこのステップの透明性を高めていることには好感を抱いています。PSH を利用するのが今から楽しみです。」
- Telus、情報サービスおよびテクノロジー戦略担当ディレクター Justin Watts 氏
「どの企業顧客のインシデント対応プロセスでも、Personalized Service Health からインシデント対応担当者へのプロアクティブなアラートは不可欠です。PagerDuty と Google Cloud のパートナーシップは、Cloud サービスの中断に迅速に対応し、シームレスなデジタル エクスペリエンスを実現するために欠かせない最新のオペレーション プラットフォームを顧客に提供することを可能にします。」
- PagerDuty、SVP プロダクト担当 Jonathan Rende 氏
今すぐ使用を開始する
クラウド内でのワークロードには信頼性に優れたインフラストラクチャが不可欠です。このことから、Google はテクノロジー、プロダクト、プロセスのイノベーションによって継続的に信頼性の水準を引き上げています。信頼性の主な要素には、インシデント対応のスピードと有効性が含まれます。どんなに可能性が低くても、クラウド サービスのインシデント発生中は、卓越したコミュニケーションが行われることが極めて重要です。Personalized Service Health はインシデント対応でのコミュニケーションの有効性を次のレベルに引き上げるために必要な情報を提供します。そのため、何が起きているのかを迅速に評価し、アプリケーションへの影響を最小限に抑えるための行動を取り、関係者に情報を提供し続けることができます。ご利用を開始するには、プロジェクトあるいは組織全体で Personalized Service Health を有効にしてください。
- Cloud Reliability シニア プロダクト マネージャー Daniel Dobalian
- Cloud Reliability グループ プロダクト マネージャー Ravi Ramachandran