Palo Alto Networks、Personalized Service Health でインシデントの解決を迅速化
Sabitha Muppuri
Sr Staff Service Reliability Engineer, Palo Alto Networks
Flemming Christensen
Product Leader for Customer Telemetry, Google Cloud
※この投稿は米国時間 2025 年 1 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。
クラウド インシデントの発生は避けられません。インシデントの発生時に、その内容について、影響を受けるお客様に迅速かつ効果的に伝えるのがクラウド サービス プロバイダの責任です。クラウド サービスのお客様は、その情報をインシデント管理対応の一環として効果的に使用しなければなりません。
Google Cloud Personalized Service Health は、Google Cloud のサービス障害について、透明性と関連性のある実用的な通知を迅速に提供するもので、企業ごとに詳細レベルのカスタマイズが可能です。Google Cloud のパートナーであり、お客様でもある、サイバーセキュリティ企業の Palo Alto Networks は最近、Google Cloud ベースの Prisma Access サービスのインシデント ワークフローに Personalized Service Health のシグナルを統合し、サービスの利用者がインシデント発生中に貴重な時間を節約できるようにしました。
プログラムを使って Personalized Service Health のシグナルを高度なワークフロー コンポーネントに取り込むことで、Palo Alto Networks はビジネスの継続性を守るために緊急時対応を発動するかどうかなどの意思決定を迅速に行うことができます。
Palo Alto Networks がどのように Personalized Service Health を運用に取り入れたのか詳しく見ていきましょう。
Personalized Service Health の導入
Palo Alto Networks は、Prisma Access のインシデント通知を一元管理している自社の AIOps システムに、Personalized Service Health のログを取り込んでいます。ここで高度な技術を活用して、シグナルを分類し、対象インシデントの対応担当者に配信します。
Personalized Service Health の UI のインシデント リスト表示
Personalized Service Health のユーザーは、表示する関連性レベルをフィルタできます。「部分的に関連」は、使用中のサービスにおいて世界のどこかで発生した問題を反映しています。「関連」はデータセンター リージョン内で検出された問題を反映し、「影響あり」は、特定のサービスについて、そのお客様への影響を Google が確認したことを意味します。
Google がまだ確認中のインシデントの一部は、Personalized Service Health で「PSH の新しいインシデント」としてお客様に早期に通知されます。Google が確認したインシデントは「PSH の確認済みインシデント」と統合されます。この仕組みによって、お客様は環境に影響を及ぼしている特定のインシデントに、より迅速に対応し、必要に応じて Google にエスカレーションできます。
Personalized Service Health は、インシデント発生中に、通常は 30 分ごとに最新情報を配信し、進捗があった場合はその時点で知らせます。この情報はログにも書き込まれるため、Palo Alto Networks はこれを AIOps に取り込んでいます。
プログラムを使ってインシデントを取り込み、通知を配信することで、クラウド サービス プロバイダで発生した、中断を伴う想定外のインシデントへの対応を迅速化できます。この方法は、アプリケーション、ワークロード、お客様ごとに異なるチームがインシデント対応に関わる Palo Alto Networks のような大規模な組織で特に有効です。
インシデント ライフサイクルの促進
Palo Alto Networks は、取り込んだ Personalized Service Health のシグナルを自社の AIOps プラットフォームでさらに活用しています。AIOps では、ML と分析機能を使って IT 運用を自動化し、運用アプライアンスからのビッグデータを利用して問題の検出と対応を瞬時に行っています。AIOps はこれらのシグナルと、社内で生成されたアラートを照合し、複数のお客様に影響を及ぼしているインシデントを宣言します。AIOps のアラートは、通知、定期的な最新情報の配信、インシデント対応など、インシデント ライフサイクルの管理を支える他のインシデント管理ツールに関連付けられています。
また、データ拡充パイプラインが、Personalized Service Health のインシデントに Palo Alto Networks の関連情報を追加し、イベントを Pub/Sub にパブリッシュします。その後、AIOps が Pub/Sub からのインシデント データを取り込み、処理し、関連するイベント シグナルと照合して、サブスクライブしているチャンネルに通知します。
Palo Alto Networks は Google Cloud のアセットを Google Cloud コンソール内でフォルダに分けています。プロジェクトはそれぞれ Palo Alto Networks の Prisma Access のお客様を表しています。同様にエンド カスタマー固有のインシデント シグナルを受け取るために、Palo Alto Networks は各フォルダに固有のログシンクを作成し、Service Health のログをフォルダレベルで集約しています。そうすることで、それぞれのお客様に固有のインシデント シグナルを受け取り、さらなる対応をとることができます。
Palo Alto Networks は、Google Cloud から受け取るインシデント通知に基づき、以下の対応を推進しています。
-
ゾーン障害、リージョン間障害、外部の一斉障害を事前に検出
-
クラウド プロバイダのインシデントの影響を受けるワークロードを正確に特定
-
Google Cloud Platform 内のクラウド サービスの低下に起因するプロダクト問題の照合
Personalized Service Health の価値の認識
クラウド プロバイダ側に原因があるインシデントは、多くの場合、気づかれないまま終わるか、クラウド プロバイダ側の複数のチーム(サポート、エンジニアリング、SRE、アカウント管理)の関与なく分離するのが困難です。Personalized Service Health のアラート フレームワークと AIOps の照合エンジンを組み合わせることにより、Palo Alto Networks の SRE チームはクラウド プロバイダ側に原因がある問題をほぼ瞬時に分離できます。
Palo Alto Networks のインシデント管理ワークフローは、個別のお客様の障害よりも大規模な障害に対応するよう設計されており、インシデントが解決するまで適切なチームが関わることになっています。これには、オンコール エンジニアや Google Cloud サポートチームなどの関係者への通知も含まれます。Palo Alto Networks は、Personalized Service Health を使用することで、大規模な障害と個別のお客様の障害の両方のイベントタイプを取り込むことができます。
Palo Alto Networks にとって Personalized Service Health の価値は複数あり、特に影響を受ける Prisma Access のお客様を対象とする、インシデント対応の迅速化や、緊急時対応によるビジネスの継続性の最適化が挙げられます。Prisma Access のお客様に影響を及ぼすインシデントが発生した場合、お客様は当然、Palo Alto Networks に情報を求め、期待します。この情報を Google Cloud から Palo Alto Networks のインシデント対応システムに迅速に取り込むことで、Palo Alto Networks はこうしたエンド カスタマーに、より明確な回答を提供できます。また、Palo Alto Networks は Personalized Service Health の既存機能と将来的な機能に基づき、Palo Alto Networks の他のユースケースにも対応する計画です。
インシデント管理を新たなレベルへ
Google Cloud は、スタートアップから、ISV や SaaS プロバイダ、そして大企業まで、あらゆるお客様により深い価値を提供できるよう、Personalized Service Health を進化させ続けています。ご関心をお持ちの場合は、Personalized Service Health の詳細情報をご覧になるか、Google のアカウント担当者までお問い合わせください。
Palo Alto Networks と Google Cloud のコラボレーションにご協力いただいた Google の Pankhuri Kumar と Sudhanshu Jain に感謝いたします。
-Palo Alto Networks、シニア スタッフ サービス信頼性エンジニア、Sabitha Muppuri 氏
-Google Cloud、カスタマー テレメトリー担当プロダクト リーダー、Flemming Christensen