コンテンツに移動
DevOps & SRE

Personalized Service Health の一般提供を開始: 今すぐ始めましょう

2024年1月26日
https://storage.googleapis.com/gweb-cloudblog-publish/images/psh-hero_Ty1sB8V.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2024 年 1 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。

インシデントによってクラウド サービスが中断されたときは、行動方針を立てて効果的な対応を計画できるように、原因と影響を理解することが重要です。2023 年 8 月、Google は Personalized Service Health を導入しました。これは、Google Cloud の中断に関する迅速かつ透明性のある実用的な情報を提供し、より効果的にインシデントに対応できるようにするためのサービスです。

このたび、Compute Engine、Cloud Storage、すべてのクラウド ネットワーキング サービス、BigQuery、Google Kubernetes Engine を含む 50 以上の Google Cloud プロダクトとサービスで、Personalized Service Health の一般提供が開始されました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/psh-architecture.max-1600x1600.png

Personalized Service Health は、個々の Google Cloud プロジェクトで有効化および管理されます。選択したプロジェクトで使用されている Google Cloud サービスを認識し、どのインシデントが最も関連性があるかを判断します。組織内の個々のプロジェクトまたは組織全体に対して Personalized Service Health を有効にできます。

Personalized Service Health を有効にすると、関連するインシデントの処理が開始され、Google Cloud コンソールの Service Health ダッシュボードに公開されます。ダッシュボードでは、進行中の中断を表示してプロジェクトへの影響を評価し、最新情報を追跡できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/product-screenshot.max-1700x1700.png

Personalized Service Health の使用方法

サービスの低下が生じた場合は、まず Personalized Service Health でインシデント対応を行ってください。新たな中断または進行中の中断に関する信頼できる情報を Google Cloud 内で確認でき、インシデント管理ワークフローを簡素化するためのさまざまな統合オプション(ログやアラートなど)もご利用いただけます。

Personalized Service Health はお客様に関連するインシデントについて最も広範囲な情報を提供しますが、バックアップとして、多くのお客様に影響する大規模インシデント情報が表示されるパブリック ステータス ダッシュボードである Google Cloud Service Health も使用することをおすすめします。

プロアクティブなアラートを通じてインシデントを発見

Personalized Service Health はログを出力し、Google Cloud サービスの中断が投稿または更新されたときにさまざまな宛先にアラートを送信します。これらの宛先のうち、どの宛先にどのような条件でアラートを送信するかを選択し、アラートの内容をカスタマイズして、インシデントに関する重要な情報(影響を受ける Google サービスと場所、プロジェクトとの現在の関連度、観測可能な現象、既知の軽減策など)を追加できます。

このような機能を利用するには、まずアラートを設定します。そこから、メール、SMS、Pub/Sub、Webhook、PagerDuty などの 1 つ以上の宛先にアラートが送信されるように構成したり、アラートを受け取りたいインシデントをフィルタするカスタム条件を構成したりできます。アラートは、Personalized Service Health、Cloud Monitoring、または Terraform 経由で直接作成できます。

自分に関係するサービス中断の確認方法を設定する

Personalized Service Health は、お客様に影響を与える可能性のある、お客様のプロジェクトに関連するインシデントを伝達するように設計されています。Personalized Service Health は、ダッシュボード、API、ログ、アラートなどの複数のインタラクション ポイントを提供します。各インタラクション ポイントには、追跡またはアラートを受け取りたい一連のインシデントを絞り込むのに役立つ構成可能なフィルタが用意されています。たとえば、特定の Google Cloud サービスやリージョンに関するアラート、またはプロジェクトに影響を与えていることが確認されたインシデントに関するアラートを受け取りたい場合、これを実現するには、ダッシュボードでインシデントを表示するときにフィルタを定義するか、アラートを作成するときにサンプル アラート ポリシーを使用します。

既存のインシデント管理ワークフローに統合

Personalized Service Health は、ご希望のインシデント管理ツールやワークフローにさまざまな方法で統合できます。たとえば、PagerDuty にアラートを統合して、サービス中断が始まった時点で該当するインシデント対応担当者にアラートを送信できます。または、Service Health API を使用してインシデント対応ダッシュボードと統合することもできます。

Service Health API を使用すると、特定のプロジェクト、あるいは組織の全プロジェクトに関連するすべてのインシデントにプログラムでアクセスできます。関連するすべてのインシデント、Google Cloud からの最新情報、影響の説明にも完全にプログラムでアクセス可能です。Service Health API を使用してインシデントをリクエストし、そのリクエストの出力をインシデント管理ワークフローで使用できます。

お客様の声

https://storage.googleapis.com/gweb-cloudblog-publish/images/ford.max-700x700.jpg

「重要なアプリケーションを扱う大規模な組織では、アプリケーションに影響を与えているインシデントを迅速かつ簡単に特定することが不可欠です。デプロイは複雑な場合があり、組織に関連するクラウド サービスの中断について分析情報を得ることが、より迅速な復旧につながる可能性があります。Google Cloud がサービス中断の可視性を迅速かつパーソナライズされた方法で提供し、それを当社の Google Cloud Platform テナントで Personalized Service Health(PSH)で利用できるようにしてくれたことを嬉しく思います。」

- Ford、Google Cloud 運用担当スーパーバイザー T.J. Brandon 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/telus_fZ4CgY2.max-700x700.jpg

「クラウド プロバイダは、サービス停止を早急に発表することについて過度に慎重になるものです。ですが顧客にとっては、知らないうちにワークロードが停止するよりも、プロアクティブにワークロードを移動して、後で、実際には問題がなかったことを知るほうが好ましいのです。Google Cloud が顧客に対してこのステップの透明性を高めていることには好感を抱いています。PSH を利用するのが今から楽しみです。」

- Telus、情報サービスおよびテクノロジー戦略担当ディレクター Justin Watts 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/SAP_ODVm3Q8.max-700x700.jpg

「当社では現在、Google Cloud との連携による重大なインシデント処理プログラムをサポートするために、Personalized Service Health を採用しています。これは、サービス停止対応という観点から、私たちのパートナーシップおいて重要なアセットとなります。Google Cloud サービスの障害による影響をリアルタイムで判断できることは、状況により効果的に対応するのに役立ちます。」

- SAP SE、グローバル クラウド サービス リスクおよびインシデント緩和担当責任者 Steffen Germersdorf 氏

Personalized Service Health の使用を開始する準備はできていますか?ぜひ実際にお試しください

-Cloud Reliability シニア プロダクト マネージャー Daniel Dobalian

-Incident Comms Platform エンジニアリング責任者 Bala Muthuvarathan

投稿先