このページは Cloud Translation API によって翻訳されました。

37. デプロイチェックリスト

完了までの推定時間: 5 日間

操作可能なコンポーネントの所有者: OLT

スキルプロファイル: デプロイエンジニア

バージョン 1.14 以降では、デプロイの完了はオブザーバビリティとモニタリングスタックのダッシュボードに対して検証されます。

ServiceNow インシデントダッシュボードを確認する
- デプロイに関連する新しいインシデントや未解決のインシデントがないかどうかを確認します。
Grafana AlertManager ダッシュボードを確認する
- アクティブに発生しているアラートがないか確認します。
新しいインシデントとアラートのトリアージ 新しい ServiceNow インシデントまたは Grafana アラートが発生した場合は、次の手順を行います。
1. 問題を既知の問題に関するドキュメントと照らし合わせます。
2. 問題が既知の問題としてリストされていない場合は、エンジニアリングにエスカレーションして、今後の対応を評価してもらいます。解決策によっては、次の操作が必要になることがあります。
  - 根本的な問題を解決します。
  - アラートが誤検出である場合など、アラートを新しい既知の問題として文書化します。

デプロイ後、システム健全性の主な指標は、ServiceNow（SNOW）インシデントダッシュボードと Grafana AlertManager ダッシュボードの両方で、新しい予期しないインシデントやアラートが発生していないことです。

ServiceNow ダッシュボードには、システムによって自動的にチケットが発行された重大な問題の概要が表示されます。デプロイ後、このダッシュボードに新しい重大なインシデントは表示されません。

目的は、新しい未文書化のインシデントがトリガーされていないことを確認することです。表示されるインシデントは、すべて既知の問題のセクションにすでに記載されている必要があります。

AlertManager ダッシュボードでは、アクティブにトリガーされているアラートが表示されるため、システムのステータスをより迅速にリアルタイムで確認できます。ServiceNow インシデントが作成される前に、多くの場合、ここに問題が表示されます。

正常なシステムでは、新しいアラートは表示されません。アクティブなアラートはすべて、既知の問題のページで確認し、想定される動作であることを確認する必要があります。

両方のダッシュボードに新しい問題や未解決の問題が表示されない場合は、デプロイが成功し、システムが安定していることを強く確認できます。

既知の問題のページに記載されていないインシデントやアラートが見つかった場合は、前述のチェックリストに記載されているトリアージとエスカレーションの手順に進みます。新しい誤検出は、適切に対処して文書化できるように、エンジニアリングに報告する必要があります。

新しいアラートの調査が必要な場合、Grafana AlertManager の一般的なトリアージプロセスには次の手順が含まれます。

37. デプロイ チェックリスト コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。