37. デプロイ チェックリスト

完了までの推定時間: 5 日間

操作可能なコンポーネントの所有者: OLT

スキル プロファイル: デプロイ エンジニア

バージョン 1.14 以降では、デプロイの完了はオブザーバビリティとモニタリング スタックのダッシュボードに対して検証されます。


  1. ServiceNow インシデント ダッシュボードを確認する

    • デプロイに関連する新しいインシデントや未解決のインシデントがないかどうかを確認します。
  2. Grafana AlertManager ダッシュボードを確認する

    • アクティブに発生しているアラートがないか確認します。
  3. 新しいインシデントとアラートのトリアージ 新しい ServiceNow インシデントまたは Grafana アラートが発生した場合は、次の手順を行います。

    1. 問題を既知の問題に関するドキュメントと照らし合わせます。
    2. 問題が既知の問題としてリストされていない場合は、エンジニアリングにエスカレーションして、今後の対応を評価してもらいます。解決策によっては、次の操作が必要になることがあります。
      • 根本的な問題を解決します。
      • アラートが誤検出である場合など、アラートを新しい既知の問題として文書化します。

37.1. システム状態の確認

デプロイ後、システム健全性の主な指標は、ServiceNow(SNOW)インシデント ダッシュボードと Grafana AlertManager ダッシュボードの両方で、新しい予期しないインシデントやアラートが発生していないことです。


37.1.1. ServiceNow インシデント ダッシュボード

ServiceNow ダッシュボードには、システムによって自動的にチケットが発行された重大な問題の概要が表示されます。デプロイ後、このダッシュボードに新しい重大なインシデントは表示されません。

目的は、新しい未文書化のインシデントがトリガーされていないことを確認することです。表示されるインシデントは、すべて既知の問題のセクションにすでに記載されている必要があります。


37.1.2. Grafana AlertManager ダッシュボード

AlertManager ダッシュボードでは、アクティブにトリガーされているアラートが表示されるため、システムのステータスをより迅速にリアルタイムで確認できます。ServiceNow インシデントが作成される前に、多くの場合、ここに問題が表示されます。

正常なシステムでは、新しいアラートは表示されません。アクティブなアラートはすべて、既知の問題のページで確認し、想定される動作であることを確認する必要があります。


37.1.3. 結果の解釈

両方のダッシュボードに新しい問題や未解決の問題が表示されない場合は、デプロイが成功し、システムが安定していることを強く確認できます。

既知の問題のページに記載されていないインシデントやアラートが見つかった場合は、前述のチェックリストに記載されているトリアージとエスカレーションの手順に進みます。新しい誤検出は、適切に対処して文書化できるように、エンジニアリングに報告する必要があります。


37.2. トリアージ ワークフローの例

新しいアラートの調査が必要な場合、Grafana AlertManager の一般的なトリアージ プロセスには次の手順が含まれます。

  1. 優先度でグループ化: まず、アラートをグループ化して、最も重大な問題に焦点を当てます。 Group_by_prio

  2. チケットを割り当てる: 所有権と追跡を確保するため、アラートにチケットを割り当てます。 Ticket_assign

  3. アラート ルールを確認する: トリガーされた特定のアラート ルールを調査して、その条件と目的を把握します。 Review_alerting_rules

  4. アラートの発生状態を確認する: ダッシュボードでアラートの発生の詳細と状態を確認します。 Check_firing_state

  5. アラートを確認する: 最後に、エスカレーション プロセスに進む前に、アラートがアクティブに発生しており、有効な問題を表していることを確認します。 Verify_Alert