Node Problem Detector を使用してシステム状態をモニタリングする

マイルストーン 77 以降、Container-Optimized OS には Node Problem Detector エージェントが含まれています。この機能を使用して、COS インスタンスのシステム状態をモニタリングできます。Node Problem Detector は、インスタンスの健全性をモニタリングし、健全性に関連する指標(容量とエラーの指標を含む)を Cloud Monitoring に報告します。指標は、Google Cloud のオペレーション スイートのダッシュボードで可視化できます。デフォルト構成から収集された指標は無料です。Google では、集約された指標を使用してノードの問題を把握し、Container-Optimized OS の信頼性を向上させます。

エージェントは、エクスポートする指標のセットで事前構成されています。現時点では、組み込みエージェントのカスタム レポートの指標はサポートされていません。Node Problem Detector はオープンソース ソフトウェアです。ソースコード構成は、それぞれのソース リポジトリで確認できます。

ヘルス モニタリングを有効にする

この機能は起動時にデフォルトで無効になっています。この機能を有効にするには、cloud-init または起動スクリプトを使用します。

cloud-init の例では、Container-Optimized OS インスタンスの構成の基本について説明しています。cloud-init を使用して、以下の cloud-config の例でヘルス モニタリングを有効にできます。

#cloud-config

runcmd:
- systemctl start node-problem-detector

収集された指標の表示

Node Problem Detector は、Compute Engine インスタンスのモニタリング対象リソースに対する指標のリストを報告します。指標は、compute.googleapis.com/guest/ の接頭辞が付けられて Monitoring 指標の一覧に記載されています。次のように、Monitoring Metrics Explorer を使用して、収集された指標を表示できます。

  1. Cloud Console で、[Monitoring] に移動するか、次のボタンを使用します。

    [モニタリング] に移動

  2. [Monitoring] のナビゲーション パネルで、 [Metrics Explorer] をクリックします。

  3. リソースタイプには、[Compute Engine VM instance] を選択します。

  4. 「Problem Count」などの指標を選択します。

  5. 右側にグラフと統計情報が表示されます。特定の Container-Optimized OS インスタンスの結果を表示するには、フィルタを "instance_id=[INSTANCE_ID]" に設定します([INSTANCE_ID] は、目的のインスタンスの ID で置き換えます)。

ヘルス モニタリングの無効化

この機能は起動時にデフォルトで無効になっています。この機能がすでに有効化されており、それを無効にしたい場合は、起動スクリプトcloud-config から systemctl start node-problem-detector の行を削除して、Container-Optimized OS インスタンスを再起動します。