Cloud Monitoring でインスタンスをモニタリングする

このドキュメントでは、Cloud Monitoring コンソールを使用して Spanner インスタンスをモニタリングする方法について説明します。

Cloud Monitoring コンソールには、Spanner 用のモニタリングツールがいくつか用意されています。

キュレートダッシュボード: Spanner リソースの事前に作成されたグラフが表示されます
カスタムグラフ: Metrics Explorer のアドホックグラフに加えて、カスタムダッシュボードのグラフがあります
アラート: 指定したしきい値を超える指標がある場合に通知されます

Spanner をプログラムでモニタリングする場合は、Cloud Monitoring 用の Cloud クライアントライブラリを使用して指標を取得します。

Cloud Monitoring のキュレートダッシュボードを使用する

Cloud Monitoring には、次のような Spanner インスタンスに関する重要な情報を要約して示すキュレートダッシュボードが用意されています。

インシデント: ユーザー作成のモニタリングアラート。オープン、アクティブ、解決済みのいずれかの状態になります。
イベント: Spanner 監査ログの一覧（有効かつ利用可能な場合）。
インスタンス: Spanner インスタンスの概要。コンピューティング容量、データベース数、インスタンスの状態などが表示されます。
スループットとストレージ使用量の集計グラフ。

Spanner ダッシュボードを表示する手順は次のとおりです。

Google Cloud Console で [Monitoring] を選択するか、次のボタンを使用します。

[モニタリング] に移動
ナビゲーションパネルに [リソース] が表示されている場合は [リソース] を選択し、[Cloud Spanner] を選択します。それ以外の場合は、[ダッシュボード] を選択し、[Cloud Spanner] という名前のダッシュボードを選択します。

インスタンスとデータベースの詳細を表示する

Spanner のキュレートダッシュボードを開くと、すべてのインスタンスの集計データが表示されます。[インスタンス] の下のインスタンス名をクリックすると、特定のインスタンスの詳細を表示できます。

ダッシュボードには、インスタンスのメタデータ、インスタンス内のデータベース、リージョン別に分類された指標のグラフなどが表示されます。

インスタンスダッシュボードページでは、インスタンス内の特定のデータベースのグラフを表示することもできます。

右側のインスタンス指標グラフの上にある [Database metrics] をクリックします。
[Select a breakdown] プルダウンリストで、調査するデータベースを選択します。

Cloud Monitoring コンソールに、データベースのグラフが表示されます。

Spanner 指標のカスタムグラフを作成する

Cloud Monitoring を使用して、Spanner の指標のカスタムグラフを作成できます。Metrics Explorer を使用して、一時的なアドホックグラフを作成するか、カスタムダッシュボードに表示するグラフを作成できます。

具体的には、Cloud Monitoring では 2 つ以上の指標の相関関係の有無を示すカスタムグラフを作成できます。たとえば、Spanner インスタンスの CPU 使用率とレイテンシとの相関関係を確認できます。これにより、インスタンスにコンピューティング容量を追加する必要があることや、一部のクエリの CPU 使用率が高くなっていることが示される場合があります。

この例を開始する手順は次のとおりです。

Google Cloud Console で [モニタリング] を選択するか、次のボタンを使用します。

[モニタリング] に移動
ナビゲーションパネルに [Metrics Explorer] が表示されている場合は選択します。それ以外の場合は、[リソース] を選択して [Metrics Explorer] を選択します。
[VIEW OPTIONS] タブをクリックし、[Log scale on Y-axis] チェックボックスをオンにします。このオプションは、1 つの指標の値が他の指標より著しく大きい場合に、複数の指標を比較するのに役立ちます。
右側のペインの上にあるプルダウンリストで [Line] を選択します。
[Metrics] タブをクリックします。グラフに指標を追加できるようになりました。

レイテンシの指標をグラフに追加する手順は次のとおりです。

[Find resource type and metric] ボックスに値「spanner.googleapis.com/api/request_latencies」を入力し、ボックスの下に表示される行をクリックします。
[Filter] ボックスに値「instance_id」を入力し、確認するインスタンス ID を入力して、[APPLY] をクリックします。
[Aggregator] プルダウンリストで、[max] をクリックします。
省略可: レイテンシパーセンタイルを変更します。
1. [SHOW ADVANCED OPTIONS] をクリックします。
2. [Aligner] プルダウンリストをクリックし、表示するレイテンシのパーセンタイルをクリックします。
  
  ほとんどの場合、一般的なレイテンシの量を把握するために 50 パーセンタイルレイテンシを確認する、または、最も遅い 1% のリクエストのレイテンシを把握するために 99 パーセンタイルレイテンシを確認する必要があります。

CPU 使用率の指標をグラフに追加する方法は次のとおりです。

[ADD METRIC] をクリックします。
[Find resource type and metric] ボックスに値「spanner.googleapis.com/instance/cpu/utilization」を入力し、ボックスの下に表示される行をクリックします。
[Filter] ボックスに値「instance_id」を入力し、確認するインスタンス ID を入力して、[APPLY] をクリックします。
[Aggregator] プルダウンリストで、[max] をクリックします。

これで、Spanner インスタンスの CPU 使用率とレイテンシの指標を表示するグラフが表示されました。両方の指標が同時に予想より高い場合、問題を解決するための追加の手順を行うことができます。

カスタムグラフ作成の詳細については、Cloud Monitoring のドキュメントをご覧ください。

Spanner 指標のアラートを作成する

Spanner インスタンスを作成する場合は、インスタンスのコンピューティング容量を選択します。インスタンスのワークロードが変化しても、Spanner ではインスタンスのコンピューティング容量は自動的に調整されません。そのため、インスタンスが CPU 使用率の推奨最大値とストレージの推奨上限内に収まるように、いくつかのアラートを設定する必要があります。

次の例は、一部の Spanner 指標のアラートポリシーを設定する方法を示しています。使用可能な指標の全一覧については、Spanner の指標一覧をご覧ください。

優先度の高い CPU

Spanner の優先度の高い CPU 使用率が推奨しきい値を上回ったときにトリガーするアラートポリシーを作成するには、次の設定を使用します。

アラートポリシーの作成手順

アラートポリシーを作成する方法は次のとおりです。

Google Cloud コンソールで、 [アラート] ページに移動します。
[アラート] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
通知チャンネルを作成せずに通知を受け取る場合は、[EDIT NOTIFICATION CHANNELS] をクリックして、通知チャンネルを追加します。チャンネルを追加したら、[アラート] ページに戻ります。
[アラート] ページで、[CREATE POLICY] をクリックします。
リソース、指標、フィルタを選択するには、[指標を選択] メニューを展開し、[新しい条件] テーブルの値を使用します。
1. （省略可）メニューを関連エントリに限定するには、フィルタバーにリソースまたは指標名を入力します。
2. リソースタイプを選択します。たとえば、[VM インスタンス] を選択します。
3. 指標カテゴリを選択します。たとえば、[インスタンス] を選択します。
4. 指標を選択します。たとえば、[CPU 使用率] を選択します。
5. [適用] を選択します。
[次へ] をクリックして、アラートポリシートリガーを構成します。これらのフィールドに入力するには、[Alert trigger の構成] テーブルの値を使用します。
[次へ] をクリックします。
（省略可）アラートポリシーに通知を追加するには、[通知チャネル] をクリックします。ダイアログで、メニューから 1 つ以上の通知チャンネルを選択し、[OK] をクリックします。

インシデントが開かれたときおよび閉じられたときに通知を受け取るには、[Notify on incident closure] をオンにします。デフォルトでは、インシデントが開かれたときにのみ通知が送信されます。
（省略可）インシデントの自動クローズ期間を更新します。このフィールドは、指標データがない場合に Monitoring がインシデントを閉じるタイミングを決定します。
（省略可）[Documentation] をクリックして、通知メッセージに追加する情報を入力します。
[アラート名] をクリックして、アラートポリシーの名前を入力します。
[ポリシーを作成] をクリックします。

[新しい条件] フィールド	値
リソースと指標	[リソース] メニューで、[Spanner インスタンス] を選択します。 [指標カテゴリー] メニューで、[インスタンス] を選択します。 [指標] メニューで、[優先度別の CPU 使用率] を選択します。（metric.type は `spanner.googleapis.com/instance/cpu/utilization_by_priority` です。）
フィルタ	`instance_id = YOUR_INSTANCE_ID` `priority = high`
時系列全体時系列のグループ化の基準	マルチリージョンインスタンスの場合: `location` リージョンインスタンスの場合は空白のままにします。
時系列全体時系列集計	`sum`
ローリングウィンドウ	`10 m`
ローリングウィンドウ関数	`mean`

アラート・トリガーの構成フィールド	値
条件タイプ	`Threshold`
アラートトリガー	`Any time series violates`
しきい値の位置	`Above threshold`
しきい値	マルチリージョンインスタンスの場合: `45%`。リージョンインスタンスの場合: `65%`。
再テストウィンドウ	`10 minutes`

稼働平均 24 時間 CPU

Spanner の CPU 使用率の 24 時間の移動平均が推奨しきい値を上回った場合にトリガーされるアラートポリシーを作成するには、次の設定を使用します。

アラートポリシーの作成手順

アラートポリシーを作成する方法は次のとおりです。

Google Cloud コンソールで、 [アラート] ページに移動します。
[アラート] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
通知チャンネルを作成せずに通知を受け取る場合は、[EDIT NOTIFICATION CHANNELS] をクリックして、通知チャンネルを追加します。チャンネルを追加したら、[アラート] ページに戻ります。
[アラート] ページで、[CREATE POLICY] をクリックします。
リソース、指標、フィルタを選択するには、[指標を選択] メニューを展開し、[新しい条件] テーブルの値を使用します。
1. （省略可）メニューを関連エントリに限定するには、フィルタバーにリソースまたは指標名を入力します。
2. リソースタイプを選択します。たとえば、[VM インスタンス] を選択します。
3. 指標カテゴリを選択します。たとえば、[インスタンス] を選択します。
4. 指標を選択します。たとえば、[CPU 使用率] を選択します。
5. [適用] を選択します。
[次へ] をクリックして、アラートポリシートリガーを構成します。これらのフィールドに入力するには、[Alert trigger の構成] テーブルの値を使用します。
[次へ] をクリックします。
（省略可）アラートポリシーに通知を追加するには、[通知チャネル] をクリックします。ダイアログで、メニューから 1 つ以上の通知チャンネルを選択し、[OK] をクリックします。

インシデントが開かれたときおよび閉じられたときに通知を受け取るには、[Notify on incident closure] をオンにします。デフォルトでは、インシデントが開かれたときにのみ通知が送信されます。
（省略可）インシデントの自動クローズ期間を更新します。このフィールドは、指標データがない場合に Monitoring がインシデントを閉じるタイミングを決定します。
（省略可）[Documentation] をクリックして、通知メッセージに追加する情報を入力します。
[アラート名] をクリックして、アラートポリシーの名前を入力します。
[ポリシーを作成] をクリックします。

[新しい条件] フィールド	値
リソースと指標	[リソース] メニューで、[Spanner インスタンス] を選択します。 [指標カテゴリー] メニューで、[インスタンス] を選択します。 [指標] メニューで、[Smoothed CPU utilization] を選択します。（metric.type は `spanner.googleapis.com/instance/cpu/smoothed_utilization` です。）
フィルタ	`instance_id = YOUR_INSTANCE_ID`
時系列全体時系列集計	`sum`
ローリングウィンドウ	`10 m`
ローリングウィンドウ関数	`mean`

アラート・トリガーの構成フィールド	値
条件タイプ	`Threshold`
アラートトリガー	`Any time series violates`
しきい値の位置	`Above threshold`
しきい値	`90%`
再テストウィンドウ	`10 minutes`

ストレージ

Spanner インスタンスのストレージが推奨しきい値を上回ったときにトリガーするアラートポリシーを作成するには、次の設定を使用します。

アラートポリシーの作成手順

アラートポリシーを作成する方法は次のとおりです。

Google Cloud コンソールで、 [アラート] ページに移動します。
[アラート] に移動

検索バーを使用してこのページを検索する場合は、小見出しが [Monitoring] である結果を選択します。
通知チャンネルを作成せずに通知を受け取る場合は、[EDIT NOTIFICATION CHANNELS] をクリックして、通知チャンネルを追加します。チャンネルを追加したら、[アラート] ページに戻ります。
[アラート] ページで、[CREATE POLICY] をクリックします。
リソース、指標、フィルタを選択するには、[指標を選択] メニューを展開し、[新しい条件] テーブルの値を使用します。
1. （省略可）メニューを関連エントリに限定するには、フィルタバーにリソースまたは指標名を入力します。
2. リソースタイプを選択します。たとえば、[VM インスタンス] を選択します。
3. 指標カテゴリを選択します。たとえば、[インスタンス] を選択します。
4. 指標を選択します。たとえば、[CPU 使用率] を選択します。
5. [適用] を選択します。
[次へ] をクリックして、アラートポリシートリガーを構成します。これらのフィールドに入力するには、[Alert trigger の構成] テーブルの値を使用します。
[次へ] をクリックします。
（省略可）アラートポリシーに通知を追加するには、[通知チャネル] をクリックします。ダイアログで、メニューから 1 つ以上の通知チャンネルを選択し、[OK] をクリックします。

インシデントが開かれたときおよび閉じられたときに通知を受け取るには、[Notify on incident closure] をオンにします。デフォルトでは、インシデントが開かれたときにのみ通知が送信されます。
（省略可）インシデントの自動クローズ期間を更新します。このフィールドは、指標データがない場合に Monitoring がインシデントを閉じるタイミングを決定します。
（省略可）[Documentation] をクリックして、通知メッセージに追加する情報を入力します。
[アラート名] をクリックして、アラートポリシーの名前を入力します。
[ポリシーを作成] をクリックします。

[新しい条件] フィールド	値
リソースと指標	[リソース] メニューで、[Spanner インスタンス] を選択します。 [指標カテゴリー] メニューで、[インスタンス] を選択します。 [指標] メニューで [ストレージ使用状況] を選択します。（metric.type は `spanner.googleapis.com/instance/storage/utilization` です。）
フィルタ	`instance_id = YOUR_INSTANCE_ID`
時系列全体時系列集計	`sum`
ローリングウィンドウ	`10 m`
ローリングウィンドウ関数	`max`

アラート・トリガーの構成フィールド	値
条件タイプ	`Threshold`
Condition triggers if	`Any time series violates`
しきい値の位置	`Above threshold`
しきい値	ノードあたりの最大ストレージに特定のしきい値を設定する必要はありません。ただし、保存容量の上限に近づいた際のアラートを設定することをおすすめします。詳細については、ストレージ使用率の指標をご覧ください。
再テストウィンドウ	`10 minutes`

次のステップ

Spanner の CPU 使用率とレイテンシの指標について理解する。
Google Cloud コンソールを使用して、インスタンスの最も重要な指標を簡単に表示する。
Cloud Monitoring の詳細について確認する

Cloud Monitoring でインスタンスをモニタリングする

Cloud Monitoring のキュレート ダッシュボードを使用する

インスタンスとデータベースの詳細を表示する

Spanner 指標のカスタムグラフを作成する

Spanner 指標のアラートを作成する

優先度の高い CPU

アラート ポリシーの作成手順

稼働平均 24 時間 CPU

アラート ポリシーの作成手順

ストレージ

アラート ポリシーの作成手順

次のステップ

Cloud Monitoring のキュレートダッシュボードを使用する

アラートポリシーの作成手順

アラートポリシーの作成手順

アラートポリシーの作成手順