Cloud Monitoring で Pub/Sub をモニタリングする

Google Cloud コンソール または Cloud Monitoring API を使用して Pub/Sub をモニタリングできます。

このドキュメントでは、Monitoring を使用して Google Cloud コンソールで Pub/Sub の使用状況をモニタリングする方法について説明します。

自動スケーリングで指標を使用する際のベスト プラクティスについては、Pub/Sub 指標をスケーリング シグナルとして使用するためのベスト プラクティスをご覧ください。

始める前に

Monitoring を使用する前に、次のものが準備されていることを確認します。

  • Cloud 請求先アカウント

  • 課金が有効になっている Pub/Sub プロジェクト

Cloud コンソールを使用したクイックスタートを完了すると、両方を確実に取得できます。

既存のダッシュボードを表示する

ダッシュボードでは、同じコンテキストで異なるソースからのデータを表示および分析できます。Google Cloud には、事前定義されたダッシュボードとカスタム ダッシュボードの両方が用意されています。たとえば、事前定義された Pub/Sub ダッシュボードの表示や、Pub/Sub に関連する指標データ、アラート ポリシー、ログエントリを表示するカスタム ダッシュボードの作成が行えます。

Cloud Monitoring を使用して Pub/Sub プロジェクトをモニタリングするには、次の手順を行います。

  1. Google Cloud コンソールで [Monitoring] ページに移動します。

    [モニタリング] に移動

  2. ページ上部でまだプロジェクトの名前を選択していない場合はここで選択します。

  3. ナビゲーション メニューから [ダッシュボード] をクリックします。

  4. [ダッシュボードの概要] ページで、新しいダッシュボードを作成するか、既存の Pub/Sub ダッシュボードを選択します。

    既存の Pub/Sub ダッシュボード検索するには、すべてのダッシュボードのフィルタで名前プロパティを選択して「Pub/Sub」と入力します。

カスタム ダッシュボードを作成、編集、管理する方法については、カスタム ダッシュボードを管理するをご覧ください。

単一の Pub/Sub 指標を表示する

Google Cloud コンソール を使用して 1 つの Pub/Sub 指標を表示するには、次の手順を行います。

  1. Google Cloud コンソールで [Monitoring] ページに移動します。

    [モニタリング] に移動

  2. ナビゲーション パネルで、[Metrics Explorer] を選択します。

  3. [構成] セクションで [指標を選択] をクリックします。

  4. フィルタに「Pub/Sub」と入力します。

  5. [有効なリソース] で、[Pub/Sub サブスクリプション] または [Pub/Sub トピック] を選択します。

  6. 特定の指標にドリルダウンして [Apply] をクリックします。

    特定の指標のページが開きます。

モニタリング ダッシュボードの詳細については、Cloud Monitoring のドキュメントをご覧ください。

Pub/Sub 指標とリソースタイプを表示する

割り当て使用量のモニタリング

特定のプロジェクトについて、現在の割り当てと使用状況を確認するには、IAM と管理の割り当てダッシュボードを使用します。

過去の割り当ての使用状況は、次の指標を使用して確認できます。

これらの指標では、consumer_quota モニタリング対象リソース タイプが使用されます。割り当てに関連するその他の指標については、指標の一覧をご覧ください。

たとえば、次の Monitoring Query Language クエリにより、各リージョンで使用されているパブリッシャー割り当ての割合を示すグラフを作成できます。

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | filter metric.quota_metric == 'pubsub.googleapis.com/regionalpublisher'
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio

使用量がデフォルトの割り当て上限を超えることが予想される場合は、関連するすべての割り当てに対してアラート ポリシーを作成します。このアラートは、使用量が上限の一定割合に達したときに起動します。たとえば、次の Monitoring Query Language クエリでは、いずれかの Pub/Sub 割り当ての使用率が 80% を超えるとアラート ポリシーがトリガーされます。

fetch consumer_quota
| filter resource.service == 'pubsub.googleapis.com'
| { metric serviceruntime.googleapis.com/quota/rate/net_usage
    | align delta_gauge(1m)
    | group_by [metric.quota_metric, resource.location],
        sum(value.net_usage)
  ; metric serviceruntime.googleapis.com/quota/limit
    | group_by [metric.quota_metric, resource.location],
        sliding(1m), max(val()) }
| ratio
| every 1m
| condition gt(val(), 0.8 '1')

割り当て指標のモニタリングとアラートをカスタマイズする方法について詳しくは、割り当て指標の使用をご覧ください。

割り当てについて詳しくは、割り当てと上限をご覧ください。

正常なサブスクリプションの維持

正常なサブスクリプションを維持するために、Pub/Sub 提供の指標を使用して複数のサブスクリプション プロパティをモニタリングできます。たとえば、確認応答されていないメッセージの量、メッセージの確認応答期限の有効期限などをモニタリングできます。サブスクリプションが正常で、メッセージ配信のレイテンシが低いかどうかを確認することもできます。

特定の指標の詳細については、次のセクションをご覧ください。

メッセージ バックログのモニタリング

メッセージのフローにサブスクライバーが確実に対応できるようにするには、ダッシュボードを作成します。ダッシュボードには、すべてのサブスクリプションについて、リソース別に集計された次のバックログ指標が表示されます。

これらの値がシステムのコンテキストで許容範囲外の場合にトリガーされるアラート ポリシーを作成します。たとえば、確認応答されていないメッセージの絶対数は必ずしも意味を持つとは限りません。100 万件のメッセージのバックログは、1 秒あたり 100 万件のメッセージのサブスクリプションでは許容できる可能性がありますが、1 秒あたり 1 件のメッセージのサブスクリプションでは許容できません。

バックログに関する一般的な問題

現象 問題 ソリューション
oldest_unacked_message_agenum_undelivered_messages の両方が連動して増加しています。 サブスクライバーがメッセージの量についていけていない
  • サブスクライバーのスレッドまたはプロセスを追加します。
  • サブスクライバーのマシンまたはコンテナを追加します。
  • メッセージの正常な確認応答やタイムリーな処理を妨げるコードのバグの兆候を探します(確認応答期限切れのモニタリングを参照)。
バックログのサイズが安定的に小さく、かつ oldest_unacked_message_age が着実に増加している場合、処理できないメッセージが存在する可能性があります。 メッセージが溜まる
  • アプリケーション ログを調べて、いくつかのメッセージがコードによるクラッシュの原因となっているかどうかを確認します。問題のメッセージがクライアントではなく Pub/Sub に溜まっている可能性は低いですが、起こり得ます。コードが各メッセージを正常に処理することを確認したら、サポートケースを作成します。
  • 一部のメッセージによってコードがクラッシュする場合は、それらのメッセージをデッドレター トピックに転送することを検討してください。
oldest_unacked_message_age がサブスクリプションのメッセージ保持期間を超えています。 永続的なデータ損失
  • メッセージ保持期間が終了する前に起動するアラートを設定します。

配信レイテンシの健全性をモニタリングする

Pub/Sub では、配信レイテンシは、パブリッシュされたメッセージがサブスクライバーに配信されるまでにかかる時間です。メッセージ バックログが増加している場合は、配信レイテンシの健全性スコアsubscription/delivery_latency_health_score)を使用して、レイテンシの増加の原因となっている要因を確認できます。

この指標は、10 分間のローリング期間における単一サブスクリプションの健全性を測定します。この指標により、サブスクリプションが一貫した低レイテンシを実現するために必要な次の基準に関する分析情報が得られます。

  • 無視できるシーク リクエスト。

  • 無視できる否定応答メッセージ(nack メッセージ)。

  • 期限切れのメッセージの確認応答期限。

  • 一貫して 30 秒未満の確認応答のレイテンシ。

  • 一貫して低い使用率。つまり、サブスクリプションが新しいメッセージを処理するのに十分な容量が常にある。

配信レイテンシの健全性スコアの指標は、指定された基準ごとに 0 または 1 のスコアを報告します。スコア 1 は正常な状態、スコア 0 は異常な状態を示します。

  • シーク リクエスト: 過去 10 分間にサブスクリプションがシーク リクエストを受けた場合、スコアは 0 に設定されます。サブスクリプションをシークすると、古いメッセージが最初にパブリッシュされたかなり後から再生され、配信のレイテンシが長くなる可能性があります。

  • 否定応答(nack)メッセージ: 過去 10 分間にサブスクリプションに否定応答(nack)リクエストがあった場合、スコアは 0 に設定されます。否定応答は、配信レイテンシが増加した場合にメッセージを再配信します。

  • 確認応答期限が経過している: 過去 10 分間に、サブスクリプションに期限切れの確認応答期限があった場合、スコアは 0 に設定されます。確認応答期限が切れたメッセージは、配信レイテンシを増加して再配信されます。

  • 確認応答レイテンシ: 過去 10 分間のすべての確認応答レイテンシの 99.9 パーセンタイルが 30 秒を超えた場合、スコアは 0 に設定されます。確認応答レイテンシが高い場合は、サブスクライバー クライアントがメッセージの処理に異常に長い時間を要していることを示しています。このスコアは、サブスクライバーのクライアント側にバグやリソース制約があることを意味する場合があります。

  • 低使用率: 使用率はサブスクリプション タイプごとに異なります。

    • StreamingPull: オープン ストリームが十分でない場合、スコアは 0 に設定されます。新しいメッセージに対して十分な容量を確保するために、より多くのストリームを開きます。

    • push: push エンドポイントに未処理のメッセージが多すぎる場合、スコアは 0 に設定されます。push エンドポイントに容量を追加して、新しいメッセージに対する容量を確保します。

    • pull: 未処理の pull リクエストが不足している場合、スコアは 0 に設定されます。同時 pull リクエストをさらに開き、新しいメッセージを受信する準備が整っていることを確認します。

指標を表示するには、Metrics Explorer で Pub/Sub サブスクリプション リソースタイプの [配信レイテンシの健全性スコア] 指標を選択します。一度に 1 つのサブスクリプションのみを選択するフィルタを追加します。積み上げ面グラフを選択し、特定の時点をポイントして、その時点のサブスクリプションの基準スコアを確認します。

次に示すのは、積み上げ面グラフを使用して 1 時間にプロットされた指標のスクリーンショットです。統合ヘルススコアは、午前 4 時 15 分に 5 に増加し、各基準のスコアは 1 になります。その後、合計スコアは午前 4 時 20 分に 4 に減少し、使用率スコアが 0 に低下します。

配信レイテンシ指標のスクリーンショット

Monitoring Query Language は、表現力の高いテキストベースのインターフェースを Cloud Monitoring の時系列データに提供します。次の MQL クエリは、サブスクリプションの配信レイテンシの健全性スコアを測定するグラフを作成します。

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/delivery_latency_health_score'
| filter (resource.subscription_id == '$SUBSCRIPTION')
| group_by 1m,
   [value_delivery_latency_health_score_sum:
     sum(if(value.delivery_latency_health_score, 1, 0))]
| every 1m

確認応答期限切れのモニタリング

メッセージ配信のレイテンシを短縮するために、Pub/Sub では、サブスクライバーのクライアントは限られた時間内に特定のメッセージの確認応答(ack)ができます。この期間は確認応答期限と呼ばれます。サブスクライバーでのメッセージの確認応答に時間がかかりすぎると、メールが再配信され、サブスクライバーに重複するメッセージが表示されます。これには、いくつかの要因が考えられます。

  • サブスクライバーのプロビジョニングが不足している(スレッドまたはマシンがさらに必要)。

  • 各メッセージの処理に、メッセージの確認応答期限よりも時間がかかる。Google Cloud クライアント ライブラリは、通常、個々のメッセージの期限を構成可能な上限まで延長します。ただし、最大延長期限はライブラリにも適用されます。

  • 一貫してクライアントをクラッシュするメッセージがある。

サブスクライバーがどれくらいの割合で確認応答期限を逃しているかを測定できます。具体的な指標は、サブスクリプション タイプによって異なります。

確認応答期限切れの割合が過度に高いと、システムのコスト効率が悪くなることがあります。各再配信と、各メッセージの繰り返しの処理試行は課金の対象となります。逆に、期限切れの割合が低い場合(たとえば、0.1~1%)は正常です。

メッセージのスループットをモニタリングする

pull サブスクライバーと StreamingPull サブスクライバーは、各 pull レスポンスでメッセージのバッチを受信することがあります。push サブスクリプションは、push リクエストごとに 1 つのメッセージを受信します。次の指標を使用して、サブスクライバーによって処理されるバッチ メッセージのスループットをモニタリングできます。

delivery_type ラベルでフィルタされた指標 subscription/sent_message_count を使用して、サブスクライバーによって処理されている個々の(つまり、バッチされていない)メッセージ スループットをモニタリングできます。

push サブスクリプションをモニタリングする

push サブスクリプションの場合は、次の指標をモニタリングします。

  • subscription/push_request_count

    response_codesubcription_id で指標をグループ化します。Pub/Sub の push サブスクリプションでは、メッセージの暗黙の確認応答としてレスポンス コードを使用するため、push リクエストのレスポンス コードをモニタリングすることが重要です。push サブスクリプションでは、タイムアウトまたはエラーが発生すると、指数バックオフが行われるため、エンドポイントの応答に基づいてバックログが急速に増加することがあります。

    エラー率が高い場合は配信が遅くなり、バックログが増加するため、アラートを設定することを検討してください。レスポンス クラスでフィルタされた指標を作成できます。ただし、push リクエストの数のほうが、バックログのサイズと経過時間の増加を調査するツールとして役立つ傾向があります。

  • subscription/num_outstanding_messages

    一般に、Pub/Sub は未処理のメッセージの数を制限します。ほとんどの場合、未処理のメッセージは 1,000 件未満にする必要があります。スループットが 1 秒あたりメッセージ 10,000 件程度のレートを達成すると、サービスでは未処理メッセージ数の上限が設定されます。この制限は 1,000 単位で行われます。最大値を超えると明確な保証はないため、1,000 件の未処理のメッセージが適切な目安になります。

  • subscription/push_request_latencies

    この指標は、push エンドポイントのレスポンスのレイテンシ分布を把握するのに役立ちます。 未処理のメッセージの数に制限があるため、エンドポイントのレイテンシはサブスクリプションのスループットに影響します。各メッセージの処理に 100 ミリ秒かかる場合、一般的に、スループットの上限は 1 秒あたり 10 メッセージになります。

未処理のメッセージの上限にアクセスするには、push サブスクライバーが、受信したメッセージの 99% を超える確認応答を行う必要があります。

Monitoring Query Language を使用して、サブスクライバーが確認応答するメッセージの比率を計算できます。次の MQL クエリは、サブスクライバーがサブスクリプションに確認応答したメッセージの比率のグラフを作成します。

fetch pubsub_subscription
| metric 'pubsub.googleapis.com/subscription/push_request_count'
| filter
    (resource.subscription_id == '$SUBSCRIPTION')
    | filter_ratio_by [], metric.response_class == 'ack'
    | every 1m

フィルタを使用してサブスクリプションをモニタリングする

サブスクリプションにフィルタを構成すると、Pub/Sub はフィルタと一致しないメッセージに自動的に確認応答します。この自動確認応答をモニタリングできます。

フィルタに一致しないメッセージがバックログ指標に含まれる場合があります。

フィルタと一致しない自動確認メッセージの比率をモニタリングするには、subscription/ack_message_count 指標を使用し、delivery_type ラベルを filter に設定します。

フィルタと一致しない自動確認応答メッセージのスループットとコストをモニタリングするには、subscription/byte_cost 指標を使用し、operation_type ラベルを filter_drop に設定します。これらのメッセージの料金の詳細については、Pub/Sub の料金ページをご覧ください。

転送済みの配信不能メッセージをモニタリングする

Pub/Sub がデッドレター トピックに転送する配信不能メッセージをモニタリングするには、subscription/dead_letter_message_count 指標を使用します。この指標は、Pub/Sub がサブスクリプションから転送する未配信メッセージの数を示します。

Pub/Sub が配信不能メッセージを転送していることを確認する場合、subscription/dead_letter_message_count 指標と topic/send_request_count 指標を比較できます。Pub/Sub がこれらのメッセージを転送しているデッドレター トピックを比較します。

また、デッドレター トピックにサブスクリプションを添付し、次の指標を使用して、このサブスクリプションで転送された転送不能メッセージをモニタリングすることもできます。

健全なパブリッシャーを維持する

パブリッシャーの主な目標は、メッセージ データを迅速に保持することです。このパフォーマンスは、response_code でグループ化された topic/send_request_count を使用してモニタリングします。この指標は、Pub/Sub が正常であり、リクエストを受け入れているかどうかを示します。

ほとんどの Cloud クライアント ライブラリは、失敗したメッセージを再試行するため、再試行可能なエラーのバックグラウンド率(1% 未満)を懸念する必要はありません。エラー率が 1% を超える場合は調査します。再試行不可能なコードは(クライアント ライブラリではなく)アプリケーションで処理されるため、レスポンス コードを確認する必要があります。パブリッシャー アプリケーションで異常な状態を示す適切な方法がない場合、topic/send_request_count の指標に対するアラートを設定することを検討してください。

パブリッシュ クライアントで、失敗したパブリッシュ リクエストを追跡することも同様に重要です。 クライアント ライブラリは、通常、失敗したリクエストを再試行しますが、パブリッシュを保証するものではありません。 Cloud クライアント ライブラリの使用時に永続的なパブリッシュ エラーを検出する方法については、メッセージのパブリッシュをご覧ください。パブリッシャー アプリケーションでは、少なくとも、永続的なパブリッシュ エラーをログに記録するようにしてください。これらのエラーを Cloud Logging に記録する場合は、アラート ポリシーを使用してログベースの指標を設定できます。

メッセージのスループットをモニタリングする

パブリッシャーはメッセージをバッチで送信できます。パブリッシャーによって送信されるメッセージ スループットを次の指標でモニタリングできます。

  • topic/send_request_count: パブリッシャーによって送信されたバッチ メッセージの量

  • topic/message_sizesカウント: パブリッシャーによって送信された個々の(つまり、バッチ処理されていない)メッセージの量。

    送信されるメッセージ数を計算するには、この指標にカウント アグリゲータを適用するか、Monitoring Query Language を使用します。次の MQL クエリは、トピックに送信された個々のメッセージのレートに関するグラフを作成します。

    fetch pubsub_topic
    | metric 'pubsub.googleapis.com/topic/message_sizes'
    | filter
        (resource.topic_id == '$TOPIC')
    | align delta(1m)
    | every 1m
    | group_by [], [row_count: row_count()]
    

次のステップ

  • 特定の指標のアラートを作成するには、指標ベースのアラート ポリシーの管理をご覧ください。

  • MQL を使用してモニタリング グラフを作成するには、Query Editor の使用をご覧ください。

  • 指標、モニタリング対象リソース、モニタリング対象リソース グループ、アラート ポリシーなどの Monitoring API の API リソースの詳細については、API リソースをご覧ください。