Dataproc Serverless ワークロードのモニタリングとトラブルシューティングを行う

以下のセクションで説明する情報とツールを使用して、Spark バッチ ワークロードの Dataproc Serverless のモニタリングとトラブルシューティングを行うことができます。

永続的履歴サーバー

Spark 向け Dataproc Serverless は、ワークロードの実行に必要なコンピューティング リソースを作成し、それらのリソースでワークロードを実行し、ワークロードが終了するとリソースを削除します。ワークロード指標とイベントは、ワークロードの完了後に保持されません。ただし、永続的履歴サーバー(PHS)を使用すると、ワークロード アプリケーションの履歴(イベントログ)を Cloud Storage に保持できます。

バッチ ワークロードで PHS を使用するには、次の手順を行います。

  1. Dataproc 永続的履歴サーバー(PHS)を作成します

  2. ワークロードを送信するときに、PHS を指定します。

  3. コンポーネント ゲートウェイを使用して PHS に接続し、アプリケーションの詳細、スケジューラのステージ、タスクレベルの詳細、環境とエグゼキュータの情報を表示します。

Spark 向け Dataproc サーバーレスのログ

Spark 向け Dataproc サーバーレスでは、ロギングがデフォルトで有効になっており、ワークロードが完了した後にワークロード ログが保持されます。Spark 向け Dataproc サーバーレスは、Cloud Logging でワークロード ログを収集します。ワークロード sparkagentoutputcontainer のログを、ログ エクスプローラの Cloud Dataproc Batch リソースで確認できます。

Spark 向け Dataproc サーバーレスのバッチの例:

Metrics Explorer でのバッチ選択の例。

詳細については、Dataproc のログをご覧ください。

Dataproc Serverless の監査ログ

Dataproc Serverless の監査ログについては、Dataproc 監査ロギングをご覧ください。

ワークロード指標

Spark 向け Dataproc サーバーレスのデフォルトでは、Spark 指標収集プロパティを使用して無効にしない限り、利用可能な Spark 指標の収集が有効になります。または、1 つ以上の Spark 指標のコレクションをオーバーライドできます。

ワークロード指標は、Metrics Explorer または Google Cloud コンソールの Batch の詳細ページから表示できます。

バッチ指標

Dataproc batch リソース指標では、バッチ エグゼキュータの数など、バッチリソースに関する分析情報を提供します。バッチ指標には dataproc.googleapis.com/batch という接頭辞が付いています。

Metrics Explorer でのバッチ指標の例

Spark 指標

利用可能な Spark 指標には、Spark のドライバとエグゼキュータの指標、システム指標が含まれます。使用可能な Spark 指標の先頭には custom.googleapis.com/ が付きます。

Metrics Explorer の Spark 指標の例。

指標アラートを設定する

Dataproc 指標のアラートを作成して、ワークロードの問題について通知を受け取ることができます。

グラフを作成

ワークロード指標を可視化するグラフを作成するには、Google Cloud コンソールの Metrics Explorer を使用します。たとえば、disk:bytes_used を表示するグラフを作成し、batch_id でフィルタリングできます。

Cloud Monitoring

Monitoring では、ワークロードのメタデータと指標を使用して、Spark 向け Dataproc サーバーレス ワークロードの健全性とパフォーマンスに関する分析情報を提供します。ワークロードの指標には、Spark 指標、バッチ指標、オペレーション指標があります。

Google Cloud コンソールで Cloud Monitoring を使用して、指標の調査、グラフの追加、ダッシュボードの作成、アラートの作成を行うことができます。

ダッシュボードの作成

複数のプロジェクトとさまざまな Google Cloud プロダクトの指標を使用して、ワークロードをモニタリングするダッシュボードを作成できます。詳細については、カスタム ダッシュボードの作成と管理をご覧ください。

高度なトラブルシューティング(プレビュー)

このセクションでは、Google Cloud コンソールで利用可能な高度なトラブルシューティング機能(プレビュー)について説明します。これらの機能には、Gemini in BigQuery サービスの一部である Dataproc Serverless の Gemini 支援のトラブルシューティングが含まれます。

プレビュー機能にアクセスする

高度なトラブルシューティング機能のプレビュー リリースに登録するには、Gemini in BigQuery の Pre-GA 登録フォームに必要事項を記入してお送りください。フォームが承認されると、フォームにリストされているプロジェクトはプレビュー機能にアクセスできるようになります。

プレビューの料金

プレビューへの参加に追加料金はかかりません。以下のプレビュー機能は、一般提供(GA)された時点で料金が発生します。

GA の請求に関する事前通知は、プレビューの登録フォームに入力したメールアドレスに送信されます。

特徴の要件

  • 登録: この機能には登録する必要があります。

  • 権限: dataproc.batches.analyze 権限が必要です。

    gcloud iam roles update CUSTOM_ROLE_ID --project=PROJECT_ID \
    --add-permissions="dataproc.batches.analyze"
    
  • Dataproc Serverless の Gemini 支援のトラブルシューティングを有効にする: Google Cloud コンソール、gcloud CLI、Dataproc API を使用して、定期的な各 Spark バッチ ワークロードを送信する場合は、Dataproc Serverless の Gemini 支援のトラブルシューティングを有効にします。定期的なバッチ ワークロードに対してこの機能を有効にすると、Dataproc はワークロード ログのコピーを 30 日間保存し、保存されたログデータを使用してワークロードに Gemini 支援のトラブルシューティングを行います。Spark ワークロードのログの内容については、Spark 向け Dataproc Serverless のログをご覧ください。

コンソール

次の手順を実行して、繰り返しの Spark バッチ ワークロードで Gemini 支援のトラブルシューティングを有効にします。

  1. Google Cloud コンソールで、Dataproc バッチ ページに移動します。

    Dataproc バッチに移動

  2. バッチ ワークロードを作成するには、[作成] をクリックします。

  3. [コンテナ] セクションで、[コホート] の名前を入力します。これにより、バッチが一連の繰り返しワークロードの一つとして識別されます。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH-Query1 を指定します。

  4. [バッチを作成] ページの他のセクションに必要に応じて入力し、[送信] をクリックします。詳細については、バッチ ワークロードを送信するをご覧ください。

gcloud

次の gcloud CLI gcloud dataproc batches submit コマンドをターミナル ウィンドウでローカルに実行するか、Cloud Shell で実行して、繰り返しの Spark バッチ ワークロードで Gemini による支援のトラブルシューティングを有効にします。

gcloud dataproc batches submit COMMAND \
    --region=REGION \
    --cohort=COHORT \
    other arguments ...

次のように置き換えます。

  • COMMAND: Spark ワークロード タイプ(SparkPySparkSpark-SqlSpark-R など)。
  • REGION: ワークロードが実行される リージョンを指定します。
  • COHORT: コホート名。バッチが一連の繰り返しワークロードの 1 つとして識別されます。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH Query 1 を指定します。

API

batches.create リクエストに RuntimeConfig.cohort 名を含めて、繰り返しの Spark バッチ ワークロードで Gemini 支援のトラブルシューティングを有効にします。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH-Query1 を指定します。

例:

...
runtimeConfig:
  cohort: TPCH-Query1
...

Dataproc Serverless の Gemini 支援のトラブルシューティング

Google Cloud コンソールの [バッチの詳細] と [バッチ] リストページでは、次の Gemini 支援のトラブルシューティング プレビュー機能を使用できます。

  • [調査] タブ: [バッチの詳細] ページの [調査] タブには、[Health Overview(プレビュー)] セクションがあり、次の Gemini 支援のトラブルシューティング パネルがあります。

    • 自動調整の対象 1 つ以上のワークロードで自動チューニングを有効にした場合、実行中のワークロード、完了したワークロード、失敗したワークロードに適用された最新の自動チューニングの変更がこのパネルに表示されます。

    自動チューニング調査パネル。

    • 「今何が起きているのでしょうか?」そして、「それに対して何ができますか?」[Gemini に質問する] をクリックして、失敗したワークロードの修正や、成功しているが遅いワークロードの改善に役立つ推奨事項をリクエストします。

    [Gemini に質問する] ボタン

    [Gemini に質問する] をクリックすると、Gemini for Google Cloud はワークロード ログ、Spark 指標、Spark イベントからエラー、異常、またはハイライトを生成します。Gemini for Google Cloud では、失敗したワークロードを修正したり、成功しているが遅いワークロードのパフォーマンスを向上したりするために実行できる推奨手順のリストを表示することもできます。

    Gemini for Google Cloud により生成された分析情報。

  • Gemini 支援のトラブルシューティングの列: プレビュー リリースの一部として、Google Cloud コンソールの Dataproc の [バッチ] リストページに、What was AutotunedWhat is happening now?What can I do about it? の列が追加されています。

    バッチは Gemini 列を一覧表示します。

    [Gemini に質問する] ボタンは、完了したバッチが FailedCancelled、または Succeeded 状態にある場合にのみ表示されます。[Gemini に質問する] をクリックすると、Gemini for Google Cloud はワークロード ログ、Spark 指標、Spark イベントからエラー、異常、またはハイライトを生成します。Gemini for Google Cloud では、失敗したワークロードを修正したり、成功しているが遅いワークロードのパフォーマンスを向上したりするために実行できる推奨手順のリストを表示することもできます。

バッチ指標のハイライト

プレビュー リリースの一環として、Google Cloud コンソールの [バッチの詳細] ページには、重要なバッチ ワークロード指標の値を表示するグラフが含まれています。バッチの完了後に、指標グラフに値が入力されます。

バッチ指標ダッシュボード。

指標テーブル

次の表は、Google Cloud コンソールの [バッチの詳細] ページに表示される Spark ワークロードの指標の一覧と、指標の値からワークロードのステータスとパフォーマンスに関する分析情報を得る方法について説明します。

指標 確認できるポイント
エグゼキュータレベルの指標
JVM GC 時間と実行時間の比率 この指標は、エグゼキュータごとの JVM GC(ガベージ コレクション)時間と実行時間の比率を示します。比率が高い場合、特定のエグゼキュータで実行されているタスク内のメモリリークや非効率的なデータ構造であることを示しているため、オブジェクトのチャーンが高くなる可能性があります。
Disk Bytes Spilled この指標は、さまざまなエグゼキュータに流出したディスク バイトの合計数を示します。エグゼキュータのディスク バイト数が多すぎる場合は、データスキューが発生している可能性があります。指標が時間とともに増加する場合、メモリ不足またはメモリリークが発生しているステージがあることを示します。
読み取りと書き込みのバイト数 この指標は、エグゼキュータごとの書き込みバイト数と読み取りバイト数を示します。読み取りまたは書き込みのバイト数に大きな差異がある場合は、レプリケート結合によって特定のエグゼキュータでデータが増幅されるシナリオを示している可能性があります。
読み取りと書き込みのレコード この指標は、エグゼキュータごとの読み取りと書き込みのレコードを示します。書き込まれたレコード数が少ない状態で多数のレコードの読み取りを行うと、特定のエグゼキュータの処理ロジックでボトルネックが発生し、待機中にレコードが読み取られる可能性があります。読み取りと書き込みで常に遅延が発生するエグゼキュータは、それらのノード上のリソース競合またはエグゼキュータ固有のコードの非効率性を示している可能性があります。
シャッフル書き込み時間と実行時間の比率 この指標は、全体の実行時間に対して、エグゼキュータがシャッフル実行時間に費やした時間を示します。一部のエグゼキュータでこの値が高い場合は、データスキューまたはデータのシリアル化が非効率的であることを示している可能性があります。Spark UI で、シャッフルの書き込み時間が長いステージを特定できます。ステージ内で、完了に平均時間を超える時間がかかっているタスクを探します。シャッフル書き込み時間が長いエグゼキュータで、ディスク I/O アクティビティも長くなっているかを確認します。より効率的なシリアル化と追加のパーティショニング手順が役立つ場合があります。レコード読み取りと比較してレコードの書き込みが非常に大きい場合、非効率的な結合や誤った変換が原因で、意図しないデータの重複が発生している可能性があります。
アプリケーション レベルの指標
ステージの進行状況 この指標は、失敗したステージ、待機中のステージ、実行中のステージのステージ数を示します。失敗したステージや待機中のステージが多数ある場合は、データスキューが発生している可能性があります。Spark UI の [ステージ] タブを使用して、データ パーティションを確認し、ステージ失敗の理由をデバッグします。
バッチ Spark エグゼキュータ この指標は、必要になる可能性のあるエグゼキュータの数と実行中のエグゼキュータの数を示します。必要なエグゼキュータと実行中のエグゼキュータの差が大きい場合は、自動スケーリングに問題がある可能性があります。
VM レベルの指標
使用されたメモリ この指標は、使用中である VM メモリの割合を示します。マスターの割合が高い場合は、ドライバがメモリ不足に陥っている可能性があります。他の VM ノードでは、割合が高い場合、エグゼキュータがメモリ不足であることを示している可能性があります。これにより、ディスクの流出が高まり、ワークロード実行時間が遅くなる可能性があります。Spark UI を使用してエグゼキュータを分析し、GC 時間とタスクの失敗が多いかどうかを確認します。また、大規模なデータセットのキャッシュと変数の不要なブロードキャストについて、Spark コードをデバッグします。

ジョブのログ

プレビュー リリースの一環として、Google Cloud コンソールの [バッチの詳細] ページにジョブ(バッチ ワークロード)ログが一覧表示されます。ログには、ワークロード出力と Spark ログからフィルタされた警告とエラーが含まれます。ログの [重大度] を選択し、[フィルタ] を追加して、[ログ エクスプローラで表示] アイコンをクリックして選択したログ エクスプローラのバッチログを開くことができます。

例: Google Cloud コンソールの [バッチの詳細] ページの重大度セレクタで [Errors] を選択すると、[ログ エクスプローラ] が開きます。

バッチログ エクスプローラ。

Spark UI(プレビュー)

Spark UI プレビュー機能にプロジェクトを登録した場合は、Dataproc PHS(永続的履歴サーバー)クラスタを作成せずに、Google Cloud コンソールで Spark UI を表示できます。Spark UI は、バッチ ワークロードから Spark 実行の詳細情報を収集します。詳しくは、Spark UI プレビュー リリースの一部として登録ユーザーに配布されたユーザーガイドをご覧ください。