Dataproc Serverless バッチ ワークロードのモニタリングとトラブルシューティング

次のセクションで説明する情報とツールを使用して、Dataproc Serverless for Spark のバッチ ワークロードのモニタリングとトラブルシューティングを行うことができます。

Spark UI

Spark UI は、Spark バッチ ワークロード用に Dataproc Serverless から Apache Spark の実行の詳細を収集します。Spark UI 機能はデフォルトで有効になっています。この機能は料金が発生しません。

Spark UI 機能によって収集されたデータは 90 日間保持されます。このウェブ インターフェースを使用すると、永続履歴サーバーを作成することなく、Spark ワークロードをモニタリングしてデバッグできます。

制限事項

Spark UI は、次の Dataproc Serverless ワークロードをサポートしていません。

必要な Identity and Access Management の権限とロール

バッチ ワークロードで Spark UI 機能を使用するには、次の権限が必要です。

  • データ収集の権限: dataproc.batches.sparkApplicationWrite。この権限は、バッチ ワークロードを実行するサービス アカウントに付与する必要があります。この権限は Dataproc Worker ロールに含まれています。このロールは、Dataproc Serverless がデフォルトで使用する Compute Engine のデフォルトのサービス アカウントに自動的に付与されます(Dataproc Serverless サービス アカウントをご覧ください)。ただし、バッチ ワークロードにカスタム サービス アカウントを指定する場合は、そのサービス アカウントに dataproc.batches.sparkApplicationWrite 権限を追加する必要があります(通常は、サービス アカウントに Dataproc Worker ロールを付与します)。

  • Spark UI アクセス権限: dataproc.batches.sparkApplicationRead。Google Cloud コンソールの Spark UI にアクセスするには、この権限をユーザーに付与する必要があります。この権限は、Dataproc Viewer ロール、Dataproc Editor ロールと Dataproc Administrator ロールに含まれています。Google Cloud コンソールで Spark UI を開くには、これらのロールのいずれか、またはこの権限を含むカスタムロールが必要です。

Spark UI を開く

Spark UI ページは、Spark バッチ ワークロード用の Google Cloud コンソールで使用できます。

  1. Dataproc バッチに移動

  2. バッチ ID をクリックして、バッチの詳細ページを開きます。
  3. 上部のメニューで [View Spark UI] をクリックします。

[Spark UI を表示] リンクが無効になっていますか?必要な権限が付与されていない場合、またはバッチの詳細ページで [Spark UI を有効にする] チェックボックスをオフにした場合、または バッチ ワークロードを送信するときに Create.dataproc.appContext.enabled プロパティを false(デフォルト: true)に設定した場合、[Spark UI を表示] ボタンは無効になります。

永続的履歴サーバー

Spark 向け Dataproc Serverless は、ワークロードの実行に必要なコンピューティング リソースを作成し、それらのリソースでワークロードを実行し、ワークロードが終了するとリソースを削除します。ワークロード指標とイベントは、ワークロードの完了後に保持されません。ただし、永続的履歴サーバー(PHS)を使用すると、ワークロード アプリケーションの履歴(イベントログ)を Cloud Storage に保持できます。

バッチ ワークロードで PHS を使用するには、次の手順を行います。

  1. Dataproc 永続的履歴サーバー(PHS)を作成します

  2. ワークロードを送信するときに PHS を指定します。

  3. コンポーネント ゲートウェイを使用して PHS に接続し、アプリケーションの詳細、スケジューラのステージ、タスクレベルの詳細、環境とエグゼキュータの情報を表示します。

Spark 向け Dataproc サーバーレスのログ

Spark 向け Dataproc サーバーレスでは、ロギングがデフォルトで有効になっており、ワークロードが完了した後にワークロード ログが保持されます。Spark 向け Dataproc サーバーレスは、Cloud Logging でワークロード ログを収集します。Dataproc Serverless for Spark のログには、ログ エクスプローラの Cloud Dataproc Batch リソースでアクセスできます。

Dataproc Serverless for Spark のログをクエリする

Google Cloud コンソールのログ エクスプローラには、バッチ ワークロード ログを調べるクエリを作成するためのクエリペインがあります。バッチ ワークロード ログを調べるクエリを作成する手順は次のとおりです。

  1. [ログ エクスプローラ] に移動

  2. 現在のプロジェクトが選択されています。[プロジェクトのスコープを絞り込む] をクリックして、別のプロジェクトを選択できます。
  3. バッチログクエリを定義します。

    • フィルタ メニューを使用して、バッチ ワークロードをフィルタします。

      1. [すべてのリソース] で、[Cloud Dataproc Batch] リソースを選択します。

        1. [リソースの選択] パネルで、バッチの [ロケーション]、[バッチ ID] の順に選択します。これらのバッチ パラメータは、Google Cloud コンソールの Dataproc の [バッチ] ページに表示されます。

        2. [適用] をクリックします。

        3. [ログ名を選択] で、[ログ名を検索] ボックスに「dataproc.googleapis.com」と入力して、クエリするログタイプを制限します。表示されたログファイル名を 1 つ以上選択します。

    • クエリエディタを使用して、VM 固有のログをフィルタします。

      1. 次の例に示すように、リソースタイプと VM リソース名を指定します。

        resource.type="cloud_dataproc_batch"
        labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCH_UUID-VM_SUFFIX"
        
        注:

        • BATCH_UUID: バッチ UUID は、Google Cloud コンソールの [バッチ] ページでバッチ ID をクリックすると表示される [バッチの詳細] ページに表示されます。

        バッチログには、VM リソース名のバッチ UUID も一覧表示されます。バッチ driver.log の例を次に示します。

  4. [クエリを実行] をクリックします。

Dataproc Serverless for Spark のログタイプとサンプルクエリ

次のリストに、さまざまな Dataproc サーバーレス ログタイプと、各ログタイプのログ エクスプローラのクエリの例を示します。

  1. dataproc.googleapis.com/output: このログファイルには、バッチ ワークロードの出力内容が含まれています。Dataproc Serverless for Spark は、バッチ出力を output Namespace にストリーミングし、ファイル名を JOB_ID.driver.log に設定します。

    出力ログのログ エクスプローラ クエリの例:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Foutput"
    

  2. dataproc.googleapis.com/spark: spark Namespace は、Dataproc クラスタのマスター VM とワーカー VM で実行されているデーモンとエグゼキュータの Spark ログを集約します。各ログエントリには、ログソースを識別する masterworker、または executor コンポーネントラベルが含まれています。

    • executor: ユーザーコード エグゼキュータからのログ。通常、これらは分散ログです。
    • master: Spark スタンドアロン リソース マネージャー マスターのログ。Dataproc on Compute Engine YARN ResourceManager ログに似ています。
    • worker: Spark スタンドアロン リソース マネージャー ワーカーのログ。Dataproc on Compute Engine YARN NodeManager ログに似ています。

    spark Namespace 内のすべてのログに対するログ エクスプローラのクエリの例:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
    

    spark Namespace の Spark スタンドアロン コンポーネント ログのサンプル ログ エクスプローラ クエリ:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fspark"
    jsonPayload.component="COMPONENT"
    

  3. dataproc.googleapis.com/startup: startup Namespace には、バッチ(クラスタ)の起動ログが含まれます。初期化スクリプトのログが含まれます。コンポーネントはラベルで識別されます。次に例を示します。

    startup-script[855]: ... activate-component-spark[3050]: ... enable spark-worker
    
    指定した VM の起動ログのログ エクスプローラ クエリの例:
    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fstartup"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCH_UUID-VM_SUFFIX"
    
  4. dataproc.googleapis.com/agent: agent Namespace は、Dataproc エージェント ログを集約します。各ログエントリには、ログソースを識別するファイル名ラベルが含まれています。

    指定したワーカー VM によって生成されたエージェントログのログ エクスプローラ クエリの例:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fagent"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCHUUID-wWORKER#"
    

  5. dataproc.googleapis.com/autoscaler: autoscaler Namespace は、Dataproc Serverless for Spark のオートスケーラー ログを集約します。

    指定したワーカー VM によって生成されたエージェントログのログ エクスプローラ クエリの例:

    resource.type="cloud_dataproc_batch"
    resource.labels.location="REGION"
    resource.labels.batch_id="BATCH_ID"
    logName="projects/PROJECT_ID/logs/dataproc.googleapis.com%2Fautoscaler"
    labels."dataproc.googleapis.com/resource_name"="gdpic-srvls-batch-BATCHUUID-wWORKER#"
    

詳細については、Dataproc ログをご覧ください。

Dataproc Serverless の監査ログ

Dataproc Serverless の監査ログについては、Dataproc 監査ロギングをご覧ください。

ワークロード指標

Spark 向け Dataproc サーバーレスのデフォルトでは、Spark 指標収集プロパティを使用して無効にしない限り、利用可能な Spark 指標の収集が有効になります。または、1 つ以上の Spark 指標のコレクションをオーバーライドできます。

ワークロード指標は、Metrics Explorer または Google Cloud コンソールの Batch の詳細ページから表示できます。

バッチ指標

Dataproc batch リソース指標では、バッチ エグゼキュータの数など、バッチリソースに関する分析情報を提供します。バッチ指標には dataproc.googleapis.com/batch という接頭辞が付いています。

Metrics Explorer でのバッチ指標の例

Spark 指標

利用可能な Spark 指標には、Spark のドライバとエグゼキュータの指標、システム指標が含まれます。使用可能な Spark 指標の先頭には custom.googleapis.com/ が付きます。

Metrics Explorer の Spark 指標の例。

指標アラートを設定する

Dataproc 指標のアラートを作成して、ワークロードの問題について通知を受け取ることができます。

グラフを作成

ワークロード指標を可視化するグラフを作成するには、Google Cloud コンソールの Metrics Explorer を使用します。たとえば、disk:bytes_used を表示するグラフを作成し、batch_id でフィルタリングできます。

Cloud Monitoring

Monitoring では、ワークロードのメタデータと指標を使用して、Spark 向け Dataproc サーバーレス ワークロードの健全性とパフォーマンスに関する分析情報を提供します。ワークロードの指標には、Spark 指標、バッチ指標、オペレーション指標があります。

Google Cloud コンソールで Cloud Monitoring を使用して、指標の調査、グラフの追加、ダッシュボードの作成、アラートの作成を行うことができます。

ダッシュボードの作成

複数のプロジェクトとさまざまな Google Cloud プロダクトの指標を使用して、ワークロードをモニタリングするダッシュボードを作成できます。詳細については、カスタム ダッシュボードの作成と管理をご覧ください。

高度なトラブルシューティング(プレビュー)

このセクションでは、Google Cloud コンソールで利用可能な高度なトラブルシューティング機能(プレビュー)について説明します。これらの機能には、Gemini in BigQuery サービスの一部である Dataproc Serverless の Gemini 支援のトラブルシューティングが含まれます。

プレビュー機能にアクセスする

高度なトラブルシューティング機能のプレビュー リリースに登録するには、Gemini in BigQuery の Pre-GA 登録フォームに必要事項を記入してお送りください。フォームが承認されると、フォームにリストされているプロジェクトはプレビュー機能にアクセスできるようになります。

プレビューの料金

プレビューへの参加に追加料金はかかりません。以下のプレビュー機能は、一般提供(GA)された時点で料金が発生します。

GA の請求に関する事前通知は、プレビューの登録フォームに入力したメールアドレスに送信されます。

特徴の要件

  • 登録: この機能には登録する必要があります。

  • 権限: dataproc.batches.analyze 権限が必要です。

    gcloud iam roles update CUSTOM_ROLE_ID --project=PROJECT_ID \
    --add-permissions="dataproc.batches.analyze"
    
  • Dataproc Serverless の Gemini 支援のトラブルシューティングを有効にする: Google Cloud コンソール、gcloud CLI、Dataproc API を使用して、定期的な各 Spark バッチ ワークロードを送信する場合は、Dataproc Serverless の Gemini 支援のトラブルシューティングを有効にします。定期的なバッチ ワークロードに対してこの機能を有効にすると、Dataproc はワークロード ログのコピーを 30 日間保存し、保存されたログデータを使用してワークロードに Gemini 支援のトラブルシューティングを行います。Spark ワークロードのログの内容については、Spark 向け Dataproc Serverless のログをご覧ください。

Console

次の手順を実行して、繰り返しの Spark バッチ ワークロードで Gemini 支援のトラブルシューティングを有効にします。

  1. Google Cloud コンソールで、Dataproc バッチ ページに移動します。

    Dataproc バッチに移動

  2. バッチ ワークロードを作成するには、[作成] をクリックします。

  3. [コンテナ] セクションで、[コホート] の名前を入力します。これにより、バッチが一連の繰り返しワークロードの一つとして識別されます。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH-Query1 を指定します。

  4. [バッチを作成] ページの他のセクションに必要に応じて入力し、[送信] をクリックします。詳細については、バッチ ワークロードを送信するをご覧ください。

gcloud

次の gcloud CLI gcloud dataproc batches submit コマンドをターミナル ウィンドウでローカルに実行するか、Cloud Shell で実行して、繰り返しの Spark バッチ ワークロードで Gemini による支援のトラブルシューティングを有効にします。

gcloud dataproc batches submit COMMAND \
    --region=REGION \
    --cohort=COHORT \
    other arguments ...

以下を置き換えます。

  • COMMAND: Spark ワークロード タイプ(SparkPySparkSpark-SqlSpark-R など)。
  • REGION: ワークロードが実行される リージョンを指定します。
  • COHORT: コホート名。バッチが一連の繰り返しワークロードの 1 つとして識別されます。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH Query 1 を指定します。

API

batches.create リクエストに RuntimeConfig.cohort 名を含めて、繰り返しの Spark バッチ ワークロードで Gemini 支援のトラブルシューティングを有効にします。Gemini 支援の分析は、このコホート名で送信された 2 回目以降のワークロードに適用されます。たとえば、毎日 TPC-H クエリを実行するスケジュール設定されたワークロードのコホート名として TPCH-Query1 を指定します。

例:

...
runtimeConfig:
  cohort: TPCH-Query1
...

Dataproc Serverless の Gemini 支援のトラブルシューティング

Google Cloud コンソールの [バッチの詳細] と [バッチ] リストページでは、次の Gemini 支援のトラブルシューティング プレビュー機能を使用できます。

  • [調査] タブ: [バッチの詳細] ページの [調査] タブには、[Health Overview(プレビュー)] セクションがあり、次の Gemini 支援のトラブルシューティング パネルがあります。

    • 自動調整の対象 1 つ以上のワークロードで自動チューニングを有効にした場合、実行中のワークロード、完了したワークロード、失敗したワークロードに適用された最新の自動チューニングの変更がこのパネルに表示されます。

    自動チューニング調査パネル。

    • 「今何が起きているのでしょうか?」そして、「それに対して何ができますか?」Gemini に相談」をクリックして、失敗したワークロードの修正や、成功しているが遅いワークロードの改善に役立つ推奨事項をリクエストします。

    「Gemini に相談」ボタン

    Gemini に相談」をクリックすると、Gemini for Google Cloud はワークロード ログ、Spark 指標、Spark イベントからエラー、異常、またはハイライトを生成します。Gemini for Google Cloud では、失敗したワークロードを修正したり、成功しているが遅いワークロードのパフォーマンスを向上したりするために実行できる推奨手順のリストを表示することもできます。

    Gemini for Google Cloud により生成された分析情報。

  • Gemini 支援のトラブルシューティングの列: プレビュー リリースの一部として、Google Cloud コンソールの Dataproc の [バッチ] リストページに、What was AutotunedWhat is happening now?What can I do about it? の列が追加されています。

    バッチは Gemini 列を一覧表示します。

    Gemini に相談」ボタンは、完了したバッチが FailedCancelled、または Succeeded 状態にある場合にのみ表示されます。「Gemini に相談」をクリックすると、Gemini for Google Cloud はワークロード ログ、Spark 指標、Spark イベントからエラー、異常、またはハイライトを生成します。Gemini for Google Cloud では、失敗したワークロードを修正したり、成功しているが遅いワークロードのパフォーマンスを向上したりするために実行できる推奨手順のリストを表示することもできます。

バッチ指標のハイライト

プレビュー リリースの一環として、Google Cloud コンソールの [バッチの詳細] ページには、重要なバッチ ワークロード指標の値を表示するグラフが含まれています。バッチの完了後に、指標グラフに値が入力されます。

バッチ指標ダッシュボード。

指標の表

次の表は、Google Cloud コンソールの [バッチの詳細] ページに表示される Spark ワークロードの指標の一覧と、指標の値からワークロードのステータスとパフォーマンスに関する分析情報を得る方法について説明します。

指標 確認できるポイント
エグゼキュータレベルの指標
JVM GC 時間と実行時間の比率 この指標は、エグゼキュータごとの JVM GC(ガベージ コレクション)時間と実行時間の比率を示します。比率が高い場合、特定のエグゼキュータで実行されているタスク内のメモリリークや非効率的なデータ構造であることを示しているため、オブジェクトのチャーンが高くなる可能性があります。
Disk Bytes Spilled この指標は、さまざまなエグゼキュータに流出したディスク バイトの合計数を示します。エグゼキュータのディスク バイト数が多すぎる場合は、データスキューが発生している可能性があります。指標が時間とともに増加する場合、メモリ不足またはメモリリークが発生しているステージがあることを示します。
読み取りと書き込みのバイト数 この指標は、エグゼキュータごとの書き込みバイト数と読み取りバイト数を示します。読み取りまたは書き込みのバイト数に大きな差異がある場合は、レプリケート結合によって特定のエグゼキュータでデータが増幅されるシナリオを示している可能性があります。
読み取りと書き込みのレコード この指標は、エグゼキュータごとの読み取りと書き込みのレコードを示します。書き込まれたレコード数が少ない状態で多数のレコードの読み取りを行うと、特定のエグゼキュータの処理ロジックでボトルネックが発生し、待機中にレコードが読み取られる可能性があります。読み取りと書き込みで常に遅延が発生するエグゼキュータは、それらのノード上のリソース競合またはエグゼキュータ固有のコードの非効率性を示している可能性があります。
シャッフル書き込み時間と実行時間の比率 この指標は、全体の実行時間に対して、エグゼキュータがシャッフル実行時間に費やした時間を示します。一部のエグゼキュータでこの値が高い場合は、データスキューまたはデータのシリアル化が非効率的であることを示している可能性があります。Spark UI で、シャッフルの書き込み時間が長いステージを特定できます。ステージ内で、完了に平均時間を超える時間がかかっているタスクを探します。シャッフル書き込み時間が長いエグゼキュータで、ディスク I/O アクティビティも長くなっているかを確認します。より効率的なシリアル化と追加のパーティショニング手順が役立つ場合があります。レコード読み取りと比較してレコードの書き込みが非常に大きい場合、非効率的な結合や誤った変換が原因で、意図しないデータの重複が発生している可能性があります。
アプリケーション レベルの指標
ステージの進行状況 この指標は、失敗したステージ、待機中のステージ、実行中のステージのステージ数を示します。失敗したステージや待機中のステージが多数ある場合は、データスキューが発生している可能性があります。Spark UI の [ステージ] タブを使用して、データ パーティションを確認し、ステージ失敗の理由をデバッグします。
バッチ Spark エグゼキュータ この指標は、必要になる可能性のあるエグゼキュータの数と実行中のエグゼキュータの数を示します。必要なエグゼキュータと実行中のエグゼキュータの差が大きい場合は、自動スケーリングに問題がある可能性があります。
VM レベルの指標
使用されたメモリ この指標は、使用中である VM メモリの割合を示します。マスターの割合が高い場合は、ドライバがメモリ不足に陥っている可能性があります。他の VM ノードでは、割合が高い場合、エグゼキュータがメモリ不足であることを示している可能性があります。これにより、ディスクの流出が高まり、ワークロード実行時間が遅くなる可能性があります。Spark UI を使用してエグゼキュータを分析し、GC 時間とタスクの失敗が多いかどうかを確認します。また、大規模なデータセットのキャッシュと変数の不要なブロードキャストについて、Spark コードをデバッグします。

ジョブのログ

プレビュー リリースの一環として、Google Cloud コンソールの [バッチの詳細] ページにジョブ(バッチ ワークロード)ログが一覧表示されます。ログには、ワークロード出力と Spark ログからフィルタされた警告とエラーが含まれます。ログの [重大度] を選択し、[フィルタ] を追加して、[ログ エクスプローラで表示] アイコンをクリックして選択したログ エクスプローラのバッチログを開くことができます。

例: Google Cloud コンソールの [バッチの詳細] ページの重大度セレクタで [Errors] を選択すると、[ログ エクスプローラ] が開きます。

バッチ ログ エクスプローラ。