Dataproc on GKE クラスタを診断する

Dataproc には、Dataproc on GKE クラスタとジョブの問題のトラブルシューティングに役立つ gcloud CLI dataproc clusters diagnose コマンドがあります。このコマンドは、クラスタ関連の構成ファイル、ログ、出力を収集してアーカイブ ファイルにアーカイブし、Dataproc on GKE クラスタを作成したときに指定した Cloud Storage ステージング バケットにアーカイブをアップロードします。

アーカイブ ファイルを診断する

次の表に、dataproc clusters diagnose コマンド アーカイブ ファイルに含まれる指標とその他の情報を示します。

システム情報

項目 アーカイブの場所
仮想 Dataproc on GKE Pod が実行される GKE ノードの指標:
  • CPU 使用率
  • メモリ使用量
/system/NODE_NAME.json
実行中の Pod のネットワーク指標とファイル システムのステータス:
  • CPU 使用率
  • メモリ使用量
  • ネットワークのステータス
  • ファイル システムのステータス
/system/POD_NAME.json

構成情報

項目 アーカイブの場所
クラスタ configmap /conf/configmap
Kubernetes のデプロイ /conf/deployment
ロールベースのアクセス制御(RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

ログ

項目 アーカイブの場所
エージェント ログ /logs/agent.log
Spark エンジンのログ /logs/sparkengine.log
過去 24 時間の Spark ドライバの実行と完了したジョブのログ /logs/DRIVER_ID

ジョブと Pod の情報

項目 アーカイブの場所
JobAttempt オブジェクト /jobattempts
Kubernetes Pod オブジェクト /pods

詳細情報