Dataproc on GKE クラスタを診断する

Dataproc には、Dataproc on GKE クラスタとジョブの問題のトラブルシューティングに役立つ gcloud CLI dataproc clusters diagnose コマンドが用意されています。このコマンドは、クラスタ関連の構成ファイル、ログ、出力を収集し、アーカイブ ファイルにアーカイブします。次に、Dataproc on GKE クラスタを作成したときに指定した Cloud Storage ステージング バケットにアーカイブをアップロードします。

アーカイブ ファイルの診断

次の表は、dataproc clusters diagnose コマンドのアーカイブ ファイルに含まれる指標とその他の情報を示しています。

システム情報

項目 アーカイブの場所
仮想 Dataproc on GKE Pod が実行される GKE ノードの指標:
  • CPU 使用率
  • メモリ使用量
/system/NODE_NAME.json
実行中の Pod のネットワーク指標とファイル システムのステータス:
  • CPU 使用率
  • メモリ使用量
  • ネットワークのステータス
  • ファイル システムのステータス
/system/POD_NAME.json

構成情報

項目 アーカイブの場所
クラスタ configmap /conf/configmap
Kubernetes のデプロイ /conf/deployment
ロールベースのアクセス制御(RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

ログ

項目 アーカイブの場所
エージェント ログ /logs/agent.log
Spark エンジンログ /logs/sparkengine.log
過去 24 時間に実行されたジョブログと完了したジョブログ /logs/DRIVER_ID

ジョブと Pod の情報

項目 アーカイブの場所
JobAttempt オブジェクト /jobattempts
Kubernetes Pod オブジェクト /pods

詳細情報