Dataproc on GKE クラスタを診断する

Dataproc には、Dataproc on GKE クラスタとジョブの問題のトラブルシューティングに役立つ gcloud CLI dataproc clusters diagnose コマンドが用意されています。このコマンドは、クラスタ関連の構成ファイル、ログ、出力を収集してアーカイブ ファイルにアーカイブし、Dataproc on GKE クラスタを作成したときに指定した Cloud Storage ステージング バケットにアーカイブをアップロードします。

アーカイブ ファイルを診断する

次の表に、dataproc clusters diagnose コマンド アーカイブ ファイルに含まれる指標とその他の情報を示します。

システム情報

項目 アーカイブの場所
仮想 Dataproc on GKE Pod が実行される GKE ノードの指標:
  • CPU 使用率
  • メモリ使用量
/system/NODE_NAME.json
実行中の Pod のネットワーク指標とファイル システムのステータス:
  • CPU 使用率
  • メモリ使用量
  • ネットワークのステータス
  • ファイル システムのステータス
/system/POD_NAME.json

構成情報

項目 アーカイブの場所
クラスタ configmap /conf/configmap
Kubernetes Deployment /conf/deployment
ロールベース アクセス制御(RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

ログ

項目 アーカイブの場所
エージェント ログ /logs/agent.log
Spark エンジンのログ /logs/sparkengine.log
過去 24 時間の Spark ドライバの実行と完了したジョブのログ /logs/DRIVER_ID

ジョブと Pod の情報

項目 アーカイブの場所
JobAttempt オブジェクト /jobattempts
Kubernetes Pod オブジェクト /pods

次のステップ