诊断 GKE 集群上的 Dataproc

Dataproc 提供了 gcloud CLI dataproc clusters diagnose 命令,可帮助您排查 Dataproc on GKE 集群和作业问题。此命令会收集并将与集群相关的配置文件、日志和输出归档到归档文件中,然后将归档文件上传到您在创建 Dataproc on GKE 集群时指定的 Cloud Storage 暂存存储桶。

诊断归档文件

下表列出了 dataproc clusters diagnose 命令归档文件中包含的指标和其他信息。

系统信息

归档位置
运行虚拟 Dataproc on GKE pod 的 GKE 节点指标
  • CPU 使用率
  • 内存使用量
/system/NODE_NAME.json
正在运行的 Pod 的网络指标和文件系统状态
  • CPU 使用率
  • 内存使用量
  • 网络状态
  • 文件系统状态
/system/POD_NAME.json

配置信息

归档位置
集群 configmap /conf/configmap
Kubernetes Deployment /conf/deployment
基于角色的访问权限控制 (RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

日志

归档位置
代理日志 /logs/agent.log
Spark 引擎日志 /logs/sparkengine.log
过去 24 小时内运行的 Spark 驱动程序和已完成的作业日志 /logs/DRIVER_ID

作业和 pod 信息

归档位置
JobAttempt 对象 /jobattempts
Kubernetes Pod 对象 /pods

了解详情