诊断 Dataproc on GKE 集群

Dataproc 提供了 gcloud CLI gclid clusters diagnose 命令,以帮助您排查 GKE 集群上的 Dataproc 集群和作业问题。此命令会将与集群相关的配置文件、日志和输出收集并归档到一个归档文件中,然后将归档文件上传到您在创建 Dataproc on GKE 集群时指定的 Cloud Storage 暂存存储桶。

诊断归档文件

下表列出了 dataproc clusters diagnose 命令归档文件中包含的指标和其他信息。

系统信息

归档位置
虚拟 Dataproc on GKE Pod 运行的 GKE 节点指标
  • CPU 使用率
  • 内存用量
/system/NODE_NAME.json
正在运行的 Pod 的网络指标和文件系统状态
  • CPU 使用率
  • 内存用量
  • 网络状态
  • 文件系统状态
/system/POD_NAME.json

配置信息

归档位置
集群 ConfigMap /conf/configmap
Kubernetes Deployment /conf/deployment
基于角色的访问权限控制 (RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

日志

归档位置
代理日志 /logs/agent.log
Spark Engine 日志 /logs/sparkengine.log
过去 24 小时内的 Spark 驱动程序运行和完成的作业日志 /logs/DRIVER_ID

作业和 Pod 信息

归档位置
JobElection 对象 /jobattempts
Kubernetes Pod 对象 /pods

如需深入了解