诊断 Dataproc on GKE 集群

Dataproc 提供了 gcloud CLI dataproc clusters diagnose 命令,可帮助您排查 Dataproc on GKE 集群和作业问题。该命令会收集与集群相关的配置文件、日志和输出,并归档到归档文件中,然后将归档文件上传到您在创建 Dataproc on GKE 集群 时指定的 Cloud Storage 暂存存储桶。

诊断归档文件

下表列出了 dataproc clusters diagnose 命令归档文件中包含的指标和其他信息。

系统信息

内容 归档位置
虚拟 Dataproc on GKE Pod 在其中运行的 GKE 节点指标:
  • CPU 使用率
  • 内存用量
/system/NODE_NAME.json
正在运行的 Pod 的网络指标和文件系统状态:
  • CPU 使用率
  • 内存用量
  • 网络状态
  • 文件系统状态
/system/POD_NAME.json

配置信息

内容 归档位置
集群 configmap /conf/configmap
Kubernetes Deployment /conf/deployment
基于角色的访问控制 (RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

日志

内容 归档位置
代理日志 /logs/agent.log
Spark 引擎日志 /logs/sparkengine.log
过去 24 小时内 Spark 驱动程序正在运行和已完成的作业日志 /logs/DRIVER_ID

作业和 pod 信息

内容 归档位置
JobAttempt 对象 /jobattempts
Kubernetes Pod 对象 /pods

后续步骤