Dataproc in GKE-Clustern diagnostizieren

Dataproc bietet den Befehl gcloud CLI dataproc clusters diagnose, mit dem Sie Probleme mit Dataproc-Clustern und -Jobs in GKE beheben können. Mit diesem Befehl werden clusterbezogene Konfigurationsdateien, Logs und Ausgaben in einer Archivdatei erfasst und archiviert. Anschließend wird das Archiv in das Cloud Storage-Staging-Bucket hochgeladen, das Sie beim Erstellen Ihres Dataproc auf GKE-Clusters angegeben haben.

Archivdatei zur Diagnose

In den folgenden Tabellen sind Messwerte und andere Informationen aufgeführt, die in der Archivdatei des dataproc clusters diagnose-Befehls enthalten sind.

Systeminformationen

Element Archivspeicherort
GKE-Knotenmesswerte, auf denen virtuelle Dataproc on GKE-Pods ausgeführt werden:
  • CPU-Nutzung
  • Arbeitsspeichernutzung
/system/NODE_NAME.json
Netzwerkmesswerte und Dateisystemstatus von ausgeführten Pods:
  • CPU-Nutzung
  • Arbeitsspeichernutzung
  • Netzwerkstatus
  • Dateisystemstatus
/system/POD_NAME.json

Konfigurationsinformationen

Element Archivspeicherort
Cluster-ConfigMap /conf/configmap
Kubernetes-Deployment /conf/deployment
Rollenbasierte Zugriffssteuerung (Role-Based Access Control, RBAC)
  • /conf/role
  • /conf/rolebind
  • /conf/serviceaccount

Logs

Element Archivspeicherort
Agent-Log /logs/agent.log
Spark-Engine-Log /logs/sparkengine.log
Spark-Treiberprotokolle für laufende und abgeschlossene Jobs der letzten 24 Stunden /logs/DRIVER_ID

Job- und Pod-Informationen

Element Archivspeicherort
JobAttempt-Objekt /jobattempts
Kubernetes-Pod-Objekt /pods

Nächste Schritte