Protokolle und Messwerte für Ray-Cluster in der Google Kubernetes Engine (GKE) erfassen und ansehen


Auf dieser Seite erfahren Sie, wie Sie die Google Kubernetes Engine (GKE) so konfigurieren, dass Protokolle und Messwerte für Ray-Cluster erfasst werden, die in der Google Kubernetes Engine (GKE) ausgeführt werden. Außerdem wird beschrieben, wie Sie Ray-Protokolle und ‑Messwerte in Cloud Logging und Cloud Monitoring aufrufen.

Weitere Informationen zu Ray und KubeRay finden Sie unter Ray in der Google Kubernetes Engine (GKE).

Hinweise

Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:

  • Aktivieren Sie die Google Kubernetes Engine API.
  • Google Kubernetes Engine API aktivieren
  • Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit gcloud components update ab.

Anforderungen und Einschränkungen

  • Sie müssen das System- und Arbeitslast-Logging in einem vorhandenen GKE-Cluster aktivieren, bevor Sie die Protokollerhebung für Ray-Cluster aktivieren.
  • Wenn Sie die Logerfassung für Ray-Cluster in einem vorhandenen GKE-Cluster aktivieren, erfasst GKE nur Logs von neu erstellten Ray-Pods, nicht von vorhandenen Ray-Pods.
  • Bei GKE-Standardclustern müssen Sie Google Cloud Managed Service for Prometheus aktivieren, um die Messwerterfassung für Ray-Cluster zu aktivieren. Bei Autopilot-Clustern ist Google Cloud Managed Service for Prometheus standardmäßig aktiviert.
  • Sie dürfen kein Volume mit dem Namen ray-logs in einem Ray-Container im Ray-Cluster angeben. Andernfalls werden in GKE keine Protokolle erfasst.

Logerfassung für einen Ray-Cluster aktivieren

Sie können die Protokollerfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren. Die Ray-Protokolle, die GKE aus Ray-Clustern erfasst, werden als Containerprotokolle klassifiziert. Dazu gehören alle Protokolle, die vom Ray-Cluster-Header und den Worker-Knoten erstellt werden.

Sie können die Protokollerfassung für Ray-Cluster über die Google Cloud Console oder die gcloud CLI aktivieren.

Console

  1. Rufen Sie in der Google Cloud -Konsole die Seite Google Kubernetes Engine auf.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Bereich KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Protokollerhebung für Ray-Cluster aktivieren aus.

  6. Klicken Sie auf Erstellen.

Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • VERSION: die GKE-Version, die mindestens 1.30.2-gke.1060005 sein muss. Sie können auch die Option --release-channel verwenden, um eine Release-Version auszuwählen. Die Release-Version muss die Standardversion 1.30.2-gke.106000 oder höher haben.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update und den Optionen --addons=RayOperator und --enable-ray-cluster-logging aktivieren.

Ray-Logs ansehen

Mit Logging können Sie sich Logs ansehen, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden.

  1. Rufen Sie in der Google Cloud -Konsole die Seite Cloud Logging auf.

    Zu Cloud Logging

  2. Öffnen Sie den Abfrageeditor und fügen Sie den Ausdruck ein.

  3. Klicken Sie auf Abfrage ausführen.

Sie können die folgenden Beispielabfragen im Log-Explorer verwenden:

Abfrage-/Filtername Ausdruck
Alle Ray-Protokolle
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Alle Ray-Head-Logs
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Alle Protokolle in einem Ray-Cluster
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Alle Protokolle eines Ray-Jobs
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Messwerterfassung für einen Ray-Cluster aktivieren

Sie können die Messwerterfassung für Ray-Cluster mit neuen oder vorhandenen GKE-Autopilot- oder Standardclustern aktivieren.

Nachdem Sie die Messwerterfassung für Ray-Cluster aktiviert haben, erfasst GKE Messwerte aus vorhandenen und neuen Ray-Clustern. GKE erfasst alle von Ray im Prometheus-Format exportierten Systemmesswerte.

Sie können die Erfassung von Messwerten für Ray-Cluster über dieGoogle Cloud -Console oder die gcloud CLI aktivieren.

Console

  1. Rufen Sie in der Google Cloud -Konsole die Seite Google Kubernetes Engine auf.

    Zur Seite "Google Kubernetes Engine"

  2. Klicken Sie auf Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.

  3. Klicken Sie im Navigationsbereich unter Cluster auf Features.

  4. Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.

  5. Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Messwerterfassung für Ray-Cluster aktivieren aus.

  6. Klicken Sie auf Erstellen.

Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.

gcloud

Erstellen Sie einen Cluster mit der Option --addons=RayOperator und der Option --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Ersetzen Sie Folgendes:

  • CLUSTER_NAME ist der Name des neuen Clusters.
  • VERSION: die GKE-Version, die mindestens 1.30.2-gke.1060005 sein muss. Sie können auch die Option --release-channel verwenden, um eine Release-Version auszuwählen. Die Release-Version muss die Standardversion 1.30.2-gke.106000 oder höher haben.

Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update und den Optionen --addons=RayOperator und --enable-ray-cluster-monitoring aktivieren.

Ray-Messwerte ansehen

Mit Monitoring können Sie Messwerte aufrufen, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden.

  1. Rufen Sie in der Google Cloud -Konsole die Seite Metrics Explorer auf.

    Zum Metrics Explorer

  2. Geben Sie im Drop-down-Menü Messwert auswählen den Wert Prometheus-Ziel ein.

  3. Wählen Sie im Bereich Aktive Messwertkategorien die Option Ray aus.

Nächste Schritte