Auf dieser Seite erfahren Sie, wie Sie die Google Kubernetes Engine (GKE) so konfigurieren, dass Protokolle und Messwerte für Ray-Cluster erfasst werden, die in der Google Kubernetes Engine (GKE) ausgeführt werden. Außerdem wird beschrieben, wie Sie Ray-Protokolle und ‑Messwerte in Cloud Logging und Cloud Monitoring aufrufen.
Weitere Informationen zu Ray und KubeRay finden Sie unter Ray in der Google Kubernetes Engine (GKE).
Hinweise
Führen Sie die folgenden Aufgaben aus, bevor Sie beginnen:
- Aktivieren Sie die Google Kubernetes Engine API. Google Kubernetes Engine API aktivieren
- Wenn Sie die Google Cloud CLI für diese Aufgabe verwenden möchten, müssen Sie die gcloud CLI installieren und dann initialisieren. Wenn Sie die gcloud CLI bereits installiert haben, rufen Sie die neueste Version mit
gcloud components update
ab.
Anforderungen und Einschränkungen
- Sie müssen das System- und Arbeitslast-Logging in einem vorhandenen GKE-Cluster aktivieren, bevor Sie die Protokollerhebung für Ray-Cluster aktivieren.
- Wenn Sie die Logerfassung für Ray-Cluster in einem vorhandenen GKE-Cluster aktivieren, erfasst GKE nur Logs von neu erstellten Ray-Pods, nicht von vorhandenen Ray-Pods.
- Bei GKE-Standardclustern müssen Sie Google Cloud Managed Service for Prometheus aktivieren, um die Messwerterfassung für Ray-Cluster zu aktivieren. Bei Autopilot-Clustern ist Google Cloud Managed Service for Prometheus standardmäßig aktiviert.
- Sie dürfen kein Volume mit dem Namen
ray-logs
in einem Ray-Container im Ray-Cluster angeben. Andernfalls werden in GKE keine Protokolle erfasst.
Logerfassung für einen Ray-Cluster aktivieren
Sie können die Protokollerfassung für Ray-Cluster mit neuen oder vorhandenen Autopilot- oder Standard-GKE-Clustern aktivieren. Die Ray-Protokolle, die GKE aus Ray-Clustern erfasst, werden als Containerprotokolle klassifiziert. Dazu gehören alle Protokolle, die vom Ray-Cluster-Header und den Worker-Knoten erstellt werden.
Sie können die Protokollerfassung für Ray-Cluster über die Google Cloud Console oder die gcloud CLI aktivieren.
Console
Rufen Sie in der Google Cloud -Konsole die Seite Google Kubernetes Engine auf.
Klicken Sie auf
Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.Klicken Sie im Navigationsbereich unter Cluster auf Features.
Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.
Wählen Sie im Bereich KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Protokollerhebung für Ray-Cluster aktivieren aus.
Klicken Sie auf Erstellen.
Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.
gcloud
Erstellen Sie einen Cluster mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Ersetzen Sie Folgendes:
CLUSTER_NAME
ist der Name des neuen Clusters.VERSION
: die GKE-Version, die mindestens 1.30.2-gke.1060005 sein muss. Sie können auch die Option--release-channel
verwenden, um eine Release-Version auszuwählen. Die Release-Version muss die Standardversion 1.30.2-gke.106000 oder höher haben.
Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update
und den Optionen --addons=RayOperator
und --enable-ray-cluster-logging
aktivieren.
Ray-Logs ansehen
Mit Logging können Sie sich Logs ansehen, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden.
Rufen Sie in der Google Cloud -Konsole die Seite Cloud Logging auf.
Öffnen Sie den Abfrageeditor und fügen Sie den Ausdruck ein.
Klicken Sie auf Abfrage ausführen.
Sie können die folgenden Beispielabfragen im Log-Explorer verwenden:
Abfrage-/Filtername | Ausdruck |
---|---|
Alle Ray-Protokolle | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Alle Ray-Head-Logs | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Alle Protokolle in einem Ray-Cluster | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Alle Protokolle eines Ray-Jobs | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Messwerterfassung für einen Ray-Cluster aktivieren
Sie können die Messwerterfassung für Ray-Cluster mit neuen oder vorhandenen GKE-Autopilot- oder Standardclustern aktivieren.
Nachdem Sie die Messwerterfassung für Ray-Cluster aktiviert haben, erfasst GKE Messwerte aus vorhandenen und neuen Ray-Clustern. GKE erfasst alle von Ray im Prometheus-Format exportierten Systemmesswerte.
Sie können die Erfassung von Messwerten für Ray-Cluster über dieGoogle Cloud -Console oder die gcloud CLI aktivieren.
Console
Rufen Sie in der Google Cloud -Konsole die Seite Google Kubernetes Engine auf.
Klicken Sie auf
Erstellen und dann im Bereich „Standard“ oder „Autopilot“ auf Konfigurieren.Klicken Sie im Navigationsbereich unter Cluster auf Features.
Achten Sie darauf, dass im Bereich Vorgänge das Kästchen System und Workloads angeklickt ist.
Wählen Sie im Abschnitt KI und maschinelles Lernen die Option Ray-Operator aktivieren und dann Messwerterfassung für Ray-Cluster aktivieren aus.
Klicken Sie auf Erstellen.
Bei Standardclustern müssen Sie auch Google Cloud Managed Service for Prometheus aktivieren.
gcloud
Erstellen Sie einen Cluster mit der Option --addons=RayOperator
und der Option --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Ersetzen Sie Folgendes:
CLUSTER_NAME
ist der Name des neuen Clusters.VERSION
: die GKE-Version, die mindestens 1.30.2-gke.1060005 sein muss. Sie können auch die Option--release-channel
verwenden, um eine Release-Version auszuwählen. Die Release-Version muss die Standardversion 1.30.2-gke.106000 oder höher haben.
Sie können die Logerfassung für Ray-Cluster in einem vorhandenen Cluster mit dem Befehl gcloud container clusters update
und den Optionen --addons=RayOperator
und --enable-ray-cluster-monitoring
aktivieren.
Ray-Messwerte ansehen
Mit Monitoring können Sie Messwerte aufrufen, die von Ray-Clustern erfasst wurden, die auf GKE ausgeführt werden.
Rufen Sie in der Google Cloud -Konsole die Seite Metrics Explorer auf.
Geben Sie im Drop-down-Menü Messwert auswählen den Wert Prometheus-Ziel ein.
Wählen Sie im Bereich Aktive Messwertkategorien die Option Ray aus.
Nächste Schritte
- Mehr über Ray in Kubernetes erfahren.
- KubeRay-Dokumentation ansehen.