Raccogli e visualizza log e metriche per i cluster Ray su Google Kubernetes Engine (GKE)


Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e le metriche dei cluster Ray in esecuzione su Google Kubernetes Engine (GKE), nonché come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.

Per ulteriori informazioni su Ray e KubeRay, consulta la panoramica di Ray su Google Kubernetes Engine (GKE).

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti attività:

  • Attiva l'API Google Kubernetes Engine.
  • Abilita l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installa e poi inizializza gcloud CLI. Se hai già installato gcloud CLI, ottieni la versione più recente eseguendo gcloud components update.

Requisiti e limitazioni

  • Devi abilitare il logging di sistema e dei carichi di lavoro su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
  • Se abiliti la raccolta di log per i cluster Ray su un modello nel cluster GKE, GKE raccoglie solo i log che ha creato pod Ray, non da pod Ray esistenti.
  • Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per attivare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è attivato per impostazione predefinita.
  • Non devi specificare un volume denominato ray-logs in nessun contenitore Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.

Abilita la raccolta di log per un cluster Ray

Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. Il raggio i log che GKE raccoglie dai cluster Ray vengono classificati come log dei container. Sono inclusi tutti i log prodotti dall'intestazione del cluster Ray e nodi worker.

Puoi abilitare la raccolta di log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta dei log per i cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • VERSION: la versione di GKE, che deve essere 1.30.2-gke.1060005 o successiva. Puoi anche utilizzare l'opzione --release-channel per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successiva.

Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update con l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging.

Visualizza log Ray

Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.

  1. Vai alla pagina Cloud Logging nella console Google Cloud.

    Vai a Cloud Logging

  2. Apri l'editor di query e incolla l'espressione al suo interno

  3. Fai clic su Esegui query.

Puoi utilizzare le seguenti query di esempio in Esplora log:

Nome query/filtro Espressione
Tutti i log di Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Tutti i log di Ray Head
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Tutti i log in un cluster Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Tutti i log di un job Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Abilita la raccolta delle metriche per un cluster Ray

Puoi abilitare la raccolta delle metriche per i cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard.

Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie metriche dai cluster Ray esistenti e da nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray in Prometheus formato.

Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando console Google Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud.

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta delle metriche per i cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • VERSION: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche utilizzare l'opzione --release-channel per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successiva.

Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente utilizzando gcloud container clusters update con l'opzione --addons=RayOperator e i parametri Opzione --enable-ray-cluster-monitoring.

Visualizza le metriche di Ray

Puoi visualizzare le metriche raccolte dai cluster Ray in esecuzione su GKE utilizzando Monitoring.

  1. Vai alla pagina Esplora metriche nella console Google Cloud.

    Vai a Esplora metriche

  2. Nel menu a discesa Seleziona una metrica, inserisci Target Prometheus.

  3. Nella sezione Categorie di metriche attive, seleziona Raggio.

Passaggi successivi