Raccogliere e visualizzare log e metriche per i cluster Ray su Google Kubernetes Engine (GKE)


Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere log e metriche per i cluster Ray in esecuzione su Google Kubernetes Engine (GKE, oltre a come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.

Per ulteriori informazioni su Ray e KubeRay, consulta Panoramica di Ray su Google Kubernetes Engine (GKE).

Prima di iniziare

Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:

  • Attiva l'API Google Kubernetes Engine.
  • Attiva l'API Google Kubernetes Engine
  • Se vuoi utilizzare Google Cloud CLI per questa attività, installala e poi inizializza gcloud CLI. Se hai già installato gcloud CLI, scarica l'ultima versione eseguendo gcloud components update.

Requisiti e limitazioni

  • Devi abilitare il logging di sistema e dei workload su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
  • Se abiliti la raccolta dei log per i cluster Ray su un cluster GKE esistente, GKE raccoglie solo i log dei pod Ray appena creati, non quelli dei pod Ray esistenti.
  • Per i cluster GKE Standard, devi abilitare Google Cloud Managed Service per Prometheus per abilitare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è abilitato per impostazione predefinita.
  • Non devi specificare un volume denominato ray-logs in nessun container Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.

Abilita la raccolta dei log per un cluster Ray

Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. I log di Ray che GKE raccoglie dai cluster Ray sono classificati come log dei container. Sono inclusi tutti i log generati dall'intestazione del cluster Ray e dai nodi worker.

Puoi abilitare la raccolta dei log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud .

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, poi fai clic su Configura nella sezione Standard o Autopilot.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Abilita operatore Ray, quindi seleziona Abilita raccolta log per cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • LOCATION: la posizione del nuovo cluster, ad esempio us-central1.

Puoi abilitare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update con l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-logging.

Visualizza i log di Ray

Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.

  1. Vai alla pagina Cloud Logging nella console Google Cloud .

    Vai a Cloud Logging

  2. Apri l'editor di query e incolla l'espressione

  3. Fai clic su Esegui query.

Puoi utilizzare le seguenti query di esempio in Esplora log:

Nome query/filtro Espressione
Tutti i log di Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Tutti i log dell'head di Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Tutti i log in un cluster Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Tutti i log di un job Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Abilita la raccolta delle metriche per un cluster Ray

Puoi abilitare la raccolta delle metriche per i cluster Ray con cluster GKE Autopilot o Standard nuovi o esistenti.

Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie le metriche dai cluster Ray esistenti e dai nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray nel formato Prometheus.

Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando la consoleGoogle Cloud o gcloud CLI.

Console

  1. Vai alla pagina Google Kubernetes Engine nella console Google Cloud .

    Vai a Google Kubernetes Engine

  2. Fai clic su Crea, poi fai clic su Configura nella sezione Standard o Autopilot.

  3. Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.

  4. Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.

  5. Nella sezione AI e machine learning, seleziona Abilita operatore Ray e poi Abilita raccolta delle metriche per i cluster Ray.

  6. Fai clic su Crea.

Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.

gcloud

Crea un cluster utilizzando l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --location=LOCATION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Sostituisci quanto segue:

  • CLUSTER_NAME: il nome del nuovo cluster.
  • LOCATION: la posizione del nuovo cluster, ad esempio us-central1.

Puoi abilitare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update con l'opzione --addons=RayOperator e l'opzione --enable-ray-cluster-monitoring.

Visualizza le metriche di Ray

Google Cloud Managed Service per Prometheus fornisce una dashboard Panoramica di Ray su GKE preconfigurata che offre una visualizzazione centralizzata delle metriche chiave di Ray. Questo è il modo consigliato per iniziare rapidamente a monitorare i cluster Ray su GKE.

Vai alla dashboard Panoramica di Ray su GKE

La dashboard viene compilata automaticamente quando attivi la raccolta delle metriche per il cluster Ray.

In alternativa, se vuoi esplorare le singole metriche raccolte dai cluster Ray in esecuzione su GKE, segui questi passaggi:

  1. Vai alla pagina Esplora metriche nella console Google Cloud .

    Vai a Esplora metriche

  2. Nel campo Seleziona una metrica, puoi cercare metriche specifiche di Ray. Queste metriche sono in genere precedute dal prefisso prometheus/ray_. Alcuni esempi sono prometheus/ray_worker_cpu_seconds_total o prometheus/ray_memory_bytes_max.

  3. Puoi perfezionare ulteriormente la ricerca selezionando il tipo di risorsa appropriato (ad esempio, k8s_pod, k8s_container) e filtrando in base alle etichette pertinenti al tuo cluster Ray (ad esempio, ray.io/cluster).

Passaggi successivi