Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e le metriche per i cluster Ray in esecuzione su Google Kubernetes Engine (GKE), nonché come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.
Per ulteriori informazioni su Ray e KubeRay, consulta la panoramica di Ray su Google Kubernetes Engine (GKE).
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti operazioni:
- Attiva l'API Google Kubernetes Engine. Attiva l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
installa e poi
inizializza gcloud CLI. Se hai già installato gcloud CLI, ottieni la versione più recente eseguendo
gcloud components update
.
Requisiti e limitazioni
- Devi abilitare il logging di sistema e dei workload su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
- Se attivi la raccolta dei log per i cluster Ray su un cluster GKE esistente, GKE raccoglie i log solo dai pod Ray appena creati, non da quelli esistenti.
- Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per attivare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è attivato per impostazione predefinita.
- Non devi specificare un volume denominato
ray-logs
in nessun contenitore Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.
Abilita la raccolta dei log per un cluster Ray
Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. I log Ray raccolti da GKE dai cluster Ray sono classificati come log dei container. Sono inclusi tutti i log generati dall'intestazione del cluster Ray e dai nodi worker.
Puoi attivare la raccolta dei log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta dei log per i cluster Ray.
Fai clic su Crea.
Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione di GKE, che deve essere 1.30.2-gke.1060005 o successiva. Puoi anche utilizzare l'opzione--release-channel
per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successive.
Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione --enable-ray-cluster-logging
.
Visualizza i log di Ray
Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.
Vai alla pagina Cloud Logging nella console Google Cloud.
Apri l'editor di query e incolla l'espressione
Fai clic su Esegui query.
Puoi utilizzare le seguenti query di esempio in Esplora log:
Nome della query/del filtro | Espressione |
---|---|
Tutti i log di Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tutti i log di Ray Head | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tutti i log in un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tutti i log di un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Abilita la raccolta delle metriche per un cluster Ray
Puoi attivare la raccolta delle metriche per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti.
Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie le metriche dai cluster Ray esistenti e dai nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray nel formato Prometheus.
Puoi attivare la raccolta delle metriche per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta delle metriche per i cluster Ray.
Fai clic su Crea.
Per i cluster standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione di GKE, che deve essere 1.30.2-gke.1060005 o successiva. Puoi anche utilizzare l'opzione--release-channel
per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successive.
Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione --enable-ray-cluster-monitoring
.
Visualizzare le metriche di Ray
Puoi visualizzare le metriche raccolte dai cluster Ray in esecuzione su GKE utilizzando Monitoring.
Vai alla pagina Esplora metriche nella console Google Cloud.
Nel menu a discesa Seleziona una metrica, inserisci Target Prometheus.
Nella sezione Categorie di metriche attive, seleziona Ray.
Passaggi successivi
- Scopri di più su Ray su Kubernetes.
- Consulta la documentazione di KubeRay.