Questa pagina mostra come configurare Google Kubernetes Engine (GKE) per raccogliere i log e le metriche dei cluster Ray in esecuzione su Google Kubernetes Engine (GKE), nonché come visualizzare i log e le metriche di Ray in Cloud Logging e Cloud Monitoring.
Per ulteriori informazioni su Ray e KubeRay, consulta la panoramica di Ray su Google Kubernetes Engine (GKE).
Prima di iniziare
Prima di iniziare, assicurati di aver eseguito le seguenti attività:
- Attiva l'API Google Kubernetes Engine. Abilita l'API Google Kubernetes Engine
- Se vuoi utilizzare Google Cloud CLI per questa attività,
installa e poi
inizializza gcloud CLI. Se hai già installato gcloud CLI, ottieni la versione più recente eseguendo
gcloud components update
.
Requisiti e limitazioni
- Devi abilitare il logging di sistema e dei carichi di lavoro su un cluster GKE esistente prima di abilitare la raccolta dei log per i cluster Ray.
- Se abiliti la raccolta di log per i cluster Ray su un modello nel cluster GKE, GKE raccoglie solo i log che ha creato pod Ray, non da pod Ray esistenti.
- Per i cluster GKE standard, devi abilitare Google Cloud Managed Service per Prometheus per attivare la raccolta delle metriche per i cluster Ray. Per i cluster Autopilot, Google Cloud Managed Service per Prometheus è attivato per impostazione predefinita.
- Non devi specificare un volume denominato
ray-logs
in nessun contenitore Ray nel cluster Ray. In caso contrario, GKE non raccoglierà i log.
Abilita la raccolta di log per un cluster Ray
Puoi abilitare la raccolta dei log per i cluster Ray con cluster GKE Autopilot o standard nuovi o esistenti. Il raggio i log che GKE raccoglie dai cluster Ray vengono classificati come log dei container. Sono inclusi tutti i log prodotti dall'intestazione del cluster Ray e nodi worker.
Puoi abilitare la raccolta di log per i cluster Ray utilizzando la console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta dei log per i cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione di GKE, che deve essere 1.30.2-gke.1060005 o successiva. Puoi anche utilizzare l'opzione--release-channel
per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successiva.
Puoi attivare la raccolta dei log per i cluster Ray su un cluster esistente utilizzando il comando gcloud container clusters update
con l'opzione --addons=RayOperator
e l'opzione --enable-ray-cluster-logging
.
Visualizza log Ray
Puoi visualizzare i log raccolti dai cluster Ray in esecuzione su GKE utilizzando Logging.
Vai alla pagina Cloud Logging nella console Google Cloud.
Apri l'editor di query e incolla l'espressione al suo interno
Fai clic su Esegui query.
Puoi utilizzare le seguenti query di esempio in Esplora log:
Nome query/filtro | Espressione |
---|---|
Tutti i log di Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Tutti i log di Ray Head | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Tutti i log in un cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Tutti i log di un job Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Abilita la raccolta delle metriche per un cluster Ray
Puoi abilitare la raccolta delle metriche per i cluster Ray con asset nuovi o esistenti Autopilot o GKE Standard.
Dopo aver abilitato la raccolta delle metriche per i cluster Ray, GKE raccoglie metriche dai cluster Ray esistenti e da nuovi cluster Ray. GKE raccoglie tutte le metriche di sistema esportate da Ray in Prometheus formato.
Puoi abilitare la raccolta delle metriche per i cluster Ray utilizzando console Google Cloud o gcloud CLI.
Console
Vai alla pagina Google Kubernetes Engine nella console Google Cloud.
Fai clic su
Crea, quindi nella sezione Standard o Autopilot, fai clic su Configura.Nel riquadro di navigazione, in Cluster, fai clic su Funzionalità.
Nella sezione Operazioni, assicurati che la casella di controllo Sistema e carichi di lavoro sia selezionata.
Nella sezione AI e machine learning, seleziona Attiva Ray Operator e poi Attiva la raccolta delle metriche per i cluster Ray.
Fai clic su Crea.
Per i cluster Standard, devi anche abilitare Google Cloud Managed Service per Prometheus.
gcloud
Crea un cluster utilizzando l'opzione --addons=RayOperator
e l'opzione
--enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Sostituisci quanto segue:
CLUSTER_NAME
: il nome del nuovo cluster.VERSION
: la versione GKE, che deve essere 1.30.2-gke.1060005 o successivo. Puoi anche utilizzare l'opzione--release-channel
per selezionare un canale di uscita. Il canale di rilascio deve avere una versione predefinita di 1.30.2-gke.106000 o successiva.
Puoi abilitare la raccolta di log per i cluster Ray su un cluster esistente
utilizzando
gcloud container clusters update
con l'opzione --addons=RayOperator
e i parametri
Opzione --enable-ray-cluster-monitoring
.
Visualizza le metriche di Ray
Puoi visualizzare le metriche raccolte dai cluster Ray in esecuzione su GKE utilizzando Monitoring.
Vai alla pagina Esplora metriche nella console Google Cloud.
Nel menu a discesa Seleziona una metrica, inserisci Target Prometheus.
Nella sezione Categorie di metriche attive, seleziona Raggio.
Passaggi successivi
- Informazioni su Ray su Kubernetes.
- Consulta la documentazione di KubeRay.