In questa pagina viene spiegato come visualizzare i log di monitoraggio associati al tuo Ray e monitora le metriche Ray on Vertex AI. Sono inoltre fornite indicazioni per il debug dei cluster Ray.
Visualizza i log
Quando esegui attività con il tuo cluster Ray su Vertex AI, i log di monitoraggio vengono generati e archiviati automaticamente sia in Cloud Logging sia nella dashboard Ray open source. Questa sezione descrive come accedere ai log generati tramite la console Google Cloud.
Prima di iniziare, assicurati di leggere la panoramica di Ray su Vertex AI e di configurare tutti gli strumenti di prerequisito di cui hai bisogno.Dashboard Ray OSS
Puoi visualizzare i file di log di Ray open source tramite la dashboard Ray OSS:
Nella console Google Cloud, vai alla pagina Ray su Vertex AI.
Nella riga del cluster che hai creato, seleziona il menu
Altre azioni.Seleziona il link alla dashboard Ray OSS. La dashboard si apre in un'altra scheda.
Vai alla visualizzazione Log nell'angolo in alto a destra del menu:
Fai clic su ciascun nodo per visualizzare i file di log associati.
Console Cloud Logging
-
Nella console Google Cloud, vai alla pagina Esplora log:
Se utilizzi la barra di ricerca per trovare questa pagina, seleziona il risultato con il sottotitolo Logging.
Seleziona un progetto, una cartella o un'organizzazione Google Cloud esistente.
Per visualizzare tutti i log di Ray, inserisci la seguente query nel campo editor query e poi fai clic su Esegui query:
resource.labels.task_name="ray-cluster-logs"
Per restringere i log a un cluster Ray specifico, aggiungi la riga seguente alla query e fai clic su Esegui query:
labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME
Sostituisci CLUSTER_NAME con il nome del cluster Ray. Nella console Google Cloud, vai a Vertex AI > Ray su Vertex AI, dove vedrai un elenco dei nomi dei cluster in ogni regione.
Per restringere ulteriormente i log a un file log specifico come
raylet.out
, fai clic sul nome del log in Campi log -> Nome log.Puoi raggruppare voci di log simili:
In Risultati delle query, fai clic su una voce di log per espanderla.
In
jsonPayload
, fai clic sul valoretailed_path
. Viene visualizzato un menu a discesa.Fai clic su Mostra voci corrispondenti.
Disattiva log
Per impostazione predefinita, Ray on Vertex AI Cloud Logging è abilitato.
Per disabilitare l'esportazione dei log Ray in Cloud Logging, utilizza quanto segue Comando Vertex AI SDK per Python:
vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
Puoi visualizzare i file di log di Ray nella dashboard di Ray anche se la funzionalità Cloud Logging di Ray on Vertex AI è disattivata.
Monitora le metriche
Puoi visualizzare le metriche Ray on Vertex AI in diversi modi utilizzando Google Cloud Monitoring (GCM). In alternativa, puoi esportare le metriche da GCM nel tuo server Grafana.
Monitora le metriche in GCM
Esistono due modi per visualizzare le metriche di Ray on Vertex AI in GCM.
- Utilizza la visualizzazione diretta in Esplora metriche.
Importa la dashboard di Grafana.
Esplora metriche
Per utilizzare la visualizzazione diretta in Esplora metriche, segui questi passaggi:
- Vai alla console di Google Cloud Monitoring.
- In Esplora, seleziona Esplora metriche.
- In Risorse attive, seleziona Target Prometheus. Categorie di metriche attive .
Seleziona Ray.
Viene visualizzato un elenco di metriche:
- Seleziona le metriche da monitorare. Ad esempio:
- Scegli la percentuale di utilizzo della CPU come metrica monitorata:
- Seleziona un filtro. Ad esempio, seleziona il cluster:
Utilizza l'ID cluster per monitorare solo le metriche riportate sopra per un cluster specifico. Per individuare l'ID cluster, segui questi passaggi:Nella console Google Cloud, vai alla pagina Ray.
- Assicurati di essere nel progetto in cui vuoi creare l'esperimento.
- In Nome viene visualizzato un elenco di ID cluster.
- Seleziona il metodo Aggregazione per visualizzare le metriche. In altre parole, puoi scegliere di visualizzare le metriche non aggregate, che mostrano l'utilizzo della CPU di ciascun processo Ray:
- Scegli la percentuale di utilizzo della CPU come metrica monitorata:
Dashboard di GCM
Per importare una dashboard Grafana per Ray su Vertex AI, segui le linee guida nella dashboard di Cloud Monitoring, Importa la tua dashboard Grafana.
Ti serve solo un file JSON della dashboard di Grafana. OSS Ray supporta questo configurazione manuale fornendo il file JSON Grafana della dashboard predefinito.
Monitorare le metriche dell'account Grafana di proprietà dell'utente
Se hai già un server Grafana in esecuzione, esiste anche un modo per esportare tutte le metriche Prometheus del cluster Ray su Vertex AI nel tuo server Grafana esistente. Per farlo, segui le indicazioni di Query con Grafana di GMP. Ciò ti consente di aggiungere una nuova origine dati Grafana al tuo server Grafana esistente e utilizzare lo strumento di sincronizzazione dell'origine dati per sincronizzare la nuova origine dati Grafana Prometheus con Ray sulle metriche Vertex AI.
È importante configurare e autenticare l'origine dati Grafana appena aggiunta utilizzando il sincronizzatore delle origini dati. Segui i passaggi descritti in Configurare e autenticare l'origine dati Grafana.
Una volta sincronizzato, puoi creare e aggiungere tutte le dashboard necessarie in base alle metriche di Ray su Vertex AI.
Per impostazione predefinita, le raccolte di metriche di Ray su Vertex AI sono abilitate. Ecco come disabilitarle utilizzando l'SDK Vertex AI per Python:
vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...)
Eseguire il debug dei cluster Ray
Per eseguire il debug dei cluster Ray, utilizza la shell interattiva del nodo head:
Console Google Cloud
Per accedere alla shell interattiva del nodo head:
- Nella console Google Cloud, vai alla pagina Ray su Vertex AI.
Vai a Ray su Vertex AI - Assicurati di trovarti nel progetto corretto.
- Seleziona il cluster da esaminare. Viene visualizzata la sezione Informazioni di base.
- Nella sezione Link di accesso, fai clic sul link per la shell interattiva del nodo head. Viene visualizzata la shell interattiva del nodo head.
- Segui le istruzioni riportate in Monitora ed esegui il debug dell'addestramento con una shell interattiva.