Monitoraggio dello stato di integrità
Le istanze Vertex AI Workbench forniscono diversi metodi per monitorare l'integrità dei blocchi note. Questa pagina descrive come utilizzare ciascun metodo.
Metodi per il monitoraggio dello stato di integrità
Puoi monitorare l'integrità delle tue istanze Vertex AI Workbench in diversi modi. Questa pagina descrive come utilizzare i seguenti metodi:
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Utilizzare gli attributi guest per segnalare l'integrità del sistema
Puoi utilizzare gli attributi guest per segnalare lo stato di salute del sistema dei seguenti servizi di base:
- Servizio Docker
- Agente reverse proxy Docker
- Servizio Jupyter
- API Jupyter
Gli attributi guest sono un tipo specifico di metadati personalizzati su cui le applicazioni possono scrivere durante l'esecuzione nell'istanza Vertex AI Workbench. Per scoprire di più sugli attributi guest, consulta Informazioni sui metadati della VM.
In che modo le istanze utilizzano gli attributi guest per segnalare l'integrità del sistema
Il servizio notebooks-collection-agent
esegue un processo Python
in background che verifica lo stato
dei servizi principali dell'istanza Vertex AI Workbench
e aggiorna gli attributi guest come
1
se non vengono rilevati problemi o -1
se viene rilevato un errore.
Per utilizzare il servizio notebooks-collection-agent
per generare report sullo stato della tua istanza Vertex AI Workbench, devi attivare i seguenti attributi guest durante la creazione di un'istanza Vertex AI Workbench:
enable-guest-attributes=TRUE
: attiva gli attributi invitato nell'istanza Vertex AI Workbench. Per impostazione predefinita, questo attributo è abilitato in tutte le nuove istanze.report-event-health=TRUE
: registra i risultati controllo di integrità del sistema negli attributi degli ospiti.
Il servizio notebooks-collection-agent
non ha bisogno di autorizzazioni speciali per scrivere negli attributi guest dell'istanza.
Crea un'istanza di Vertex AI Workbench con gli attributi guest relativi allo stato di salute del sistema abilitati
Per utilizzare gli attributi guest relativi all'integrità del sistema per generare report sull'integrità della tua istanza Vertex AI Workbench, devi selezionare la casella di controllo Abilita il report sull'integrità del sistema quando crei un'istanza Vertex AI Workbench.
Puoi attivare il report sullo stato del sistema utilizzando la console Google Cloud.
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic su
Crea nuova.Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.
Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:
- Nome: fornisci un nome per la nuova istanza.
- Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni della rete, seleziona la regione geograficamente più vicina a te.
Nella sezione Integrità del sistema, in Report, seleziona Segnala integrità del sistema.
Completa la parte rimanente della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.
Monitorare lo stato del sistema tramite gli attributi guest
Per le istanze di Vertex AI Workbench per le quali sono abilitati gli attributi guest relativi, puoi recuperare i valori degli attributi guest relativi allo stato di salute del sistema utilizzando la console Google Cloud, Google Cloud CLI con i comandi Compute Engine o Google Cloud CLI con i comandi Vertex AI Workbench.
Console
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic sul nome dell'istanza di cui vuoi visualizzare lo stato di integrità del sistema.
Nella pagina Dettagli istanza, fai clic sulla scheda Integrità. Esamina lo stato dell'istanza e dei relativi servizi principali.
gcloud con Compute Engine
gcloud compute instances get-guest-attributes INSTANCE_NAME \
--zone ZONE
Sostituisci quanto segue:
INSTANCE_NAME
: il nome dell'istanzaZONE
: la zona in cui si trova l'istanza
Se i servizi principali sono operativi, i risultati sono simili a quelli riportati di seguito.
Un valore pari a 1
indica che non è stato rilevato alcun errore.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status 1
notebooks docker_status 1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health 1
notebooks updated 2023-06-20 17:00:00.12345
Se uno dei quattro servizi principali non funziona, lo stato di salute del sistema riporta un valore -1
per indicare l'errore del sistema. Nella maggior parte dei casi, un guasto del sistema significa che JupyterLab non è accessibile.
Un esempio di risultato di errore potrebbe essere il seguente.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status -1
notebooks docker_status -1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health -1
notebooks updated 2023-06-20 17:00:00.12345
Segnala metriche personalizzate a Monitoring
Le istanze Vertex AI Workbench ti consentono di raccogliere le metriche JupyterLab e quelle relative allo stato del sistema e di inviarle a Cloud Monitoring. Queste metriche personalizzate sono diverse da quelle standard registrate quando installi il monitoraggio sulla tua istanza Vertex AI Workbench.
Le metriche personalizzate registrate in Monitoring includono:
L'integrità del sistema di questi servizi principali di Vertex AI Workbench:
- Servizio Docker
- Agente reverse proxy Docker
- Servizio Jupyter
- API Jupyter
Le seguenti metriche JupyterLab:
- Numero di kernel
- Numero di terminali
- Numero di connessioni
- Numero di sessioni
- Memoria massima
- Con memoria elevata
- Memoria attuale
In che modo le istanze segnalano le metriche personalizzate a Monitoring
Per segnalare le metriche personalizzate a Monitoraggio, devi attivare l'impostazione dei metadati report-notebook-metrics
durante la creazione di un'istanza Vertex AI Workbench.
Devi anche assicurarti che l'account di servizio dell'istanza di Vertex AI Workbench abbia le autorizzazioni Monitoring Metric Writer (roles/monitoring.metricWriter
). Per saperne di più, consulta
Gestire l'accesso a progetti, cartelle e organizzazioni.
Crea un'istanza di Vertex AI Workbench che registri metriche personalizzate in Monitoraggio
Per segnalare le metriche personalizzate a Monitoring, devi selezionare la casella di controllo Segnala metriche personalizzate a Cloud Monitoring quando crei un'istanza di Vertex AI Workbench.
Puoi attivare la generazione di report sulle metriche personalizzate in Cloud Monitoring utilizzando la console Google Cloud.
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic su
Crea nuova.Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.
Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:
- Nome: fornisci un nome per la nuova istanza.
- Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni della rete, seleziona la regione geograficamente più vicina a te.
Nella sezione Integrità del sistema, in Report, seleziona Segnala metriche personalizzate a Cloud Monitoring.
Completa la parte rimanente della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.
Concedi le autorizzazioni di autore di metriche di monitoraggio all'account di servizio
Dopo aver creato
la nuova istanza di Vertex AI Workbench,
concedi le autorizzazioni di autore di metriche di monitoraggio
(roles/monitoring.metricWriter
) all'account di servizio per
l'istanza di Vertex AI Workbench.
Per saperne di più, consulta
Gestire l'accesso a progetti, cartelle e organizzazioni.
Monitorare le metriche personalizzate tramite il monitoraggio
Per le istanze di Vertex AI Workbench per le quali sono attivate le metriche personalizzate dei report, puoi monitorare le metriche personalizzate utilizzando la console Google Cloud.
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche personalizzate.
Nella pagina Dettagli istanza, fai clic sulla scheda Monitoraggio. Esamina le metriche personalizzate per la tua istanza.
Installa il monitoraggio su un'istanza
Questa opzione installa automaticamente Monitoring. L'installazione richiede 256 MB di spazio su disco. È necessaria una connessione a internet per la generazione di report sulle metriche in Monitoring.
In che modo le istanze registrano le metriche del sistema e dell'applicazione
Per generare report sulle metriche di sistema e dell'applicazione installando Cloud Monitoring nell'istanza Vertex AI Workbench, devi selezionare la casella di controllo Installa agente Cloud Monitoring quando crei un'istanza Vertex AI Workbench.
Queste metriche sono diverse da quelle personalizzate riportate quando attivi l'impostazione dei metadati report-notebook-metrics
.
Crea un'istanza di Vertex AI Workbench che registri le metriche di sistema e dell'applicazione in Monitoraggio
Per installare il monitoraggio sull'istanza Vertex AI Workbench, puoi utilizzare la console Google Cloud.
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic su
Crea nuova.Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.
Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:
- Nome: fornisci un nome per la nuova istanza.
- Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni della rete, seleziona la regione geograficamente più vicina a te.
Nella sezione Integrità del sistema, in Report, seleziona Installa monitoraggio cloud.
Completa la parte rimanente della finestra di dialogo di creazione dell'istanza e poi fai clic su Crea.
Monitora le metriche del sistema e delle applicazioni tramite il monitoraggio
Per le istanze di Vertex AI Workbench su cui è installato Monitoring, puoi monitorare le metriche di sistema e delle applicazioni utilizzando la console Google Cloud:
Nella console Google Cloud, vai alla pagina Istanze.
Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche di sistema e dell'applicazione.
Nella pagina Dettagli istanza, fai clic sulla scheda Monitoraggio. Esamina le metriche di sistema e dell'applicazione per la tua istanza. Per scoprire come interpretare queste metriche, consulta Esaminare le metriche delle risorse.
Utilizzare lo strumento di diagnostica per monitorare lo stato di salute del sistema
Le istanze di Vertex AI Workbench includono un strumento di diagnostica integrato che può aiutarti a monitorare lo stato del sistema delle tue istanze.
Attività eseguite dallo strumento di diagnostica
Lo strumento di diagnostica esegue le seguenti attività:
Verifica lo stato dei seguenti servizi principali di Vertex AI Workbench:
- Servizio Docker
- Agente reverse proxy Docker
- Servizio Jupyter
- API Jupyter
Controlla se lo spazio su disco per i dischi di avvio e dati viene utilizzato oltre una soglia dell'85%.
Installa
lsof
(è necessaria una connessione a internet).Raccoglie i seguenti log delle istanze:
- Informazioni sulla rete (
ifconfig
,netstat
) - Log nella cartella
/var/log/
- Informazioni sullo stato di Docker
- Dati
lsof
(file aperti) - Stato del servizio Docker
- Stato dell'agente proxy inverso
- Stato del servizio Jupyter
- Stato dell'API Jupyter
- File di configurazione dell'agente proxy
- Processi Python
- Informazioni sulla rete (
Esegue i seguenti comandi e raccoglie i risultati:
- pip freeze
- conda list
- gcloud compute instances describe
INSTANCE_NAME
- gcloud config list
Esegui lo strumento di diagnostica
Se la tua istanza utilizza un contenitore personalizzato, consulta la sezione Eseguire lo strumento di diagnostica nella documentazione del contenitore personalizzato di Vertex AI Workbench.
Per eseguire lo strumento di diagnostica in un'istanza che non utilizza un contenitore personalizzato, completa i seguenti passaggi:
Utilizza SSH per connetterti all'istanza di Vertex AI Workbench.
Nel terminale SSH, esegui i seguenti comandi:
sudo -i cd /opt/deeplearning/bin/ ./diagnostic_tool.sh
Lo strumento di diagnostica raccoglie i log, li comprime in un file
.tar.gz
e li inserisce nella cartella/tmp/
.Estrai il file e valuta i contenuti. I contenuti includono:
- Cartella
log
: log della cartellavar/log/
report.log
: output per tutti i comandi raccoltiproxy-agent-config.json
: Informazioni sulla configurazione del proxy- Log Docker: un file
-json.log
che include i log dei container Docker
- Cartella
Puoi utilizzare le seguenti opzioni con lo strumento di diagnostica.
Opzione | Descrizione |
---|---|
-r | Un'opzione di riparazione che tenta di ripristinare lo stato dei servizi principali di Vertex AI Workbench non riusciti |
-s | Viene eseguito senza conferma |
-b |
Carica il file .tar.gz
in un bucket Cloud Storage.
|
-v | Un'opzione di debug per la risoluzione dei problemi dello strumento in caso di errori |
-c | Acquisisce 30 secondi di traffico dei pacchetti nella tua istanza di Vertex AI Workbench, filtrando l'SSH |
-d | Una cartella di destinazione in cui salvare i log |
-h | Guida |