Monitoraggio dello stato di integrità

Le istanze di Vertex AI Workbench offrono diversi metodi per monitorare l'integrità dei tuoi blocchi note. Questa pagina descrive come utilizzare ciascun metodo.

Metodi per il monitoraggio dello stato di integrità

Puoi monitorare l'integrità delle tue istanze Vertex AI Workbench in diversi modi. In questa pagina viene descritto come utilizza i seguenti metodi:

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Notebooks API.

    Enable the API

  5. Install the Google Cloud CLI.
  6. To initialize the gcloud CLI, run the following command:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Make sure that billing is enabled for your Google Cloud project.

  9. Enable the Notebooks API.

    Enable the API

  10. Install the Google Cloud CLI.
  11. To initialize the gcloud CLI, run the following command:

    gcloud init

Utilizzare gli attributi guest per segnalare l'integrità del sistema

Puoi utilizzare gli attributi guest per segnalare l'integrità del sistema dei seguenti servizi principali:

  • Servizio Docker
  • Agente di reverse proxy Docker
  • Servizio Jupyter
  • API Jupyter

Gli attributi ospite sono un tipo specifico di metadati personalizzati che su cui le applicazioni possono scrivere durante l'esecuzione il tuo Vertex AI Workbench in esecuzione in un'istanza Compute Engine. Per scoprire di più sugli attributi guest, consulta Informazioni sui metadati della VM.

In che modo le istanze utilizzano gli attributi guest per segnalare l'integrità del sistema

Il servizio notebooks-collection-agent esegue un processo Python in background che verifica lo stato dei servizi principali dell'istanza Vertex AI Workbench e aggiorna gli attributi guest come 1 se non vengono rilevati problemi o -1 se viene rilevato un errore.

Per utilizzare il servizio notebooks-collection-agent per generare report sullo stato della tua istanza Vertex AI Workbench, devi attivare i seguenti attributi guest durante la creazione di un'istanza Vertex AI Workbench:

  • enable-guest-attributes=TRUE: consente agli ospiti sulla tua istanza di Vertex AI Workbench. Per impostazione predefinita, questo attributo è abilitato in tutte le nuove istanze.
  • report-event-health=TRUE: registra i risultati del controllo di salute del sistema negli attributi degli ospiti.

Il servizio notebooks-collection-agent non richiede autorizzazioni speciali per scrivere negli attributi guest dell'istanza.

Crea un'istanza di Vertex AI Workbench con gli attributi guest relativi allo stato di salute del sistema abilitati

Per utilizzare gli attributi guest relativi all'integrità del sistema per generare report sull'integrità della tua istanza Vertex AI Workbench, devi selezionare la casella di controllo Abilita il report sull'integrità del sistema quando crei un'istanza Vertex AI Workbench.

Puoi attivare il report sullo stato del sistema utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Details, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona. Seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Report, seleziona Segnala integrità del sistema.

  6. Completa il resto della finestra di dialogo per la creazione dell'istanza e fai clic su Crea.

Monitorare lo stato del sistema tramite gli attributi guest

Per le istanze di Vertex AI Workbench che Abbiano gli attributi guest correlati attivati, puoi recuperare i valori degli attributi guest dell'integrità del sistema utilizzando la console Google Cloud o Google Cloud CLI con Compute Engine oppure la Google Cloud CLI con i comandi Vertex AI Workbench.

Console

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare lo stato di integrità del sistema.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Integrità. Controlla lo stato dell'istanza e dei relativi servizi principali.

gcloud con Compute Engine

gcloud compute instances get-guest-attributes INSTANCE_NAME \
    --zone ZONE

Sostituisci quanto segue:

  • INSTANCE_NAME: il nome dell'istanza
  • ZONE: la zona in cui si trova l'istanza

Se i servizi principali sono operativi, i risultati sono simili a quelli riportati di seguito. Un valore pari a 1 indica che non è stato rilevato alcun errore.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   1
 notebooks   docker_status               1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               1
 notebooks   updated                     2023-06-20 17:00:00.12345

Se uno dei quattro servizi principali non funziona, lo stato di salute del sistema riporta un valore -1 per indicare l'errore del sistema. Nella maggior parte dei casi, un guasto del sistema significa che JupyterLab non è accessibile.

Un esempio di risultato di errore potrebbe essere il seguente.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   -1
 notebooks   docker_status               -1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               -1
 notebooks   updated                     2023-06-20 17:00:00.12345

Segnala metriche personalizzate a Monitoring

Le istanze di Vertex AI Workbench consentono raccogliere le metriche JupyterLab e quelle relative allo stato del sistema e segnalarle a Cloud Monitoring. Queste metriche personalizzate sono diverse dalle metriche standard riportate quando installi Monitoring dell'istanza di Vertex AI Workbench.

Le metriche personalizzate segnalate a Monitoring includono quanto segue:

  • L'integrità del sistema di questi servizi principali di Vertex AI Workbench:

    • Servizio Docker
    • Agente di reverse proxy Docker
    • Servizio Jupyter
    • API Jupyter
  • Le seguenti metriche JupyterLab:

    • Numero di kernel
    • Numero di terminali
    • Numero di connessioni
    • Numero di sessioni
    • Memoria massima
    • Con memoria elevata
    • Memoria attuale

In che modo le istanze segnalano le metriche personalizzate a Monitoring

Per segnalare le metriche personalizzate a Monitoring, devi abilitare l'impostazione dei metadati report-notebook-metrics mentre creando un'istanza di Vertex AI Workbench.

Devi inoltre assicurarti che Vertex AI Workbench account di servizio dell'istanza ha un Writer metriche Monitoring (roles/monitoring.metricWriter) autorizzazioni aggiuntive. Per ulteriori informazioni, vedi Gestire l'accesso a progetti, cartelle e organizzazioni.

Crea un'istanza di Vertex AI Workbench che registri le metriche personalizzate in Monitoraggio

Per segnalare le metriche personalizzate a Monitoring, devi selezionare la casella di controllo Segnala metriche personalizzate a Cloud Monitoring quando crei un'istanza di Vertex AI Workbench.

Puoi abilitare il reporting di metriche personalizzate in Cloud Monitoring utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Details, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni della rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Report, Seleziona Segnala metriche personalizzate a Cloud Monitoring.

  6. Completa il resto della finestra di dialogo per la creazione dell'istanza e fai clic su Crea.

Concedi le autorizzazioni di Writer metriche Monitoring all'account di servizio

Dopo aver creato la nuova istanza di Vertex AI Workbench, concedi le autorizzazioni di autore di metriche di monitoraggio (roles/monitoring.metricWriter) all'account di servizio per l'istanza di Vertex AI Workbench. Per ulteriori informazioni, vedi Gestire l'accesso a progetti, cartelle e organizzazioni.

Monitora le metriche personalizzate tramite Monitoring

Per le istanze di Vertex AI Workbench per le quali sono attivate le metriche personalizzate dei report, puoi monitorare le metriche personalizzate utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche personalizzate.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoring. Esamina le metriche personalizzate per la tua istanza.

Installa Monitoring su un'istanza

Questa opzione installa automaticamente Monitoring. L'installazione richiede 256 MB di spazio su disco. Una connessione a internet è necessaria una connessione affinché le metriche vengano segnalate Monitoraggio.

Come le istanze segnalano metriche di sistema e di applicazione

Per generare report sulle metriche di sistema e dell'applicazione installando Cloud Monitoring nell'istanza Vertex AI Workbench, devi selezionare la casella di controllo Installa agente Cloud Monitoring quando crei un'istanza Vertex AI Workbench. Queste metriche sono diverse da quelle personalizzate riportate quando attivi l'impostazione dei metadati report-notebook-metrics.

Crea un'istanza di Vertex AI Workbench che segnali le metriche di sistema e applicazione a Monitoring

Per installare Monitoring sul tuo Vertex AI Workbench, puoi utilizzare la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Details, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni della rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Report, seleziona Installa Cloud Monitoring.

  6. Completa il resto della finestra di dialogo per la creazione dell'istanza e fai clic su Crea.

Monitora le metriche del sistema e delle applicazioni tramite il monitoraggio

Per le istanze di Vertex AI Workbench che Monitoring è installato, puoi monitorare le metriche di sistema e dell'applicazione utilizzando la console Google Cloud:

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche di sistema e dell'applicazione.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoring. Esamina le metriche di sistema e dell'applicazione per la tua istanza. Per scoprire come interpretare queste metriche, consulta la sezione Esamina le risorse metriche.

Utilizza lo strumento di diagnostica per monitorare l'integrità del sistema

Le istanze Vertex AI Workbench includono un strumento di diagnostica integrato che può aiutarti a monitorare lo stato del sistema delle tue istanze.

Attività eseguite dallo strumento di diagnostica

Lo strumento di diagnostica esegue le seguenti attività:

  • Verifica lo stato del seguente Vertex AI Workbench servizi principali:

    • Servizio Docker
    • Agente di reverse proxy Docker
    • Servizio Jupyter
    • API Jupyter
  • Controlla se lo spazio su disco per i dischi di avvio e dati viene utilizzato oltre una soglia dell'85%.

  • Installazioni lsof (è necessaria una connessione a internet).

  • Raccoglie i seguenti log delle istanze:

    • Informazioni sulla rete (ifconfig, netstat)
    • Log nella cartella /var/log/
    • Informazioni sullo stato di Docker
    • Dati lsof (file aperti)
    • Stato del servizio Docker
    • Stato dell'agente proxy inverso
    • Stato del servizio Jupyter
    • Stato dell'API Jupyter
    • File di configurazione dell'agente proxy
    • Processi Python
  • Esegue i seguenti comandi e raccoglie i risultati:

    • blocco pip
    • elenco conda
    • gcloud compute instances describe INSTANCE_NAME
    • gcloud config list

Esegui lo strumento di diagnostica

Per eseguire lo strumento di diagnostica, procedi nel seguente modo:

  1. Utilizza SSH per connetterti a Vertex AI Workbench in esecuzione.

  2. Nel terminale SSH, esegui questi comandi:

    sudo -i
    cd /opt/deeplearning/bin/
    ./diagnostic_tool.sh

    Lo strumento di diagnostica raccoglie i log, li comprime in un file .tar.gz e li inserisce nella cartella /tmp/.

  3. Estrai il file e valuta i contenuti. I contenuti includono:

    • Cartella log: log della cartella var/log/
    • report.log: output per tutti i comandi raccolti
    • proxy-agent-config.json: Informazioni di configurazione del proxy
    • Log Docker: un file -json.log che include i log dei container Docker

Con lo strumento di diagnostica puoi utilizzare le seguenti opzioni.

Opzione Descrizione
-r Un'opzione di riparazione che tenta di ripristinare lo stato dei servizi principali di Vertex AI Workbench non riusciti
-s Esecuzione senza conferma
-b Carica il file .tar.gz in un bucket Cloud Storage.
-v Un'opzione di debug per la risoluzione dei problemi dello strumento in caso di errori
-c Acquisisce 30 secondi di traffico dei pacchetti in alla tua istanza Vertex AI Workbench, filtrando SSH
-d Una cartella di destinazione in cui salvare i log
-h Guida

Passaggi successivi