Monitoraggio dello stato di integrità

Le istanze Vertex AI Workbench offrono diversi metodi per monitorare l'integrità dei blocchi note. In questa pagina viene descritto come utilizzare ciascun metodo.

Metodi per il monitoraggio dello stato di integrità

Puoi monitorare l'integrità delle istanze Vertex AI Workbench in diversi modi. In questa pagina viene descritto come utilizzare i seguenti metodi:

Prima di iniziare

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Attiva l'API Notebooks.

    Abilita l'API

  5. Installa Google Cloud CLI.
  6. Per initialize gcloud CLI, esegui questo comando:

    gcloud init
  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  8. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  9. Attiva l'API Notebooks.

    Abilita l'API

  10. Installa Google Cloud CLI.
  11. Per initialize gcloud CLI, esegui questo comando:

    gcloud init

Utilizzare gli attributi guest per generare report sullo stato del sistema

Puoi utilizzare gli attributi guest per segnalare l'integrità del sistema dei seguenti servizi principali:

  • Servizio Docker
  • Agente proxy inverso Docker
  • Servizio Jupyter
  • API Jupyter

Gli attributi guest sono un tipo specifico di metadati personalizzati su cui le applicazioni possono scrivere durante l'esecuzione nell'istanza di Vertex AI Workbench. Per saperne di più sugli attributi guest, consulta Informazioni sui metadati della VM.

In che modo le istanze utilizzano gli attributi guest per generare report sull'integrità del sistema

Il servizio notebooks-collection-agent esegue un processo Python in background che verifica lo stato dei servizi principali dell'istanza di Vertex AI Workbench e aggiorna gli attributi guest come 1 se non vengono rilevati problemi o -1 se viene rilevato un errore.

Per utilizzare il servizio notebooks-collection-agent per generare report sull'integrità dell'istanza di Vertex AI Workbench, devi abilitare i seguenti attributi guest durante la creazione di un'istanza di Vertex AI Workbench:

  • enable-guest-attributes=TRUE: abilita gli attributi guest sulla tua istanza di Vertex AI Workbench. Tutte le nuove istanze abilitano questo attributo per impostazione predefinita.
  • report-event-health=TRUE: registra i risultati del controllo di integrità del sistema negli attributi guest.

Il servizio notebooks-collection-agent non richiede autorizzazioni speciali per scrivere negli attributi guest dell'istanza.

Crea un'istanza di Vertex AI Workbench con gli attributi guest di integrità del sistema abilitati

Per utilizzare gli attributi guest di integrità del sistema per generare report sull'integrità dell'istanza di Vertex AI Workbench, devi selezionare la casella di controllo Abilita report di integrità del sistema quando crei un'istanza di Vertex AI Workbench.

Puoi abilitare il report di integrità del sistema utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Reporting, seleziona Segnala l'integrità del sistema.

  6. Completa il resto della finestra di dialogo di creazione dell'istanza, quindi fai clic su Crea.

Monitora lo stato del sistema tramite attributi guest

Per le istanze di Vertex AI Workbench in cui sono abilitati gli attributi guest correlati, puoi recuperare i valori degli attributi guest di integrità del sistema utilizzando la console Google Cloud, Google Cloud CLI con i comandi di Compute Engine o Google Cloud CLI con i comandi Vertex AI Workbench.

Console

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare lo stato di integrità del sistema.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Integrità. Esamina lo stato dell'istanza e dei suoi servizi principali.

gcloud con Compute Engine

gcloud compute instances get-guest-attributes INSTANCE_NAME \
    --zone ZONE

Sostituisci quanto segue:

  • INSTANCE_NAME: il nome dell'istanza
  • ZONE: la zona in cui si trova l'istanza

Se i tuoi servizi principali sono integri, i risultati saranno i seguenti. Il valore 1 indica che non sono stati rilevati errori.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   1
 notebooks   docker_status               1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               1
 notebooks   updated                     2023-06-20 17:00:00.12345

Se uno dei quattro servizi principali non funziona, l'integrità del sistema segnala un valore -1 per indicare un errore del sistema. Nella maggior parte dei casi, un guasto del sistema indica che JupyterLab non è accessibile.

Un esempio di risultato di errore potrebbe essere simile al seguente.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   -1
 notebooks   docker_status               -1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               -1
 notebooks   updated                     2023-06-20 17:00:00.12345

Segnala metriche personalizzate a Monitoring

Le istanze di Vertex AI Workbench ti consentono di raccogliere metriche JupyterLab e di stato del sistema e di segnalarle a Cloud Monitoring. Queste metriche personalizzate sono diverse da quelle standard registrate quando installi Monitoring sulla tua istanza di Vertex AI Workbench.

Le metriche personalizzate segnalate a Monitoring includono:

  • L'integrità del sistema di questi servizi principali di Vertex AI Workbench:

    • Servizio Docker
    • Agente proxy inverso Docker
    • Servizio Jupyter
    • API Jupyter
  • Le seguenti metriche JupyterLab:

    • Numero di kernel
    • Numero di terminal
    • Numero di connessioni
    • Numero di sessioni
    • Memoria massima
    • Con memoria elevata
    • Memoria attuale

In che modo le istanze segnalano le metriche personalizzate a Monitoring

Per segnalare metriche personalizzate a Monitoring, devi abilitare l'impostazione dei metadati report-notebook-metrics durante la creazione di un'istanza di Vertex AI Workbench.

Devi inoltre assicurarti che l'account di servizio dell'istanza Vertex AI Workbench disponga delle autorizzazioni di Monitoring Metric Writer (roles/monitoring.metricWriter). Per maggiori informazioni, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Crea un'istanza di Vertex AI Workbench che invii metriche personalizzate a Monitoring

Per segnalare metriche personalizzate a Monitoring, devi selezionare la casella di controllo Segnala metriche personalizzate a Cloud Monitoring quando crei un'istanza di Vertex AI Workbench.

Puoi abilitare la generazione di report di metriche personalizzate in Cloud Monitoring utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Reporting, seleziona Segnala metriche personalizzate a Cloud Monitoring.

  6. Completa il resto della finestra di dialogo di creazione dell'istanza, quindi fai clic su Crea.

Concedi le autorizzazioni Writer metriche di Monitoring all'account di servizio

Dopo aver creato la nuova istanza di Vertex AI Workbench, concedi le autorizzazioni di Writer metriche di monitoraggio (roles/monitoring.metricWriter) all'account di servizio per l'istanza di Vertex AI Workbench. Per maggiori informazioni, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.

Monitora le metriche personalizzate tramite Monitoring

Per le istanze di Vertex AI Workbench in cui sono abilitati i report sulle metriche personalizzate, puoi monitorare le metriche personalizzate utilizzando la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche personalizzate.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoring. Esamina le metriche personalizzate per la tua istanza.

Installa Monitoring su un'istanza

Questa opzione installa automaticamente Monitoring. L'installazione richiede 256 MB di spazio su disco. Per segnalare le metriche a Monitoring è necessaria una connessione a internet.

In che modo le istanze segnalano le metriche del sistema e delle applicazioni

Per generare report sulle metriche di sistema e delle applicazioni installando Cloud Monitoring sull'istanza di Vertex AI Workbench, devi selezionare la casella di controllo Installa agente Cloud Monitoring quando crei un'istanza di Vertex AI Workbench. Queste metriche sono diverse da quelle personalizzate che vengono segnalate quando attivi l'impostazione dei metadati report-notebook-metrics.

Crea un'istanza di Vertex AI Workbench che segnali le metriche del sistema e delle applicazioni a Monitoring

Per installare Monitoring sulla tua istanza Vertex AI Workbench, puoi utilizzare la console Google Cloud.

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic su  Crea nuovo.

  3. Nella finestra di dialogo Nuova istanza, fai clic su Opzioni avanzate.

  4. Nella finestra di dialogo Crea istanza, nella sezione Dettagli, fornisci le seguenti informazioni per la nuova istanza:

    • Nome: specifica un nome per la nuova istanza.
    • Regione e Zona: seleziona una regione e una zona per la nuova istanza. Per ottenere le migliori prestazioni di rete, seleziona la regione geograficamente più vicina a te.
  5. Nella sezione Integrità del sistema, in Reporting, seleziona Installa Cloud Monitoring.

  6. Completa il resto della finestra di dialogo di creazione dell'istanza, quindi fai clic su Crea.

Monitoraggio delle metriche di sistema e delle applicazioni tramite Monitoring

Per le istanze Vertex AI Workbench in cui è installato Monitoring, puoi monitorare le metriche del sistema e delle applicazioni utilizzando la console Google Cloud:

  1. Nella console Google Cloud, vai alla pagina Istanze.

    Vai a Istanze

  2. Fai clic sul nome dell'istanza di cui vuoi visualizzare le metriche di sistema e delle applicazioni.

  3. Nella pagina Dettagli istanza, fai clic sulla scheda Monitoring. Esamina le metriche di sistema e delle applicazioni per l'istanza. Per scoprire come interpretare queste metriche, consulta Esaminare le metriche delle risorse.

Utilizzare lo strumento di diagnostica per monitorare lo stato di integrità del sistema

Le istanze Vertex AI Workbench includono uno strumento di diagnostica integrato che consente di monitorare l'integrità del sistema delle istanze.

Attività eseguite dallo strumento di diagnostica

Lo strumento di diagnostica esegue le seguenti attività:

  • Verifica lo stato dei seguenti servizi principali di Vertex AI Workbench:

    • Servizio Docker
    • Agente proxy inverso Docker
    • Servizio Jupyter
    • API Jupyter
  • Controlla se lo spazio su disco per l'avvio e i dischi dati viene utilizzato oltre una soglia dell'85%.

  • Installazioni lsof (è richiesta una connessione a internet).

  • Raccoglie i seguenti log di istanza:

    • Informazioni sulla rete (ifconfig, netstat)
    • Log nella cartella /var/log/
    • Informazioni sullo stato Docker
    • Dati di lsof (file aperti)
    • Stato del servizio Docker
    • Stato dell'agente inverso del proxy
    • Stato del servizio Jupyter
    • Stato dell'API Jupyter
    • File di configurazione dell'agente proxy
    • Processi Python
  • Esegue i comandi seguenti e raccoglie i risultati:

    • blocco pip
    • elenco conda
    • Le istanze gcloud compute descrivono INSTANCE_NAME
    • elenco di configurazione gcloud

Esegui lo strumento di diagnostica

Per eseguire lo strumento di diagnostica, completa i seguenti passaggi:

  1. Utilizza SSH per connetterti all'istanza di Vertex AI Workbench.

  2. Nel terminale SSH, esegui questi comandi:

    sudo -i
    cd /opt/deeplearning/bin/
    ./diagnostic_tool.sh
    

    Lo strumento di diagnostica raccoglie i log, li comprime in un file .tar.gz e li inserisce nella cartella /tmp/.

  3. Estrai il file e valuta i contenuti. I contenuti includono:

    • Cartella log: log dalla cartella var/log/
    • report.log: output per tutti i comandi raccolti
    • proxy-agent-config.json: informazioni sulla configurazione proxy
    • Log Docker: un file -json.log che include i log del container Docker

Puoi utilizzare le seguenti opzioni con lo strumento di diagnostica.

Opzione Descrizione
- R Un'opzione di riparazione che tenta di ripristinare lo stato non riuscito dei servizi principali di Vertex AI Workbench
-s Esecuzione senza conferma
-b Carica il file .tar.gz in un bucket Cloud Storage.
-v Un'opzione di debug per risolvere i problemi dello strumento in caso di errori
-c Acquisisce 30 secondi di traffico di pacchetti nella tua istanza Vertex AI Workbench, filtrando l'SSH
- g Una cartella di destinazione in cui salvare i log
-h Guida

Passaggi successivi