Visualizza i log e le metriche di Vertex AI

Log e metriche ti consentono di monitorare i servizi e risolvere i problemi relativi alle prestazioni del servizio. Puoi visualizzare i log e le metriche dei servizi Vertex AI utilizzando le risorse di monitoraggio e logging di Google Distributed Cloud (GDC) air-gapped. Puoi anche creare query per monitorare metriche Vertex AI specifiche.

Questa pagina descrive come eseguire query e visualizzare log e metriche dei servizi Vertex AI in l'istanza di monitoraggio di Distributed Cloud.

Questa pagina contiene anche query di esempio che puoi utilizzare per monitorare la piattaforma e i servizi Vertex AI, come il riconoscimento ottico dei caratteri (OCR), Speech-to-Text e Vertex AI Translation. Per ulteriori informazioni sulle soluzioni di logging e monitoraggio in Distributed Cloud, consulta Monitorare metriche e log.

Prima di iniziare

Per ottenere le autorizzazioni necessarie per visualizzare log e metriche da Vertex AI, chiedi all'amministratore IAM del progetto di concederti il ruolo Visualizzatore Grafana progetto (project-grafana-viewer) nello spazio dei nomi del progetto.

Per saperne di più su questo ruolo, consulta Preparare le autorizzazioni IAM.

Visualizzare log e metriche nelle dashboard

Puoi visualizzare le metriche e i log di Vertex AI nelle dashboard. Ad esempio, puoi creare una query per visualizzare l'impatto di Vertex AI sull'utilizzo della CPU.

Per visualizzare i log e le metriche di Vertex AI nelle dashboard:

  1. Accedi alla console GDC e seleziona il tuo progetto.

  2. Nel menu di navigazione, fai clic su Vertex AI > API preaddestrate.

  3. Nella pagina API preaddestrate, assicurati che l'API Vertex AI per il servizio che vuoi monitorare sia abilitata.

  4. Fai clic su Monitora i servizi in Grafana per aprire la home page di Grafana.

  5. Nel menu di navigazione della home page, fai clic su Esplora Esplora per aprire la pagina Esplora.

  6. Nel menu della pagina Esplora, seleziona una delle seguenti origini dati:

    • Log operativi: recupera i log operativi.
    • Audit log: recupera i log di controllo.
    • Prometheus: recupera le metriche.
  7. Se vuoi visualizzare le metriche, inserisci una query utilizzando le espressioni PromQL (Prometheus Query Language).

  8. Se vuoi visualizzare i log, inserisci una query utilizzando le espressioni LogQL (Log Query Language).

La pagina mostra le metriche o i log corrispondenti alla query.

Per ottenere le metriche, nella pagina Esplora è selezionata l'opzione Prometheus.

Figura 1. Opzione di menu in Grafana per eseguire query sulle metriche.

Nella figura 1, l'opzione Prometheus mostra l'interfaccia che ti consente di creare query per recuperare le metriche.

Query di esempio

La tabella seguente contiene query di esempio per monitorare la piattaforma Vertex AI nel tuo ambiente:

Vertex AI Platform
Origine dati Descrizione Componente Query
Metriche Percentuale di utilizzo della CPU del container Operatore di livello 1 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
Operatore di livello 2 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
Utilizzo della memoria in MB del container Operatore di livello 1 container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
Operatore di livello 2 container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
Log operativi Log operatore L1 Operatore di livello 1 {service_name="vai-l1operator"}
Log operatore L2 Operatore di livello 2 {service_name="vai-l2operator"}
Audit log Log di controllo del frontend della piattaforma Frontend del plug-in web Vertex AI {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend)
Log di controllo del backend della piattaforma Backend del plug-in web Vertex AI {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend)

La seguente tabella contiene query di esempio per monitorare i servizi API Vertex AI, come OCR, Speech-to-Text e Vertex AI Translation, nel tuo ambiente:

Servizi Vertex AI
Origine dati Descrizione Servizio Query
Metriche L'effetto di un'API preaddestrata sull'utilizzo della CPU.
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
Utilizza l'etichetta del filtro destination_service per ottenere il tasso di errore negli ultimi 60 minuti. OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Log operativi Log operativi dei servizi Vertex AI
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
Audit log Audit log dei servizi Vertex AI OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"