Melihat log dan metrik Vertex AI

Log dan metrik memungkinkan Anda memantau layanan dan memecahkan masalah terkait performa layanan. Anda dapat melihat log dan metrik dari layanan Vertex AI menggunakan resource pemantauan dan logging dari Google Distributed Cloud (GDC) yang terisolasi. Anda juga dapat membuat kueri untuk memantau metrik Vertex AI tertentu.

Halaman ini menjelaskan cara membuat kueri dan melihat log dan metrik dari layanan Vertex AI di instance pemantauan Distributed Cloud.

Halaman ini juga berisi contoh kueri yang dapat Anda gunakan untuk memantau platform dan layanan Vertex AI, seperti Optical Character Recognition (OCR), Speech-to-Text, dan Vertex AI Translation. Untuk mengetahui informasi selengkapnya tentang solusi logging dan pemantauan di Distributed Cloud, lihat Memantau metrik dan log.

Sebelum memulai

Untuk mendapatkan izin yang Anda perlukan untuk melihat log dan metrik dari Vertex AI, minta Admin IAM Project Anda untuk memberi Anda peran Project Grafana Viewer (project-grafana-viewer) di namespace project Anda.

Untuk mengetahui informasi selengkapnya tentang peran ini, lihat Siapkan izin IAM.

Memvisualisasikan log dan metrik di dasbor

Anda dapat melihat metrik dan log Vertex AI di dasbor. Misalnya, Anda dapat membuat kueri untuk melihat pengaruh Vertex AI terhadap penggunaan CPU.

Ikuti langkah-langkah berikut untuk melihat log dan metrik Vertex AI di dasbor:

  1. Login ke konsol GDC dan pilih project Anda.

  2. Di menu navigasi, klik Vertex AI > Pre-trained APIs.

  3. Di halaman Pre-trained APIs, pastikan Vertex AI API untuk layanan yang ingin Anda pantau sudah diaktifkan.

  4. Klik Monitor layanan di Grafana untuk membuka halaman beranda Grafana.

  5. Di menu navigasi halaman beranda, klik jelajah Jelajah untuk membuka halaman Jelajah.

  6. Dari menu di halaman Jelajahi, pilih salah satu sumber data berikut:

    • Log Operasional: mengambil log operasional.
    • Log Audit: mengambil log audit.
    • Prometheus: mengambil metrik.
  7. Jika Anda ingin menampilkan metrik, masukkan kueri menggunakan ekspresi PromQL (Prometheus Query Language).

  8. Jika Anda ingin menampilkan log, masukkan kueri menggunakan ekspresi LogQL (Bahasa Kueri Log).

Halaman ini menampilkan metrik atau log yang cocok dengan kueri Anda.

Opsi Prometheus dipilih di halaman Explore untuk mendapatkan metrik.

Gambar 1. Opsi menu di Grafana untuk membuat kueri metrik.

Pada gambar 1, opsi Prometheus menampilkan antarmuka yang memungkinkan Anda membuat kueri untuk mengambil metrik.

Sampel kueri

Tabel berikut berisi contoh kueri untuk memantau platform Vertex AI di lingkungan Anda:

Platform Vertex AI
Sumber data Deskripsi Komponen Kueri
Metrik Persentase penggunaan CPU container Operator level 1 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l1operator"}[30s]) * 100
Operator level 2 rate(container_cpu_usage_seconds_total{namespace="ai-system",container="l2operator"}[30s]) * 100
Penggunaan memori dalam MB container Operator level 1 container_memory_usage_bytes{namespace="ai-system",container="l1operator"} * 1e-6
Operator level 2 container_memory_usage_bytes{namespace="ai-system",container="l2operator"} * 1e-6
Log operasional Log operator L1 Operator level 1 {service_name="vai-l1operator"}
Log operator L2 Operator level 2 {service_name="vai-l2operator"}
Log audit Log audit frontend platform Frontend plugin web Vertex AI {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-frontend)
Log audit backend platform Backend plugin web Vertex AI {service_name="istio"} |~ upstream_cluster:.*(vai-web-plugin-backend)

Tabel berikut berisi contoh kueri untuk memantau layanan Vertex AI API, seperti OCR, Speech-to-Text, dan Vertex AI Translation, di lingkungan Anda:

Layanan Vertex AI
Sumber data Deskripsi Layanan Kueri
Metrik Pengaruh API terlatih pada penggunaan CPU.
OCR rate(container_cpu_usage_seconds_total{namespace="g-vai-ocr-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: vision-extractor | vision-frontend | vision-vms-ocr
Speech-to-Text rate(container_cpu_usage_seconds_total{namespace="g-vai-speech-sie",container="CONTAINER_NAME"}[30s]) * 100
Vertex AI Translation rate(container_cpu_usage_seconds_total{namespace="g-vai-translation-sie",container="CONTAINER_NAME"}[30s]) * 100 CONTAINER_NAME values: translation-aligner | translation-frontend | translation-prediction
Gunakan label filter destination_service untuk mendapatkan rasio error selama 60 menit terakhir. OCR rate(istio_requests_total{destination_service=~".*g-vai-ocr-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Speech-to-Text rate(istio_requests_total{destination_service=~".*g-vai-speech-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Vertex AI Translation rate(istio_requests_total{destination_service=~".*g-vai-translation-sie.svc.cluster.local",response_code=~"[4-5][0-9][0-9]"}[60m])
Log operasional Log operasional dari layanan Vertex AI
OCR {namespace="g-vai-ocr-sie"}
Speech-to-Text {namespace="g-vai-speech-sie"}
Vertex AI Translation {namespace="g-vai-translation-sie"}
Log audit Log audit dari layanan Vertex AI OCR {service_name="istio"} |= "vision-frontend-server"
Speech-to-Text {service_name="istio"} |= "speech-frontend-server"
Vertex AI Translation {service_name="istio"} |= "translation-frontend-server"