Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token. Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token.

Halaman ini diterjemahkan oleh Cloud Translation API.

Metrik Cloud Monitoring untuk Vertex AI

Vertex AI mengekspor metrik ke Cloud Monitoring. Vertex AI juga menampilkan beberapa metrik ini di konsol Google Cloud Vertex AI. Anda dapat menggunakan Cloud Monitoring untuk membuat dasbor atau mengonfigurasi pemberitahuan berdasarkan metrik. Misalnya, Anda dapat menerima pemberitahuan jika latensi prediksi model di Vertex AI terlalu tinggi.

Bagian berikut menjelaskan metrik yang disediakan di konsol Google Cloud Vertex AI, yang mungkin berupa metrik langsung atau metrik yang dihitung yang dikirim Vertex AI ke Cloud Monitoring.

Untuk melihat daftar sebagian besar metrik yang diekspor Vertex AI ke Cloud Monitoring, lihat bagian "aiplatform" di halaman metrik Monitoring Google Cloud. Untuk metrik pelatihan kustom, lihat jenis metrik yang dimulai dengan training di bagian "ml" pada halaman tersebut.

Metrik pemantauan pelatihan kustom

Saat melakukan pelatihan kustom, Anda dapat memantau jenis penggunaan resource berikut untuk setiap node pelatihan:

Pemakaian CPU atau GPU dari setiap node pelatihan
Penggunaan memori setiap node pelatihan
Penggunaan jaringan (byte yang dikirim per detik dan byte yang diterima per detik)

Jika menggunakan penyesuaian hyperparameter, Anda dapat melihat metrik untuk setiap uji coba.

Untuk melihat metrik ini setelah memulai pelatihan kustom, lakukan hal berikut:

Di konsol Google Cloud, buka salah satu halaman berikut, bergantung pada apakah Anda menggunakan penyesuaian hyperparameter:
- Jika Anda tidak menggunakan penyesuaian hyperparameter, buka halaman Custom jobs.
  
  Buka Custom jobs
- Jika Anda menggunakan penyesuaian hyperparameter, buka halaman Hyperparamter tuning job.
  
  Buka Hyperparameter tuning jobs
Klik nama fasilitas pelatihan kustom Anda.

Jika Anda membuat resource kustom TrainingPipeline, klik nama tugas yang dibuat oleh TrainingPipeline; misalnya, TRAINING_PIPELINE_NAME-custom-job atau TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.
Klik tab CPU, GPU, atau Network untuk melihat diagram pemakaian untuk metrik yang Anda inginkan.

Jika menggunakan penyesuaian hyperparameter, Anda dapat mengklik baris dalam tabel Hyperparamater tuning trials untuk melihat metrik untuk uji coba tertentu.

Untuk melihat metrik yang lebih lama atau menyesuaikan cara Anda melihat metrik, gunakan Monitoring. Vertex AI mengekspor metrik pelatihan kustom ke Monitoring sebagai jenis metrik dengan awalan ml.googleapis.com/training. Jenis resource yang dimonitor adalah cloudml_job.

Perhatikan bahwa AI Platform Training mengekspor metrik ke Monitoring dengan jenis metrik dan jenis resource yang sama.

Metrik pemantauan endpoint

Setelah men-deploy model ke endpoint, Anda dapat memantau endpoint untuk memahami performa model dan penggunaan resource. Anda dapat melacak metrik seperti pola traffic, tingkat error, latensi, dan penggunaan resource untuk memastikan bahwa model Anda merespons permintaan secara konsisten dan dapat diprediksi. Misalnya, Anda dapat men-deploy ulang model dengan jenis mesin yang berbeda untuk mengoptimalkan biaya. Setelah melakukan perubahan, Anda dapat memantau model untuk memeriksa apakah perubahan yang Anda buat berdampak buruk pada performanya.

Di Cloud Monitoring, jenis resource yang dimonitor untuk model yang di-deploy adalah aiplatform.googleapis.com/Endpoint.

Metrik performa

Metrik performa dapat membantu Anda menemukan informasi tentang pola traffic, error, dan latensi model. Anda dapat melihat metrik performa berikut di konsol Google Cloud.

Predictions per second: Jumlah prediksi per detik di seluruh prediksi online dan batch. Jika Anda memiliki lebih dari satu instance per permintaan, setiap instance dihitung dalam diagram ini.
Prediction error percentage: Tingkat error yang dihasilkan model Anda. Tingkat error yang tinggi mungkin mengindikasikan adanya masalah pada model atau pada permintaan ke model. Lihat diagram kode respons untuk menentukan error yang terjadi.
Model latency (hanya untuk model tabel dan kustom): Waktu yang dihabiskan untuk melakukan komputasi.
Overhead latency (khusus model tabel dan kustom): Total waktu yang dihabiskan untuk memproses permintaan, di luar komputasi.
Total latency duration: Total waktu yang dihabiskan oleh permintaan dalam layanan, yang merupakan latensi model ditambah latensi overhead.

Penggunaan resource

Metrik penggunaan resource dapat membantu Anda melacak penggunaan CPU, penggunaan memori, dan penggunaan jaringan model Anda. Anda dapat melihat metrik penggunaan berikut ini di konsol Google Cloud.

Replica count: Jumlah replika aktif yang digunakan oleh model yang di-deploy.
Replica target: Jumlah replika aktif yang diperlukan untuk model yang di-deploy.
CPU usage: Tingkat penggunaan inti CPU saat ini dari replika model yang di-deploy. 100% mewakili satu core CPU yang digunakan sepenuhnya, sehingga sebuah replika dapat mencapai pemakaian lebih dari 100% jika jenis mesinnya memiliki beberapa core.
Memory usage: Jumlah memori yang dialokasikan oleh replika model yang di-deploy dan yang sedang digunakan.
Network byte sent: Jumlah byte yang dikirim melalui jaringan oleh replika model yang di-deploy.
Notwork byte received: Jumlah byte yang diterima melalui jaringan oleh replika model yang di-deploy.
Accelerator average duty cycle: Fraksi waktu rata-rata selama periode sampel terakhir saat satu atau beberapa akselerator diproses secara aktif.
Accelerator memory usage: Jumlah memori yang dialokasikan oleh replika model yang di-deploy.

Melihat diagram metrik pemantauan endpoint

Buka halaman Endpoints Vertex AI di Konsol Google Cloud.

Buka halaman Endpoint
Klik nama endpoint untuk melihat metriknya.
Di bawah interval diagram, klik Performance atau Resource usage untuk melihat metrik performa atau penggunaan resource.

Anda dapat memilih interval diagram yang berbeda untuk melihat nilai metrik selama jangka waktu tertentu, seperti 1 jam, 12 jam, atau 14 hari.

Jika memiliki beberapa model yang di-deploy ke endpoint, Anda dapat memilih atau membatalkan pilihan model untuk melihat atau menyembunyikan metrik bagi model tertentu. Jika Anda memilih beberapa model, konsol akan mengelompokkan beberapa metrik model ke dalam satu diagram. Misalnya, jika metrik hanya memberikan satu nilai per model, konsol akan mengelompokkan metrik model ke dalam satu diagram, seperti penggunaan CPU. Untuk metrik yang dapat memiliki beberapa nilai per model, konsol akan menyediakan diagram untuk setiap model. Misalnya, konsol menyediakan diagram kode respons untuk setiap model.

Metrik pemantauan Vertex AI Feature Store

Setelah mem-build featurestore, Anda dapat memantau performa dan pemanfaatan resource-nya, seperti latensi penyaluran penyimpanan online atau jumlah node penyimpanan online. Misalnya, Anda dapat memperbarui jumlah node penyimpanan online featurestore, lalu memantau perubahan pada metrik penyaluran penyimpanan online.

Di Cloud Monitoring, jenis resource yang dimonitor untuk featurestore adalah aiplatform.googleapis.com/Featurestore.

Metrik

Request size: Ukuran permintaan berdasarkan jenis entitas di featurestore Anda.
Offline storage write for streaming write: Jumlah permintaan penulisan streaming yang diproses untuk penyimpanan offline.
Streaming write to offline storage delay time: Waktu yang berlalu (dalam detik) antara memanggil API penulisan dan penulisan ke penyimpanan offline.
Node count: Jumlah node penyaluran online untuk featurestore Anda.
Latency: Total waktu yang dihabiskan oleh permintaan penayangan online atau proses transfer streaming di layanan.
Queries per second: Jumlah kueri penayangan online atau penyerapan streaming yang ditangani featurestore Anda.
Errors percentage: Persentase error yang dihasilkan featurestore Anda saat menangani penayangan online atau permintaan penyerapan streaming.
CPU utilization: Jumlah CPU yang dialokasikan oleh featurestore dan saat ini digunakan oleh penyimpanan online. Jumlah ini dapat melebihi 100% jika penyimpanan penayangan online kelebihan beban. Pertimbangkan untuk meningkatkan jumlah node penyaluran online featurestore untuk mengurangi penggunaan CPU.
CPU utilization - hottest node: Beban CPU untuk node terpanas di penyimpanan online featurestore.
Total offline storage: Jumlah data yang disimpan di penyimpanan offline featurestore.
Total online storage: Jumlah data yang tersimpan di penyimpanan online featurestore.
Online serving throughput: Dalam MB/d, throughput untuk permintaan penyaluran online.

Lihat diagram metrik pemantauan featurestore

Buka halaman Features Vertex AI di Konsol Google Cloud.

Buka halaman Features
Di kolom Featurestore, klik nama featurestore untuk melihat metriknya.

Anda dapat memilih interval diagram yang berbeda untuk melihat nilai metrik selama jangka waktu tertentu, seperti 1 jam, 1 hari, atau 1 minggu.

Untuk beberapa metrik penayangan online, Anda dapat memilih untuk melihat metrik untuk metode tertentu, yang mengelompokkan metrik berdasarkan jenis entity lebih lanjut. Misalnya, Anda dapat melihat latensi untuk metode ReadFeatureValues atau metode StreamingReadFeatureValues.