Halaman ini memberikan panduan untuk men-deploy model AI generatif ke endpoint untuk prediksi online.
Memeriksa Model Garden
Jika model berada di Model Garden, Anda dapat men-deploynya dengan mengklik Deploy (tersedia untuk beberapa model) atau Open Notebook.
Jika tidak, Anda dapat melakukan salah satu hal berikut:
Jika model Anda mirip dengan model di Model Garden, Anda mungkin dapat langsung menggunakan kembali salah satu container model garden.
Buat container kustom Anda sendiri yang mematuhi Persyaratan container kustom untuk prediksi sebelum mengimpor model ke Vertex AI Model Registry. Setelah diimpor, resource tersebut menjadi resource
model
yang dapat Anda deploy ke endpoint.Anda dapat menggunakan Dockerfile dan skrip yang kami gunakan untuk mem-build container Model Garden sebagai referensi atau titik awal untuk mem-build container kustom Anda sendiri.
Menayangkan prediksi dengan NVIDIA NIM
NVIDIA Inference Microservices (NIM) adalah model AI terlatih dan dioptimalkan yang dikemas sebagai microservice. API ini dirancang untuk menyederhanakan deployment AI berperforma tinggi dan siap produksi ke dalam aplikasi.
NVIDIA NIM dapat digunakan bersama dengan Artifact Registry dan Vertex AI Prediction untuk men-deploy model AI generatif untuk prediksi online.
Setelan untuk penampung kustom
Bagian ini menjelaskan kolom dalam
containerSpec
model yang mungkin perlu Anda
tentukan saat mengimpor model AI generatif.
Anda dapat menentukan kolom ini menggunakan Vertex AI REST API atau
perintah gcloud ai models upload
.
Untuk informasi selengkapnya, lihat
Kolom API terkait container.
sharedMemorySizeMb
Beberapa model AI generatif memerlukan lebih banyak memori bersama. Memori bersama adalah mekanisme Komunikasi antarproses (IPC) yang memungkinkan beberapa proses mengakses dan memanipulasi blok memori umum. Ukuran memori bersama default adalah 64 MB.
Beberapa server model, seperti vLLM atau Nvidia Triton, menggunakan memori bersama untuk meng-cache data internal selama inferensi model. Tanpa memori bersama yang memadai, beberapa server model tidak dapat menayangkan prediksi untuk model generatif. Jumlah memori bersama yang diperlukan, jika ada, adalah detail implementasi penampung dan model Anda. Lihat dokumentasi server model untuk mengetahui panduannya.
Selain itu, karena memori bersama dapat digunakan untuk komunikasi lintas GPU, penggunaan lebih banyak memori bersama dapat meningkatkan performa untuk akselerator tanpa kemampuan NVLink (misalnya, L4), jika penampung model memerlukan komunikasi di seluruh GPU.
Untuk mengetahui informasi tentang cara menentukan nilai kustom untuk memori bersama, lihat Kolom API terkait container.
startupProbe
Pemeriksaan startup adalah pemeriksaan opsional yang digunakan untuk mendeteksi kapan container dimulai. Pemeriksaan ini digunakan untuk menunda pemeriksaan kesehatan dan pemeriksaan keaktifan hingga container dimulai, yang membantu mencegah container yang dimulai dengan lambat dimatikan sebelum waktunya.
Untuk mengetahui informasi selengkapnya, lihat Health check.
healthProbe
Pemeriksaan kesehatan memeriksa apakah penampung siap menerima traffic. Jika pemeriksaan kondisi tidak diberikan, Vertex AI akan menggunakan health check default yang mengeluarkan permintaan HTTP ke port penampung dan mencari respons
200 OK
dari server model.Jika server model Anda merespons dengan
200 OK
sebelum model dimuat sepenuhnya, yang mungkin terjadi, terutama untuk model besar, pemeriksaan status akan berhasil sebelum waktunya dan Vertex AI akan merutekan traffic ke penampung sebelum siap.Dalam kasus ini, tentukan pemeriksaan kesehatan kustom yang berhasil hanya setelah model dimuat sepenuhnya dan siap menerima traffic.
Untuk mengetahui informasi selengkapnya, lihat Health check.
Batasan
Pertimbangkan batasan berikut saat men-deploy model AI generatif:
- Model AI generatif hanya dapat di-deploy ke satu mesin. Deployment multi-host tidak didukung.
- Untuk model yang sangat besar yang tidak muat di vRAM terbesar yang didukung, seperti Llama 3.1 405B, sebaiknya kuantisasi model tersebut agar sesuai.