Beberapa model AI generatif, seperti Gemini, memiliki API terkelola dan siap menerima perintah tanpa deployment. Untuk mengetahui daftar model dengan API terkelola, lihat API model dasar.
Model AI generatif lainnya harus di-deploy ke endpoint sebelum siap menerima perintah. Ada dua jenis model generatif yang harus di-deploy:
Model yang disesuaikan, yang Anda buat dengan menyesuaikan model dasar yang didukung dengan data Anda sendiri.
Model generatif yang tidak memiliki API terkelola. Di Model Garden, ini adalah model yang tidak diberi label sebagai API tersedia atau Vertex AI Studio—misalnya, Llama 2.
Saat Anda men-deploy model ke endpoint, Vertex AI akan mengaitkan resource compute dan URI dengan model sehingga dapat menayangkan permintaan perintah.
Men-deploy model yang disesuaikan
Model yang disesuaikan akan otomatis diupload ke
Vertex AI Model Registry
dan di-deploy ke endpoint
Vertex AI. Model yang disesuaikan tidak
muncul di Model Garden karena disesuaikan dengan data Anda.
Untuk mengetahui informasi selengkapnya, lihat
Ringkasan penyesuaian model.
Setelah aktif, endpoint siap menerima permintaan perintah di URI-nya. Format panggilan API untuk model yang disesuaikan sama dengan model dasar yang digunakan untuk menyesuaikannya. Misalnya, jika model Anda disesuaikan di Gemini, permintaan perintah Anda harus mengikuti Gemini API.
Pastikan Anda mengirim permintaan perintah ke endpoint model yang telah disesuaikan, bukan API terkelola. Endpoint model yang telah disesuaikan memiliki format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Untuk mendapatkan ID endpoint, lihat Melihat atau mengelola endpoint.
Untuk informasi selengkapnya tentang cara memformat permintaan perintah, lihat Referensi API model.
Men-deploy model generatif yang tidak memiliki API terkelola
Untuk menggunakan model dari Model Garden yang tidak memiliki API terkelola, Anda harus mengupload model ke Model Registry dan men-deploy-nya ke endpoint sebelum dapat mengirim permintaan perintah. Hal ini mirip dengan mengupload dan men-deploy model terlatih kustom untuk prediksi online di Vertex AI.
Untuk men-deploy salah satu model ini, buka Model Garden dan pilih model yang ingin Anda deploy.
Setiap kartu model menampilkan satu atau beberapa opsi deployment berikut:
Tombol Deploy: Sebagian besar model generatif di Model Garden memiliki tombol Deploy yang memandu Anda men-deploy ke Vertex AI. Jika Anda tidak melihat tombol Deploy, lanjutkan ke butir berikutnya.
Untuk deployment di Vertex AI, Anda dapat menggunakan setelan yang disarankan atau mengubahnya. Anda juga dapat menetapkan setelan deployment Lanjutan, misalnya, memilih reservasi Compute Engine.
Tombol Open Notebook: Opsi ini akan membuka notebook Jupyter. Setiap kartu model menampilkan opsi ini. Notebook Jupyter menyertakan petunjuk dan contoh kode untuk mengupload model ke Model Registry, men-deploy model ke endpoint, dan mengirim permintaan perintah.
Setelah deployment selesai dan endpoint aktif, endpoint tersebut siap menerima permintaan perintah di URI-nya. Format API adalah
predict
dan format
setiap instance
dalam isi permintaan bergantung pada model. Untuk informasi selengkapnya, lihat
referensi berikut:
Pastikan Anda memiliki cukup kuota mesin untuk men-deploy model. Untuk melihat kuota saat ini atau meminta lebih banyak kuota, di konsol Google Cloud, buka halaman Kuota.
Kemudian, filter menurut nama kuota Custom Model Serving
untuk melihat kuota untuk
prediksi online. Untuk mempelajari lebih lanjut, lihat Melihat dan mengelola kuota.
Memastikan kapasitas untuk model yang di-deploy dengan reservasi Compute Engine
Anda dapat men-deploy model Model Garden pada resource VM yang telah dialokasikan melalui reservasi Compute Engine. Pemesanan membantu memastikan bahwa kapasitas tersedia saat permintaan prediksi model Anda membutuhkannya. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan prediksi.
Melihat atau mengelola model
Untuk model yang disesuaikan, Anda dapat melihat model dan tugas penyesuaiannya di halaman Tune and Distill di konsol Google Cloud.
Anda juga dapat melihat dan mengelola semua model yang diupload di Model Registry.
Di Model Registry, model yang disesuaikan dikategorikan sebagai Model Besar, dan memiliki label yang menentukan model dasar dan pipeline atau tugas penyesuaian yang digunakan untuk penyesuaian.
Model yang di-deploy dengan tombol Deploy akan menunjukkan Model Garden sebagai Source
-nya.
Perhatikan bahwa, jika model diupdate di Model Garden, model
yang Anda upload di Model Registry tidak akan diupdate.
Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.
Melihat atau mengelola endpoint
Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI. Secara default, nama endpoint sama dengan nama model.
Untuk mengetahui informasi selengkapnya, lihat Men-deploy model ke endpoint.
Harga
Untuk model yang disesuaikan, Anda ditagih per token dengan tarif yang sama seperti model dasar yang digunakan untuk menyesuaikan model Anda. Tidak ada biaya untuk endpoint karena penyesuaian diterapkan sebagai adaptor kecil di atas model dasar. Untuk mengetahui informasi selengkapnya, lihat harga untuk AI Generatif di Vertex AI.
Untuk model tanpa API terkelola, Anda ditagih untuk jam mesin yang digunakan oleh endpoint Anda dengan tarif yang sama seperti prediksi online Vertex AI. Anda tidak akan ditagih per token. Untuk mengetahui informasi selengkapnya, lihat harga untuk prediksi di Vertex AI.