Beberapa model AI generatif, seperti Gemini, telah mengelola API dan siap menerima prompt tanpa deployment. Untuk daftar model dengan API terkelola, lihat Foundational model API.
Model AI generatif lainnya harus di-deploy ke endpoint sebelum siap menerima perintah. Ada dua jenis model generatif yang harus di-deploy:
Model yang disesuaikan, yang Anda buat dengan menyesuaikan model dasar yang didukung dengan data Anda sendiri.
Model generatif yang tidak memiliki API terkelola. Di Model Garden, ini adalah model yang tidak diberi label sebagai API tersedia atau Vertex AI Studio—misalnya, Llama 2.
Saat Anda men-deploy model ke endpoint, Vertex AI akan mengaitkan resource komputasi dan URI dengan model tersebut agar dapat melayani permintaan prompt.
Men-deploy model yang telah di-tuning
Model yang disesuaikan akan otomatis diupload ke
Vertex AI Model Registry
dan di-deploy ke Vertex AI
endpoint
. Model yang disesuaikan tidak akan muncul di Model Garden karena telah disesuaikan dengan data Anda.
Untuk mengetahui informasi selengkapnya, lihat Ringkasan penyesuaian model.
Setelah aktif, endpoint siap menerima permintaan dialog di URI-nya. Format panggilan API untuk model yang disesuaikan sama dengan model dasar yang menjadi asalnya. Misalnya, jika model Anda disesuaikan dengan Gemini, permintaan perintah Anda harus mengikuti Gemini API.
Pastikan Anda mengirim permintaan perintah ke endpoint model yang telah disesuaikan, bukan API terkelola. Endpoint model yang telah disesuaikan memiliki format:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Untuk mendapatkan ID endpoint, buka Melihat atau mengelola endpoint.
Untuk mengetahui informasi selengkapnya tentang memformat permintaan perintah, lihat Referensi Model API.
Men-deploy model generatif yang tidak memiliki API terkelola
Untuk menggunakan model dari Model Garden yang tidak memiliki API terkelola, Anda harus mengupload model ke Model Registry dan men-deploy-nya ke endpoint sebelum dapat mengirim permintaan perintah. Hal ini mirip dengan mengupload dan men-deploy model terlatih kustom untuk prediksi online di Vertex AI.
Untuk men-deploy salah satu model ini, buka Model Garden dan pilih model yang ingin Anda deploy.
Setiap kartu model menampilkan satu atau beberapa opsi deployment berikut:
Tombol Deploy: Sebagian besar model generatif di Model Garden memiliki tombol Deploy yang memandu Anda dalam melakukan deployment ke Vertex AI. Jika Anda tidak melihat tombol Deploy, buka butir berikutnya.
Untuk deployment di Vertex AI, Anda juga dapat memilih antara Deployment sekali klik dengan setelan yang direkomendasikan, atau Advanced untuk mendapatkan kontrol mendetail atas cara model disimpan ke Model Registry dan di-deploy ke endpoint Vertex AI.
Tombol Open Notebook: Opsi ini membuka notebook Jupyter. Setiap kartu model menampilkan opsi ini. Notebook Jupyter berisi petunjuk dan kode contoh untuk mengupload model ke Registri Model, men-deploy model ke endpoint, dan mengirim permintaan perintah.
Setelah deployment selesai dan endpoint aktif, endpoint akan siap untuk menerima
permintaan perintah di URI-nya. Format API-nya adalah
predict
dan format
setiap instance
dalam isi permintaan bergantung pada modelnya. Untuk informasi selengkapnya, lihat
referensi berikut:
Pastikan Anda memiliki kuota mesin yang cukup untuk men-deploy model. Untuk melihat kuota saat ini atau meminta lebih banyak kuota, di Google Cloud Console, buka halaman Quotas.
Kemudian, filter menurut nama kuota Custom Model Serving
guna melihat kuota untuk prediksi online. Untuk mempelajari lebih lanjut, lihat Melihat dan mengelola kuota.
Melihat atau mengelola model
Untuk model yang disesuaikan, Anda dapat melihat model dan tugas tuningnya di halaman Tune and Distill pada Konsol Google Cloud.
Anda juga dapat melihat dan mengelola semua model yang diupload di Registry Model.
Di Registri Model, model yang disesuaikan dikategorikan sebagai Model Besar, dan memiliki label yang menentukan model dasar dan tugas pipeline atau tuning yang digunakan untuk tuning.
Model yang di-deploy dengan tombol Deploy akan menunjukkan Model Garden sebagai Source
.
Perlu diperhatikan bahwa jika model diupdate di Model Garden, model yang Anda upload di Model Registry tidak akan diperbarui.
Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.
Melihat atau mengelola endpoint
Untuk melihat dan mengelola endpoint Anda, buka halaman Prediksi online Vertex AI. Secara default, nama endpoint sama dengan nama model.
Untuk mengetahui informasi selengkapnya, lihat Men-deploy model ke endpoint.
Harga
Untuk model yang telah disesuaikan, Anda akan ditagih per token dengan tarif yang sama dengan model dasar yang digunakan untuk men-tuning model Anda. Endpoint tidak dikenai biaya karena tuning diimplementasikan sebagai adaptor kecil di atas model dasar. Untuk mengetahui informasi selengkapnya, lihat harga untuk AI Generatif di Vertex AI.
Untuk model tanpa API terkelola, Anda akan dikenai biaya untuk jam kerja mesin yang digunakan oleh endpoint dengan tarif yang sama seperti prediksi online Vertex AI. Anda tidak ditagih per token. Untuk mengetahui informasi selengkapnya, lihat harga untuk prediksi di Vertex AI.