Halaman ini diterjemahkan oleh Cloud Translation API.

Men-deploy model AI generatif

Beberapa model AI generatif, seperti Gemini, memiliki API terkelola dan siap menerima perintah tanpa deployment. Untuk mengetahui daftar model dengan API terkelola, lihat API model dasar.

Model AI generatif lainnya harus di-deploy ke endpoint sebelum siap menerima perintah. Ada dua jenis model generatif yang harus di-deploy:

Model yang disesuaikan, yang Anda buat dengan menyesuaikan model dasar yang didukung dengan data Anda sendiri.
Model generatif yang tidak memiliki API terkelola. Di Model Garden, ini adalah model yang tidak diberi label sebagai API tersedia atau Vertex AI Studio—misalnya, Llama 2.

Saat Anda men-deploy model ke endpoint, Vertex AI akan mengaitkan resource compute dan URI dengan model sehingga dapat menayangkan permintaan perintah.

Men-deploy model yang disesuaikan

Model yang dioptimalkan akan otomatis diupload ke Vertex AI Model Registry dan di-deploy ke endpoint Vertex AI. Model yang disesuaikan tidak muncul di Model Garden karena disesuaikan dengan data Anda. Untuk mengetahui informasi selengkapnya, lihat Ringkasan penyesuaian model.

Setelah aktif, endpoint siap menerima permintaan perintah di URI-nya. Format panggilan API untuk model yang disesuaikan sama dengan model dasar yang digunakan untuk menyesuaikannya. Misalnya, jika model Anda disesuaikan di Gemini, permintaan perintah Anda harus mengikuti Gemini API.

Pastikan Anda mengirim permintaan perintah ke endpoint model yang telah disesuaikan, bukan API terkelola. Endpoint model yang telah disesuaikan memiliki format:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Untuk mendapatkan ID endpoint, lihat Melihat atau mengelola endpoint.

Untuk informasi selengkapnya tentang memformat permintaan perintah, lihat Referensi API model.

Men-deploy model generatif yang tidak memiliki API terkelola

Untuk menggunakan model dari Model Garden yang tidak memiliki API terkelola, Anda harus mengupload model ke Model Registry dan men-deploy-nya ke endpoint sebelum dapat mengirim permintaan perintah. Hal ini mirip dengan mengupload dan men-deploy model terlatih kustom untuk prediksi online di Vertex AI.

Untuk men-deploy salah satu model ini, buka Model Garden dan pilih model yang ingin Anda deploy.

Buka Model Garden

Setiap kartu model menampilkan satu atau beberapa opsi deployment berikut:

Tombol Deploy: Sebagian besar model generatif di Model Garden memiliki tombol Deploy yang memandu Anda men-deploy ke Vertex AI. Jika Anda tidak melihat tombol Deploy, lanjutkan ke butir berikutnya.

Untuk deployment di Vertex AI, Anda dapat menggunakan setelan yang disarankan atau mengubahnya. Anda juga dapat menetapkan setelan deployment Lanjutan, misalnya, memilih reservasi Compute Engine.

Catatan: Beberapa model juga mendukung deployment ke Google Kubernetes Engine yang merupakan solusi tidak terkelola yang memberi Anda kontrol lebih besar. Untuk mengetahui informasi selengkapnya, lihat Menyajikan model dengan satu GPU di GKE.
Tombol Open Notebook: Opsi ini membuka notebook Jupyter. Setiap kartu model menampilkan opsi ini. Notebook Jupyter menyertakan petunjuk dan contoh kode untuk mengupload model ke Model Registry, men-deploy model ke endpoint, dan mengirim permintaan perintah.

Setelah deployment selesai dan endpoint aktif, endpoint tersebut siap menerima permintaan perintah di URI-nya. Format API adalah predict dan format setiap instance dalam isi permintaan bergantung pada model. Untuk informasi selengkapnya, lihat referensi berikut:

Pastikan Anda memiliki cukup kuota mesin untuk men-deploy model. Untuk melihat kuota saat ini atau meminta lebih banyak kuota, di konsol Google Cloud, buka halaman Kuota.

Buka Kuota

Kemudian, filter menurut nama kuota Custom Model Serving untuk melihat kuota untuk prediksi online. Untuk mempelajari lebih lanjut, lihat Melihat dan mengelola kuota.

Memastikan kapasitas untuk model yang di-deploy dengan reservasi Compute Engine

Anda dapat men-deploy model Model Garden pada resource VM yang telah dialokasikan melalui reservasi Compute Engine. Pemesanan membantu memastikan bahwa kapasitas tersedia saat permintaan prediksi model Anda membutuhkannya. Untuk mengetahui informasi selengkapnya, lihat Menggunakan reservasi dengan prediksi.

Melihat atau mengelola model

Untuk model yang disesuaikan, Anda dapat melihat model dan tugas penyesuaiannya di halaman Tune and Distill di konsol Google Cloud.

Buka Tune and Distill

Anda juga dapat melihat dan mengelola semua model yang diupload di Model Registry.

Buka Model Registry

Di Model Registry, model yang disesuaikan dikategorikan sebagai Model Besar, dan memiliki label yang menentukan model dasar dan pipeline atau tugas penyesuaian yang digunakan untuk penyesuaian.

Model yang di-deploy dengan tombol Deploy akan menunjukkan Model Garden sebagai Source-nya. Perhatikan bahwa, jika model diupdate di Model Garden, model yang Anda upload di Model Registry tidak akan diupdate.

Untuk mengetahui informasi selengkapnya, lihat Pengantar Vertex AI Model Registry.

Melihat atau mengelola endpoint

Untuk melihat dan mengelola endpoint, buka halaman Prediksi online Vertex AI. Secara default, nama endpoint sama dengan nama model.

Buka Prediksi online

Untuk mengetahui informasi selengkapnya, lihat Men-deploy model ke endpoint.

Memantau traffic endpoint model

Gunakan petunjuk berikut untuk memantau traffic ke endpoint Anda di Metrics Explorer.

Di Konsol Google Cloud, buka halaman Metrics Explorer.

Buka Metrics Explorer
Pilih project yang metriknya ingin Anda lihat.
Dari menu drop-down Metrik, klik Pilih metrik.
Di kotak penelusuran Filter menurut nama resource atau metrik, masukkan Vertex AI Endpoint.
Pilih kategori metrik Vertex AI Endpoint > Prediction. Di bagian Metrik aktif, pilih salah satu metrik berikut:
- prediction/online/error_count
- prediction/online/prediction_count
- prediction/online/prediction_latencies
- prediction/online/response_count
Klik Terapkan. Untuk menambahkan lebih dari satu metrik, klik Tambahkan kueri.

Anda dapat memfilter atau menggabungkan metrik menggunakan menu drop-down berikut:
- Untuk memilih dan melihat subkumpulan data berdasarkan kriteria yang ditentukan, gunakan menu drop-down Filter. Misalnya, endpoint_id = gemini-1p5-flash-002 (titik desimal dalam nama model harus diganti dengan p).
- Untuk menggabungkan beberapa titik data menjadi satu nilai dan melihat tampilan ringkasan metrik, gunakan menu drop-down Aggregation. Misalnya, Anda dapat menggabungkan Total response_code.
Anda juga dapat menyiapkan pemberitahuan untuk endpoint. Untuk informasi selengkapnya, lihat Mengelola kebijakan pemberitahuan.

Untuk melihat metrik yang Anda tambahkan ke project menggunakan dasbor, lihat Ringkasan dasbor.

Harga

Untuk model yang disesuaikan, Anda ditagih per token dengan tarif yang sama seperti model dasar yang digunakan untuk menyesuaikan model Anda. Tidak ada biaya untuk endpoint karena penyesuaian diterapkan sebagai adaptor kecil di atas model dasar. Untuk mengetahui informasi selengkapnya, lihat harga untuk AI Generatif di Vertex AI.

Untuk model tanpa API terkelola, Anda ditagih untuk jam mesin yang digunakan oleh endpoint dengan tarif yang sama seperti prediksi online Vertex AI. Anda tidak akan ditagih per token. Untuk mengetahui informasi selengkapnya, lihat harga untuk prediksi di Vertex AI.