Menggunakan endpoint publik khusus untuk inferensi online

Endpoint publik khusus adalah endpoint publik untuk inferensi online. Hal ini memberikan manfaat berikut:

  • Jaringan khusus: Saat Anda mengirim permintaan inferensi ke endpoint publik khusus, permintaan tersebut diisolasi dari traffic pengguna lain.
  • Latensi jaringan yang dioptimalkan
  • Dukungan payload yang lebih besar: Hingga 10 MB.
  • Waktu tunggu permintaan yang lebih lama: Dapat dikonfigurasi hingga 1 jam.
  • Siap untuk AI generatif: Streaming dan gRPC didukung. Waktu tunggu inferensi dapat dikonfigurasi hingga 1 jam.

Oleh karena itu, endpoint publik khusus direkomendasikan sebagai praktik terbaik untuk menyalurkan inferensi online Vertex AI.

Untuk mempelajari lebih lanjut, lihat Memilih jenis endpoint.

Membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut

Anda dapat membuat endpoint khusus dan men-deploy model ke endpoint tersebut menggunakan konsolGoogle Cloud . Untuk mengetahui detailnya, lihat Men-deploy model menggunakan Google Cloud konsol.

Anda juga dapat membuat endpoint publik khusus dan men-deploy model ke endpoint tersebut dengan menggunakan Vertex AI API sebagai berikut:

  1. Buat endpoint publik khusus. Konfigurasi setelan waktu tunggu inferensi dan logging permintaan-respons didukung pada saat pembuatan endpoint.
  2. Deploy model menggunakan Vertex AI API.

Mendapatkan inferensi online dari endpoint publik khusus

Endpoint khusus mendukung protokol komunikasi HTTP dan gRPC. Untuk permintaan gRPC, header x-vertex-ai-endpoint-id harus disertakan untuk identifikasi endpoint yang tepat. API berikut didukung:

  • Prediksi
  • RawPredict
  • StreamRawPredict
  • Penyelesaian Chat (khusus Model Garden)

Anda dapat mengirim permintaan inferensi online ke endpoint publik khusus menggunakan Vertex AI SDK untuk Python. Untuk mengetahui detailnya, lihat Mengirim permintaan inferensi online ke endpoint publik khusus.

Tutorial

Batasan

  • Deployment model Gemini yang di-tune tidak didukung.
  • Kontrol Layanan VPC tidak didukung. Gunakan endpoint Private Service Connect sebagai gantinya.

Langkah berikutnya