Halaman ini diterjemahkan oleh Cloud Translation API.

Kuota throughput

Vertex AI menawarkan dua cara untuk mengelola throughput model AI generatif, yang memungkinkan Anda menyeimbangkan biaya, fleksibilitas, dan performa. Anda dapat menggunakan model bayar sesuai penggunaan yang fleksibel atau mencadangkan jumlah throughput khusus dengan harga tetap.

Bayar sesuai penggunaan

Untuk model bayar sesuai penggunaan default, Vertex AI menggunakan Kuota Bersama Dinamis, yang tidak memiliki batas penggunaan yang telah ditentukan sebelumnya. Sebagai gantinya, Anda mendapatkan akses ke kumpulan resource bersama yang besar dan dialokasikan secara dinamis berdasarkan ketersediaan dan permintaan real-time.

Model ini memungkinkan workload Anda menggunakan lebih banyak resource saat tersedia. Jika Anda menerima error resource exhausted (429), berarti pool bersama sedang mengalami permintaan tinggi dari banyak pengguna sekaligus. Anda harus menerapkan mekanisme percobaan ulang di aplikasi Anda, karena ketersediaan dapat berubah dengan cepat.

Kapasitas yang Dicadangkan

Untuk aplikasi produksi penting yang memerlukan performa yang konsisten dan biaya yang dapat diprediksi, Anda dapat menggunakan Throughput yang Disediakan. Throughput yang Disediakan adalah langganan biaya tetap yang mencadangkan jumlah throughput tertentu untuk model Anda di lokasi yang dipilih.

Langkah berikutnya

Pelajari lebih lanjut Kuota Bersama Dinamis.
Pelajari lebih lanjut Throughput yang Disediakan.
Pelajari lebih lanjut kuota Google Cloud.