Kuota bersama dinamis

Halaman ini menjelaskan kuota bersama dinamis (DSQ) dan perbedaan DSQ dengan Throughput yang Disediakan. Contoh juga diberikan untuk menjelaskan cara kerja DSQ.

DSQ mendistribusikan kapasitas on-demand yang tersedia di antara semua kueri yang diproses oleh layanan Google Cloud untuk model tertentu. Kemampuan ini menghilangkan kebutuhan untuk menetapkan batas kuota dan menghilangkan kebutuhan untuk mengirimkan permintaan penambahan kuota (QIR).

DSQ memproses permintaan yang dibuat oleh project dalam grup region. Kuota akan dihapus, dan kapasitas yang tersedia akan didistribusikan ke setiap project. DSQ membantu memastikan bahwa layanan berkelanjutan diberikan untuk project kecil dan besar.

Dengan sistem Kuota Cloud yang ada, realokasi terjadi setiap menit, yang berarti Anda mungkin menghabiskan kuota untuk menit tersebut dalam 10 detik pertama, lalu project Anda tidak dapat melakukan apa pun selama 50 detik tersisa hingga kuota diaktifkan kembali. Dengan DSQ, distribusi kapasitas Anda dievaluasi ulang setiap detik. Jika kapasitas tersedia, project Anda mungkin akan memproses lebih banyak traffic (kueri). Dengan menggunakan sistem Kuota Cloud, jika traffic Anda melebihi kuota yang telah ditetapkan, jumlah yang berlebih akan dibatasi (ditolak).

Throughput yang Disediakan adalah satu-satunya cara untuk memastikan ketersediaan tinggi untuk aplikasi Anda dan mendapatkan tingkat layanan yang dapat diprediksi untuk workload produksi Anda. Untuk mengetahui informasi selengkapnya tentang Throughput yang Disediakan, lihat Throughput yang Disediakan.

Model yang didukung

Bagian ini mencantumkan model yang mendukung kuota bersama dinamis (DSQ), yang diaktifkan secara default dalam model ini.

DSQ diproses sebagai bayar sesuai pemakaian. Jika Anda melebihi kapasitas yang dialokasikan, error 429 akan dihasilkan. Untuk informasi selengkapnya tentang pemecahan masalah error, lihat Kode error 429.

Model Google

Tabel berikut mencantumkan model (dan versi) Google yang mendukung DSQ:

Model Tanggal rilis DSQ Status
Gemini 1.5 Flash (gemini-1.5-flash-002) 24 September 2024 Aktif
Gemini 1.5 Pro (gemini-1.5-pro-002) 24 September 2024 Aktif

Model partner

Tabel berikut mencantumkan model Claude yang mendukung DSQ. Untuk mengetahui informasi selengkapnya tentang model Claude, lihat Menggunakan model Claude dari Anthropic.

Cara kerja kuota bersama dinamis

Bagian ini menjelaskan istilah dasar yang merupakan inti untuk memahami cara kerja kuota bersama dinamis (DSQ), diikuti dengan analogi dan contoh.

Batas, kuota, dan kapasitas

Batas, kuota, dan kapasitas berbeda. Misalnya, kuota tidak sama dengan kapasitas.

Batas adalah jumlah maksimum yang ditetapkan untuk membatasi jumlah permintaan yang dapat dilakukan project pada model. Nilai tersebut tidak dapat diubah. Google melindungi sistemnya dengan menggunakan batas.

Kuota adalah batas, yang juga diberlakukan oleh Google untuk membatasi jumlah permintaan yang dibuat project pada model tertentu, tetapi kuota dapat diubah. Meskipun kuota menentukan jumlah permintaan yang dapat dilakukan ke model, kuota tidak menjamin bahwa kapasitas dialokasikan ke project tersebut. Kuota dibuat dengan tujuan melindungi sistem dari kelebihan beban dan penyalahgunaan layanan Google Cloud.

Kapasitas adalah jumlah resource yang tersedia untuk project Anda guna memproses permintaan Anda. Kapasitas dibatasi oleh kuota Anda, tetapi kuota tidak menjamin bahwa kapasitas tersedia.

Alokasi kapasitas untuk DSQ berada di tingkat project.

Cara kerja kuota dan kapasitas di DSQ

Analogi sungai dan gelas menjelaskan dengan jelas cara kerja kuota dan kapasitas di DSQ.

Bayangkan bahwa komunitas Anda tinggal di dekat sungai, dan setiap orang di komunitas Anda diberi gelas minum 350 ml untuk mengambil air dari sungai tersebut. Sungai tersebut penuh dengan air, tetapi setiap cangkir orang hanya dapat menampung 350 ml air.

Selama sungai memiliki cukup air, setiap orang dapat mengisi ulang cangkir mereka berdasarkan kebutuhan mereka hingga batas 12 ons. Namun, jika sungai tersebut mulai mengering, setiap orang harus menerima jumlah yang lebih sedikit, misalnya dua atau empat ons air.

Jumlah yang ditampung sungai adalah kapasitas. Jumlah yang dapat dimuat dalam cangkir adalah kuota.

Setiap orang hanya melihat apa yang ada di cangkir mereka, bukan sungai. Anda dapat melihat kuota (juga disebut sebagai batas kueri) menggunakan halaman Kuota & Batas Sistem di Konsol Google Cloud.

Dengan DSQ, Anda memiliki gelas ajaib yang dapat menampung air (kapasitas) tanpa batas, karena kuota tidak ada lagi. DSQ tidak bergantung pada kapasitas cangkir Anda, tetapi berfokus pada distribusi air sungai bergantung pada jumlah cangkir dan kapasitas yang diperlukan setiap cangkir yang harus berbagi kapasitas tersebut.

Contoh cara kerja DSQ

Dalam contoh ini, tabel ini menampilkan empat project dengan kapasitas total 100 QPS. Kolom dalam tabel mencakup hal berikut:

  • Permintaan saat ini: Ini adalah jumlah yang ingin digunakan setiap project. Permintaan saat ini lebih besar dari total kapasitas. Dalam contoh ini, 317 QPS (permintaan saat ini) dibandingkan dengan 100 QPS (kapasitas total untuk semua project).

  • Alokasi proporsional kuota saat ini: Ini adalah hasil dari pembagian kapasitas dengan jumlah permintaan. Project A mendapatkan kuota terbesar, karena project tersebut meminta kuota paling banyak, sehingga project lain tidak mendapatkan kuota yang cukup.

  • Alokasi DSQ: Kapasitas yang dialokasikan di seluruh project.

Project A Project B Project C Project D
Permintaan saat ini 250 32 25 10
Alokasi proporsional saat ini 79 10 8 3
Alokasi DSQ 33 32 25 10

Langkah-langkah berikut menunjukkan cara menghitung alokasi DSQ:

  1. Setiap project menerima bagian kuotanya. Dalam hal ini, 25 QPS.

  2. Project D hanya menggunakan 10 QPS dari 25 QPS-nya. Oleh karena itu, kapasitas tambahan sebesar 15 QPS didistribusikan ulang.

  3. Project C mendapatkan kuota yang cukup untuk terus menerima 25 QPS.

  4. Project A dan B masih memerlukan lebih banyak kuota. Oleh karena itu, kuota tambahan dari project D (15 QPS) dibagi dan didistribusikan secara merata ke project A dan B (masing-masing 7,5 QPS).

  5. Project B menerima 7,5 QPS dari project D untuk mencapai 32,5 QPS, dan project A dibatasi hingga 32,5 QPS. Project A menerima error 429 untuk permintaan yang melebihi kapasitas yang dialokasikan.

Contoh kapasitas di wilayah tertentu

Google Cloud melihat kapasitas yang tersedia di region tertentu, seperti Amerika Utara, lalu melihat jumlah project yang mengirim permintaan.

Pertimbangkan project A, yang mengirim 25 kueri per menit (QPM), dan project B, yang mengirim 25 QPM. Layanan ini dapat mendukung 100 QPM. Jika project A meningkatkan tingkat kuerinya menjadi 75 QPM, DSQ akan mendukung peningkatan tersebut. Jika project A meningkatkan kecepatan kuerinya menjadi 100 QPM, DSQ akan mengurangi project A menjadi 75 QPM untuk terus menayangkan project B dengan kecepatan 25 QPM.

Pertimbangan

Sebelum membuat keputusan untuk membeli model yang mendukung DSQ, tinjau pertimbangan berikut:

Pertimbangan Solusi
Mengontrol biaya dan mencegah anggaran membengkak. Konfigurasikan kuota yang ditetapkan sendiri yang disebut penggantian kuota konsumen. Untuk mengetahui informasi selengkapnya, lihat Membuat penggantian kuota konsumen.
Prioritaskan traffic. Gunakan Throughput yang Disediakan.
Memantau penggunaan Anda. Lihat metrik berikut:
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
Untuk informasi selengkapnya, lihat bagian aiplatform dalam dokumentasi Cloud Monitoring.

Memantau penggunaan QPS

Untuk memantau penggunaan QPS Gemini, lihat halaman Kuota & Batas Sistem.

Memecahkan masalah error DSQ

Jika kapasitas bersama menurut region habis, kueri Anda mungkin menerima error 429. Untuk memecahkan masalah error yang mungkin terjadi, lihat Kode error 429.

Langkah selanjutnya