Halaman ini menjelaskan kuota bersama dinamis (DSQ) dan perbedaan DSQ dengan Throughput yang Disediakan. Contoh juga diberikan untuk menjelaskan cara kerja DSQ.
DSQ mendistribusikan kapasitas on-demand yang tersedia di antara semua kueri yang diproses oleh layanan Google Cloud untuk model tertentu. Kemampuan ini menghilangkan kebutuhan untuk menetapkan batas kuota dan menghilangkan kebutuhan untuk mengirimkan permintaan penambahan kuota (QIR).
DSQ memproses permintaan yang dibuat oleh project dalam grup region. Kuota akan dihapus, dan kapasitas yang tersedia akan didistribusikan ke setiap project. DSQ membantu memastikan bahwa layanan berkelanjutan diberikan untuk project kecil dan besar.
Dengan sistem Kuota Cloud yang ada, realokasi terjadi setiap menit, yang berarti Anda mungkin menghabiskan kuota untuk menit tersebut dalam 10 detik pertama, lalu project Anda tidak dapat melakukan apa pun selama 50 detik tersisa hingga kuota diaktifkan kembali. Dengan DSQ, distribusi kapasitas Anda dievaluasi ulang setiap detik. Jika kapasitas tersedia, project Anda mungkin akan memproses lebih banyak traffic (kueri). Dengan menggunakan sistem Kuota Cloud, jika traffic Anda melebihi kuota yang telah ditetapkan, jumlah yang berlebih akan dibatasi (ditolak).
Throughput yang Disediakan adalah satu-satunya cara untuk memastikan ketersediaan tinggi untuk aplikasi Anda dan mendapatkan tingkat layanan yang dapat diprediksi untuk workload produksi Anda. Untuk informasi selengkapnya tentang Throughput yang Disediakan, lihat Throughput yang Disediakan.
Model yang didukung
Bagian ini mencantumkan model yang mendukung kuota bersama dinamis (DSQ), yang diaktifkan secara default dalam model ini.
DSQ diproses sebagai bayar sesuai pemakaian. Jika Anda melebihi kapasitas yang dialokasikan, error 429 akan dihasilkan. Untuk informasi selengkapnya tentang pemecahan masalah error, lihat Kode error 429.
Model Google
Tabel berikut mencantumkan model (dan versi) Google yang mendukung DSQ:
Model | Tanggal rilis DSQ | Status |
---|---|---|
Gemini 1.5 Flash (gemini-1.5-flash-002 ) |
24 September 2024 | Aktif |
Gemini 1.5 Pro (gemini-1.5-pro-002 ) |
24 September 2024 | Aktif |
Model partner
Tabel berikut mencantumkan model Claude yang mendukung DSQ. Untuk mengetahui informasi selengkapnya tentang model Claude, lihat Menggunakan model Claude dari Anthropic.
Cara kerja kuota bersama dinamis
Bagian ini menjelaskan istilah dasar yang merupakan inti untuk memahami cara kerja kuota bersama dinamis (DSQ), diikuti dengan analogi dan contoh.
Batas, kuota, dan kapasitas
Batas, kuota, dan kapasitas berbeda. Misalnya, kuota tidak sama dengan kapasitas.
Batas adalah jumlah maksimum yang ditetapkan untuk membatasi jumlah permintaan yang dapat dilakukan project pada model. Nilai tersebut tidak dapat diubah. Google melindungi sistemnya dengan menggunakan batas.
Kuota adalah batas, yang juga diberlakukan oleh Google untuk membatasi jumlah permintaan yang dibuat project pada model tertentu, tetapi kuota dapat diubah. Meskipun kuota menentukan jumlah permintaan yang dapat dilakukan ke model, kuota tidak menjamin bahwa kapasitas dialokasikan ke project tersebut. Kuota dibuat dengan tujuan melindungi sistem dari kelebihan beban dan penyalahgunaan layanan Google Cloud .
Kapasitas adalah jumlah resource yang tersedia untuk project Anda guna memproses permintaan Anda. Kapasitas dibatasi oleh kuota Anda, tetapi kuota tidak menjamin bahwa kapasitas tersedia.
Alokasi kapasitas untuk DSQ berada di tingkat project.
Cara kerja kuota dan kapasitas di DSQ
Analogi sungai dan cangkir menjelaskan dengan jelas cara kerja kuota dan kapasitas di DSQ.
Bayangkan bahwa komunitas Anda tinggal di dekat sungai, dan setiap orang di komunitas Anda diberi gelas minum 350 ml untuk mengambil air dari sungai tersebut. Sungai tersebut penuh dengan air, tetapi setiap cangkir hanya dapat menampung 350 ml air.
Selama sungai memiliki cukup air, setiap orang dapat mengisi ulang cangkir mereka berdasarkan kebutuhan mereka hingga batas 12 ons. Namun, jika sungai tersebut mulai mengering, setiap orang harus menerima jumlah yang lebih sedikit, misalnya dua atau empat ons air.
Jumlah air yang ditampung sungai adalah kapasitasnya. Jumlah yang dapat dimuat dalam cangkir adalah kuota.
Setiap orang hanya melihat apa yang ada di cangkir mereka, bukan sungai. Anda dapat melihat kuota (juga disebut sebagai batas kueri) menggunakan halaman Kuota & Batas Sistem di konsol Google Cloud .
Dengan DSQ, Anda memiliki gelas ajaib yang dapat menampung air (kapasitas) tanpa batas, karena kuota tidak ada lagi. DSQ tidak bergantung pada kapasitas cangkir Anda, tetapi berfokus pada distribusi air sungai bergantung pada jumlah cangkir dan kapasitas yang diperlukan setiap cangkir yang harus berbagi kapasitas tersebut.
Contoh cara kerja DSQ
Dalam contoh ini, tabel ini menampilkan empat project dengan kapasitas total 100 QPS. Kolom dalam tabel mencakup hal berikut:
Permintaan saat ini: Ini adalah jumlah yang ingin digunakan setiap project. Permintaan saat ini lebih besar dari total kapasitas. Dalam contoh ini, 317 QPS (permintaan saat ini) dibandingkan dengan 100 QPS (kapasitas total untuk semua project).
Alokasi proporsional kuota saat ini: Ini adalah hasil dari pembagian kapasitas dengan jumlah permintaan. Project A mendapatkan kuota terbesar, karena project tersebut meminta kuota paling banyak, sehingga project lain tidak mendapatkan kuota yang cukup.
Alokasi DSQ: Kapasitas yang dialokasikan di seluruh project.
Project A | Project B | Project C | Project D | |
---|---|---|---|---|
Permintaan saat ini | 250 | 32 | 25 | 10 |
Alokasi proporsional saat ini | 79 | 10 | 8 | 3 |
Alokasi DSQ | 33 | 32 | 25 | 10 |
Langkah-langkah berikut menunjukkan cara menghitung alokasi DSQ:
Setiap project menerima bagian kuotanya. Dalam hal ini, 25 QPS.
Project D hanya menggunakan 10 QPS dari 25 QPS-nya. Oleh karena itu, kapasitas tambahan sebesar 15 QPS didistribusikan ulang.
Project C mendapatkan kuota yang cukup untuk terus menerima 25 QPS.
Project A dan B masih memerlukan lebih banyak kuota. Oleh karena itu, kuota tambahan dari project D (15 QPS) dibagi dan didistribusikan secara merata ke project A dan B (masing-masing 7,5 QPS).
Project B menerima 7,5 QPS dari project D untuk mencapai 32,5 QPS, dan project A dibatasi hingga 32,5 QPS. Project A menerima error
429
untuk permintaan yang melebihi kapasitas yang dialokasikan.
Contoh kapasitas di wilayah tertentu
Google Cloud melihat kapasitas yang tersedia di region tertentu, seperti Amerika Utara, lalu melihat jumlah project yang mengirim permintaan.
Pertimbangkan project A, yang mengirim 25 kueri per menit (QPM), dan project B, yang mengirim 25 QPM. Layanan ini dapat mendukung 100 QPM. Jika project A meningkatkan tingkat kuerinya menjadi 75 QPM, DSQ akan mendukung peningkatan tersebut. Jika project A meningkatkan kecepatan kuerinya menjadi 100 QPM, DSQ akan mengurangi project A menjadi 75 QPM untuk terus menayangkan project B dengan kecepatan 25 QPM.
Pertimbangan
Sebelum membuat keputusan untuk membeli model yang mendukung DSQ, tinjau pertimbangan berikut:
Pertimbangan | Solusi |
---|---|
Prioritaskan traffic. | Gunakan Throughput yang Disediakan. |
Memantau penggunaan Anda. | Lihat metrik berikut:
aiplatform dalam dokumentasi Cloud Monitoring. |
Memantau penggunaan QPS
Untuk memantau penggunaan QPS Gemini, lihat halaman Kuota & Batas Sistem.
Memecahkan masalah error DSQ
Jika kapasitas bersama menurut region habis, kueri Anda mungkin menerima error 429. Untuk memecahkan masalah error yang mungkin terjadi, lihat Kode error 429.
Langkah selanjutnya
- Untuk mempelajari lebih lanjut model Gemini yang mendukung DSQ, lihat Model Gemini.
- Untuk mempelajari kuota dan batas AI Generatif lebih lanjut, lihat Batas kapasitas AI Generatif di Vertex AI.
- Untuk mempelajari kuota dan batas Vertex AI lebih lanjut, lihat Kuota dan batas Vertex AI.
- Untuk mempelajari lebih lanjut kuota dan batas Google Cloud , lihat Memahami nilai kuota dan batas sistem.