Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan rasio pembakaran. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSUs) dan rasio burndown.
GSU dan laju pembakaran
Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.
Rasio pembakaran adalah rasio yang mengonversi karakter input dan output menjadi karakter input per detik (throughput). Rasio ini digunakan untuk menghasilkan unit standar di seluruh model.
Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.
Persamaan ini menunjukkan cara penghitungan throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.
Pertimbangan Penting
Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:
Permintaan diprioritaskan.
Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.
Throughput tidak terakumulasi.
Throughput yang tidak digunakan tidak akan diakumulasikan atau dialihkan ke bulan berikutnya.
Throughput yang Disediakan diukur berdasarkan karakter atau token per detik.
Throughput yang Disediakan diukur berdasarkan karakter atau token per detik, bukan kueri per menit (QPM). Akibatnya, pengukuran throughput yang disediakan bergantung pada ukuran kueri, ukuran respons, dan QPM kasus penggunaan Anda.
Throughput yang Disediakan memeriksa kuota Anda.
Kuota Throughput yang Disediakan diperiksa setiap kali Anda membuat permintaan dalam periode kuota. Untuk model
gemini-2.0-flash-001
,gemini-1.5-flash-002
, dangemini-1.5-pro-002
, periode kuota dapat berkisar hingga 30 detik dan dapat berubah sewaktu-waktu. Artinya, dalam beberapa kasus, Anda mungkin sementara mengalami traffic prioritas yang melebihi jumlah kuota per detik, tetapi Anda tidak boleh melebihi kuota per 30 detik. Periode kuota untuk model lain dapat berkisar hingga satu menit. Periode kuota didasarkan pada waktu jam Vertex AI dan tidak bergantung pada waktu permintaan dibuat.Misalnya, jika Anda membeli 1 GSU
gemini-1.5-pro-002
, Anda akan mendapatkan throughput selalu aktif sebesar 800 karakter per detik. Rata-rata, Anda tidak boleh melebihi 24.000 karakter dalam durasi 30 detik, yang dihitung menggunakan formula ini:800 karakter per detik * 30 detik = 24.000 karakter
Jika Anda mengirimkan satu permintaan sepanjang hari yang menggunakan 1.600 karakter dalam detik, permintaan tersebut mungkin masih diproses sebagai permintaan throughput yang disediakan meskipun Anda telah melampaui batas 800 karakter per detik pada saat permintaan.
Throughput yang Disediakan khusus untuk project, region, model, dan versi.
Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-version tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan mengurangi kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.
Contoh estimasi kebutuhan Throughput yang Disediakan
Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam penghitungan estimasi.
Tabel ini memberikan rasio pembakaran untuk gemini-1.5-flash
yang dapat Anda
gunakan untuk mengikuti contoh.
Model | Throughput per GSU (karakter/dtk) | Penambahan pembelian GSU minimum | Rasio burndown |
---|---|---|---|
Gemini 1.5 Flash | Kurang dari atau sama dengan jendela konteks 128.000 token: 54.000 Lebih dari jendela konteks 128.000 token: 27.000 |
1 | Kurang dari atau sama dengan periode konteks 128.000 token: 1 karakter input = 1 karakter 1 karakter output = 4 karakter 1 gambar = 1.067 karakter 1 video per detik = 1.067 karakter 1 audio per detik = 107 karakter Lebih dari periode konteks 128.000 token: 1 karakter input = 2 karakter 1 karakter output = 8 karakter 1 gambar = 2.134 karakter 1 video per detik = 2.134 karakter 1 audio per detik = 214 karakter |
Kumpulkan persyaratan Anda.
Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima output 300 karakter untuk 10 kueri per detik menggunakan
gemini-1.5-flash
.Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.
Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, model Anda adalah
gemini-1.5-flash
.Tentukan jenis input, dan identifikasi rasio burndown. Gunakan laju pembakaran untuk mengidentifikasi laju pembakaran berdasarkan jenis input Anda.
Rasio burndown gambar untuk model
gemini-1.5-flash
adalah 1.067 karakter.
Hitung throughput Anda.
Kalikan jumlah gambar dengan rasio burndown untuk jenis input untuk model tertentu Anda.
2 gambar * 1.067 karakter input per gambar = 2.134 karakter input
Total karakter output Anda adalah 300. Kembali ke tabel rasio pembakaran, dan temukan rasio pembakaran untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (
gemini-1.5-flash
).300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi
Tambahkan total Anda.
2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri
Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan throughput total per detik.
5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik
Hitung GSU Anda.
GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel burndown.
53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU
Penambahan pembelian GSU minimum untuk
gemini-1.5-flash
adalah 1, yang memenuhi persyaratan Anda.