Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan rasio pembakaran. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSUs) dan rasio burndown.
GSU dan laju pembakaran
Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.
Rasio pembakaran adalah rasio yang mengonversi karakter input dan output menjadi karakter input per detik (throughput). Rasio ini digunakan untuk menghasilkan unit standar di seluruh model.
Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.
Persamaan ini menunjukkan cara penghitungan throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.
Contoh estimasi kebutuhan Throughput yang Disediakan
Untuk memperkirakan kebutuhan Provisioned Throughput, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam kalkulasi estimasi.
Tabel ini memberikan rasio pembakaran untuk gemini-1.5-flash
yang dapat Anda gunakan untuk mengikuti contoh.
Model | Throughput per GSU (karakter/dtk) | Penambahan pembelian GSU minimum | Rasio burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Kurang dari atau sama dengan jendela konteks 128.000 token: 54.000 Lebih dari jendela konteks 128.000 token: 27.000 |
1 | Kurang dari atau sama dengan jendela konteks 128.000 token: 1 karakter input = 1 karakter 1 karakter output = 4 karakter 1 gambar = 1.067 karakter 1 video per detik = 1.067 karakter 1 audio per detik = 107 karakter |
Jendela konteks lebih dari 128.000 token: 1 karakter input = 2 karakter 1 karakter output = 8 karakter 1 gambar = 2.134 karakter 1 video per detik = 2.134 karakter 1 audio per detik = 214 karakter |
Kumpulkan persyaratan Anda.
Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima output 300 karakter untuk 10 kueri per detik menggunakan
gemini-1.5-flash
.Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.
Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, model Anda adalah
gemini-1.5-flash
.Tentukan jenis input, dan identifikasi rasio burndown. Gunakan tabel rasio pembakaran untuk mengidentifikasi rasio pembakaran berdasarkan jenis input Anda.
Rasio burndown gambar untuk model
gemini-1.5-flash
adalah 1.067 karakter.
Hitung throughput Anda.
Kalikan jumlah gambar dengan rasio burndown untuk jenis input untuk model tertentu Anda.
2 gambar * 1.067 karakter input per gambar = 2.134 karakter input
Total karakter output Anda adalah 300. Kembali ke tabel rasio pembakaran, dan temukan rasio pembakaran untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (
gemini-1.5-flash
).300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi
Tambahkan total Anda.
2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri
Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan throughput total per detik.
5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik
Hitung GSU Anda.
GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel burndown.
53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU
Penambahan pembelian GSU minimum untuk
gemini-1.5-flash
adalah 1, yang memenuhi persyaratan Anda.