Mengukur Throughput yang Disediakan

Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan rasio pembakaran. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSUs) dan rasio burndown.

GSU dan laju pembakaran

Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.

Rasio pembakaran adalah rasio yang mengonversi karakter input dan output menjadi karakter input per detik (throughput). Rasio ini digunakan untuk menghasilkan unit standar di seluruh model.

Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.

Contoh estimasi kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Provisioned Throughput, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam kalkulasi estimasi.

Tabel ini memberikan rasio pembakaran untuk gemini-1.5-flash yang dapat Anda gunakan untuk mengikuti contoh.

Model Throughput per GSU (karakter/dtk) Penambahan pembelian GSU minimum Rasio burndown
Gemini 1.5 Flash Kurang dari atau sama dengan jendela konteks 128.000 token:
54.000

Lebih dari jendela konteks 128.000 token:
27.000
1 Kurang dari atau sama dengan jendela konteks 128.000 token:
1 karakter input = 1 karakter
1 karakter output = 4 karakter
1 gambar = 1.067 karakter
1 video per detik = 1.067 karakter
1 audio per detik = 107 karakter
Jendela konteks lebih dari 128.000 token:
1 karakter input = 2 karakter
1 karakter output = 8 karakter
1 gambar = 2.134 karakter
1 video per detik = 2.134 karakter
1 audio per detik = 214 karakter
  1. Kumpulkan persyaratan Anda.

    1. Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima output 300 karakter untuk 10 kueri per detik menggunakan gemini-1.5-flash.

      Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.

    2. Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, model Anda adalah gemini-1.5-flash.

    3. Tentukan jenis input, dan identifikasi rasio burndown. Gunakan tabel rasio pembakaran untuk mengidentifikasi rasio pembakaran berdasarkan jenis input Anda.

      Rasio burndown gambar untuk model gemini-1.5-flash adalah 1.067 karakter.

  2. Hitung throughput Anda.

    1. Kalikan jumlah gambar dengan rasio burndown untuk jenis input untuk model tertentu Anda.

      2 gambar * 1.067 karakter input per gambar = 2.134 karakter input

    2. Total karakter output Anda adalah 300. Kembali ke tabel rasio pembakaran, dan temukan rasio pembakaran untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (gemini-1.5-flash).

      300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi

    3. Tambahkan total Anda.

      2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri

    4. Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan throughput total per detik.

      5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik

  3. Hitung GSU Anda.

    1. GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel burndown.

      53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU

    2. Penambahan pembelian GSU minimum untuk gemini-1.5-flash adalah 1, yang memenuhi persyaratan Anda.

Langkah selanjutnya