Menghitung persyaratan Throughput yang Disediakan

Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan rasio pembakaran. Throughput yang Disediakan dihitung dan diberi harga menggunakan unit skala AI generatif (GSUs) dan rasio burndown.

GSU dan laju pembakaran

Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.

Rasio pembakaran adalah rasio yang mengonversi karakter input dan output menjadi karakter input per detik (throughput). Rasio ini digunakan untuk menghasilkan unit standar di seluruh model.

Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.

Pertimbangan Penting

Untuk membantu Anda merencanakan kebutuhan Throughput yang Disediakan, tinjau pertimbangan penting berikut:

  • Permintaan diprioritaskan.

    Pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.

  • Throughput tidak terakumulasi.

    Throughput yang tidak digunakan tidak akan diakumulasikan atau dialihkan ke bulan berikutnya.

  • Throughput yang Disediakan diukur berdasarkan karakter atau token per detik.

    Throughput yang Disediakan diukur berdasarkan karakter atau token per detik, bukan kueri per menit (QPM). Akibatnya, pengukuran throughput yang disediakan bergantung pada ukuran kueri, ukuran respons, dan QPM kasus penggunaan Anda.

  • Throughput yang Disediakan memeriksa kuota Anda.

    Kuota Throughput yang Disediakan diperiksa setiap kali Anda membuat permintaan dalam periode kuota. Untuk model gemini-2.0-flash-001, gemini-1.5-flash-002, dan gemini-1.5-pro-002, periode kuota dapat berkisar hingga 30 detik dan dapat berubah sewaktu-waktu. Artinya, dalam beberapa kasus, Anda mungkin sementara mengalami traffic prioritas yang melebihi jumlah kuota per detik, tetapi Anda tidak boleh melebihi kuota per 30 detik. Periode kuota untuk model lain dapat berkisar hingga satu menit. Periode kuota didasarkan pada waktu jam Vertex AI dan tidak bergantung pada waktu permintaan dibuat.

    Misalnya, jika Anda membeli 1 GSU gemini-1.5-pro-002, Anda akan mendapatkan throughput selalu aktif sebesar 800 karakter per detik. Rata-rata, Anda tidak boleh melebihi 24.000 karakter dalam durasi 30 detik, yang dihitung menggunakan formula ini:

    800 karakter per detik * 30 detik = 24.000 karakter

    Jika Anda mengirimkan satu permintaan sepanjang hari yang menggunakan 1.600 karakter dalam detik, permintaan tersebut mungkin masih diproses sebagai permintaan throughput yang disediakan meskipun Anda telah melampaui batas 800 karakter per detik pada saat permintaan.

  • Throughput yang Disediakan khusus untuk project, region, model, dan versi.

    Throughput yang Disediakan ditetapkan ke kombinasi project-region-model-version tertentu. Model yang sama yang dipanggil dari region yang berbeda tidak akan mengurangi kuota Throughput yang Disediakan dan tidak akan diprioritaskan daripada permintaan on-demand.

Contoh estimasi kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam penghitungan estimasi.

Tabel ini memberikan rasio pembakaran untuk gemini-1.5-flash yang dapat Anda gunakan untuk mengikuti contoh.

Model Throughput per GSU (karakter/dtk) Penambahan pembelian GSU minimum Rasio burndown
Gemini 1.5 Flash Kurang dari atau sama dengan jendela konteks 128.000 token:
54.000

Lebih dari jendela konteks 128.000 token:
27.000
1 Kurang dari atau sama dengan periode konteks 128.000 token:
1 karakter input = 1 karakter
1 karakter output = 4 karakter
1 gambar = 1.067 karakter
1 video per detik = 1.067 karakter
1 audio per detik = 107 karakter

Lebih dari periode konteks 128.000 token:
1 karakter input = 2 karakter
1 karakter output = 8 karakter
1 gambar = 2.134 karakter
1 video per detik = 2.134 karakter
1 audio per detik = 214 karakter
  1. Kumpulkan persyaratan Anda.

    1. Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima output 300 karakter untuk 10 kueri per detik menggunakan gemini-1.5-flash.

      Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.

    2. Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, model Anda adalah gemini-1.5-flash.

    3. Tentukan jenis input, dan identifikasi rasio burndown. Gunakan laju pembakaran untuk mengidentifikasi laju pembakaran berdasarkan jenis input Anda.

      Rasio burndown gambar untuk model gemini-1.5-flash adalah 1.067 karakter.

  2. Hitung throughput Anda.

    1. Kalikan jumlah gambar dengan rasio burndown untuk jenis input untuk model tertentu Anda.

      2 gambar * 1.067 karakter input per gambar = 2.134 karakter input

    2. Total karakter output Anda adalah 300. Kembali ke tabel rasio pembakaran, dan temukan rasio pembakaran untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (gemini-1.5-flash).

      300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi

    3. Tambahkan total Anda.

      2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri

    4. Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan throughput total per detik.

      5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik

  3. Hitung GSU Anda.

    1. GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel burndown.

      53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU

    2. Penambahan pembelian GSU minimum untuk gemini-1.5-flash adalah 1, yang memenuhi persyaratan Anda.

Langkah berikutnya