Throughput yang Disediakan

Throughput yang Disediakan adalah layanan langganan bulanan dengan biaya tetap yang mencadangkan throughput untuk model AI generatif yang didukung Vertex AI. Untuk mencadangkan throughput, Anda harus menentukan model dan lokasi yang tersedia di mana model dijalankan.

Halaman ini menjelaskan kapan harus menggunakan Throughput yang Disediakan, cara kerjanya, dan cara berlangganan.

Model yang didukung

Tabel berikut menunjukkan model yang mendukung Throughput yang Disediakan, throughput untuk setiap generative AI scale unit (GSU), dan tingkat burndown untuk setiap model.

Model Google

Tabel ini menunjukkan throughput, kenaikan pembelian, dan tingkat {i>burndown<i} untuk Model Google yang mendukung Throughput yang Disediakan. Model Google dalam karakter per detik, yang didefinisikan sebagai input prompt dan karakter output teks yang dihasilkan di semua permintaan per detik.

Model Throughput per GSU (karakter/dtk) Penambahan pembelian GSU minimum Rasio pengurangan
gemini-1.5-flash Kurang dari atau sama dengan 128.000 jendela konteks:
54.000

Lebih dari 128.000 jendela konteks:
27.000
5 Kurang dari atau sama dengan 128.000 jendela konteks:
1 karakter input = 1 karakter
1 karakter output = 4 karakter
1 gambar = 1.067 karakter
1 video per detik = 1.067 karakter
1 audio per detik = 107 karakter
Lebih dari 128.000 jendela konteks:
1 karakter input = 2 karakter
1 karakter output = 8 karakter
1 gambar = 2.134 karakter
1 video per detik = 2.134 karakter
1 audio per detik = 214 karakter
gemini-1.5-pro 800 5 Kurang dari atau sama dengan 128.000 jendela konteks:
1 karakter input = 1 karakter
1 karakter output = 3 karakter
1 gambar = 1.052 karakter
1 video per detik = 1.052 karakter
1 audio per detik = 100 karakter
Lebih dari 128.000 jendela konteks:
1 karakter input = 2 karakter
1 karakter output = 6 karakter
1 gambar = 2.104 karakter
1 video per detik = 2.104 karakter
1 audio per detik = 200 karakter
gemini-1.0-pro 8.000 5 1 karakter input = 1 karakter
1 karakter output = 3 karakter
1 gambar = 20.000 karakter
1 video per detik = 16.000 karakter
MedLM-medium 2.000 5 1 karakter input = 1 karakter
1 karakter output = 2 karakter
MedLM-large 200 5 1 karakter input = 1 karakter
1 karakter output = 3 karakter

Untuk informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Anda dapat mengupgrade ke model baru saat tersedia. Untuk mengetahui informasi tentang tentang ketersediaan dan tanggal penghentian, lihat Model Google.

Model lama Google

Lihat Model lama yang mendukung Throughput yang Disediakan.

Model partner

Tabel ini menunjukkan throughput, kenaikan pembelian, dan tingkat {i>burndown<i} untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang didefinisikan sebagai total token input dan {i>output<i} di semua jumlah permintaan per detik.

Model Trafficput per GSU (token/dtk) Penambahan pembelian GSU minimum Rasio pengurangan
Anthropic Claude 3.5 Sonnet 350 25 1 token input = 1 token
1 token output = 5 token
Anthropic Claude 3 Opus 70 35 1 token input = 1 token
1 token output = 5 token
Anthropic Claude 3 Haiku 4.200. 5 1 token input = 1 token
1 token output = 5 token
Anthropic Claude 3 Sonnet 350 25 1 token input = 1 token
1 token output = 5 token

Untuk informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Kapan harus menggunakan Throughput yang Disediakan

Jika salah satu pertimbangan berikut berlaku untuk kasus penggunaan Anda, pertimbangkan untuk menggunakan Throughput yang Disediakan:

  • Workload penting Anda secara konsisten memerlukan throughput yang tinggi. Throughput pengukuran bergantung pada model.
  • Anda sedang membangun aplikasi produksi AI generatif real-time, seperti chatbot dan agen.
  • Throughput Anda memerlukan lebih dari 20.000 karakter per detik.
  • Anda ingin memberikan pengalaman yang konsisten dan dapat diprediksi bagi pengguna menggunakan berbagai aplikasi obrolan.
  • Anda menginginkan biaya AI generatif yang determenistik dengan membayar harga bulanan tetap dengan mengontrol kelebihan biaya.

Throughput yang Disediakan adalah salah satu dari dua cara untuk menggunakan model AI generatif Anda. Cara kedua adalah bayar sesuai penggunaan, yang juga disebut sebagai on-demand.

Cara pengukuran Throughput yang Disediakan

Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan tingkat {i>burndown<i}. Throughput yang Disediakan dihitung dan ditetapkan harganya menggunakan GSU dan tingkat {i>burndown<i}.

Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah Anda beserta responsnya. Jumlah ini menentukan seberapa banyak throughput yang harus disediakan untuk model kami.

Untuk menghasilkan unit standar di berbagai model, semua input dan output dikonversi memasukkan karakter per detik (throughput) menggunakan rasio spesifik per model yang disebut tingkat kejenuhan.

Model yang berbeda menggunakan jumlah throughput yang berbeda pula. Untuk mengetahui informasi tentang jumlah dan penambahan pembelian GSU minimum untuk setiap model, lihat Model dan tingkat kejenuhan yang didukung dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput yang dihitung per detik menentukan jumlah GSU yang Anda perlukan kasus penggunaan Anda.

Contoh memperkirakan kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di Konsol Google Cloud. Contoh berikut menggambarkan proses memperkirakan jumlah yang disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam kalkulasi estimasi.

  1. Kumpulkan persyaratan Anda.

    1. Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima 300 karakter output untuk 10 kueri per detik menggunakan gemini-1.5-flash.

      Langkah ini menyiratkan bahwa Anda memahami kasus penggunaan, karena Anda memiliki mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.

    2. Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, modelnya adalah gemini-1.5-flash.

    3. Menentukan jenis input dan mengidentifikasi tingkat burndown. Gunakan tabel tingkat kejenuhan untuk mengidentifikasi tingkat kejenuhan berdasarkan pada jenis input Anda.

      Tingkat burndown gambar untuk model gemini-1.5-flash adalah 1.067 karakter.

  2. Hitung throughput Anda.

    1. Kalikan jumlah gambar dengan tingkat {i>burndown<i} untuk jenis input model spesifik Anda.

      2 gambar * 1.067 karakter input per gambar = 2.134 karakter input

    2. Total karakter output Anda adalah 300. Kembali ke tabel tingkat {i>burndown<i}, dan temukan tingkat {i>burndown<i} untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (gemini-1.5-flash).

      300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi

    3. Tambahkan total Anda bersama-sama.

      2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri

    4. Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan total throughput per detik.

      5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik

  3. Hitung GSU Anda.

    1. GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel {i>burndown<i}.

      53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU

    2. Kenaikan pembelian GSU minimum untuk gemini-1.5-flash adalah 5, yang memenuhi kebutuhan Anda.

Hal-hal yang harus dipertimbangkan sebelum berlangganan

Untuk membantu memutuskan apakah Anda ingin berlangganan Throughput yang Disediakan, tinjau daftar detail tentang langganan berikut:

  • Anda tidak dapat membatalkan pesanan.

    Pembelian Throughput yang Disediakan Anda merupakan komitmen, artinya Anda tidak dapat membatalkan pesanan. Namun, Anda dapat meningkatkan jumlah pembelian GSU. Jika Anda tidak sengaja membeli komitmen atau ada masalah dengan konfigurasi, hubungi akun Google Cloud Anda perwakilan untuk mendapatkan bantuan.

  • Anda dapat memperpanjang langganan secara otomatis.

    Saat mengirimkan pesanan, Anda dapat memilih untuk memperpanjang langganan secara otomatis di akhir masa berlaku, atau membiarkan masa berlaku langganan berakhir. Anda dapat membatalkan proses perpanjangan otomatis. Untuk membatalkan langganan sebelum diperpanjang otomatis, batalkan perpanjangan otomatis 30 hari sebelum awal jangka waktu berikutnya.

    Jika Anda memerlukan bantuan dalam proses ini, hubungi perwakilan akun Google Cloud Anda.

  • Anda dapat mengubah versi atau region model dengan pemberitahuan.

    Throughput yang Disediakan diaktifkan setelah Anda memilih project, region, model, dan versi. Anda dapat mengubah versi model dalam model yang sama penayang atau wilayah dengan pemberitahuan 10 hari kerja dengan menghubungi Perwakilan akun Google Cloud untuk mendapatkan bantuan. Misalnya, Anda dapat beralih antarmodel Google. Anda dapat beralih antara model partner A. Anda dapat beralih antar-model partner B. Anda tidak dapat beralih antara model Google, partner A, dan partner B.

  • Tidak ada periode nonaktif saat Anda beralih dari bayar sesuai penggunaan ke Throughput yang Disediakan.

    Tidak ada periode nonaktif saat Anda beralih antarmodel untuk Penyediaan Urutan throughput. Namun, waktu tunggu untuk memperoleh throughput tidak diperlukan.

  • Secara default, kelebihan penggunaan ditagih sebagai bayar sesuai penggunaan.

    Jika throughput Anda melebihi jumlah pesanan Throughput yang Disediakan, kelebihan biaya diproses dan ditagih sebagai bayar sesuai penggunaan. Anda dapat mengontrol kelebihan penggunaan berdasarkan permintaan. Untuk informasi selengkapnya, lihat Menggunakan REST API yang dipersonalisasi.

  • Permintaan diprioritaskan.

    Permintaan dari pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan sesuai permintaan.

  • Anda harus berkomitmen untuk pembayaran dan penggunaan minimum.

    Penggunaan minimum bergantung pada model AI generatif yang Anda pilih. Apa saja penggunaan di luar tingkat throughput yang dibeli tidak dijamin dan dilayani secara upaya yang wajar.

  • Trafficput tidak terakumulasi.

    Throughput yang tidak digunakan tidak akan terakumulasi atau terbawa ke bulan berikutnya.

  • Throughput yang disediakan diukur berdasarkan karakter atau token per detik.

    Throughput yang disediakan diukur berdasarkan karakter atau token per detik, bukan kueri per menit (QPM). Akibatnya, mengukur Throughput yang Disediakan bergantung pada ukuran kueri dan QPM kasus penggunaan Anda.

Throughput yang Disediakan Pembelian

Bagian ini memberikan izin yang harus Anda miliki untuk melakukan atau melihat Pesanan Throughput yang disediakan, dan petunjuk untuk menempatkan dan melihat berbagai pesanan Anda.

Izin

Untuk berlangganan Throughput yang Disediakan, Anda harus memiliki salah satu hal berikut izin yang ditetapkan untuk project Anda, sehingga Anda dapat membuat daftar dan per satu dalam urutan berbeda.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Khusus untuk Throughput yang Disediakan.
  • aiplatform.googleapis.com/admin: Memberikan hak administratif kepada setiap di Vertex AI.

Peran ini memungkinkan Anda hanya mencantumkan pesanan:

  • aiplatform.googleapis.com/viewer

Membuat pesanan Throughput yang Disediakan

Ikuti langkah-langkah berikut untuk membeli langganan Throughput yang Disediakan:

Konsol

  1. Di Konsol Google Cloud, buka halaman Throughput yang Disediakan.

    Buka Throughput yang Disediakan

  2. Untuk memulai pesanan baru, klik Buat.
  3. Masukkan Nama pesanan.
  4. Pilih Model.
  5. Pilih Region.
  6. Masukkan Jumlah unit skala AI generatif (GSU) yang harus Anda pembelian. Jika Anda harus memperkirakan jumlah GSU, klik Alat estimasi.
    1. Pilih Model Anda.
    2. Masukkan jumlah Kueri per detik.
    3. Masukkan jumlah Karakter input per kueri.
    4. Masukkan jumlah Gambar input per kueri.
    5. Masukkan jumlah detik video per kueri.
    6. Masukkan jumlah detik audio per kueri.
    7. Masukkan jumlah Karakter output per kueri.
    8. Jika Anda ingin menggunakan nilai yang Anda masukkan ke dalam alat estimasi, klik Gunakan yang dihitung.
  7. Pilih Persyaratan Anda.
  8. Pilih opsi Perpanjangan.
  9. Klik Lanjutkan.
  10. Di bagian Ringkasan, tinjau estimasi harga dan throughput untuk pesanan Anda. Baca istilah yang tercantum dan ditautkan dalam formulir.
  11. Untuk menyelesaikan pesanan Anda, klik Konfirmasi.

Periksa status pesanan

Setelah mengirimkan pesanan Throughput yang Disediakan, status pesanan mungkin muncul sebagai salah satu dari berikut ini:

  • Menunggu tinjauan: Anda telah melakukan pemesanan. Karena persetujuan bergantung pada kapasitas yang tersedia untuk menyediakan pesanan Anda, pesanan Anda sedang menunggu peninjauan dan persetujuan. Untuk informasi selengkapnya tentang status pesanan tertunda, hubungi perwakilan akun Google Cloud Anda.
  • Aktif: Google telah menyetujui dan menyediakan pesanan dan penagihan Anda dimulai.
  • Berakhir: Masa berlaku pesanan Anda telah berakhir.

Lihat pesanan Throughput yang Disediakan

Ikuti langkah-langkah berikut untuk melihat pesanan Throughput yang Disediakan:

Konsol

  1. Di Konsol Google Cloud, buka halaman Throughput yang Disediakan.

    Buka Throughput yang Disediakan

  2. Pilih Region. Daftar pesanan Anda akan muncul.

Menggunakan Throughput yang Disediakan

Bagian ini menjelaskan cara mengontrol kelebihan penggunaan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.

Mengontrol kelebihan beban atau mengabaikan Throughput yang Disediakan

Gunakan REST API untuk mengontrol kelebihan penggunaan saat Anda melebihi throughput yang dibeli atau untuk mengabaikan Throughput yang Disediakan berdasarkan permintaan.

Baca setiap opsi untuk menentukan hal yang harus Anda lakukan guna memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihan biaya tersebut akan masuk ke on demand dan ditagih sebesar tarif bayar sesuai penggunaan. Setelah Pesanan Throughput yang disediakan aktif, perilaku default terjadi secara otomatis. Anda tidak perlu mengubah kode untuk mulai memakai pesanan.

Contoh curl ini menunjukkan perilaku default.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya Gunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari tagihan on demand, gunakan hanya Disediakan Throughput. Permintaan yang melebihi pengembalian jumlah pesanan Throughput yang Disediakan error 429.

Contoh curl ini menunjukkan cara menggunakan REST API untuk memakai Khusus langganan Throughput yang disediakan, dengan kelebihan tagihan yang menampilkan error 429.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya gunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai menggunakan on-demand. Permintaan mengabaikan Penyediaan Disediakan Pesanan throughput dan dikirim langsung ke bayar sesuai penggunaan. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Contoh curl ini menunjukkan cara menggunakan REST API untuk melewati Throughput yang Disediakan, dan hanya menggunakan bayar sesuai penggunaan.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan permintaan.

Header respons

Jika permintaan diproses menggunakan Throughput yang Disediakan, HTTP berikut {i>header <i}ada dalam respons. Baris kode ini hanya berlaku untuk Panggilan API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metrik

Throughput yang Disediakan dapat dipantau menggunakan sekumpulan metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel. Setiap metrik dapat difilter di sepanjang dimensi berikut:

  • type: input, output
  • request_type: dedicated, shared

Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan dedicated jenis permintaan. Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving. Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik Cloud Monitoring berikut tersedia di Referensi aiplatform.googleapis.com/PublisherModel:

Metrik Deskripsi Filter penggunaan Throughput yang Disediakan
/characters Distribusi jumlah karakter input dan output Ya
/character_count Akumulasi jumlah karakter input dan output Ya
/consumed_throughput Throughput yang dikonsumsi (memperhitungkan tingkat pembakaran) dalam karakter Ya
/model_invocation_count Jumlah pemanggilan model (permintaan prediksi)
/model_invocation_latencies Latensi pemanggilan model (latensi prediksi)
/first_token_latencies Durasi dari permintaan yang diterima hingga token pertama ditampilkan
/tokens Distribusi jumlah token input dan output
/token_count Jumlah token input dan output yang terakumulasi

Langkah selanjutnya