Throughput yang Disediakan

Throughput yang Disediakan adalah langganan bulanan dengan biaya tetap atau layanan mingguan yang menyediakan throughput untuk model AI generatif yang didukung di Vertex AI. Untuk mencadangkan throughput, Anda harus menentukan model dan lokasi yang tersedia tempat model berjalan.

Halaman ini menjelaskan kapan harus menggunakan Provisioned Throughput, cara kerjanya, dan cara berlangganan.

Model yang didukung

Tabel berikut menunjukkan model yang mendukung Throughput yang Disediakan, throughput untuk setiap unit skala AI generatif (GSU), dan rasio pembakaran untuk setiap model.

Model Google

Tabel ini menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model Google yang mendukung Provisioned Throughput. Model Google diukur dalam karakter per detik, yang ditentukan sebagai input perintah dan karakter output teks yang dihasilkan di semua permintaan per detik.

Model Throughput per GSU (karakter/dtk) Penambahan pembelian GSU minimum Rasio burndown
Gemini 1.5 Flash Kurang dari atau sama dengan 128.000 jendela konteks:
54.000

Lebih dari 128.000 jendela konteks:
27.000
1 Kurang dari atau sama dengan 128.000 jendela konteks:
1 karakter input = 1 karakter
1 karakter output = 4 karakter
1 gambar = 1.067 karakter
1 video per detik = 1.067 karakter
1 audio per detik = 107 karakter
Lebih dari 128.000 jendela konteks:
1 karakter input = 2 karakter
1 karakter output = 8 karakter
1 gambar = 2.134 karakter
1 video per detik = 2.134 karakter
1 audio per detik = 214 karakter
Gemini 1.5 Pro 800 1 Kurang dari atau sama dengan 128.000 jendela konteks:
1 karakter input = 1 karakter
1 karakter output = 3 karakter
1 gambar = 1.052 karakter
1 video per detik = 1.052 karakter
1 audio per detik = 100 karakter
Lebih dari 128.000 periode konteks:
1 karakter input = 2 karakter
1 karakter output = 6 karakter
1 gambar = 2.104 karakter
1 video per detik = 2.104 karakter
1 audio per detik = 200 karakter
Gemini 1.0 Pro 8.000 1 1 karakter input = 1 karakter
1 karakter output = 3 karakter
1 gambar = 20.000 karakter
1 video per detik = 16.000 karakter
Imagen 3 0,025
Throughput diukur dalam gambar/dtk, bukan karakter/dtk.
1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 3 Cepat 0,05
Throughput diukur dalam gambar/dtk, bukan karakter/dtk.
1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 2 0,05
Throughput diukur dalam gambar/dtk, bukan karakter/dtk.
1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Edit Imagen 2 0,05
Throughput diukur dalam gambar/dtk, bukan karakter/dtk.
1 Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Media MedLM 2.000 1 1 karakter input = 1 karakter
1 karakter output = 2 karakter
MedLM besar 200 1 1 karakter input = 1 karakter
1 karakter output = 3 karakter
MedLM besar 1.5 200 1 1 karakter input = 1 karakter
1 karakter output = 3 karakter

Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Anda dapat mengupgrade ke model baru saat model tersebut tersedia. Untuk mengetahui informasi tentang tanggal penghentian dan ketersediaan model, lihat model Google.

Melihat pratinjau fitur

Fitur pratinjau untuk Provisioned Throughput memerlukan persetujuan akses. Untuk meminta akses, isi dan kirim formulir kontrol akses Throughput yang Disediakan.

Versi Pratinjau menyediakan hal berikut untuk model Google:

  • Throughput yang Disediakan dapat diterapkan ke model dasar dan versi yang disesuaikan dengan pengawasan dari model dasar tersebut.

  • Endpoint model yang telah disesuaikan dan dikontrol serta jumlah model dasarnya yang sesuai terhadap kuota Throughput yang Disediakan yang sama.

    Misalnya, Throughput yang Disediakan yang dibeli untuk gemini-1.5-pro-002 untuk project tertentu memprioritaskan permintaan yang dibuat dari versi gemini-1.5-pro-002 yang disesuaikan dan diawasi yang dibuat dalam project tersebut. Gunakan header yang sesuai untuk mengontrol perilaku traffic.

  • Throughput yang Disediakan dapat dibeli untuk jangka waktu satu minggu, bukan langganan bulanan, dengan opsi untuk memberikan tanggal mulai dalam dua minggu setelah Anda melakukan pemesanan.

Model lama Google

Lihat Model lama yang mendukung Provisioned Throughput.

Model partner

Tabel ini menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang didefinisikan sebagai total token input dan output di semua permintaan per detik.

Model Throughput per GSU (token/dtk) Pembelian GSU minimum Penambahan pembelian GSU Rasio burndown
Claude 3.5 Sonnet v2 dari Anthropic 350 25 1 1 token input = 1 token
1 token output = 5 token
Claude 3.5 Haiku dari Anthropic 2.000 10 1 1 token input = 1 token
1 token output = 5 token
Claude 3 Opus dari Anthropic 70 35 1 1 token input = 1 token
1 token output = 5 token
Claude 3 Haiku dari Anthropic 4.200 5 1 1 token input = 1 token
1 token output = 5 token
Claude 3.5 Sonnet dari Anthropic 350 25 1 1 token input = 1 token
1 token output = 5 token
Claude 3 Sonnet dari Anthropic 350 25 1 1 token input = 1 token
1 token output = 5 token

Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Kapan harus menggunakan Throughput yang Disediakan

Jika salah satu pertimbangan berikut berlaku untuk kasus penggunaan Anda, pertimbangkan untuk menggunakan Throughput yang Disediakan:

  • Beban kerja penting Anda secara konsisten memerlukan throughput tinggi. Pengukuran throughput bergantung pada model.
  • Anda sedang membangun aplikasi produksi AI generatif real-time, seperti chatbot dan agen.
  • Throughput Anda harus melebihi 20.000 karakter per detik.
  • Anda ingin memberikan pengalaman yang konsisten dan dapat diprediksi bagi pengguna aplikasi Anda.
  • Anda menginginkan biaya AI generatif deterministik dengan membayar harga bulanan tetap dengan kontrol kelebihan.
  • Anda menginginkan biaya AI generatif deterministik dengan membayar harga bulanan atau mingguan tetap dengan kontrol kelebihan.

Throughput yang Disediakan adalah salah satu dari dua cara untuk menggunakan model AI generatif Anda. Cara kedua adalah bayar sesuai pemakaian, yang juga disebut sebagai on-demand.

Cara Throughput yang Disediakan diukur

Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan rasio pembakaran. Throughput yang Disediakan dihitung dan diberi harga menggunakan GSU dan tingkat pembakaran.

Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah dan respons Anda. Jumlah ini menentukan jumlah throughput untuk menyediakan model.

Untuk menghasilkan unit standar di seluruh model, semua input dan output dikonversi menjadi karakter input per detik (throughput) menggunakan rasio khusus model yang disebut rasio pembakaran.

Model yang berbeda menggunakan jumlah throughput yang berbeda. Untuk mengetahui informasi tentang jumlah pembelian dan penambahan GSU minimum untuk setiap model, lihat Model yang didukung dan rasio burndown dalam dokumen ini.

Persamaan ini menunjukkan cara penghitungan throughput:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

Throughput per detik yang dihitung menentukan jumlah GSU yang Anda perlukan untuk kasus penggunaan Anda.

Contoh estimasi kebutuhan Throughput yang Disediakan

Untuk memperkirakan kebutuhan Provisioned Throughput, gunakan alat estimasi di konsol Google Cloud. Contoh berikut mengilustrasikan proses estimasi jumlah Throughput yang Di-Provision untuk model Anda. Wilayah tidak dipertimbangkan dalam kalkulasi estimasi.

  1. Kumpulkan persyaratan Anda.

    1. Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima output 300 karakter untuk 10 kueri per detik menggunakan gemini-1.5-flash.

      Langkah ini berarti Anda memahami kasus penggunaan, karena Anda telah mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.

    2. Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, model Anda adalah gemini-1.5-flash.

    3. Tentukan jenis input, dan identifikasi rasio burndown. Gunakan tabel rasio burndown untuk mengidentifikasi rasio burndown berdasarkan jenis input Anda.

      Rasio burndown gambar untuk model gemini-1.5-flash adalah 1.067 karakter.

  2. Hitung throughput Anda.

    1. Kalikan jumlah gambar dengan rasio burndown untuk jenis input untuk model tertentu Anda.

      2 gambar * 1.067 karakter input per gambar = 2.134 karakter input

    2. Total karakter output Anda adalah 300. Kembali ke tabel rasio pembakaran, dan temukan rasio pembakaran untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (gemini-1.5-flash).

      300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi

    3. Tambahkan total Anda.

      2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri

    4. Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan throughput total per detik.

      5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik

  3. Hitung GSU Anda.

    1. GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel burndown.

      53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU

    2. Penambahan pembelian GSU minimum untuk gemini-1.5-flash adalah 1, yang memenuhi persyaratan Anda.

Hal yang harus dipertimbangkan sebelum berlangganan

Untuk membantu Anda memutuskan apakah ingin berlangganan Throughput yang Disediakan, tinjau daftar detail tentang langganan ini:

  • Anda tidak dapat membatalkan pesanan.

    Pembelian Throughput yang Disediakan adalah komitmen, yang berarti Anda tidak dapat membatalkan pesanan. Namun, Anda dapat meningkatkan jumlah GSU yang dibeli. Jika Anda tidak sengaja membeli komitmen atau ada masalah dengan konfigurasi, hubungi perwakilan akun Google Cloud Anda untuk mendapatkan bantuan.

  • Anda dapat memperpanjang langganan secara otomatis.

    Saat mengirimkan pesanan, Anda dapat memilih untuk memperpanjang langganan secara otomatis di akhir masa berlakunya, atau membiarkan langganan berakhir masa berlakunya. Anda dapat membatalkan proses perpanjangan otomatis. Untuk membatalkan langganan sebelum diperpanjang otomatis, batalkan perpanjangan otomatis 30 hari sebelum awal periode berikutnya.

    Anda dapat mengonfigurasi langganan bulanan agar diperpanjang secara otomatis setiap bulan. Jangka waktu mingguan tidak mendukung perpanjangan otomatis.

    Jika Anda memerlukan bantuan terkait proses ini, hubungi perwakilan akun Google Cloud Anda.

  • Anda dapat mengubah versi model atau region dengan pemberitahuan.

    Throughput yang Disediakan diaktifkan setelah Anda memilih project, region, model, dan versi. Anda dapat mengubah versi model dalam penerbit atau region model yang sama dengan pemberitahuan 10 hari kerja dengan menghubungi perwakilan akun Google Cloud untuk mendapatkan bantuan. Misalnya, Anda dapat beralih di antara model Google. Anda dapat beralih di antara model partner A. Anda dapat beralih di antara model partner B. Anda tidak dapat beralih antara model Google, partner A, dan partner B.

  • Tidak ada periode nonaktif saat Anda beralih ke Provisioned Throughput dari bayar sesuai penggunaan.

    Tidak ada periode nonaktif saat Anda beralih antarmodel untuk pesanan Throughput Disediakan. Namun, waktu tunggu untuk memperoleh throughput diperlukan.

  • Secara default, kelebihan penggunaan akan ditagih sebagai bayar sesuai pemakaian.

    Jika throughput Anda melebihi jumlah pesanan Throughput yang Disediakan, kelebihan akan diproses dan ditagih sebagai bayar sesuai pemakaian. Anda dapat mengontrol kelebihan berdasarkan per permintaan. Untuk informasi selengkapnya, lihat Menggunakan REST API.

  • Permintaan diprioritaskan.

    Permintaan dari pelanggan Provisioned Throughput diprioritaskan dan dilayani terlebih dahulu sebelum permintaan on-demand.

  • Anda harus berkomitmen untuk penggunaan minimum dan pembayaran.

    Penggunaan minimum bergantung pada model AI generatif yang Anda pilih. Setiap penggunaan di luar kapasitas throughput yang dibeli tidak dijamin dan diberikan layanan berdasarkan upaya yang wajar.

  • Throughput tidak terakumulasi.

    Throughput yang tidak digunakan tidak akan diakumulasikan atau dialihkan ke bulan berikutnya.

  • Throughput yang Disediakan diukur berdasarkan karakter atau token per detik.

    Throughput yang Disediakan diukur berdasarkan karakter atau token per detik, bukan kueri per menit (QPM). Akibatnya, pengukuran Throughput yang Disediakan bergantung pada ukuran kueri dan QPM kasus penggunaan Anda.

  • Throughput yang Disediakan memeriksa kuota Anda.

    Kuota Throughput yang Disediakan diperiksa setiap kali Anda membuat permintaan dalam periode kuota. Untuk model gemini-1.5-flash-002 dan gemini-1.5-pro-002, periode kuota adalah 30 detik. Artinya, Anda mungkin mengalami traffic prioritas sementara yang melebihi jumlah kuota per detik dalam beberapa kasus, tetapi Anda tidak boleh melebihi kuota per 30 detik. Periode kuota untuk model lain adalah satu menit.

  • Endpoint model yang di-fine-tune dan diawasi serta model dasarnya yang sesuai dihitung dalam kuota Throughput yang Disediakan yang sama. Ini adalah fitur Pratinjau. Isi dan kirimkan formulir kontrol akses Throughput yang Disediakan.

    Misalnya, Throughput yang Disediakan yang dibeli untuk gemini-1.5-pro-002 untuk project tertentu memprioritaskan permintaan yang dibuat dari versi gemini-1.5-pro-002 yang disesuaikan dan diawasi yang dibuat dalam project tersebut. Gunakan header yang sesuai untuk mengontrol perilaku traffic.

Membeli Throughput yang Disediakan

Bagian ini memberikan izin yang harus Anda miliki untuk menempatkan atau melihat pesanan Throughput yang Disediakan, dan petunjuk untuk menempatkan dan melihat pesanan Anda.

Izin

Untuk berlangganan Throughput yang Disediakan, Anda harus memiliki salah satu izin berikut yang ditetapkan ke project, yang memungkinkan Anda mencantumkan dan menempatkan pesanan baru.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Khusus untuk Throughput yang Disediakan.
  • aiplatform.googleapis.com/admin: Memberikan hak administratif ke setiap resource di Vertex AI.

Peran ini memungkinkan Anda hanya mencantumkan pesanan:

  • aiplatform.googleapis.com/viewer

Memesan Throughput yang Disediakan

Sebelum Anda melakukan pemesanan untuk menggunakan model Imagen, kirimkan Permintaan untuk memberikan izin agar Anda diberi izin.

Sebelum Anda melakukan pemesanan untuk menggunakan MedLM-large-1.5, hubungi perwakilan akun Google Cloud Anda untuk meminta akses. Jika Anda memperkirakan QPM akan melebihi 30.000, untuk memaksimalkan pesanan Throughput yang Disediakan, minta peningkatan pada kuota sistem Vertex AI default menggunakan informasi berikut:

  • Service: Vertex AI API.
  • Nama: Online prediction requests per minute per region
  • Jenis layanan: Kuota.
  • Dimensi: Region tempat Anda memesan Provisioned Throughput.
  • Nilai: Ini adalah batas traffic prediksi online yang Anda pilih.

Ikuti langkah-langkah berikut untuk membeli Provisioned Throughput:

Konsol

  1. Di konsol Google Cloud, buka halaman Provisioned Throughput.

    Buka Throughput yang Disediakan

  2. Untuk memulai pesanan baru, klik Buat.
  3. Masukkan Nama pesanan.
  4. Pilih Model.
  5. Pilih Region.
  6. Masukkan Jumlah unit skala AI generatif (GSU) yang harus Anda beli. Jika Anda harus memperkirakan jumlah GSU, klik Alat estimasi.
    1. Pilih Model Anda.
    2. Masukkan jumlah Kueri per detik.
    3. Masukkan jumlah Karakter input per kueri.
    4. Masukkan jumlah Gambar input per kueri.
    5. Masukkan jumlah Detik video per kueri.
    6. Masukkan jumlah Detik audio per kueri.
    7. Masukkan jumlah Karakter output per kueri.
    8. Jika Anda ingin menggunakan nilai yang dimasukkan ke dalam alat estimasi, klik Gunakan yang dihitung.
  7. Pilih Persyaratan.

    Jika memilih satu minggu, Anda memiliki opsi untuk memberikan tanggal dan waktu mulai dalam dua minggu ke depan setelah melakukan pemesanan. Jika Anda tidak memberikan tanggal dan waktu mulai, kami akan memproses pesanan segera setelah kami dapat memastikan bahwa kapasitas tersedia. Tanggal dan waktu mulai yang diminta akan diproses berdasarkan upaya terbaik, dan pesanan tidak dijamin akan dipenuhi pada tanggal ini hingga status pesanan ditetapkan ke Disetujui.

    Jika tanggal mulai yang diminta terlalu dekat dengan tanggal saat ini, pesanan Anda mungkin disetujui dan diaktifkan setelah tanggal mulai yang diminta, yang berarti tanggal akhir Anda tetap tujuh hari sejak tanggal aktivasi.

    Status Disetujui adalah fitur Pratinjau yang hanya berlaku selama satu minggu. Isi dan kirimkan formulir kontrol akses Throughput yang Disediakan.

  8. Pilih opsi Perpanjangan.
  9. Klik Lanjutkan.
  10. Di bagian Ringkasan, tinjau estimasi harga dan throughput untuk pesanan Anda. Baca persyaratan yang tercantum dan ditautkan dalam formulir.
  11. Untuk menyelesaikan pesanan, klik Konfirmasi.

Periksa status pesanan

Setelah Anda mengirimkan pesanan Provisioned Throughput, status pesanan mungkin muncul sebagai salah satu dari berikut:

  • Menunggu peninjauan: Anda telah melakukan pemesanan. Karena persetujuan bergantung pada kapasitas yang tersedia untuk menyediakan pesanan Anda, pesanan Anda sedang menunggu peninjauan dan persetujuan. Untuk mengetahui informasi selengkapnya tentang status pesanan yang tertunda, hubungi perwakilan akun Google Cloud Anda.
  • Disetujui: Ini adalah fitur Pratinjau yang hanya berlaku selama satu minggu. Isi dan kirimkan formulir kontrol akses Throughput yang Disediakan. Untuk status ini, Google telah menyetujui pesanan jangka waktu satu minggu Anda.
  • Aktif: Google telah menyetujui dan menyediakan pesanan Anda dan penagihan dimulai.
  • Berakhir: Masa berlaku pesanan Anda telah berakhir.

Melihat pesanan Throughput yang Disediakan

Ikuti langkah-langkah berikut untuk melihat pesanan Throughput yang Disediakan:

Konsol

  1. Di konsol Google Cloud, buka halaman Provisioned Throughput.

    Buka Throughput yang Disediakan

  2. Pilih Region. Daftar pesanan Anda akan muncul.

Menggunakan Throughput yang Disediakan

Bagian ini menjelaskan cara mengontrol kelebihan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.

Mengontrol kelebihan atau mengabaikan Throughput yang Disediakan

Gunakan REST API untuk mengontrol kelebihan penggunaan saat Anda melampaui throughput yang dibeli atau untuk mengabaikan Throughput yang Disediakan per permintaan.

Baca setiap opsi untuk menentukan hal yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihannya akan masuk ke sesuai permintaan dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan otomatis terjadi. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan.

Contoh curl ini menunjukkan perilaku default.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, hanya gunakan Throughput Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.

Contoh curl ini menunjukkan cara menggunakan REST API untuk menggunakan langganan Throughput yang Disediakan saja, dengan kelebihan yang menampilkan error 429.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai penggunaan on-demand. Permintaan mengabaikan pesanan Throughput Disediakan dan dikirim langsung ke bayar sesuai pemakaian. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Contoh curl ini menunjukkan cara menggunakan REST API untuk mengabaikan Provisioned Throughput, dan hanya menggunakan bayar sesuai penggunaan.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan per permintaan.

Header respons

Jika permintaan diproses menggunakan Provisioned Throughput, header HTTP berikut akan ada dalam respons. Baris kode ini hanya berlaku untuk panggilan API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metrik

Throughput yang Disediakan dapat dipantau menggunakan kumpulan metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel. Setiap metrik dapat difilter berdasarkan dimensi berikut:

  • type: input, output
  • request_type: dedicated, shared

Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan jenis permintaan dedicated. Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving. Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel:

Metrik Nama tampilan Deskripsi Memfilter penggunaan Throughput yang Disediakan
/characters Karakter Distribusi jumlah karakter input dan output.
/character_count Jumlah karakter Jumlah karakter input dan output yang terakumulasi.
/consumed_throughput Throughput Karakter Throughput yang digunakan (mempertimbangkan rasio burndown) dalam karakter.
/model_invocation_count Jumlah pemanggilan model Jumlah pemanggilan model (permintaan prediksi).
/model_invocation_latencies Latensi pemanggilan model Latensi pemanggilan model (latensi prediksi).
/first_token_latencies Latensi token pertama Durasi dari permintaan yang diterima hingga token pertama ditampilkan.
/tokens Token Distribusi jumlah token input dan output.
/token_count Jumlah token Jumlah token input dan output yang terakumulasi.

Memecahkan masalah Throughput yang Disediakan

Untuk memperbaiki error 429 yang dihasilkan oleh Throughput yang Disediakan, lakukan hal berikut:

  • Gunakan contoh default, yang tidak menetapkan header dalam permintaan prediksi. Semua kelebihan akan diproses sesuai permintaan dan ditagih sebagai bayar sesuai penggunaan.
  • Tingkatkan jumlah GSU dalam langganan Throughput yang Dipasok.

Langkah selanjutnya

  • Hubungi perwakilan akun Google Cloud Anda untuk membuat pesanan Throughput yang Disediakan atau untuk meningkatkan jumlah GSU pada pesanan yang ada.
  • Untuk informasi selengkapnya tentang cara memecahkan masalah error 429 saat menggunakan kuota bersama dinamis atau Throughput yang Disediakan, lihat Kode error 429.
  • Untuk mempelajari kuota bersama dinamis (DSQ) lebih lanjut, lihat Kuota bersama dinamis.