Throughput yang Disediakan adalah layanan langganan bulanan dengan biaya tetap yang mencadangkan throughput untuk model AI generatif yang didukung Vertex AI. Untuk mencadangkan throughput, Anda harus menentukan model dan lokasi yang tersedia di mana model dijalankan.
Halaman ini menjelaskan kapan harus menggunakan Throughput yang Disediakan, cara kerjanya, dan cara berlangganan.
Model yang didukung
Tabel berikut menunjukkan model yang mendukung Throughput yang Disediakan, throughput untuk setiap generative AI scale unit (GSU), dan tingkat burndown untuk setiap model.
Model Google
Tabel ini menunjukkan throughput, kenaikan pembelian, dan tingkat {i>burndown<i} untuk Model Google yang mendukung Throughput yang Disediakan. Model Google dalam karakter per detik, yang didefinisikan sebagai input prompt dan karakter output teks yang dihasilkan di semua permintaan per detik.
Model | Throughput per GSU (karakter/dtk) | Penambahan pembelian GSU minimum | Rasio pengurangan | |
---|---|---|---|---|
gemini-1.5-flash |
Kurang dari atau sama dengan 128.000 jendela konteks: 54.000 Lebih dari 128.000 jendela konteks: 27.000 |
5 | Kurang dari atau sama dengan 128.000 jendela konteks: 1 karakter input = 1 karakter 1 karakter output = 4 karakter 1 gambar = 1.067 karakter 1 video per detik = 1.067 karakter 1 audio per detik = 107 karakter |
Lebih dari 128.000 jendela konteks: 1 karakter input = 2 karakter 1 karakter output = 8 karakter 1 gambar = 2.134 karakter 1 video per detik = 2.134 karakter 1 audio per detik = 214 karakter |
gemini-1.5-pro |
800 | 5 | Kurang dari atau sama dengan 128.000 jendela konteks: 1 karakter input = 1 karakter 1 karakter output = 3 karakter 1 gambar = 1.052 karakter 1 video per detik = 1.052 karakter 1 audio per detik = 100 karakter |
Lebih dari 128.000 jendela konteks: 1 karakter input = 2 karakter 1 karakter output = 6 karakter 1 gambar = 2.104 karakter 1 video per detik = 2.104 karakter 1 audio per detik = 200 karakter |
gemini-1.0-pro |
8.000 | 5 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter 1 gambar = 20.000 karakter 1 video per detik = 16.000 karakter |
|
MedLM-medium |
2.000 | 5 | 1 karakter input = 1 karakter 1 karakter output = 2 karakter |
|
MedLM-large |
200 | 5 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter |
Untuk informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.
Anda dapat mengupgrade ke model baru saat tersedia. Untuk mengetahui informasi tentang tentang ketersediaan dan tanggal penghentian, lihat Model Google.
Model lama Google
Lihat Model lama yang mendukung Throughput yang Disediakan.
Model partner
Tabel ini menunjukkan throughput, kenaikan pembelian, dan tingkat {i>burndown<i} untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang didefinisikan sebagai total token input dan {i>output<i} di semua jumlah permintaan per detik.
Model | Trafficput per GSU (token/dtk) | Penambahan pembelian GSU minimum | Rasio pengurangan |
---|---|---|---|
Anthropic Claude 3.5 Sonnet |
350 | 25 | 1 token input = 1 token 1 token output = 5 token |
Anthropic Claude 3 Opus |
70 | 35 | 1 token input = 1 token 1 token output = 5 token |
Anthropic Claude 3 Haiku |
4.200. | 5 | 1 token input = 1 token 1 token output = 5 token |
Anthropic Claude 3 Sonnet |
350 | 25 | 1 token input = 1 token 1 token output = 5 token |
Untuk informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.
Kapan harus menggunakan Throughput yang Disediakan
Jika salah satu pertimbangan berikut berlaku untuk kasus penggunaan Anda, pertimbangkan untuk menggunakan Throughput yang Disediakan:
- Workload penting Anda secara konsisten memerlukan throughput yang tinggi. Throughput pengukuran bergantung pada model.
- Anda sedang membangun aplikasi produksi AI generatif real-time, seperti chatbot dan agen.
- Throughput Anda memerlukan lebih dari 20.000 karakter per detik.
- Anda ingin memberikan pengalaman yang konsisten dan dapat diprediksi bagi pengguna menggunakan berbagai aplikasi obrolan.
- Anda menginginkan biaya AI generatif yang determenistik dengan membayar harga bulanan tetap dengan mengontrol kelebihan biaya.
Throughput yang Disediakan adalah salah satu dari dua cara untuk menggunakan model AI generatif Anda. Cara kedua adalah bayar sesuai penggunaan, yang juga disebut sebagai on-demand.
Cara pengukuran Throughput yang Disediakan
Bagian ini menjelaskan konsep unit skala AI generatif (GSU) dan tingkat {i>burndown<i}. Throughput yang Disediakan dihitung dan ditetapkan harganya menggunakan GSU dan tingkat {i>burndown<i}.
Unit skala AI generatif (GSU) adalah ukuran throughput untuk perintah Anda beserta responsnya. Jumlah ini menentukan seberapa banyak throughput yang harus disediakan untuk model kami.
Untuk menghasilkan unit standar di berbagai model, semua input dan output dikonversi memasukkan karakter per detik (throughput) menggunakan rasio spesifik per model yang disebut tingkat kejenuhan.
Model yang berbeda menggunakan jumlah throughput yang berbeda pula. Untuk mengetahui informasi tentang jumlah dan penambahan pembelian GSU minimum untuk setiap model, lihat Model dan tingkat kejenuhan yang didukung dalam dokumen ini.
Persamaan ini menunjukkan cara penghitungan throughput:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
Throughput yang dihitung per detik menentukan jumlah GSU yang Anda perlukan kasus penggunaan Anda.
Contoh memperkirakan kebutuhan Throughput yang Disediakan
Untuk memperkirakan kebutuhan Throughput yang Disediakan, gunakan alat estimasi di Konsol Google Cloud. Contoh berikut menggambarkan proses memperkirakan jumlah yang disediakan untuk model Anda. Wilayah tidak dipertimbangkan dalam kalkulasi estimasi.
Kumpulkan persyaratan Anda.
Dalam contoh ini, persyaratan Anda adalah memastikan bahwa Anda dapat mengirim 2.000 karakter dengan 2 gambar dan menerima 300 karakter output untuk 10 kueri per detik menggunakan
gemini-1.5-flash
.Langkah ini menyiratkan bahwa Anda memahami kasus penggunaan, karena Anda memiliki mengidentifikasi ukuran input dan output, jumlah kueri per detik (QPS), dan model Anda.
Untuk memperkirakan throughput, tentukan model Anda. Dalam contoh ini, modelnya adalah
gemini-1.5-flash
.Menentukan jenis input dan mengidentifikasi tingkat burndown. Gunakan tabel tingkat kejenuhan untuk mengidentifikasi tingkat kejenuhan berdasarkan pada jenis input Anda.
Tingkat burndown gambar untuk model
gemini-1.5-flash
adalah 1.067 karakter.
Hitung throughput Anda.
Kalikan jumlah gambar dengan tingkat {i>burndown<i} untuk jenis input model spesifik Anda.
2 gambar * 1.067 karakter input per gambar = 2.134 karakter input
Total karakter output Anda adalah 300. Kembali ke tabel tingkat {i>burndown<i}, dan temukan tingkat {i>burndown<i} untuk karakter output (empat karakter per karakter output) untuk model spesifik Anda (
gemini-1.5-flash
).300 karakter output * 4 karakter per karakter output = 1.200 karakter input yang dikonversi
Tambahkan total Anda bersama-sama.
2.000 karakter input + 2.134 karakter input yang dikonversi untuk gambar + 1.200 karakter input yang dikonversi untuk output = 5.334 karakter input yang dikonversi per kueri
Kalikan karakter per kueri dengan kueri yang diharapkan per detik untuk mendapatkan total throughput per detik.
5.334 karakter input yang dikonversi per kueri * 10 QPS = 53.340 total karakter input yang dikonversi per detik
Hitung GSU Anda.
GSU adalah total throughput per detik dibagi dengan throughput per GSU dari tabel {i>burndown<i}.
53.340 total karakter input yang dikonversi per detik ÷ 54.000 throughput per GSU = 0,988 GSU
Kenaikan pembelian GSU minimum untuk
gemini-1.5-flash
adalah 5, yang memenuhi kebutuhan Anda.
Hal-hal yang harus dipertimbangkan sebelum berlangganan
Untuk membantu memutuskan apakah Anda ingin berlangganan Throughput yang Disediakan, tinjau daftar detail tentang langganan berikut:
Anda tidak dapat membatalkan pesanan.
Pembelian Throughput yang Disediakan Anda merupakan komitmen, artinya Anda tidak dapat membatalkan pesanan. Namun, Anda dapat meningkatkan jumlah pembelian GSU. Jika Anda tidak sengaja membeli komitmen atau ada masalah dengan konfigurasi, hubungi akun Google Cloud Anda perwakilan untuk mendapatkan bantuan.
Anda dapat memperpanjang langganan secara otomatis.
Saat mengirimkan pesanan, Anda dapat memilih untuk memperpanjang langganan secara otomatis di akhir masa berlaku, atau membiarkan masa berlaku langganan berakhir. Anda dapat membatalkan proses perpanjangan otomatis. Untuk membatalkan langganan sebelum diperpanjang otomatis, batalkan perpanjangan otomatis 30 hari sebelum awal jangka waktu berikutnya.
Jika Anda memerlukan bantuan dalam proses ini, hubungi perwakilan akun Google Cloud Anda.
Anda dapat mengubah versi atau region model dengan pemberitahuan.
Throughput yang Disediakan diaktifkan setelah Anda memilih project, region, model, dan versi. Anda dapat mengubah versi model dalam model yang sama penayang atau wilayah dengan pemberitahuan 10 hari kerja dengan menghubungi Perwakilan akun Google Cloud untuk mendapatkan bantuan. Misalnya, Anda dapat beralih antarmodel Google. Anda dapat beralih antara model partner A. Anda dapat beralih antar-model partner B. Anda tidak dapat beralih antara model Google, partner A, dan partner B.
Tidak ada periode nonaktif saat Anda beralih dari bayar sesuai penggunaan ke Throughput yang Disediakan.
Tidak ada periode nonaktif saat Anda beralih antarmodel untuk Penyediaan Urutan throughput. Namun, waktu tunggu untuk memperoleh throughput tidak diperlukan.
Secara default, kelebihan penggunaan ditagih sebagai bayar sesuai penggunaan.
Jika throughput Anda melebihi jumlah pesanan Throughput yang Disediakan, kelebihan biaya diproses dan ditagih sebagai bayar sesuai penggunaan. Anda dapat mengontrol kelebihan penggunaan berdasarkan permintaan. Untuk informasi selengkapnya, lihat Menggunakan REST API yang dipersonalisasi.
Permintaan diprioritaskan.
Permintaan dari pelanggan Throughput yang Disediakan diprioritaskan dan dilayani terlebih dahulu sebelum permintaan sesuai permintaan.
Anda harus berkomitmen untuk pembayaran dan penggunaan minimum.
Penggunaan minimum bergantung pada model AI generatif yang Anda pilih. Apa saja penggunaan di luar tingkat throughput yang dibeli tidak dijamin dan dilayani secara upaya yang wajar.
Trafficput tidak terakumulasi.
Throughput yang tidak digunakan tidak akan terakumulasi atau terbawa ke bulan berikutnya.
Throughput yang disediakan diukur berdasarkan karakter atau token per detik.
Throughput yang disediakan diukur berdasarkan karakter atau token per detik, bukan kueri per menit (QPM). Akibatnya, mengukur Throughput yang Disediakan bergantung pada ukuran kueri dan QPM kasus penggunaan Anda.
Throughput yang Disediakan Pembelian
Bagian ini memberikan izin yang harus Anda miliki untuk melakukan atau melihat Pesanan Throughput yang disediakan, dan petunjuk untuk menempatkan dan melihat berbagai pesanan Anda.
Izin
Untuk berlangganan Throughput yang Disediakan, Anda harus memiliki salah satu hal berikut izin yang ditetapkan untuk project Anda, sehingga Anda dapat membuat daftar dan per satu dalam urutan berbeda.
aiplatform.googleapis.com/provisionedThroughputAdmin
: Khusus untuk Throughput yang Disediakan.aiplatform.googleapis.com/admin
: Memberikan hak administratif kepada setiap di Vertex AI.
Peran ini memungkinkan Anda hanya mencantumkan pesanan:
aiplatform.googleapis.com/viewer
Membuat pesanan Throughput yang Disediakan
Ikuti langkah-langkah berikut untuk membeli langganan Throughput yang Disediakan:
Konsol
- Di Konsol Google Cloud, buka halaman Throughput yang Disediakan.
- Untuk memulai pesanan baru, klik Buat.
- Masukkan Nama pesanan.
- Pilih Model.
- Pilih Region.
- Masukkan Jumlah unit skala AI generatif (GSU) yang harus Anda
pembelian. Jika Anda harus memperkirakan jumlah GSU, klik
Alat estimasi.
- Pilih Model Anda.
- Masukkan jumlah Kueri per detik.
- Masukkan jumlah Karakter input per kueri.
- Masukkan jumlah Gambar input per kueri.
- Masukkan jumlah detik video per kueri.
- Masukkan jumlah detik audio per kueri.
- Masukkan jumlah Karakter output per kueri.
- Jika Anda ingin menggunakan nilai yang Anda masukkan ke dalam alat estimasi, klik Gunakan yang dihitung.
- Pilih Persyaratan Anda.
- Pilih opsi Perpanjangan.
- Klik Lanjutkan.
- Di bagian Ringkasan, tinjau estimasi harga dan throughput untuk pesanan Anda. Baca istilah yang tercantum dan ditautkan dalam formulir.
- Untuk menyelesaikan pesanan Anda, klik Konfirmasi.
Periksa status pesanan
Setelah mengirimkan pesanan Throughput yang Disediakan, status pesanan mungkin muncul sebagai salah satu dari berikut ini:
- Menunggu tinjauan: Anda telah melakukan pemesanan. Karena persetujuan bergantung pada kapasitas yang tersedia untuk menyediakan pesanan Anda, pesanan Anda sedang menunggu peninjauan dan persetujuan. Untuk informasi selengkapnya tentang status pesanan tertunda, hubungi perwakilan akun Google Cloud Anda.
- Aktif: Google telah menyetujui dan menyediakan pesanan dan penagihan Anda dimulai.
- Berakhir: Masa berlaku pesanan Anda telah berakhir.
Lihat pesanan Throughput yang Disediakan
Ikuti langkah-langkah berikut untuk melihat pesanan Throughput yang Disediakan:
Konsol
- Di Konsol Google Cloud, buka halaman Throughput yang Disediakan.
- Pilih Region. Daftar pesanan Anda akan muncul.
Menggunakan Throughput yang Disediakan
Bagian ini menjelaskan cara mengontrol kelebihan penggunaan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.
Mengontrol kelebihan beban atau mengabaikan Throughput yang Disediakan
Gunakan REST API untuk mengontrol kelebihan penggunaan saat Anda melebihi throughput yang dibeli atau untuk mengabaikan Throughput yang Disediakan berdasarkan permintaan.
Baca setiap opsi untuk menentukan hal yang harus Anda lakukan guna memenuhi kasus penggunaan Anda.
Perilaku default
Jika Anda melebihi jumlah throughput yang dibeli, kelebihan biaya tersebut akan masuk ke on demand dan ditagih sebesar tarif bayar sesuai penggunaan. Setelah Pesanan Throughput yang disediakan aktif, perilaku default terjadi secara otomatis. Anda tidak perlu mengubah kode untuk mulai memakai pesanan.
Contoh curl ini menunjukkan perilaku default.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Hanya Gunakan Throughput yang Disediakan
Jika Anda mengelola biaya dengan menghindari tagihan on demand, gunakan hanya Disediakan Throughput. Permintaan yang melebihi pengembalian jumlah pesanan Throughput yang Disediakan error 429.
Contoh curl ini menunjukkan cara menggunakan REST API untuk memakai Khusus langganan Throughput yang disediakan, dengan kelebihan tagihan yang menampilkan error 429.
Tetapkan header X-Vertex-AI-LLM-Request-Type
ke dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Hanya gunakan bayar sesuai penggunaan
Hal ini juga disebut sebagai menggunakan on-demand. Permintaan mengabaikan Penyediaan Disediakan Pesanan throughput dan dikirim langsung ke bayar sesuai penggunaan. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.
Contoh curl ini menunjukkan cara menggunakan REST API untuk melewati Throughput yang Disediakan, dan hanya menggunakan bayar sesuai penggunaan.
Tetapkan header X-Vertex-AI-LLM-Request-Type
ke shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Memantau Throughput yang Disediakan
Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan permintaan.
Header respons
Jika permintaan diproses menggunakan Throughput yang Disediakan, HTTP berikut
{i>header <i}ada dalam respons. Baris kode ini hanya berlaku untuk
Panggilan API generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Metrik
Throughput yang Disediakan dapat dipantau menggunakan sekumpulan metrik yang diukur
pada jenis resource aiplatform.googleapis.com/PublisherModel
. Setiap metrik
dapat difilter di sepanjang dimensi berikut:
type
:input
,output
request_type
:dedicated
,shared
Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan dedicated
jenis permintaan. Awalan jalur untuk metrik adalah
aiplatform.googleapis.com/publisher/online_serving
.
Misalnya, jalur lengkap untuk metrik /consumed_throughput
adalah
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Metrik Cloud Monitoring berikut tersedia di
Referensi aiplatform.googleapis.com/PublisherModel
:
Metrik | Deskripsi | Filter penggunaan Throughput yang Disediakan |
---|---|---|
/characters |
Distribusi jumlah karakter input dan output | Ya |
/character_count |
Akumulasi jumlah karakter input dan output | Ya |
/consumed_throughput |
Throughput yang dikonsumsi (memperhitungkan tingkat pembakaran) dalam karakter | Ya |
/model_invocation_count |
Jumlah pemanggilan model (permintaan prediksi) | |
/model_invocation_latencies |
Latensi pemanggilan model (latensi prediksi) | |
/first_token_latencies |
Durasi dari permintaan yang diterima hingga token pertama ditampilkan | |
/tokens |
Distribusi jumlah token input dan output | |
/token_count |
Jumlah token input dan output yang terakumulasi |
Langkah selanjutnya
- Hubungi perwakilan akun Google Cloud Anda untuk melakukan pesanan Throughput yang Disediakan atau untuk meningkatkan jumlah GSU pesanan yang sudah ada.
- Untuk informasi selengkapnya tentang pemecahan masalah error 429 saat menggunakan setelan berbagi dinamis
kuota atau Throughput yang Disediakan, lihat
Kode error
429
. - Pelajari Kuota bersama dinamis lebih lanjut.