Tabel berikut menunjukkan model yang mendukung throughput yang disediakan, throughput untuk setiap unit skala AI generatif (GSU) dan rasio pembakaran untuk setiap model.
Model Google
Tabel ini menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model Google yang mendukung Provisioned Throughput. Model Google diukur dalam karakter per detik, yang ditentukan sebagai input perintah dan karakter output teks yang dihasilkan di semua permintaan per detik.
Model | Throughput per GSU (karakter/dtk) | Penambahan pembelian GSU minimum | Rasio burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Kurang dari atau sama dengan jendela konteks 128.000 token: 54.000 Lebih dari jendela konteks 128.000 token: 27.000 |
1 | Kurang dari atau sama dengan jendela konteks 128.000 token: 1 karakter input = 1 karakter 1 karakter output = 4 karakter 1 gambar = 1.067 karakter 1 video per detik = 1.067 karakter 1 audio per detik = 107 karakter |
Jendela konteks lebih dari 128.000 token: 1 karakter input = 2 karakter 1 karakter output = 8 karakter 1 gambar = 2.134 karakter 1 video per detik = 2.134 karakter 1 audio per detik = 214 karakter |
Gemini 1.5 Pro | 800 | 1 | Kurang dari atau sama dengan jendela konteks 128.000 token: 1 karakter input = 1 karakter 1 karakter output = 3 karakter 1 gambar = 1.052 karakter 1 video per detik = 1.052 karakter 1 audio per detik = 100 karakter |
Jendela konteks lebih dari 128.000 token: 1 karakter input = 2 karakter 1 karakter output = 6 karakter 1 gambar = 2.104 karakter 1 video per detik = 2.104 karakter 1 audio per detik = 200 karakter |
Gemini 1.0 Pro | 8.000 | 1 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter 1 gambar = 20.000 karakter 1 video per detik = 16.000 karakter |
|
Imagen 3 | 0,025 Throughput diukur dalam gambar/dtk, bukan karakter/dtk. |
1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. | |
Imagen 3 Cepat | 0,05 Throughput diukur dalam gambar/dtk, bukan karakter/dtk. |
1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. | |
Imagen 2 | 0,05 Throughput diukur dalam gambar/dtk, bukan karakter/dtk. |
1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. | |
Edit Imagen 2 | 0,05 Throughput diukur dalam gambar/dtk, bukan karakter/dtk. |
1 | Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan. | |
Media MedLM | 2.000 | 1 | 1 karakter input = 1 karakter 1 karakter output = 2 karakter |
|
MedLM besar | 200 | 1 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter |
|
MedLM besar 1.5 | 200 | 1 | 1 karakter input = 1 karakter 1 karakter output = 3 karakter |
Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.
Anda dapat mengupgrade ke model baru saat model tersebut tersedia. Untuk mengetahui informasi tentang tanggal penghentian dan ketersediaan model, lihat model Google.
Melihat pratinjau fitur
Fitur pratinjau untuk Provisioned Throughput memerlukan persetujuan akses. Untuk meminta akses, isi dan kirim formulir kontrol akses Throughput yang Disediakan.
Versi Pratinjau menyediakan hal berikut untuk model Google:
Throughput yang Disediakan dapat diterapkan ke model dasar dan versi yang disesuaikan dengan pengawasan dari model dasar tersebut.
Endpoint model yang disesuaikan dan dikontrol serta jumlah model dasarnya yang sesuai terhadap kuota Throughput yang Disediakan yang sama.
Misalnya, Throughput yang Disediakan yang dibeli untuk
gemini-1.5-pro-002
untuk project tertentu memprioritaskan permintaan yang dibuat dari versigemini-1.5-pro-002
yang disesuaikan dan diawasi yang dibuat dalam project tersebut. Gunakan header yang sesuai untuk mengontrol perilaku traffic.Throughput yang Disediakan dapat dibeli untuk jangka waktu satu minggu, bukan langganan bulanan, dengan opsi untuk memberikan tanggal mulai dalam dua minggu setelah Anda melakukan pemesanan.
Model lama Google
Lihat Model lama yang mendukung Provisioned Throughput.
Model partner
Tabel ini menunjukkan throughput, penambahan pembelian, dan rasio burndown untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang didefinisikan sebagai total token input dan output di semua permintaan per detik.
Model | Throughput per GSU (token/dtk) | Pembelian GSU minimum | Penambahan pembelian GSU | Rasio burndown |
---|---|---|---|---|
Claude 3.5 Sonnet v2 dari Anthropic | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3.5 Haiku dari Anthropic | 2.000 | 10 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3 Opus dari Anthropic | 70 | 35 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3 Haiku dari Anthropic | 4.200 | 5 | 1 | 1 token input = 1 token 1 token output = 5 token |
Claude 3.5 Sonnet dari Anthropic | 350 | 25 | 1 | 1 token input = 1 token 1 token output = 5 token |
Untuk mengetahui informasi tentang lokasi yang didukung, lihat Ketersediaan region Anthropic Claude. Untuk memesan Throughput yang Disediakan untuk model Anthropic, hubungi Google Cloud perwakilan akun Anda.