Halaman ini diterjemahkan oleh Cloud Translation API.

Model yang didukung

Tabel berikut menunjukkan model yang mendukung Throughput yang Disediakan, throughput untuk setiap unit penskalaan AI generatif (GSU) dan rasio penyusutan untuk setiap model.

Model Google

Throughput yang Disediakan hanya mendukung model yang Anda panggil langsung dari project menggunakan ID model tertentu, bukan alias model. Untuk menggunakan Throughput yang Disediakan untuk melakukan panggilan API ke model, Anda harus menggunakan ID versi model tertentu (misalnya, gemini-2.0-flash-001) dan bukan alias versi model.

Selain itu, Throughput yang Disediakan tidak mendukung model yang dipanggil oleh produk Vertex AI lainnya, seperti Vertex AI Agents dan Vertex AI Search. Misalnya, jika Anda melakukan panggilan API ke Gemini 2.0 Flash saat menggunakan Vertex AI Search, pesanan Throughput yang Disediakan untuk Gemini 2.0 Flash tidak akan menjamin panggilan yang dilakukan oleh Vertex AI Search.

Throughput yang Disediakan tidak mendukung panggilan prediksi batch.

Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penyusutan untuk model Google yang mendukung Throughput yang Disediakan. Throughput per detik Anda ditentukan sebagai input perintah dan output yang dihasilkan di semua permintaan per detik.

Untuk mengetahui jumlah token yang diperlukan beban kerja Anda, lihat tokenizer SDK atau countTokens API.

Model	Throughput per detik per GSU	Unit	Penambahan pembelian GSU minimum	Rasio penyelesaian
Gemini 2.5 Flash dengan Live API Versi terbaru yang didukung: `gemini-live-2.5-flash`	1620	Token	1	1 token teks input = 1 token teks input 1 token audio input = 6 token teks input 1 token video input = 6 token teks input 1 token memori sesi input = 1 token teks input 1 token teks output = 4 token teks input 1 token audio output = 24 token teks input
Gambar Gemini 2.5 Flash Versi terbaru yang didukung: `gemini-2.5-flash-image`	2690	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token teks output = 9 token 1 token gambar output = 100 token
Gemini 2.5 Flash-Lite Versi terbaru yang didukung (GA): `gemini-2.5-flash-lite` Versi terbaru yang didukung (pratinjau): `gemini-2.5-flash-lite-preview-09-2025`	8070	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 3 token 1 token teks respons output = 4 token 1 token teks alasan output = 4 token
Gemini 2.5 Flash dengan audio bawaan Live API Versi terbaru yang didukung: `gemini-live-2.5-flash-preview-native-audio-09-2025` (pratinjau)	1620	Token	1	1 token teks input = 1 token 1 token audio input = 6 token 1 token video input = 6 token 1 token gambar input = 6 token 1 token memori sesi input = 1 token 1 token teks output = 4 token 1 token audio output = 24 token
Gemini 2.5 Pro Versi terbaru yang didukung: `gemini-2.5-pro`	650	Token	1	Kurang dari atau sama dengan 200.000 token input: 1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks respons output = 8 token 1 token teks penalaran output = 8 token Lebih dari 200.000 token input: 1 token teks input = 2 token 1 token gambar input = 2 token 1 token video input = 2 token 1 token audio input = 2 token 1 token teks respons output = 12 token 1 token teks penalaran output = 12 token
Gemini 2.5 Flash Versi terbaru yang didukung (GA): `gemini-2.5-flash` Versi terbaru yang didukung (pratinjau): `gemini-2.5-flash-preview-09-2025`	2690	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 4 token 1 token teks respons output = 9 token 1 token teks penalaran output = 9 token
Gemini 2.0 Flash Versi terbaru yang didukung: `gemini-2.0-flash-001`	3360	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 7 token 1 token teks output = 4 token
Gemini 2.0 Flash-Lite Versi terbaru yang didukung: `gemini-2.0-flash-lite-001`	6720	Token	1	1 token teks input = 1 token 1 token gambar input = 1 token 1 token video input = 1 token 1 token audio input = 1 token 1 token teks output = 4 token
Veo 3 Versi terbaru yang didukung: `veo-3.0-generate-001`	0,0040	Detik video	34	1 detik video output = 1 detik video output
Veo 3 Versi terbaru yang didukung: `veo-3.0-generate-001`	0,0040	Video+audio detik	67	1 detik video+audio output = 2 detik video output
Veo 3 Fast Versi terbaru yang didukung: `veo-3.0-fast-generate-001`	0,0080	Detik video	17	1 detik video output = 1 detik video output
	0,0080	Video+audio detik	25	1 detik video+audio output = 1,45 detik video output
Pembuatan Imagen 4 Ultra `imagen-4.0-ultra-generate-001`	0,015	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 4 Generate `imagen-4.0-generate-001`	0,02	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Pembuatan Cepat Imagen 4 `imagen-4.0-fast-generate-001`	0,04	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 3 Generate 002 `imagen-3.0-generate-002`	0,02	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 3 Generate 001 `imagen-3.0-generate-001`	0,025	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Imagen 3 Fast	0,05	Gambar	1	Hanya gambar output yang diperhitungkan dalam kuota Throughput yang Disediakan.
Medium MedLM Perhatian: MedLM tidak digunakan lagi. Akses ke MedLM tidak akan tersedia lagi pada atau setelah 29 September 2025.	2.000	Karakter	1	1 karakter input = 1 karakter 1 karakter output = 2 karakter
MedLM besar Perhatian: MedLM tidak digunakan lagi. Akses ke MedLM tidak akan tersedia lagi pada atau setelah 29 September 2025.	200	Karakter	1	1 karakter input = 1 karakter 1 karakter output = 3 karakter
MedLM besar 1.5 Perhatian: MedLM tidak digunakan lagi. Akses ke MedLM tidak akan tersedia lagi pada atau setelah 29 September 2025.	200	Karakter	1	1 karakter input = 1 karakter 1 karakter output = 3 karakter

Untuk mengetahui informasi tentang kemampuan dan batas input atau output model, lihat dokumentasi model.

Minta akses: Model gemini-live-2.5-flash berada di GA pribadi. Untuk mengetahui informasi tentang akses ke rilis ini, lihat halaman permintaan akses.

Anda dapat mengupgrade ke model baru saat tersedia. Untuk mengetahui informasi tentang ketersediaan model dan tanggal penghentian, lihat Model Google.

Untuk mengetahui informasi selengkapnya tentang lokasi yang didukung, lihat Lokasi yang tersedia.

Dukungan model endpoint global

Throughput yang Disediakan mendukung endpoint global untuk model berikut:

Model	Versi model terbaru yang didukung
Gambar Gemini 2.5 Flash	`gemini-2.5-flash-image`
Gemini 2.5 Flash-Lite	`gemini-2.5-flash-lite-preview-09-2025` (pratinjau) `gemini-2.5-flash-lite` (GA)
Gemini 2.5 Pro	`gemini-2.5-pro`
Gemini 2.5 Flash	`gemini-2.5-flash-preview-09-2025` (pratinjau) `gemini-2.5-flash` (GA)
Gemini 2.0 Flash	`gemini-2.0-flash-001`
Gemini 2.0 Flash-Lite	`gemini-2.0-flash-lite-001`

Traffic yang melebihi kuota Throughput yang Disediakan menggunakan endpoint global secara default.

Untuk menetapkan Throughput yang Disediakan ke endpoint global model, pilih global sebagai region saat Anda melakukan pemesanan Throughput yang Disediakan.

Dukungan model yang di-fine-tune secara diawasi

Berikut ini didukung untuk model Google yang mendukung penyesuaian terawasi:

Throughput yang Disediakan dapat diterapkan ke model dasar dan versi model dasar yang disesuaikan dengan pengawasan.
Endpoint model yang disesuaikan secara terawasi dan jumlah model dasarnya yang sesuai dihitung dalam kuota Throughput yang Disediakan yang sama.

Misalnya, Throughput yang Disediakan yang dibeli untuk gemini-2.0-flash-lite-001 untuk project tertentu membuat permintaan yang dibuat dari versi gemini-2.0-flash-lite-001 yang di-fine-tune secara diawasi yang dibuat dalam project tersebut menjadi prioritas. Gunakan header yang sesuai untuk mengontrol perilaku traffic.

Model partner

Tabel berikut menunjukkan throughput, kenaikan pembelian, dan rasio penurunan untuk model partner yang mendukung Throughput yang Disediakan. Model Claude diukur dalam token per detik, yang ditentukan sebagai total token input dan output di semua permintaan per detik.

Model	Throughput per GSU (token/dtk)	Pembelian GSU minimum	Peningkatan pembelian GSU	Rasio penyelesaian
Claude Sonnet 4.5 dari Anthropic	350	25	1	Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token Lebih besar dari atau sama dengan 200.000 token input: 1 token input = 2 token 1 token output = 7,5 token 1 token penulisan cache = 2,5 token 1 token hit cache = 0,2 token
Claude Opus 4.1 dari Anthropic	70	35	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude Haiku 4.5 dari Anthropic	1050	8	1	Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude Opus 4 dari Anthropic	70	35	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude Sonnet 4 dari Anthropic	350	25	1	Kurang dari 200.000 token input: 1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token Lebih besar dari atau sama dengan 200.000 token input: 1 token input = 2 token 1 token output = 7,5 token 1 token penulisan cache = 2,5 token 1 token hit cache = 0,2 token
Claude 3.7 Sonnet dari Anthropic	350	25	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude 3.5 Sonnet v2 dari Anthropic (tidak digunakan lagi)	350	25	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude 3.5 Haiku dari Anthropic	2.000	10	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude 3 Opus dari Anthropic	70	35	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude 3 Haiku dari Anthropic	4.200	5	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token
Claude 3.5 Sonnet dari Anthropic (tidak digunakan lagi)	350	25	1	1 token input = 1 token 1 token output = 5 token 1 token penulisan cache = 1,25 token 1 token hit cache = 0,1 token

Untuk mengetahui informasi tentang lokasi yang didukung, lihat Ketersediaan region Anthropic Claude. Untuk memesan Throughput yang Disediakan untuk model Anthropic, hubungi Google Cloud perwakilan akun Anda.

Langkah berikutnya

Hitung persyaratan Throughput yang Disediakan.