Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan Throughput yang Disediakan

Halaman ini menjelaskan cara mengontrol kelebihan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.

Mengontrol kelebihan atau mengabaikan Throughput yang Disediakan

Gunakan REST API untuk mengontrol kelebihan jika Anda melebihi throughput yang dibeli atau untuk mengabaikan Throughput yang Disediakan per permintaan.

Baca setiap opsi untuk menentukan hal yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihannya akan masuk ke sesuai permintaan dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan otomatis terjadi. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan.

Contoh curl ini menunjukkan perilaku default.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, hanya gunakan Throughput Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.

Contoh curl ini menunjukkan cara menggunakan REST API untuk menggunakan langganan Throughput yang Disediakan saja, dengan kelebihan yang menampilkan error 429.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai penggunaan on-demand. Permintaan mengabaikan pesanan Throughput Disediakan dan dikirim langsung ke bayar sesuai pemakaian. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Contoh curl ini menunjukkan cara menggunakan REST API untuk mengabaikan Throughput yang Disediakan, dan hanya menggunakan bayar sesuai penggunaan.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan per permintaan.

Header respons

Jika permintaan diproses menggunakan Provisioned Throughput, header HTTP berikut akan ada dalam respons. Baris kode ini hanya berlaku untuk panggilan API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metrik

Throughput yang Disediakan dapat dipantau menggunakan serangkaian metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel. Setiap metrik dapat difilter berdasarkan dimensi berikut:

type: input, output
request_type: dedicated, shared

Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan jenis permintaan dedicated. Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving.

Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel dalam model Gemini dan memiliki filter untuk penggunaan Provisioned Throughput:

Metrik	Nama tampilan	Deskripsi
`/characters`	Karakter	Distribusi jumlah karakter input dan output.
`/character_count`	Jumlah karakter	Jumlah karakter input dan output yang terakumulasi.
`/consumed_throughput`	Throughput Karakter	Throughput yang digunakan, yang memperhitungkan rasio burndown dalam karakter. Untuk model berbasis token, ini setara dengan throughput yang digunakan dalam token * 4.
`/model_invocation_count`	Jumlah pemanggilan model	Jumlah pemanggilan model (permintaan prediksi).
`/model_invocation_latencies`	Latensi pemanggilan model	Latensi pemanggilan model (latensi prediksi).
`/first_token_latencies`	Latensi token pertama	Durasi dari permintaan yang diterima hingga token pertama ditampilkan.
`/tokens`	Token	Distribusi jumlah token input dan output.
`/token_count`	Jumlah token	Jumlah token input dan output yang terakumulasi.

Model antropogenik juga memiliki filter untuk Provisioned Throughput, tetapi hanya untuk tokens/token_count.

Langkah berikutnya

Memecahkan masalah Kode error 429.