Menggunakan Throughput yang Disediakan

Halaman ini menjelaskan cara mengontrol kelebihan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.

Mengontrol kelebihan atau mengabaikan Throughput yang Disediakan

Gunakan REST API untuk mengontrol kelebihan jika Anda melebihi throughput yang dibeli atau untuk mengabaikan Provisioned Throughput per permintaan.

Baca setiap opsi untuk menentukan hal yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.

Perilaku default

Jika Anda melebihi jumlah throughput yang dibeli, kelebihannya akan masuk ke sesuai permintaan dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan otomatis terjadi. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan.

Contoh curl ini menunjukkan perilaku default.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan Throughput yang Disediakan

Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, hanya gunakan Throughput Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.

Contoh curl ini menunjukkan cara menggunakan REST API untuk menggunakan langganan Throughput yang Disediakan saja, dengan kelebihan yang menampilkan error 429.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke dedicated.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Hanya menggunakan bayar sesuai penggunaan

Hal ini juga disebut sebagai penggunaan on-demand. Permintaan mengabaikan pesanan Throughput Disediakan dan dikirim langsung ke bayar sesuai pemakaian. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.

Contoh curl ini menunjukkan cara menggunakan REST API untuk mengabaikan Throughput yang Disediakan, dan hanya menggunakan bayar sesuai pemakaian.

Tetapkan header X-Vertex-AI-LLM-Request-Type ke shared.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

Memantau Throughput yang Disediakan

Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan per permintaan.

Header respons

Jika permintaan diproses menggunakan Provisioned Throughput, header HTTP berikut akan ada dalam respons. Baris kode ini hanya berlaku untuk panggilan API generateContent.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

Metrik

Throughput yang Disediakan dapat dipantau menggunakan serangkaian metrik yang diukur pada jenis resource aiplatform.googleapis.com/PublisherModel. Setiap metrik dapat difilter berdasarkan dimensi berikut:

  • type: input, output
  • request_type: dedicated, shared

Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan jenis permintaan dedicated. Awalan jalur untuk metrik adalah aiplatform.googleapis.com/publisher/online_serving.

Misalnya, jalur lengkap untuk metrik /consumed_throughput adalah aiplatform.googleapis.com/publisher/online_serving/consumed_throughput.

Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel dalam model Gemini dan memiliki filter untuk penggunaan Provisioned Throughput:

Metrik Nama tampilan Deskripsi
/characters Karakter Distribusi jumlah karakter input dan output.
/character_count Jumlah karakter Jumlah karakter input dan output yang terakumulasi.
/consumed_throughput Throughput Karakter Throughput yang digunakan (mempertimbangkan rasio burndown) dalam karakter.
/model_invocation_count Jumlah pemanggilan model Jumlah pemanggilan model (permintaan prediksi).
/model_invocation_latencies Latensi pemanggilan model Latensi pemanggilan model (latensi prediksi).
/first_token_latencies Latensi token pertama Durasi dari permintaan yang diterima hingga token pertama ditampilkan.
/tokens Token Distribusi jumlah token input dan output.
/token_count Jumlah token Jumlah token input dan output yang terakumulasi.

Model antropogenik juga memiliki filter untuk Provisioned Throughput, tetapi hanya untuk tokens/token_count.

Langkah selanjutnya