Halaman ini menjelaskan cara mengontrol kelebihan atau mengabaikan Throughput yang Disediakan dan cara memantau penggunaan Throughput yang Disediakan.
Mengontrol kelebihan atau mengabaikan Throughput yang Disediakan
Gunakan REST API untuk mengontrol kelebihan jika Anda melebihi throughput yang dibeli atau untuk mengabaikan Provisioned Throughput per permintaan.
Baca setiap opsi untuk menentukan hal yang harus Anda lakukan untuk memenuhi kasus penggunaan Anda.
Perilaku default
Jika Anda melebihi jumlah throughput yang dibeli, kelebihannya akan masuk ke sesuai permintaan dan ditagih dengan tarif bayar sesuai penggunaan. Setelah pesanan Throughput yang Disediakan aktif, perilaku default akan otomatis terjadi. Anda tidak perlu mengubah kode untuk mulai menggunakan pesanan.
Contoh curl ini menunjukkan perilaku default.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Hanya menggunakan Throughput yang Disediakan
Jika Anda mengelola biaya dengan menghindari biaya sesuai permintaan, hanya gunakan Throughput Disediakan. Permintaan yang melebihi jumlah pesanan Throughput yang Disediakan akan menampilkan error 429.
Contoh curl ini menunjukkan cara menggunakan REST API untuk menggunakan langganan Throughput yang Disediakan saja, dengan kelebihan yang menampilkan error 429.
Tetapkan header X-Vertex-AI-LLM-Request-Type
ke dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Hanya menggunakan bayar sesuai penggunaan
Hal ini juga disebut sebagai penggunaan on-demand. Permintaan mengabaikan pesanan Throughput Disediakan dan dikirim langsung ke bayar sesuai pemakaian. Hal ini mungkin berguna untuk eksperimen atau aplikasi yang sedang dalam pengembangan.
Contoh curl ini menunjukkan cara menggunakan REST API untuk mengabaikan Throughput yang Disediakan, dan hanya menggunakan bayar sesuai pemakaian.
Tetapkan header X-Vertex-AI-LLM-Request-Type
ke shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Memantau Throughput yang Disediakan
Anda dapat memantau penggunaan Throughput yang Disediakan melalui metrik pemantauan dan berdasarkan per permintaan.
Header respons
Jika permintaan diproses menggunakan Provisioned Throughput, header HTTP berikut akan ada dalam respons. Baris kode ini hanya berlaku untuk
panggilan API generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Metrik
Throughput yang Disediakan dapat dipantau menggunakan serangkaian metrik yang
diukur pada jenis resource aiplatform.googleapis.com/PublisherModel
.
Setiap metrik dapat difilter berdasarkan dimensi berikut:
type
:input
,output
request_type
:dedicated
,shared
Untuk memfilter metrik guna melihat penggunaan Throughput yang Disediakan, gunakan
jenis permintaan dedicated
. Awalan jalur untuk metrik adalah
aiplatform.googleapis.com/publisher/online_serving
.
Misalnya, jalur lengkap untuk metrik /consumed_throughput
adalah
aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Metrik Cloud Monitoring berikut tersedia di resource aiplatform.googleapis.com/PublisherModel
dalam model Gemini dan memiliki filter untuk penggunaan Provisioned Throughput:
Metrik | Nama tampilan | Deskripsi |
---|---|---|
/characters |
Karakter | Distribusi jumlah karakter input dan output. |
/character_count |
Jumlah karakter | Jumlah karakter input dan output yang terakumulasi. |
/consumed_throughput |
Throughput Karakter | Throughput yang digunakan (mempertimbangkan rasio burndown) dalam karakter. |
/model_invocation_count |
Jumlah pemanggilan model | Jumlah pemanggilan model (permintaan prediksi). |
/model_invocation_latencies |
Latensi pemanggilan model | Latensi pemanggilan model (latensi prediksi). |
/first_token_latencies |
Latensi token pertama | Durasi dari permintaan yang diterima hingga token pertama ditampilkan. |
/tokens |
Token | Distribusi jumlah token input dan output. |
/token_count |
Jumlah token | Jumlah token input dan output yang terakumulasi. |
Model antropogenik juga memiliki filter untuk Provisioned Throughput, tetapi
hanya untuk tokens/token_count
.
Langkah selanjutnya
- Memecahkan masalah Kode error
429
.