Batas kuota untuk model lama

Halaman ini menyajikan informasi tentang kuota dan batas model lama. Tujuan dalam kelompok model lama tidak lagi diupdate dengan versi stabil yang baru. Untuk mengetahui detailnya, lihat Informasi model lama.

Google Cloud menggunakan kuota untuk membantu memastikan keadilan dan mengurangi lonjakan penggunaan dan ketersediaan resource. Kuota membatasi berapa banyak Resource Google Cloud yang dapat digunakan project Google Cloud Anda. Kuota berlaku untuk berbagai tipe sumber daya, termasuk perangkat keras, perangkat lunak, dan jaringan komponen. Misalnya, kuota dapat membatasi jumlah panggilan API ke jumlah load balancer yang digunakan serentak oleh project Anda, atau jumlah project yang dapat dibuat. Kuota melindungi komunitas pengguna Google Cloud dengan mencegah kelebihan beban pada layanan. Kuota juga membantu Anda dapat mengelola resource Google Cloud Anda sendiri.

Sistem Cloud Quotas melakukan hal-hal berikut:

  • Memantau konsumsi produk dan layanan Google Cloud Anda
  • Membatasi konsumsi Anda atas resource tersebut
  • Menyediakan cara untuk meminta perubahan pada nilai kuota

Pada umumnya, saat Anda mencoba menggunakan lebih banyak resource daripada kuotanya memungkinkan, sistem memblokir akses ke sumber daya, dan tugas yang coba Anda lakukan.

Kuota umumnya berlaku di project Google Cloud level organisasi. Penggunaan Anda atas sumber daya dalam satu proyek tidak mempengaruhi kuota yang tersedia di project lain. Dalam project Google Cloud, kuota dibagikan ke seluruh aplikasi dan alamat IP.

Kuota berdasarkan region dan model

Kuota permintaan per menit (RPM) berlaku untuk model dasar dan semua versi, ID, dan versi yang telah di-tuning dari model tersebut. Misalnya, permintaan untuk text-bison dan permintaan ke text-bison@002 dihitung sebagai dua permintaan terhadap kuota RPM model dasar, text-bison. Hal yang sama berlaku untuk model, jadi permintaan ke chat-bison@002 dan model yang disesuaikan berdasarkan chat-bison@002 yang bernama my-tuned-chat-model dihitung sebagai dua permintaan terhadap model dasar, chat-bison.

Kuota berlaku untuk permintaan AI Generatif di Vertex AI untuk Project Google Cloud dan region yang didukung.

Untuk melihat kuota di Konsol Google Cloud, lakukan langkah berikut:

  1. Di konsol Google Cloud, buka IAM & Halaman Quotas Admin.

    Lihat Kuota di Konsol

  2. Di kolom Filter, tentukan dimensi atau metrik.

    • Dimensi: ID model. Misalnya base_model:gemini-1.0-pro atau base_model:text-bison.

    • Metrik: ID kuota untuk model PaLM 2 adalah aiplatform.googleapis.com/online_prediction_requests_per_base_model

Pilih region untuk melihat batas kuota setiap model yang tersedia:

Kuota batch

Kuota dan batas berikut sama di seluruh region untuk Tugas prediksi batch AI Generatif di Vertex AI:

Kuota Nilai
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4

Kuota model yang dilatih secara khusus

Kuota berikut berlaku untuk model yang disesuaikan AI Generatif di Vertex AI untuk project dan region tertentu:

Kuota Nilai
Core pod TPU V3 pelatihan gambar yang dibatasi per region
* Region yang didukung - europe-west4
64
Pelatihan gambar yang dibatasi GPU Nvidia A100 80 GB per region
* Region yang didukung - us-central1
* Region yang didukung - us-east4

8
2

* Skenario penyesuaian memiliki reservasi akselerator di wilayah tertentu. Kuota untuk tuning didukung dan harus diminta secara spesifik region.

Kuota evaluasi online

Layanan online evaluasi menggunakan model text-bison sebagai autorater dengan IP Google petunjuk dan mekanisme untuk memastikan evaluasi yang konsisten dan objektif untuk berbasis model.

Satu permintaan evaluasi untuk metrik berbasis model dapat menghasilkan beberapa yang mendasari ke layanan prediksi online. Kuota setiap model adalah dihitung per proyek, yang berarti bahwa setiap permintaan yang diarahkan ke text-bison untuk inferensi model dan evaluasi berbasis model berkontribusi pada kuota tambahan. Kuota model yang berbeda ditetapkan secara berbeda. Kuota untuk evaluasi dan kuota untuk model autorater yang mendasarinya ditampilkan dalam tabel.

Kuota permintaan Kuota default
Permintaan layanan evaluasi online per menit 1.000 permintaan per project per region
Permintaan prediksi online per menit untuk base_model, base_model: text-bison 1.600 permintaan per project per region

Jika Anda menerima pesan error terkait kuota saat menggunakan evaluasi secara online Anda mungkin perlu mengajukan permintaan penambahan kuota. Lihat Melihat dan Mengelola Kuota untuk informasi selengkapnya.

Batas Nilai
Waktu tunggu permintaan layanan evaluasi online habis 60 detik

Pengguna layanan evaluasi {i>online<i} untuk pertama kalinya dalam proyek baru mungkin mengalami penundaan pengaturan awal biasanya hingga dua menit. Verifikasi ini satu kali {i>checkout<i}. Jika permintaan pertama Anda gagal, tunggu beberapa menit lalu coba lagi. Permintaan evaluasi berikutnya biasanya selesai dalam waktu 60 detik.

Token input dan output maksimum dibatasi untuk metrik berbasis model sebagaimana sesuai dengan model yang digunakan sebagai autorater. Lihat Informasi model | AI Generatif di Vertex AI | Google Cloud untuk mengetahui batas model yang relevan.

Kuota evaluasi pipeline

Jika Anda menerima error terkait kuota saat menggunakan pipeline evaluasi layanan Google, Anda mungkin perlu mengajukan menambah permintaan. Lihat Melihat dan Mengelola Kuota untuk informasi selengkapnya.

Layanan pipeline evaluasi menggunakan Vertex AI Pipelines untuk menjalankan PipelineJobs. Lihat kuota yang relevan untuk Vertex AI Pipelines. Berikut adalah rekomendasi kuota umum:

Layanan Kuota Rekomendasi
Vertex AI API Tugas prediksi batch LLM serentak per region Pointwise: 1 * num_concurrent_pipelines

Pasangan: 2 * num_concurrent_pipelines
Vertex AI API Permintaan evaluasi per menit per wilayah 1.000 * num_concurrent_pipeline

Selain itu, saat menghitung metrik evaluasi berbasis model, autorater mungkin mencapai masalah kuota. Kuota yang relevan bergantung pada autorater yang digunakan:

Tasks Kuota Model dasar Rekomendasi
summarization
question_answering
Permintaan prediksi online per model dasar per menit per region per base_model text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

Setiap tugas penyesuaian menggunakan Vertex AI Pipelines. Untuk informasi selengkapnya, lihat kuota dan batas Vertex AI Pipelines.

Penambahan kuota

Jika ingin meningkatkan kuota untuk AI Generatif di Vertex AI, Anda dapat gunakan Konsol Google Cloud untuk meminta penambahan kuota. Untuk mempelajari lebih lanjut tentang kuota, lihat Bekerja dengan kuota.

Langkah selanjutnya