Google Cloud では、割り当てを使用して公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、Google Cloud プロジェクトで使用できる Google Cloud リソースの量を制限します。割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用されます。たとえば、割り当てによって、サービスへの API 呼び出しの数、プロジェクトで同時に使用されるロードバランサの数、作成可能なプロジェクトの数を制限できます。割り当てを適用することで、サービスの過負荷を防ぎ、Google Cloud ユーザーのコミュニティを保護します。割り当ては、自組織で使用している Google Cloud リソースの管理にも役立ちます。
Cloud Quotas システムは次のことを行います。
- Google Cloud のプロダクトとサービスの消費量をモニタリングする
- これらのリソースの消費量を制限する
- 割り当て値の変更をリクエストする方法を提供する
ほとんどの場合、割り当ての許容量を超えるリソースを消費しようとすると、システムによってリソースへのアクセスがブロックされ、実行しようとしているタスクは失敗します。
割り当ては通常、Google Cloud プロジェクト レベルで適用されます。あるプロジェクトでリソースを使用しても、別のプロジェクトで使用可能な割り当てに影響することはありません。Google Cloud プロジェクト内では、すべてのアプリケーションと IP アドレスで割り当てが共有されます。
レート上限
次の表に、指標generate_content_input_tokens_per_minute_per_base_model
のすべてのリージョンで次のモデルに適用されるレート上限を示します。ベースモデル | 1 分あたりのトークン数 |
---|---|
base_model: gemini-1.5-flash |
400 万(4,000,000) |
base_model: gemini-1.5-pro |
400 万(4,000,000) |
Gemini 1.5 Flash(gemini-1.5-flash-002
)と Gemini 1.5 Pro(gemini-1.5-pro-002
)のバージョン 002 の割り当て情報については、Google モデルをご覧ください。
リージョンとモデル別の割り当て
1 分あたりのリクエスト数(RPM)の割り当ては、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次の例は、RPM 割り当てがどのように適用されるかを示しています。- ベースモデル
gemini-1.0-pro
へのリクエストと、その安定版gemini-1.0-pro-001
へのリクエストは、ベースモデルgemini-1.0-pro
の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。 - ベースモデルの 2 つのバージョン(gemini-1.0-pro-001 と gemini-1.0-pro-002)へのリクエストは、ベースモデル gemini-1.0-pro の RPM 割り当てに対する 2 つのリクエストとしてカウントされます。
- ベースモデルの 2 つのバージョン(gemini-1.0-pro-001 と my-tuned-chat-model という名前のチューニング済みバージョン)へのリクエストは、ベースモデル gemini-1.0-pro に対する 2 つのリクエストとしてカウントされます。
Google Cloud コンソールで割り当てを表示する
Google Cloud コンソールで割り当てを表示する方法は次のとおりです。- Google Cloud コンソールで、[IAM と管理] ページに移動します。
- [コンソールに割り当てを表示する] をクリックします。
- [フィルタ] フィールドで、ディメンションまたは指標を指定します。
ディメンション(モデル識別子) | 指標(Gemini モデルの割り当て ID) |
---|---|
base_model: gemini-1.5-flash base_model: gemini-1.5-pro |
調整をリクエストするには、次の手順を行います。
|
その他のすべてのモデル | 調整できる割り当ては 1 つだけです。
|
リージョンとモデル別の割り当てを表示する
使用可能な各モデルの割り当て上限を表示するには、リージョンを選択します。
割り当てを増やす
Vertex AI の生成 AI の割り当てを引き上げる場合は、Google Cloud コンソールから割り当ての増加をリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。
RAG Engine の割り当て
RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。サービス | 割り当て | 指標 |
---|---|---|
RAG Engine データ マネジメント API | 60 RPM | VertexRagDataService requests per minute per region |
RetrievalContexts API |
1,500 RPM | VertexRagService retrieve requests per minute per region |
base_model: textembedding-gecko |
1,500 RPM | Online prediction requests per base model per minute per region per base_model 指定できる追加のフィルタは base_model: textembedding-gecko です。 |
サービス | 上限 | 指標 |
---|---|---|
同時実行される ImportRagFiles リクエスト |
3 RPM | VertexRagService concurrent import requests per region |
ImportRagFiles リクエストあたりの最大ファイル数 |
10,000 | VertexRagService import rag files requests per region |
その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。
バッチ リクエスト
バッチ リクエストの割り当てと上限は、すべてのリージョンで同じです。同時実行バッチ リクエスト
次の表に、同時実行バッチ リクエスト数の割り当てを示します。割り当て | 値 |
---|---|
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs |
4 |
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs |
4 |
バッチ リクエストの上限
次の表に、各バッチテキスト生成リクエストのサイズ上限を示します。モデル | 上限 |
---|---|
gemini-1.5-pro |
5 万件のレコード |
gemini-1.5-flash |
15 万件のレコード |
gemini-1.0-pro |
15 万件のレコード |
gemini-1.0-pro-vision |
5 万件のレコード |
カスタム トレーニング モデルの割り当て
特定のプロジェクトとリージョンに対して、Vertex AI の生成 AI のチューニング済みモデルには、次の割り当てが適用されます。割り当て | 値 |
---|---|
リージョンごとの制限付きイメージ トレーニング TPU V3 Pod コア * サポート対象のリージョン - europe-west4 |
64 |
リージョンごとの制限付きイメージ トレーニング Nvidia A100 80 GB GPU * サポート対象のリージョン - us-central1 * サポート対象のリージョン - us-east4 |
8 2 |
テキスト エンベディングの上限
各テキスト エンベディング モデル リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。
Gen AI Evaluation Service のサービス割り当て
Gen AI Evaluation Service は、gemini-1.5-pro
を判定モデルとして使用し、メカニズムを使用してモデルベースの指標の一貫性と客観性を保証します。モデルベースの指標の 1 回の評価リクエストで、Gen AI 評価サービスに対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-1.5-pro
に送信されるリクエストはすべて割り当てにカウントされます。モデルごとに割り当てが異なります。次の表に、Gen AI 評価サービスの割り当てと、基盤となる自動評価モデルの割り当てを示します。リクエストの割り当て | デフォルトの割り当て |
---|---|
1 分あたりの Gen AI 評価サービス リクエスト | 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト |
base_model: gemini-1.5-pro の 1 分あたりのオンライン予測リクエスト数 |
リージョンとモデル別の割り当てをご覧ください。 |
上限 | 値 |
---|---|
Gen AI Evaluation Service リクエストのタイムアウト | 60 秒 |
パイプライン評価の割り当て
パイプライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。評価パイプライン サービスは、Vertex AI Pipelines を使用してPipelineJobs
を実行します。Vertex AI Pipelines の関連する割り当てをご覧ください。一般的な割り当ての推奨事項は次のとおりです。サービス | 割り当て | 推奨事項 |
---|---|---|
Vertex AI API | リージョンごとの同時 LLM バッチ予測ジョブ数 | ポイントワイズ: 1 * num_concurrent_pipelines ペアワイズ: 2 * num_concurrent_pipelines |
Vertex AI API | 1 分、1 リージョンあたりの評価リクエストの数 | 1,000 × num_concurrent_pipelines |
ToDo リスト | 割り当て | ベースモデル | 推奨事項 |
---|---|---|---|
summarization question_answering |
1 分あたりのベースモデルごとのオンライン予測リクエスト数(リージョン、base_model ごと) | text-bison |
60 × num_concurrent_pipelines |
Vertex AI Pipelines
チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。
Vertex AI Reasoning Engine
各リージョンの特定のプロジェクトの Vertex AI Reasoning Engine には、次の割り当てと上限が適用されます。割り当て | 値 |
---|---|
推論エンジンの作成/削除/更新(1 分あたり) | 10 |
1 分あたりの Reasoning Engine へのクエリ数 | 60 |
Reasoning Engine リソースの最大数 | 100 |
エラーコード 429 のトラブルシューティング
429 エラーのトラブルシューティングについては、エラーコード 429 をご覧ください。
次のステップ
- 動的共有割り当ての詳細については、動的共有割り当てをご覧ください。
- Vertex AI の割り当てと上限の詳細については、Vertex AI の割り当てと上限をご覧ください。
- Google Cloud の割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。