Vertex AI の生成 AI のレート制限

Google Cloud では、割り当てを使用して公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、Google Cloud プロジェクトで使用できる Google Cloud リソースの量を制限します。割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用されます。たとえば、割り当てによって、サービスへの API 呼び出しの数、プロジェクトで同時に使用されるロードバランサの数、作成可能なプロジェクトの数を制限できます。割り当てを適用することで、サービスの過負荷を防ぎ、Google Cloud ユーザーのコミュニティを保護します。割り当ては、自組織で使用している Google Cloud リソースの管理にも役立ちます。

Cloud Quotas システムは次のことを行います。

  • Google Cloud のプロダクトとサービスの消費量をモニタリングする
  • これらのリソースの消費量を制限する
  • 割り当て値の変更をリクエストする方法を提供する

ほとんどの場合、割り当ての許容量を超えるリソースを消費しようとすると、システムによってリソースへのアクセスがブロックされ、実行しようとしているタスクは失敗します。

割り当ては通常、Google Cloud プロジェクト レベルで適用されます。あるプロジェクトでリソースを使用しても、別のプロジェクトで使用可能な割り当てに影響することはありません。Google Cloud プロジェクト内では、すべてのアプリケーションと IP アドレスで割り当てが共有されます。

レート上限

次の表に、指標 generate_content_input_tokens_per_minute_per_base_model のすべてのリージョンで次のモデルに適用されるレート上限を示します。
ベースモデル 1 分あたりのトークン数
base_model: gemini-1.5-flash 400 万(4,000,000)
base_model: gemini-1.5-pro 400 万(4,000,000)

Gemini 1.5 Flash(gemini-1.5-flash-002)と Gemini 1.5 Pro(gemini-1.5-pro-002)のバージョン 002 の割り当て情報については、Google モデルをご覧ください。

リージョンとモデル別の割り当て

1 分あたりのリクエスト数(RPM)の割り当ては、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次の例は、RPM 割り当てがどのように適用されるかを示しています。
  • ベースモデル gemini-1.0-pro へのリクエストと、その安定版 gemini-1.0-pro-001 へのリクエストは、ベースモデル gemini-1.0-pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。
  • ベースモデルの 2 つのバージョン(gemini-1.0-pro-001 と gemini-1.0-pro-002)へのリクエストは、ベースモデル gemini-1.0-pro の RPM 割り当てに対する 2 つのリクエストとしてカウントされます。
  • ベースモデルの 2 つのバージョン(gemini-1.0-pro-001 と my-tuned-chat-model という名前のチューニング済みバージョン)へのリクエストは、ベースモデル gemini-1.0-pro に対する 2 つのリクエストとしてカウントされます。
この割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。

Google Cloud コンソールで割り当てを表示する

Google Cloud コンソールで割り当てを表示する方法は次のとおりです。
  1. Google Cloud コンソールで、[IAM と管理] ページに移動します。
  2. [コンソールに割り当てを表示する] をクリックします。
  3. [フィルタ] フィールドで、ディメンションまたは指標を指定します。
ディメンション(モデル識別子) 指標(Gemini モデルの割り当て ID)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
調整をリクエストするには、次の手順を行います。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
その他のすべてのモデル 調整できる割り当ては 1 つだけです。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

リージョンとモデル別の割り当てを表示する

使用可能な各モデルの割り当て上限を表示するには、リージョンを選択します。

割り当てを増やす

Vertex AI の生成 AI の割り当てを引き上げる場合は、Google Cloud コンソールから割り当ての増加をリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。

RAG Engine の割り当て

RAG Engine を使用して検索拡張生成(RAG)を実行するサービスごとに、次の割り当てが適用されます。割り当ては 1 分あたりのリクエスト数(RPM)で測定されます。
サービス 割り当て 指標
RAG Engine データ マネジメント API 60 RPM VertexRagDataService requests per minute per region
RetrievalContexts API 1,500 RPM VertexRagService retrieve requests per minute per region
base_model: textembedding-gecko 1,500 RPM Online prediction requests per base model per minute per region per base_model

指定できる追加のフィルタは base_model: textembedding-gecko です。
次の上限が適用されます。
サービス 上限 指標
同時実行される ImportRagFiles リクエスト 3 RPM VertexRagService concurrent import requests per region
ImportRagFiles リクエストあたりの最大ファイル数 10,000 VertexRagService import rag files requests per region

その他のレート制限と割り当てについては、Vertex AI の生成 AI のレート制限をご覧ください。

バッチ リクエスト

バッチ リクエストの割り当てと上限は、すべてのリージョンで同じです。

同時実行バッチ リクエスト

次の表に、同時実行バッチ リクエスト数の割り当てを示します。
割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/gemini_flash_concurrent_batch_prediction_jobs 4
送信されたタスク数が割り振られた割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

バッチ リクエストの上限

次の表に、各バッチテキスト生成リクエストのサイズ上限を示します。
モデル 上限
gemini-1.5-pro 5 万件のレコード
gemini-1.5-flash 15 万件のレコード
gemini-1.0-pro 15 万件のレコード
gemini-1.0-pro-vision 5 万件のレコード

カスタム トレーニング モデルの割り当て

特定のプロジェクトとリージョンに対して、Vertex AI の生成 AI のチューニング済みモデルには、次の割り当てが適用されます。
割り当て
リージョンごとの制限付きイメージ トレーニング TPU V3 Pod コア
* サポート対象のリージョン - europe-west4
64
リージョンごとの制限付きイメージ トレーニング Nvidia A100 80 GB GPU
* サポート対象のリージョン - us-central1
* サポート対象のリージョン - us-east4

8
2
* チューニング シナリオでは、特定のリージョンでのアクセラレータの予約があります。チューニングの割り当てはサポートされているため、特定のリージョンでリクエストする必要があります。

テキスト エンベディングの上限

各テキスト エンベディング モデル リクエストには、最大 250 個の入力テキスト(入力テキストごとに 1 つのエンベディングを生成)と、リクエストごとに 20,000 個のトークンを指定できます。エンベディングの計算には、各入力テキストの最初の 2,048 トークンのみが使用されます。

Gen AI Evaluation Service のサービス割り当て

Gen AI Evaluation Service は、gemini-1.5-pro を判定モデルとして使用し、メカニズムを使用してモデルベースの指標の一貫性と客観性を保証します。モデルベースの指標の 1 回の評価リクエストで、Gen AI 評価サービスに対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-1.5-pro に送信されるリクエストはすべて割り当てにカウントされます。モデルごとに割り当てが異なります。次の表に、Gen AI 評価サービスの割り当てと、基盤となる自動評価モデルの割り当てを示します。
リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI 評価サービス リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
base_model: gemini-1.5-pro の 1 分あたりのオンライン予測リクエスト数 リージョンとモデル別の割り当てをご覧ください。
Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。
上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒
新しいプロジェクトで Gen AI 評価サービスを初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。この作業を行うのは 1 回限りで、最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。モデルベースの指標では、自動評価として使用されるモデルに応じて、入力トークンと出力トークンの上限が設定されています。関連するモデルの上限については、モデル情報 | Vertex AI の生成 AI | Google Cloud の上限をご覧ください。

パイプライン評価の割り当て

パイプライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。評価パイプライン サービスは、Vertex AI Pipelines を使用して PipelineJobs を実行します。Vertex AI Pipelines の関連する割り当てをご覧ください。一般的な割り当ての推奨事項は次のとおりです。
サービス 割り当て 推奨事項
Vertex AI API リージョンごとの同時 LLM バッチ予測ジョブ数 ポイントワイズ: 1 * num_concurrent_pipelines

ペアワイズ: 2 * num_concurrent_pipelines
Vertex AI API 1 分、1 リージョンあたりの評価リクエストの数 1,000 × num_concurrent_pipelines
また、モデルベースの評価指標を計算する際に、自動評価で割り当ての問題が発生する可能性があります。関連する割り当ては、使用された自動評価によって異なります。
ToDo リスト 割り当て ベースモデル 推奨事項
summarization
question_answering
1 分あたりのベースモデルごとのオンライン予測リクエスト数(リージョン、base_model ごと) text-bison 60 × num_concurrent_pipelines

Vertex AI Pipelines

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

Vertex AI Reasoning Engine

各リージョンの特定のプロジェクトの Vertex AI Reasoning Engine には、次の割り当てと上限が適用されます。
割り当て
推論エンジンの作成/削除/更新(1 分あたり) 10
1 分あたりの Reasoning Engine へのクエリ数 60
Reasoning Engine リソースの最大数 100

エラーコード 429 のトラブルシューティング

429 エラーのトラブルシューティングについては、エラーコード 429 をご覧ください。

次のステップ