Vertex AI の生成 AI のレート制限

Google Cloud では、割り当てを使用して公平性を確保し、リソースの使用量と可用性の急増を抑えます。割り当ては、Google Cloud プロジェクトで使用できる Google Cloud リソースの量を制限します。割り当ては、ハードウェア、ソフトウェア、ネットワーク コンポーネントなど、さまざまなリソースタイプに適用されます。たとえば、割り当てによって、サービスへの API 呼び出しの数、プロジェクトで同時に使用されるロードバランサの数、作成可能なプロジェクトの数を制限できます。割り当てを適用することで、サービスの過負荷を防ぎ、Google Cloud ユーザーのコミュニティを保護します。割り当ては、自組織で使用している Google Cloud リソースの管理にも役立ちます。

Cloud Quotas システムは次のことを行います。

  • Google Cloud のプロダクトとサービスの消費量をモニタリングする
  • これらのリソースの消費量を制限する
  • 割り当て値の変更をリクエストする手段を提供する

ほとんどの場合、割り当ての許容量を超えるリソースを消費しようとすると、システムによってリソースへのアクセスがブロックされ、実行しようとしているタスクは失敗します。

割り当ては通常、Google Cloud プロジェクト レベルで適用されます。あるプロジェクトでリソースを使用しても、別のプロジェクトで使用可能な割り当てに影響することはありません。Google Cloud プロジェクト内では、すべてのアプリケーションと IP アドレスで割り当てが共有されます。

リージョンとモデル別の割り当て

1 分あたりのリクエスト数(RPM)の割り当ては、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。次の例は、RPM 割り当てがどのように適用されるかを示しています。

  • ベースモデル gemini-1.0-pro へのリクエストと、その安定版 gemini-1.0-pro-001 へのリクエストは、ベースモデル gemini-1.0-pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。

  • ベースモデルの 2 つのバージョンである gemini-1.0-pro-001gemini-1.0-pro-002 へのリクエストは、ベースモデル gemini-1.0-pro の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。

  • ベースモデルの 2 つのバージョンである gemini-1.0-pro-001 と、my-tuned-chat-model という名前のチューニング済みバージョンへのリクエストは、ベースモデル gemini-1.0-pro に対する 2 つのリクエストとしてカウントされます。

この割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。

Google Cloud コンソールで割り当てを表示する

Google Cloud コンソールで割り当てを表示する方法は次のとおりです。

  1. Google Cloud コンソールで、[IAM と管理] ページに移動します。

    コンソールに割り当てを表示する

  2. [フィルタ] フィールドで、ディメンションまたは指標を指定します。
ディメンション(モデル識別子) 指標(Gemini モデルの割り当て ID)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
調整をリクエストする手順は次のとおりです。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
その他のすべてのモデル 調整できる割り当ては 1 つだけです。
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

使用可能な各モデルの割り当て上限を表示するには、リージョンを選択します。

レート上限

指標 generate_content_input_tokens_per_minute_per_base_model の場合、すべてのリージョンのリストに表示されるモデルには次のレート上限が適用されます。

ベースモデル 1 分あたりのトークン数
base_model: gemini-1.5-flash 4M(4,000,000)
base_model: gemini-1.5-pro 4M(4,000,000)

バッチ リクエスト

バッチ リクエストの割り当てと上限は、すべてのリージョンで同じです。

同時実行バッチ リクエスト

次の表に、同時実行バッチ リクエスト数の割り当てを示します。

割り当て
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs 1
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 1

送信されたタスク数が指定された割り当てを超えると、タスクはキューに配置され、割り当て容量が使用可能になると処理されます。

バッチ リクエストの上限

次の表に、各バッチテキスト生成リクエストのサイズの上限を示します。

モデル 上限
gemini-1.5-pro 5 万件のレコード
gemini-1.5-flash 15 万件のレコード
gemini-1.0-pro 15 万件のレコード
gemini-1.0-pro-vision 5 万件のレコード

カスタム トレーニング モデルの割り当て

特定のプロジェクトとリージョンに対して、Vertex AI の生成 AI のチューニング済みモデルには、次の割り当てが適用されます。

割り当て
リージョンごとの制限付きイメージ トレーニング TPU V3 Pod コア
* サポート対象のリージョン - europe-west4
64
リージョンごとの制限付きイメージ トレーニング Nvidia A100 80 GB GPU
* サポート対象のリージョン - us-central1
* サポート対象のリージョン - us-east4

8
2

* チューニング シナリオでは、特定のリージョンでのアクセラレータの予約があります。チューニングの割り当てはサポートされているため、特定のリージョンでリクエストする必要があります。

テキスト エンベディングの上限

us-central1 リージョンで text-embedding-004 モデルを使用する場合、入力テキストは最大 250 個です。他のリージョンでは、入力テキストは最大 5 個です。

各入力テキストのトークンの上限は 2,048 です。

Gen AI Evaluation Service の割り当て

Gen AI Evaluation Service は、gemini-1.5-pro を判定モデルとして使用し、モデルベースの指標の一貫性と客観性を保証するメカニズムを使用します。

モデルベースの指標の 1 回の評価リクエストで、Gen AI Evaluation Service に対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために gemini-1.5-pro に送信されるリクエストはすべて割り当てにカウントされます。モデルごとに割り当てが異なります。次の表に、評価サービスの割り当てと、基盤となる自動評価モデルの割り当てを示します。

リクエストの割り当て デフォルトの割り当て
1 分あたりの Gen AI Evaluation Service リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
base_model: gemini-1.5-pro の 1 分あたりのオンライン予測リクエスト数 リージョンとモデル別の割り当てをご覧ください。

Gen AI Evaluation Service の使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限
Gen AI Evaluation Service リクエストのタイムアウト 60 秒

新しいプロジェクトで Gen AI Evaluation Service を初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。これが発生するのは 1 回限りです。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標では、自動評価として使用されるモデルに応じて、入力トークンと出力トークンの上限が設定されています。関連するモデルの上限については、モデル情報 | Vertex AI の生成 AI | Google Cloud をご覧ください。

RAG 用 LlamaIndex on Vertex AI の割り当て

次の割り当ては、Vertex AI の LlamaIndex を使用して検索拡張生成(RAG)を実行するためのものです。

サービス 割り当て
LlamaIndex on Vertex AI データ マネジメント API 1 分あたり 60 回のリクエスト(RPM)
RetrievalContexts API 1,500 RPM
base_model: textembedding-gecko 1,500 RPM
オンライン予測リクエスト1 30,000 RPM
データの取り込み 1,000 ファイル

1 この割り当ては、パブリック エンドポイントにのみ適用されます。プライベート エンドポイントには 1 分あたりのリクエスト数の制限はありません。

パイプライン評価の割り当て

パイプライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。

評価パイプライン サービスは、Vertex AI Pipelines を使用して PipelineJobs を実行します。Vertex AI Pipelines の関連の割り当てをご覧ください。一般的な割り当ての推奨事項は次のとおりです。

サービス 割り当て 推奨事項
Vertex AI API リージョンごとの同時 LLM バッチ予測ジョブ数 ポイントワイズ: 1 * num_concurrent_pipelines

ペアワイズ: 2 * num_concurrent_pipelines
Vertex AI API 1 分、1 リージョンあたりの評価リクエストの数 1,000 × num_concurrent_pipelines

また、モデルベースの評価指標を計算する際に、自動評価で割り当ての問題が発生する可能性があります。関連する割り当ては、使用された自動評価によって異なります。

タスク 割り当て ベースモデル 推奨事項
summarization
question_answering
1 分あたりのベースモデルごとのオンライン予測リクエスト数(リージョン、base_model ごと) text-bison 60 × num_concurrent_pipelines

Vertex AI Pipelines

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

Vertex AI Reasoning Engine

各リージョンの特定のプロジェクトの Vertex AI Reasoning Engine には、次の割り当てと上限が適用されます。

割り当て
1 分あたりの推論エンジンの作成/削除/更新回数 10
1 分あたりの Reasoning Engine へのクエリ数 60
Reasoning Engine リソースの最大数 100

エラーコード 429

リクエスト数がリクエストの処理に割り当てられた容量を超えると、エラーコード 429 が返されます。次の表に、各タイプの割り当てフレームワークによって生成されるエラー メッセージを示します。

割り当てフレームワーク メッセージ
従量課金制 Resource exhausted, please try again later.
プロビジョンド スループット Too many requests. Exceeded the provisioned throughput.

プロビジョンド スループットのサブスクリプションを使用すると、特定の生成 AI モデルのために一定量のスループットを予約できます。プロビジョンド スループットのサブスクリプションを持っておらず、アプリケーションで使用できるリソースがない場合は、エラーコード 429 が返されます。予約済みの容量がない状況でも、再度リクエストを試すことはできます。ただし、この場合のリクエストは、サービスレベル契約(SLA)に記載されているエラー率にカウントされません。

プロビジョンド スループットを購入したプロジェクトの場合、Vertex AI はプロジェクトのスループットを測定し、その量のスループットを予約して使用できるようにします。購入したスループット量を使い切っていない場合、通常なら 429 として返されるエラーが 5XX として返され、SLA に記載されているエラー率の一部としてカウントされます。

従量課金制

従量課金制の割り当てフレームワークでは、429 エラーを解決するために次のオプションがあります。

  • 切り捨て型指数バックオフを使用して再試行方法を実装する。
  • コンシューマ オーバーライドを設定して費用を管理するように構成している場合は、上限を増やす。詳細については、動的共有割り当てをご覧ください。
  • より一貫したサービスレベルを実現するために、プロビジョンド スループットに登録する。詳細については、プロビジョンド スループットをご覧ください。

プロビジョンド スループット

プロビジョンド スループットによって生成されたエラーを修正するには、次の操作を行います。

  • 予測リクエストでヘッダーを設定しないデフォルトの例を使用します。超過分はオンデマンドで処理され、従量課金制で請求されます。
  • プロビジョンド スループットのサブスクリプションの GSU 数を増やします。

割り当ての増加

Vertex AI の生成 AI の割り当てを引き上げる場合は、Google Cloud コンソールから割り当ての増加をリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。

次のステップ