以前のモデルの割り当て上限

このページでは、以前のモデルの割り当てと上限について説明します。以前のモデル ファミリーのモデルは、新しい安定版では更新されなくなりました。詳細については、以前のモデルの情報をご覧ください。

割り当ては、Google Cloud プロジェクトで使用できる共有 Google Cloud リソース(ハードウェア、ソフトウェア、ネットワーク コンポーネントなど)の量を制限します。つまり、割り当てはシステムの一部で、次の機能があります。

  • Google Cloud のプロダクトとサービスの使用量や消費量をモニタリングする。
  • 公平性の確保や使用量急増の抑制などのため、これらのリソースの消費量を制限する。
  • 規定の制限を自動的に適用する構成を維持する。
  • 割り当てをリクエストまたは変更する手段を提供する。

ほとんどの場合、割り当てを超過すると、システムは関連する Google リソースへのアクセスをすぐにブロックするため、ユーザーが試行しているタスクは失敗します。ほとんどの場合、割り当ては各 Google Cloud プロジェクトに適用され、その Google Cloud プロジェクトを使用するすべてのアプリケーションと IP アドレスで共有されます。

リージョンとモデル別の割り当て

1 分あたりのリクエスト数(RPM)の割り当ては、ベースモデルと、そのモデルのすべてのバージョン、識別子、チューニング済みバージョンに適用されます。たとえば、text-bison へのリクエストと text-bison@002 へのリクエストは、ベースモデル text-bison の RPM の割り当てに対する 2 つのリクエストとしてカウントされます。チューニング済みモデルにも同じことが当てはまります。したがって、chat-bison@002 へのリクエストと、my-tuned-chat-model と名付けられた chat-bison@002 に基づくチューニング済みモデルへのリクエストは、ベースモデル chat-bison に対する 2 つのリクエストとしてカウントされます。

この割り当ては、特定の Google Cloud プロジェクトとサポート対象のリージョンに対する、Vertex AI の生成 AI リクエストに適用されます。

Google Cloud コンソールで割り当てを表示する方法は次のとおりです。

  1. Google Cloud コンソールで、[IAM と管理] ページに移動します。

    コンソールに割り当てを表示する

  2. [フィルタ] フィールドで、ディメンションまたは指標を指定します。

    • ディメンション: モデル ID。たとえば、base_model:gemini-1.0-probase_model:text-bison です。

    • 指標: PaLM 2 モデルの割り当て ID は aiplatform.googleapis.com/online_prediction_requests_per_base_model です。

使用可能な各モデルの割り当て上限を表示するには、リージョンを選択します。

バッチ割り当て

次の割り当てと上限は、Vertex AI バッチ予測ジョブの生成 AI のリージョン間で同じです。

割り当て
text_bison_concurrent_batch_prediction_jobs 4
code_bison_concurrent_batch_prediction_jobs 4

カスタム トレーニング モデルの割り当て

特定のプロジェクトとリージョンに対して、Vertex AI の生成 AI のチューニング済みモデルには、次の割り当てが適用されます。

割り当て
リージョンごとの制限付きイメージ トレーニング TPU V3 Pod コア
* サポート対象のリージョン - europe-west4
64
リージョンごとの制限付きイメージ トレーニング Nvidia A100 80 GB GPU
* サポート対象のリージョン - us-central1
* サポート対象のリージョン - us-east4

8
2

* チューニング シナリオでは、特定のリージョンでのアクセラレータの予約があります。チューニングの割り当てはサポートされているため、特定のリージョンでリクエストする必要があります。

オンライン評価の割り当て

オンライン評価サービスは、Google IP プロンプトとメカニズムを使用して text-bison モデルを自動評価として使用し、モデルベースの指標の一貫性と客観性を保証します。

モデルベースの指標の 1 回の評価リクエストで、オンライン予測サービスに対して基盤となるリクエストが複数発生する場合があります。各モデルの割り当てはプロジェクトごとに計算されます。つまり、モデル推論とモデルベースの評価のために text-bison に送信されるリクエストはすべて割り当てにカウントされます。モデルごとに割り当てが異なります。次の表に、評価サービスの割り当てと、基盤となる自動評価モデルの割り当てを示します。

リクエストの割り当て デフォルトの割り当て
1 分あたりのオンライン評価サービス リクエスト 1 プロジェクト、1 リージョンあたり 1,000 件のリクエスト
base_model、base_model の 1 分あたりのオンライン予測リクエストの数: text-bison 1 リージョン、1 プロジェクトあたり 1,600 件のリクエスト

オンライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加をリクエストする必要があります。詳細については、割り当ての表示と管理をご覧ください。

上限
オンライン評価サービス リクエストのタイムアウト 60 秒

新しいプロジェクトでオンライン評価サービスを初めて使用する場合は、初期設定による遅延が発生することがあります(通常は 2 分以内)。この作業を行うのは 1 回限りです。最初のリクエストが失敗した場合は、数分待ってから再試行してください。その後の評価リクエストは通常、60 秒以内に完了します。

モデルベースの指標では、自動評価として使用されるモデルに応じて、入力トークンと出力トークンの上限が設定されています。関連するモデルの上限については、モデル情報 | Vertex AI の生成 AI | Google Cloud をご覧ください。

パイプライン評価の割り当て

パイプライン評価サービスの使用中に割り当てに関するエラーが発生した場合は、割り当ての増加リクエストを提出する必要があります。詳細については、割り当ての表示と管理をご覧ください。

評価パイプライン サービスは、Vertex AI Pipelines を使用して PipelineJobs を実行します。Vertex AI Pipelines の関連の割り当てをご覧ください。一般的な割り当ての推奨事項は次のとおりです。

サービス 割り当て 推奨事項
Vertex AI API リージョンごとの同時 LLM バッチ予測ジョブ数 ポイントワイズ: 1 * num_concurrent_pipelines

ペアワイズ: 2 * num_concurrent_pipelines
Vertex AI API 1 分、1 リージョンあたりの評価リクエストの数 1,000 × num_concurrent_pipelines

また、モデルベースの評価指標を計算する際に、自動評価で割り当ての問題が発生する可能性があります。関連する割り当ては、使用された自動評価によって異なります。

タスク 割り当て ベースモデル 推奨事項
summarization
question_answering
1 分あたりのベースモデルごとのオンライン予測リクエスト数(リージョン、base_model ごと) text-bison 60 × num_concurrent_pipelines

Vertex AI Pipelines

チューニング ジョブは Vertex AI Pipelines を使用します。詳細については、Vertex AI Pipelines の割り当てと上限をご覧ください。

割り当て上限の引き上げ

Vertex AI の生成 AI の割り当てを引き上げる場合は、Google Cloud コンソールから割り当ての増加をリクエストできます。割り当ての詳細については、割り当てを操作するをご覧ください。

次のステップ