動的共有割り当て

動的共有割り当てでは、Google Cloud サービスによって処理されるすべてのクエリにオンデマンド容量が分配されます。この機能を使用すると、割り当て増加リクエスト(QIR)を送信する必要がなくなります。

サポートされている Google モデルのバージョン

動的共有割り当てをサポートする Google モデルとそのバージョンは次のとおりです。

  • Gemini 1.5 Flash(gemini-1.5-flash-002
  • Gemini 1.5 Pro(gemini-1.5-pro-002

サポートされているその他のモデル

動的共有割り当てをサポートする Claude モデルについては、Anthropic の Claude モデルを使用するをご覧ください。

動的共有割り当ての仕組みの例

Google Cloud は、北米など特定のリージョンで使用可能な容量を確認し、リクエストを送信しているお客様の数を確認します。1 分あたり 25 件のクエリ(QPM)を送信するお客様 A と、25 QPM を送信するお客様 B について考えてみましょう。このサービスは 100 QPM をサポートできます。お客様 A がクエリのレートを 75 QPM に増やした場合、動的共有割り当てによって増加がサポートされます。お客様 A がクエリのレートを 100 QPM に増やした場合、お客様 B が引き続き 25 QPM を送信できるように、お客様 A は動的共有割り当てにより 75 QPM にスロットリングされます。

動的共有割り当ての使用時に発生する可能性のあるエラーのトラブルシューティングについては、割り当てエラーのトラブルシューティングをご覧ください。

考慮事項

検討事項 解決策
費用を管理し、予算超過を防ぐ。 コンシューマー割り当てオーバーライドという割り当てをご自身で構成します。詳細については、コンシューマー割り当てオーバーライドの作成をご覧ください。
トラフィックの優先順位を設定する。 プロビジョンド スループットを使用します。
使用量をモニタリングする。 次の指標を確認できます。
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
詳細については、Cloud Monitoring のドキュメントの aiplatform のセクションをご覧ください。

次のステップ