動的共有割り当て(DSQ)

動的共有割り当て(DSQ)は、割り当てと割り当て増加リクエスト(QIR)を管理することなく、ワークロードのニーズに柔軟に対応できるように、従量課金制(PayGo)リクエストを処理するために導入されました。DSQ を使用する場合、使用量に事前定義された割り当て上限はありません。代わりに、DSQ はリソースの大きな共有プールへのアクセスを提供します。このプールは、リソースのリアルタイムの可用性と、そのモデルに対するすべてのお客様のリアルタイムの需要に基づいて動的に割り当てられます。アクティブな顧客が増えると、各顧客のスループットが低下します。同様に、顧客が少ない場合、各顧客のスループットが高くなる可能性があります。

サポートされているモデル

次の Gemini モデルとその教師ありファインチューニング モデルは DSQ をサポートしています。

次の以前の Gemini モデルは DSQ をサポートしています。

  • Gemini 1.5 Pro
  • Gemini 1.5 Flash

次の Imagen モデルは DSQ をサポートしています。

  • Imagen 4
  • Imagen 4 Fast
  • Imagen 4 Ultra

DSQ の仕組み

動的共有割り当て(DSQ)は、トラフィック パターンとニーズに適応し、使用量の摩擦を最小限に抑えます。DSQ のリソースに対するプロジェクトのアクセスは、Google が設定した任意の数で制限されません。代わりに、共有プールの全体的な容量と、すべてのお客様からの現在の総需要によって決まります。このモデルは、柔軟性を高めるように設計されており、ワークロードがバーストして、使用可能なリソースをより多く消費できます。逆に、共有プールのすべてのお客様が、お客様ごとの割り当てを構成することなく、リソースが使用可能になったときにアクセスできるようになります。

共有リソース環境のすべてのユーザーに公平で安定したエクスペリエンスを提供するため、動的共有割り当ては、特に分離されたソースからの需要が非常に高い期間に、リクエストの処理方法をインテリジェントに管理します。DSQ では、固定上限ではなく、動的な優先順位付けのアプローチが採用されています。つまり、システムはバーストに対応するように設計されていますが、単一のソースからのトラフィックの異常に大きな急増は、より一貫性のある安定したトラフィックとは異なる優先度で処理される可能性があります。この高度な管理により、広範なユーザー アクティビティと通常のワークロードが一時的な極端なスパイクから保護され、システム全体の安定性と公平なアクセスが促進されます。

マルチモーダル入力を含む Gemini リクエストには、画像音声動画ドキュメントを含む対応するシステムレートの上限が適用されます。

アプリケーションの高可用性を確保し、本番環境ワークロードに対して予測可能なサービスレベルを実現するには、プロビジョンド スループットをご覧ください。

DSQ でのリソース不足 429 エラーについて

「リソース消耗」429 エラーが発生すると、クォータの上限に達したのではないかと疑念を抱くことがありますが、ただし、DSQ ではこのようにはなりません。これらのエラーは、特定のタイプ(特定のリージョンの特定のモデルなど)のリソースの共有プール全体で、特定の時間に多くのユーザーから同時に非常に高い需要が発生していることを示します。これは、ラッシュ時の人気のある電車に乗ろうとするようなものです。お客様専用の「チケットの上限」はありませんが、電車自体が一時的に満席になることがあります。これは、プロジェクトに課せられた固定の上限ではなく、リソースの競合の一時的な状態です。

DSQ は、利用可能な容量を公平かつ効率的に管理し、分配するために常に機能しています。このようなエラーが表示された場合は、その共有プールで瞬時の需要が利用可能な供給量を上回ったことを意味します。リソースが他の場所でアイドル状態であってもブロックされるハード割り当てとは異なり、DSQ はリソースが空いているときにいつでもアクセスできるようにすることを目的としています。このエラーは、アカウントの上限ではなく、システム全体の現在の負荷を反映したものです。

この動的な環境では可用性がすぐに変化する可能性があるため、再試行メカニズムを実装することをおすすめします。リソース不足エラーの処理方法については、429 エラーの処理ガイドまたはエラーコード 429 をご覧ください。

次のステップ