スループット割り当て

Vertex AI には、生成 AI モデルのスループットを管理する 2 つの方法が用意されています。これにより、費用、柔軟性、パフォーマンスのバランスを取ることができます。柔軟な従量課金制モデルを使用するか、一定量のスループットを固定料金で予約できます。

従量課金制

デフォルトの従量課金制モデルでは、Vertex AI は動的共有割り当てを使用します。これには、事前定義された使用量上限はありません。代わりに、リアルタイムの可用性と需要に基づいて動的に割り当てられる、大規模な共有リソースプールにアクセスできます。

このモデルでは、ワークロードで利用可能なリソースが多い場合に、より多くのリソースを使用できます。resource exhausted(429)エラーが返された場合は、共有プールで一時的に多くのユーザーからのリクエストが集中していることを意味します。可用性はすぐに変化する可能性があるため、アプリケーションに再試行メカニズムを実装する必要があります。

予約済み容量

一貫したパフォーマンスと予測可能な費用を必要とする重要な本番環境アプリケーションには、プロビジョニングされたスループットを使用できます。プロビジョンド スループットは、選択したロケーションのモデルに対して特定量のスループットを予約する固定費用のサブスクリプションです。

次のステップ