スループットの割り当て

Vertex AI には、生成 AI モデルのスループットを管理する 2 つの方法が用意されています。これにより、費用、柔軟性、パフォーマンスのバランスを取ることが可能になります。柔軟な従量課金制モデルを使用するか、一定量のスループットを固定料金で予約できます。

従量課金制

デフォルトの従量課金制モデルでは、Vertex AI は動的共有割り当てを使用します。これには、事前定義された使用量上限はありません。代わりに、リアルタイムの可用性と需要に基づいて動的に割り当てられる、大規模な共有リソースプールにアクセスできます。

このモデルでは、ワークロードが使用可能なときに、より多くのリソースを使用できます。resource exhausted（429）エラーが返された場合は、共有プールで一時的に多くのユーザーからのリクエストが集中していることを意味します。可用性はすぐに変化する可能性があるため、アプリケーションに再試行メカニズムを実装する必要があります。

予約済み容量

一貫したパフォーマンスと予測可能な費用を必要とする重要な本番環境アプリケーションには、プロビジョンドスループットを使用できます。プロビジョンドスループットは、選択したロケーションのモデルに対して特定のスループット量を予約する固定料金のサブスクリプションです。

次のステップ

動的共有割り当ての詳細を確認する。
プロビジョンドスループットの詳細を確認する。
Google Cloud の割り当ての詳細を確認する。