コンテンツに移動
AI & 機械学習

Vertex AI のプロビジョンド スループット(PT)に関するガイド

2026年2月27日
Raiyaan Serang

Senior Product Manager, Vertex AI

Try Nano Banana 2

State-of-the-art image generation and editing

Try now

※この投稿は米国時間 2026 年 2 月 19 日に、Google Cloud blog に投稿されたものの抄訳です。

AI エージェントが 1 日に何千もの意思決定を行う場合、一貫したパフォーマンスは単なる技術的な要素ではなく、ビジネス要件です。

プロビジョンド スループット(PT)は、容量と予測可能なパフォーマンスを保証する予約済みリソースを提供することで、この問題を解決します。Google は、簡単にスケールできるように、Vertex AI の PT を以下の 3 つの重要な改善を含めて更新しました。

  • モデルの多様性: 適切なジョブに対して適切なモデルを実行する。

  • マルチモーダル イノベーション: テキスト、画像、動画をシームレスに処理する。

  • 運用上の柔軟性: エージェントの成長に合わせてリソースを調整する。

この投稿では、Vertex AI で現在利用可能なリソースと、その使用方法についてご紹介します。

多様なモデル ポートフォリオのサポートを拡大

成熟した AI 戦略では、特定のタスクに適切なモデルを選択する必要があります。200 以上のファースト パーティ、サードパーティ、オープンソースの厳選されたモデルのセットである Vertex AI Model Garden を活用すると、ビジネスニーズに最適なリソースを簡単に使用できるようになります。

こうしたインフラストラクチャ全体で PT エクスペリエンスが標準化されたため、デプロイするモデルに関係なく一貫した容量戦略を実施できます。

  • Anthropic のインテグレーション(限定公開プレビュー版): Anthropic モデルの PT を Vertex AI コンソールから直接購入して管理できるようになりました。これにより、業界をリードするサードパーティ プロバイダの 1 つを、主要な容量ワークフローに組み込むことができます。

  • オープンモデル エコシステム: PT のサポートを、Llama 4、Qwen3、GLM-4.7、DeepSeek-OCR など、最もよく利用されているオープンソース モデルに拡張しました。これらはすべて同じコンソールから利用できます。

  • 統合ガバナンス: PT は単一のフレームワークで全種類のモデルに対応できるため、エンジニアリング チームはモデル プロバイダごとに予約や調達の戦略を個別に設計する必要がなくなりました。

マルチモーダル イノベーションを推進

次世代の AI エージェントは、リアルタイムで見て、聞いて、行動するようになります。こうしたネイティブ音声、高解像度の動画、複雑な推論への移行に合わせて、信頼性の高いコンピューティングに対する大きな需要が必ず生まれます。

このような高度なモダリティが本番環境で利用されるようになったら、すぐに PT でサポートできるように Google は準備を整えています。

  • Gemini 3 と Nano Banana: Google の高性能な Gemini 3 モデル、および忠実度の高い画像生成と編集のための最先端モデルである Nano Banana に、専用 PT を利用できるようになりました。

  • Gemini Live API: Gemini Live API に PT を使用すると、エージェントがライブ動画フィードを処理している場合でも、リアルタイムの音声応答を提供している場合でも、高帯域幅のマルチモーダル ストリームに必要なスループットが保証されます。

  • Veo 3 と 3.1: 動画ワークロードの場合、PT GSU(生成 AI スケール ユニット)の最低利用制限と追加単位制限が Veo 3 と Veo 3.1 で撤廃されました。これにより、必要な容量のみを購入できるため、高額な初期費用を支払うことなく動画生成を簡単にスケールできます。

運用上の柔軟性の向上

グローバルな本番環境に向けてスケールするために、アジリティを犠牲にする必要はありません。Google は、実際のビジネス サイクルに沿って AI コンピューティングを動的リソースとして活用するための手段を提供します。

  • 柔軟な期間: 一部のモデルで1 週間の PT 期間が利用可能になりました。これにより、月単位や年単位の契約をしなくても、ホリデー シーズンのトラフィック急増や新製品のリリースなど、影響の大きい短期間に利用する容量を確実に確保できます。

  • 事前対応型のキャパシティ プランニング: 一部のモデルでは、PT リクエストの注文変更をスケジュールできるようになりました。スケジュールを設定できるのは、最大で 2 週間前です。これにより、チームは既知のピーク イベントのリソースの強化を自動化し、戦略を事後対応型のスケーリングから事前対応型のプランニングへと移行できます。

  • トークン値の最大化: 繰り返される長いコンテキストを持つエージェント ワークロードの場合、一部のモデルにおいて、PT は明示的なキャッシュ保存を統合できるようになりました。これにより、キャッシュ保存で入力コストを大幅に削減しながら、予約されたパフォーマンスを実現でき、予約の料金が実際のビジネス価値に見合うようになります。

Vertex AI で自信を持ってスケールしているお客様

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_-_reve_ai_logo.max-700x700.jpg

「Reve は、Vertex AI のプロビジョンド スループットを活用して、当社のクリエイティブ ツールを支えるコンピューティング インテリジェンスを強化しています。Vertex AI は、当社のユーザーが利用している基盤モデルを支える最速かつ最低レイテンシのプラットフォームであることが証明されており、最重要なインタラクティブ機能を 2 倍以上高速化してくれました。Vertex AI が当社のエンジニアリング チームに提供しているパフォーマンス、可用性、柔軟性に感銘を受けています。」Reve AI、CTO(最高技術責任者)、Jon Watte 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_-_knowunity_logo.max-700x700.jpg

「Knowunity では、2,000 万人の生徒がよりスマートに学習できるよう、Vertex AI のプロビジョンド スループットを活用しています。生徒が学校から帰宅する午後にトラフィックが急増し、ピーク時には 1 秒あたり 100 万トークン以上を処理しています。PT が導入される前は、こうした時間帯に容量の制約に頻繁に直面していました。しかし、優れたパフォーマンスと必要に応じてモデルを変更できる柔軟性のおかげで、スケーリングが保証され、当社のグローバル ユーザーを自信を持ってサポートできるようになりました。」Knowunity、共同創業者 / CTO、Lucas Hild 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_-_paloalto_network.max-700x700.jpg

「Palo Alto Networks では、Strata Copilot から自律型オペレーション、AI Canvas から社内ツールまで、エコシステム全体で Gemini モデルを統合しています。従量課金制から Vertex AI のプロビジョンド スループットに移行したことは、当社にとって転換点となりました。本番環境で必要な保証されたレイテンシと、ユースケースごとに予約を分離する機能が手に入ったからです。これにより、各ユースケースで求められる保証された特定のパフォーマンスで、さまざまなアプリケーションに対応できるようになったため、AI を活用したセキュリティをグローバル規模で提供できます。」Palo Alto Networks、エンジニアリング担当バイス プレジデント、Rajesh Bhagwat 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/4_-_juicebox_logo.max-700x700.jpg

「Vertex AI のプロビジョンド スループットのおかげで、オープンモデルをテスト環境トラフィックから実際の本番環境トラフィックに簡単に移行できました。当社は検索に LLM を使用しているため、大規模な環境で極めて高いスループット、高い同時実行性、予測可能なレイテンシが必要になります。マルチテナント システムと柔軟なコミットメント モデルを提供する Vertex AI は、これらの要件を確実にサポートできる唯一のプラットフォームでした。」Juicebox、共同創業者、Ishan Gupta 氏

https://storage.googleapis.com/gweb-cloudblog-publish/images/5_-_Freepik-Logo.max-700x700.jpg

「Vertex AI のプロビジョンド スループットにより、私たちは生成 AI ワークロードをグローバルにスケールするための予測と制御が可能な方法を手に入れられました。これは、運用の安定性と費用管理の両方にとって非常に重要です。特にブラック フライデーやサイバー マンデーなどのピーク期間に、需要に先立って容量を計画するために必要な強固な基盤を提供してくれます。これにより、高速パフォーマンスと費用対効果のバランスを取り、自信を持ってプラットフォームを拡張させることができます。」Freepik、エンジニアリング担当バイス プレジデント、Francisco Castro Barea 氏

2026 年に本番環境の容量を確保するための 4 つのステップ

Google の 2026 年の AI エージェントのトレンドに関するレポートによると、組織は 2026 年に適切なインフラストラクチャに投資すれば、すべての従業員が「推測」に頼るのではなく「確信」を持って作業できるようになることが見込まれています。

トークンの要件を予約済み容量に合わせれば、エージェントがいつでもアクションを実行できる状態に保てます。

  1. 計算する: Vertex AI の生成 AI スケール ユニット見積もりツールを使用して、ミッション クリティカルなベースロードに必要な GSU を決定します。

  2. 予約する: Vertex AI コンソールプロビジョンド スループット ダッシュボードにアクセスして、選択したモデルの容量を購入します。

  3. アクセスをリクエストする: 主な容量ワークフロー内で Anthropic モデルを管理したいお客様は、こちらのフォームに記入して限定公開プレビューへのアクセスをリクエストしてください。

  4. 実装する: Google Cloud のアカウント担当者に連絡し、PT を Google の幅広い利用ポートフォリオと組み合わせて、最大限の復元力を実現する 2026 年のキャパシティ プランについて話し合います。

- Vertex AI、シニア プロダクト マネージャー、Raiyaan Serang

投稿先