Vertex AI Prediction Dedicated Endpoints の提供開始
Ivan Nardini
AI/ML Advocate
Chase Lyall
Product Manager
※この投稿は米国時間 2025 年 5 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
大規模なサイズのモデルを駆使し、最先端の AI アプリケーションを構築するデベロッパーにとって、根幹となる基盤の信頼性に妥協の余地は一切ありません。どんなに高負荷でも一貫性を保ち、中断や問題なしに結果をもたらすことが求められ、それに応えるには、他のユーザーのアクティビティに影響されない専用のリソースが必要となります。既存の Vertex AI Prediction Endpoints(オンライン推論用 AI モデルをデプロイするためのマネージド リソースプール)はサービング ソリューションとして優れていますが、共有リソースの競合が発生した場合にリソースを分離し、一貫したパフォーマンスを提供するために、今より優れた方法が望まれていました。
本日ご紹介する Vertex AI Prediction Dedicated Endpoints は、大規模な生成 AI モデルに関連するアプリケーションなど、最新の AI アプリケーションのニーズに対応できるよう設計された Vertex AI Prediction エンドポイントの新しいファミリーです。
生成 AI と大規模モデル向けに設計された専用エンドポイント
生成 AI やその他の大規模モデルのサービングには、ペイロードのサイズ、推論時間、インタラクティビティ、パフォーマンス要件に関連する独自の課題があります。新しい Vertex AI Prediction Dedicated Endpoints は、アプリケーション構築の信頼性向上に貢献するよう特別に設計された基盤で、以下の新しい機能が統合されています。
-
ストリーミング推論のネイティブ サポート: chatbot やリアルタイムのコンテンツ生成などのインタラクティブなアプリケーションに不可欠なストリーミングを、Vertex AI エンドポイントがネイティブにサポートするようになりました。以下の API を使用して、開発とアーキテクチャを簡素化できます。
-
streamRawPredict: 双方向ストリーミング専用のこの API メソッドを使用して、プロンプトを送信し、レスポンス(トークンなど)の出力シーケンスを受け取れます。
-
OpenAI Chat Completion: モデルの相互運用性を促進し移行を容易にするため、互換性のある複数のモデルをサービングできるエンドポイントでは、広く使用されている OpenAI Chat Completion ストリーミング API 標準に準拠したインターフェースをオプションとして公開できます。
-
gRPC プロトコルのサポート: 大規模モデルでよく見られる、レイテンシの影響を受けやすいアプリケーションや高スループットのシナリオで、エンドポイントが gRPC をネイティブにサポートするようになりました。gRPC は、HTTP/2 とプロトコル バッファを利用することで、標準の REST / HTTP よりも優れたパフォーマンスを実現できます。
-
カスタマイズ可能なリクエストのタイムアウト: 大規模モデルでは、推論時間が大幅に長くなることがあります。API を通じて、柔軟に予測リクエストのカスタム タイムアウトを構成し、デフォルト設定以外の幅広いモデル処理時間に対応できるようになりました。
-
リソース処理の最適化: 基盤となるインフラストラクチャは、大規模モデルに必要なリソース(CPU / GPU、メモリ、ネットワーク帯域幅)をより適切に処理するように設計されており、特にプライベート エンドポイントと組み合わせた場合、全体的な安定性とパフォーマンスが向上します。
Vertex AI Prediction Dedicated Endpoints に統合されたこれらの新機能は、要求の厳しい最新の AI ワークロードに合わせて調整された堅牢な統合サービング ソリューションを提供します。Vertex AI Model Garden では本日より、Vertex AI Prediction Dedicated Endpoints をセルフデプロイ モデルの標準サービング方法として使用しています。
Private Service Connect(PSC)によるネットワーキングの最適化
公共のインターネット経由でアクセスできるモデルには引き続き Dedicated Endpoints Public が利用可能ですが、Dedicated Endpoints のネットワーキング オプションも Google Cloud Private Service Connect(PSC)で強化しています。この新しい Dedicated Endpoints Private(PSC 経由)は、予測リクエストに対して、安全でパフォーマンスが最適化されたパスを提供します。PSC を利用してトラフィックを完全に Google Cloud のネットワーク内で転送することで、次の重要なメリットを得られます。
-
セキュリティの強化: Virtual Private Cloud(VPC)ネットワーク内からリクエストが送信されるため、エンドポイントが公共のインターネットに公開されません。
-
パフォーマンスの一貫性の向上: 公共のインターネットを経由しないため、レイテンシの変動が減少します。
-
パフォーマンス干渉の低減: PSC によりネットワーク トラフィックの分離がより容易になり、「ノイジー ネイバー」の影響を受ける可能性が軽減され、要求の厳しいワークロードでさえパフォーマンスを予測可能なレベルで維持できます。
厳しいセキュリティ要件と予測可能なレイテンシが求められる本番環境のワークロードの構成には、Private Service Connect を使用したプライベート エンドポイントが推奨されます。
Sojern、新しい Vertex AI Prediction Dedicated Endpoints を使用してスケーラブルなモデル サービングを実現
Sojern は、ホスピタリティ業界に特化したマーケティング会社で、世界中の旅行会社と潜在顧客のマッチングを行っています。Sojern は成長計画の一環として Vertex AI を導入し、自社管理の ML スタックを手放すことで、イノベーションに集中しながら、これまでのフットプリントをはるかに超えてスケールアウトできるようになりました。
Sojern のビジネスの性質上、同社の ML は独自のデプロイモデルを採用しており、絶えず進化し続けるモデルに対応するため、高スループットのエンドポイントでは、すべてに高可用性とアジャイル性が必須条件となります。しかしながら、パブリック エンドポイントを使用するとレート制限が発生し、最終的にユーザー エクスペリエンスが低下します。共有 VPC モデルに移行すると、モデルの既存の利用者に大幅なデザイン変更を強いることになります。
Sojern は Private Service Connect(PSC)と専用エンドポイントを選択することで、パブリック エンドポイントに適用される割り当てや上限を超える心配も、共有 VPC に移行するためのネットワークの再設計の手間も免れることができました。
テスト済みモデルの迅速なプロモーション、専用エンドポイントの高度な機能セットの活用、顧客のレイテンシ改善は、いずれも同社が達成したい目標と強く関連していました。Private Service Connect と専用エンドポイントのこうしたメリットや特長を活用し、Sojern のチームは新しいモデルを継続的にオンボーディングし、精度と顧客満足度の向上に取り組んでいます。
使ってみる
Vertex AI で予測ワークロードのスケーリングの課題が生じている場合は、以下のリソースをご覧になり、新しい Vertex AI Prediction 専用エンドポイントの使用を開始してください。
ドキュメント
GitHub のサンプル
Vertex AI を今後も進化させていくうえで、皆様の体験談やフィードバックは非常に重要です。この新しいエンドポイント機能をぜひご活用のうえ、Google Cloud コミュニティ フォーラムで知見を共有していただければ幸いです。
-AI / ML アドボケイト、Ivan Nardini
-プロダクト マネージャー、Chase Lyall