Vertex AI は、Online Prediction API を介して Google Distributed Cloud(GDC)エアギャップでオンライン予測を提供します。予測とは、トレーニング済み ML モデルの出力です。具体的には、オンライン予測はモデルのエンドポイントに対して行われる同期リクエストです。
オンライン予測では、サポートされているコンテナのセットで独自の予測モデルを使用して、アップロード、デプロイ、サービング、リクエストを行うことができます。アプリケーションの入力に応じてリクエストを行う場合や、タイムリーな推論が必要な場合は、オンライン予測を使用します。
オンライン予測 API を使用するには、インフラストラクチャ オペレーター(IO)が作成した専用の予測クラスタに Kubernetes カスタム リソースを適用します。
オンライン予測を取得する前に、モデル アーティファクトをエクスポートし、モデルをエンドポイントにデプロイする必要があります。このアクションにより、コンピューティング リソースがモデルに関連付けられ、低レイテンシでオンライン予測が行われます。
次に、リクエストをフォーマットして送信することで、カスタム トレーニング モデルからオンライン予測を取得できます。
使用可能なコンテナ イメージ
次の表に、Distributed Cloud のオンライン予測でサポートされているコンテナの一覧を示します。
ML フレームワーク | バージョン | サポートされているアクセラレータ | 対応イメージ |
---|---|---|---|
TensorFlow | 2.14 | CPU | tf2-cpu.2-14 |
GPU | tf2-gpu.2-14 | ||
PyTorch | 2.4 | CPU | pytorch-cpu.2-4 |
GPU | pytorch-gpu.2-4 | ||
2.1(非推奨) | CPU | pytorch-cpu.2-1 | |
GPU | pytorch-gpu.2-1 |