Vertex AI propose des prédictions en ligne sur Google Distributed Cloud (GDC) air-gapped via l'API Online Prediction. Une prédiction est le résultat d'un modèle de machine learning entraîné. Plus précisément, les prédictions en ligne sont des requêtes synchrones adressées au point de terminaison de votre modèle.
La prédiction en ligne vous permet d'importer, de déployer, de diffuser et d'effectuer des requêtes à l'aide de vos propres modèles de prédiction sur un ensemble de conteneurs compatibles. Utilisez la prédiction en ligne pour effectuer des requêtes en réponse à des entrées d'application ou dans des situations nécessitant une inférence rapide.
Vous pouvez utiliser l'API Online Prediction en appliquant des ressources personnalisées Kubernetes au cluster de prédiction dédié que votre opérateur d'infrastructure (IO) crée pour vous.
Avant d'obtenir des prédictions en ligne, vous devez exporter les artefacts du modèle et déployer le modèle sur un point de terminaison. Cette action associe des ressources de calcul au modèle pour diffuser des prédictions en ligne avec une faible latence.
Vous pouvez ensuite obtenir des prédictions en ligne à partir d'un modèle entraîné personnalisé en mettant en forme et en envoyant une requête.
Images de conteneurs disponibles
Le tableau suivant contient la liste des conteneurs compatibles avec la prédiction en ligne dans Distributed Cloud :
ML framework | Version | Accélérateurs compatibles | Images compatibles |
---|---|---|---|
TensorFlow | 2.14 | Processeur | tf2-cpu.2-14 |
GPU | tf2-gpu.2-14 | ||
PyTorch | 2.4 | Processeur | pytorch-cpu.2-4 |
GPU | pytorch-gpu.2-4 | ||
2.1 (OBSOLÈTE) | Processeur | pytorch-cpu.2-1 | |
GPU | pytorch-gpu.2-1 |