A Vertex AI oferece previsões on-line no Google Distributed Cloud (GDC) isolado por ar usando a API Online Prediction. Uma previsão é a saída de um modelo de machine learning treinado. Especificamente, as previsões on-line são solicitações síncronas feitas no endpoint do modelo.
Com a previsão on-line, é possível fazer upload, implantar, veicular e fazer solicitações usando seus próprios modelos de previsão em um conjunto de contêineres compatíveis. Use a previsão on-line ao fazer solicitações em resposta à entrada do aplicativo ou em situações que exigem inferência em tempo hábil.
É possível usar a API Online Prediction aplicando recursos personalizados do Kubernetes ao cluster de previsão dedicado que o operador de infraestrutura (IO) cria para você.
Antes de receber previsões on-line, é necessário exportar os artefatos do modelo e implantar o modelo em um endpoint. Essa ação associa recursos de computação ao modelo para veicular previsões on-line com baixa latência.
Em seguida, é possível receber previsões on-line de um modelo treinado personalizado formatando e enviando uma solicitação.
Imagens de contêiner disponíveis
A tabela a seguir contém a lista de contêineres compatíveis com a previsão on-line no Distributed Cloud:
Framework de ML | Versão | Aceleradores compatíveis | Imagens compatíveis |
---|---|---|---|
TensorFlow | 2.14 | CPU | tf2-cpu.2-14 |
GPU | tf2-gpu.2-14 | ||
PyTorch | 2.4 | CPU | pytorch-cpu.2-4 |
GPU | pytorch-gpu.2-4 | ||
2.1 (DESCONTINUADO) | CPU | pytorch-cpu.2-1 | |
GPU | pytorch-gpu.2-1 |