Uma inferência é o resultado de um modelo de aprendizagem automática preparado. Esta página oferece uma vista geral do fluxo de trabalho para obter inferências dos seus modelos no Vertex AI.
O Vertex AI oferece dois métodos para obter inferências:
-
As inferências online são pedidos síncronos feitos a um modelo implementado num
Endpoint
. Por conseguinte, antes de enviar um pedido, tem de implementar primeiro o recursoModel
num ponto final. Isto associa recursos de computação ao modelo para que o modelo possa publicar inferências online com baixa latência. Use inferências online quando estiver a fazer pedidos em resposta à entrada da aplicação ou em situações que exijam inferência atempada. -
As inferências em lote são pedidos assíncronos feitos a um modelo que não está implementado num ponto final. Envia o pedido (como um recurso
BatchPredictionJob
) diretamente para o recursoModel
. Use inferências em lote quando não precisar de uma resposta imediata e quiser processar dados acumulados através de um único pedido.
Teste o seu modelo localmente
Antes de obter inferências, é útil implementar o modelo num ponto final local durante a fase de desenvolvimento e testes. Isto permite-lhe iterar mais rapidamente e testar o seu modelo sem o implementar num ponto final online nem incorrer em custos de inferência. A implementação local destina-se ao desenvolvimento e aos testes locais, não às implementações de produção.
Para implementar um modelo localmente, use o SDK da Vertex AI para Python e implemente um
LocalModel
num
LocalEndpoint
.
Para uma demonstração, consulte este bloco de notas.
Mesmo que o seu cliente não esteja escrito em Python, pode continuar a usar o SDK do Vertex AI para Python para iniciar o contentor e o servidor, de modo a poder testar pedidos do seu cliente.
Obtenha inferências de modelos personalizados preparados
Para receber inferências, tem de importar primeiro o seu modelo. Depois de importado, torna-se um recurso Model
visível no Registo de modelos da Vertex AI.
Em seguida, leia a seguinte documentação para saber como obter inferências:
O que se segue?
- Saiba mais sobre os recursos de computação para a previsão.