O AI Platform Prediction oferece duas maneiras de receber previsões de modelos treinados: previsão on-line, às vezes chamada de previsão HTTP, e previsão em lote. Nos dois casos, você passa dados de entrada a um modelo de machine learning hospedado em nuvem e recebe inferências para cada instância de dados. As diferenças são mostradas na tabela a seguir:
Previsão on-line | Previsão em lote |
---|---|
Otimizada para minimizar a latência das previsões de veiculação. | Otimizada para processar um alto volume de instâncias em um job e executar modelos mais complexos. |
Pode processar uma ou mais instâncias por solicitação. | Pode processar uma ou mais instâncias por solicitação. |
Previsões retornadas na mensagem de resposta. | Previsões gravadas em arquivos de saída em um local do Cloud Storage especificado por você. |
Dados de entrada passados diretamente como uma string JSON. | Dados de entrada passados indiretamente como um ou mais URIs de arquivos em locais do Cloud Storage. |
Retorna o mais rápido possível. | Solicitação assíncrona. |
Contas com os seguintes papéis do IAM podem solicitar previsões on-line: |
Contas com os papéis do IAM a seguir podem solicitar previsões em lote: |
É executada na versão no ambiente de execução e na região selecionada na implantação do modelo. | Pode ser executada em qualquer região disponível usando o ambiente de execução versão 2.1 ou anterior. Porém, deve ser executada com os valores padrão para as versões de modelo implantadas. |
Executa modelos implantados no AI Platform Prediction. | Executa modelos implantados no AI Platform Prediction ou armazenados em locais acessíveis do Google Cloud Storage. |
Configurável para usar vários tipos de máquinas virtuais em nós de previsão. |
Se estiver executando um modelo implantado no AI Platform Prediction, será necessário usar o
tipo de máquina
mls1-c1-m2 .
|
Pode exibir previsões de um SavedModel do TensorFlow ou de uma rotina de previsão personalizada (Beta), além de modelos do scikit-learn e do XGBoost. | Pode exibir predições de um SavedModel do TensorFlow. |
De US$ 0,045147 a US$ 0,151962 por hora do nó (Américas). O preço depende da seleção do tipo de máquina. | US$0,0791205 por hora de uso do nó (Américas). |
As necessidades do aplicativo determinam o tipo de previsão recomendado.
Em geral, usa-se a predição on-line ao fazer solicitações em resposta à entrada do aplicativo ou em outras situações em que a inferência em tempo hábil é necessária.
A previsão em lote é ideal para processar dados acumulados quando você não precisa de resultados imediatos. Por exemplo, um job periódico que recebe predições para todos os dados coletados desde o último job.
Considere na sua decisão as possíveis diferenças nos custos de predição.
Latência da previsão em lote
Se você usa um modelo simples e um pequeno conjunto de instâncias de entrada, verá que há uma diferença considerável entre a previsão on-line e a previsão em lote com relação ao tempo que cada uma leva para finalizar a mesma solicitação. Pode levar vários minutos para que um job em lote conclua previsões que são retornadas quase instantaneamente por uma solicitação on-line. Esse é um efeito colateral da infraestrutura diferente usada pelos dois métodos de previsão. O AI Platform Prediction aloca e inicializa recursos para um job de previsão em lote quando você envia a solicitação. A previsão on-line geralmente está pronta para ser processada no momento da solicitação.
A seguir
Leia a visão geral sobre previsões para mais informações.
Se preferir, acesse o artigo sobre como fazer previsões on-line ou em lote.