Previsão on-line ou em lote

O AI Platform Prediction oferece duas maneiras de receber previsões de modelos treinados: previsão on-line, às vezes chamada de previsão HTTP, e previsão em lote. Nos dois casos, você passa dados de entrada a um modelo de machine learning hospedado em nuvem e recebe inferências para cada instância de dados. As diferenças são mostradas na tabela a seguir:

Previsão on-line Previsão em lote
Otimizada para minimizar a latência das previsões de veiculação. Otimizada para processar um alto volume de instâncias em um job e executar modelos mais complexos.
Pode processar uma ou mais instâncias por solicitação. Pode processar uma ou mais instâncias por solicitação.
Previsões retornadas na mensagem de resposta. Previsões gravadas em arquivos de saída em um local do Cloud Storage especificado por você.
Dados de entrada passados diretamente como uma string JSON. Dados de entrada passados indiretamente como um ou mais URIs de arquivos em locais do Cloud Storage.
Retorna o mais rápido possível. Solicitação assíncrona.

Contas com os seguintes papéis do IAM podem solicitar previsões on-line:

Contas com os papéis do IAM a seguir podem solicitar previsões em lote:

É executada na versão no ambiente de execução e na região selecionada na implantação do modelo. Pode ser executada em qualquer região disponível usando o ambiente de execução versão 2.1 ou anterior. Porém, deve ser executada com os valores padrão para as versões de modelo implantadas.
Executa modelos implantados no AI Platform Prediction. Executa modelos implantados no AI Platform Prediction ou armazenados em locais acessíveis do Google Cloud Storage.
Configurável para usar vários tipos de máquinas virtuais em nós de previsão. Se estiver executando um modelo implantado no AI Platform Prediction, será necessário usar o tipo de máquina mls1-c1-m2.
Pode exibir previsões de um SavedModel do TensorFlow ou de uma rotina de previsão personalizada (Beta), além de modelos do scikit-learn e do XGBoost. Pode exibir predições de um SavedModel do TensorFlow.
De US$ 0,045147 a US$ 0,151962 por hora do nó (Américas). O preço depende da seleção do tipo de máquina. US$0,0791205 por hora de uso do nó (Américas).

As necessidades do aplicativo determinam o tipo de previsão recomendado.

  • Em geral, usa-se a predição on-line ao fazer solicitações em resposta à entrada do aplicativo ou em outras situações em que a inferência em tempo hábil é necessária.

  • A previsão em lote é ideal para processar dados acumulados quando você não precisa de resultados imediatos. Por exemplo, um job periódico que recebe predições para todos os dados coletados desde o último job.

Considere na sua decisão as possíveis diferenças nos custos de predição.

Latência da previsão em lote

Se você usa um modelo simples e um pequeno conjunto de instâncias de entrada, verá que há uma diferença considerável entre a previsão on-line e a previsão em lote com relação ao tempo que cada uma leva para finalizar a mesma solicitação. Pode levar vários minutos para que um job em lote conclua previsões que são retornadas quase instantaneamente por uma solicitação on-line. Esse é um efeito colateral da infraestrutura diferente usada pelos dois métodos de previsão. O AI Platform Prediction aloca e inicializa recursos para um job de previsão em lote quando você envia a solicitação. A previsão on-line geralmente está pronta para ser processada no momento da solicitação.

A seguir

Leia a visão geral sobre previsões para mais informações.

Se preferir, acesse o artigo sobre como fazer previsões on-line ou em lote.