Esta versão legada do AI Platform Prediction está descontinuada e não estará mais disponível no Google Cloud após 31 de janeiro de 2025. Todos os modelos, metadados associados e implantações serão excluídos após 31 de janeiro de 2025. Migre seus recursos para a Vertex AI a fim de acessar novos recursos de machine learning que estão indisponíveis no AI Platform.

Esta página foi traduzida pela API Cloud Translation.

Como monitorar versões de modelo

Entender o desempenho do modelo é uma parte importante do gerenciamento de modelos de machine learning. É possível monitorar os padrões de tráfego, as taxas de erros, a latência e a utilização de recursos do modelo para identificar problemas nos modelos e encontrar o tipo certo para otimizar a latência e o custo.

Também é possível usar o Cloud Monitoring para configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão do modelo estiver muito alta. O AI Platform Prediction exporta métricas para o Cloud Monitoring. Cada tipo de métrica do AI Platform Prediction inclui "previsão" no nome. Por exemplo, ml.googleapis.com/prediction/online/replicas ou ml.googleapis.com/prediction/online/accelerator/duty_cycle.

Como monitorar métricas de desempenho

Você encontra informações sobre os padrões de tráfego, erros e latência do modelo no console do Google Cloud . Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Performance:

Previsões: o número de previsões por segundo na previsão on-line e em lote. Se você tiver mais de uma instância por solicitação, cada instância será contada nesse gráfico.
Erros: a taxa de erros que seu modelo está produzindo. Uma alta taxa de erros geralmente é um sinal de que há algo errado com o modelo ou com as solicitações para o modelo. Os códigos de resposta podem ser usados para determinar quais erros estão ocorrendo.
Latência do modelo e latência total: a latência do modelo. Latência total é o tempo total que a solicitação gasta no serviço. A latência do modelo é o tempo gasto na computação.

Para visualizar os gráficos de desempenho, siga estas etapas:

Acesse a página Modelos do AI Platform Prediction no console do Google Cloud .

Acessar a página "Modelos"
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Se ela ainda não estiver selecionada, clique na guia Desempenho.
Role para visualizar cada um dos gráficos.

Como monitorar o consumo de recursos

Os gráficos de utilização de recursos das versões do modelo que usam tipos de máquina do Compute Engine (N1) estão disponíveis no console do Google Cloud . Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Uso do recurso:

Resposta: o número de réplicas da versão. Se você estiver usando o escalonamento manual, este gráfico mostrará o número de nós escolhidos quando você implantou ou atualizou a versão pela última vez. Se você tiver ativado o escalonamento automático, o gráfico mostrará como a contagem de réplicas do modelo muda ao longo do tempo em resposta a alterações no tráfego.
Uso da CPU, uso da memória, ciclo de trabalho médio do Acelerador e uso da memória do Acelerador: a utilização da CPU, da GPU e da memória da versão por réplica.
Bytes de rede enviados e bytes de rede recebidos: o uso de rede do job, medido em bytes por segundo.

Observação: o gráfico Bytes de rede recebidos pode mostrar valores inesperados para versões de modelo de escalonamento automático. Estamos cientes do problema e trabalhando para corrigi-lo.

Para visualizar os gráficos de utilização de recursos, siga estas etapas:

Acesse a página Modelos do AI Platform Prediction no console do Google Cloud .

Acessar a página "Modelos"
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Clique na guia Uso de recursos.
Role para visualizar cada um dos gráficos.

A seguir

Solucione problemas com a versão do modelo.
Selecione um tipo de máquina para diminuir a latência ou os custos.