Esta versão legada do AI Platform Prediction está descontinuada e não estará mais disponível no Google Cloud após 31 de janeiro de 2025. Todos os modelos, metadados associados e implantações serão excluídos após 31 de janeiro de 2025. Migre seus recursos para a Vertex AI a fim de acessar novos recursos de machine learning que estão indisponíveis no AI Platform.

Esta página foi traduzida pela API Cloud Translation.

Como monitorar versões de modelo

Entender o desempenho do modelo é uma parte importante do gerenciamento de modelos de machine learning. É possível monitorar os padrões de tráfego, as taxas de erros, a latência e a utilização de recursos do modelo para identificar problemas nos modelos e encontrar o tipo certo para otimizar a latência e o custo.

Também é possível usar o Cloud Monitoring para configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão do modelo estiver muito alta. O AI Platform Prediction exporta métricas para o Cloud Monitoring. Cada tipo de métrica do AI Platform Prediction inclui "previsão" no nome. Por exemplo, ml.googleapis.com/prediction/online/replicas ou ml.googleapis.com/prediction/online/accelerator/duty_cycle.

Como monitorar métricas de desempenho

Você encontra informações sobre os padrões de tráfego, erros e latência do modelo no console do Google Cloud. Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Desempenho:

Previsões: o número de previsões por segundo na previsão on-line e em lote. Se você tiver mais de uma instância por solicitação, cada instância será contada nesse gráfico.
Erros: a taxa de erros que seu modelo está produzindo. Uma alta taxa de erros geralmente é um sinal de que há algo errado com o modelo ou com as solicitações para o modelo. Os códigos de resposta podem ser usados para determinar quais erros estão ocorrendo.
Latência do modelo e latência total: a latência do modelo. Latência total é o tempo total que a solicitação gasta no serviço. A latência do modelo é o tempo gasto na computação.

Para visualizar os gráficos de desempenho, siga estas etapas:

Acesse a página Modelos do AI Platform Prediction no console do Google Cloud.

Acessar a página de modelos
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Se ela ainda não estiver selecionada, clique na guia Desempenho.
Role para visualizar cada um dos gráficos.

Como monitorar o consumo de recursos

Os gráficos de utilização de recursos das versões do modelo que usam tipos de máquina do Compute Engine (N1) estão disponíveis no console do Google Cloud. Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Uso do recurso:

Resposta: o número de réplicas da versão. Se você estiver usando o escalonamento manual, este gráfico mostrará o número de nós escolhidos quando você implantou ou atualizou a versão pela última vez. Se você tiver ativado o escalonamento automático, o gráfico mostrará como a contagem de réplicas do modelo muda ao longo do tempo em resposta a alterações no tráfego.
Uso da CPU, uso da memória, ciclo de trabalho médio do Acelerador e uso da memória do Acelerador: a utilização da CPU, da GPU e da memória da versão por réplica.
Bytes de rede enviados e bytes de rede recebidos: o uso de rede do job, medido em bytes por segundo.

Observação: o gráfico Bytes de rede recebidos pode mostrar valores inesperados para versões de modelo de escalonamento automático. Estamos cientes do problema e trabalhando para corrigi-lo.

Para visualizar os gráficos de utilização de recursos, siga estas etapas:

Acesse a página Modelos do AI Platform Prediction no console do Google Cloud.

Acessar a página de modelos
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Clique na guia Uso de recursos.
Role para visualizar cada um dos gráficos.

A seguir

Solucione problemas com a versão do modelo.
Selecione um tipo de máquina para diminuir a latência ou os custos.