Entender o desempenho do modelo é uma parte importante do gerenciamento de modelos de machine learning. É possível monitorar os padrões de tráfego, as taxas de erros, a latência e a utilização de recursos do modelo para identificar problemas nos modelos e encontrar o tipo certo para otimizar a latência e o custo.
Também é possível usar o Cloud Monitoring para configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão do modelo estiver muito alta. O AI Platform Prediction exporta métricas para o Cloud Monitoring.
Cada tipo de métrica do AI Platform Prediction inclui "previsão" no nome. Por exemplo, ml.googleapis.com/prediction/online/replicas
ou ml.googleapis.com/prediction/online/accelerator/duty_cycle
.
Como monitorar métricas de desempenho
Você encontra informações sobre os padrões de tráfego, erros e latência do modelo no console do Google Cloud . Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Performance:
- Previsões: o número de previsões por segundo na previsão on-line e em lote. Se você tiver mais de uma instância por solicitação, cada instância será contada nesse gráfico.
- Erros: a taxa de erros que seu modelo está produzindo. Uma alta taxa de erros geralmente é um sinal de que há algo errado com o modelo ou com as solicitações para o modelo. Os códigos de resposta podem ser usados para determinar quais erros estão ocorrendo.
- Latência do modelo e latência total: a latência do modelo. Latência total é o tempo total que a solicitação gasta no serviço. A latência do modelo é o tempo gasto na computação.
Para visualizar os gráficos de desempenho, siga estas etapas:
Acesse a página Modelos do AI Platform Prediction no console do Google Cloud .
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Se ela ainda não estiver selecionada, clique na guia Desempenho.
Role para visualizar cada um dos gráficos.
Como monitorar o consumo de recursos
Os gráficos de utilização de recursos das versões do modelo que usam tipos de máquina do Compute Engine (N1) estão disponíveis no console do Google Cloud . Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Uso do recurso:
- Resposta: o número de réplicas da versão. Se você estiver usando o escalonamento manual, este gráfico mostrará o número de nós escolhidos quando você implantou ou atualizou a versão pela última vez. Se você tiver ativado o escalonamento automático, o gráfico mostrará como a contagem de réplicas do modelo muda ao longo do tempo em resposta a alterações no tráfego.
- Uso da CPU, uso da memória, ciclo de trabalho médio do Acelerador e uso da memória do Acelerador: a utilização da CPU, da GPU e da memória da versão por réplica.
Bytes de rede enviados e bytes de rede recebidos: o uso de rede do job, medido em bytes por segundo.
Para visualizar os gráficos de utilização de recursos, siga estas etapas:
Acesse a página Modelos do AI Platform Prediction no console do Google Cloud .
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Clique na guia Uso de recursos.
Role para visualizar cada um dos gráficos.
A seguir
- Solucione problemas com a versão do modelo.
- Selecione um tipo de máquina para diminuir a latência ou os custos.