Entender o desempenho do modelo é uma parte importante do gerenciamento de modelos de machine learning. É possível monitorar os padrões de tráfego, as taxas de erros, a latência e a utilização de recursos do modelo para identificar problemas nos modelos e encontrar o tipo certo para otimizar a latência e o custo.
Também é possível usar o Cloud Monitoring para configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão do modelo estiver muito alta. O AI Platform Prediction exporta metrics para o Cloud Monitoring.
Cada tipo de métrica do AI Platform Prediction inclui "previsão" no nome. Por exemplo, ml.googleapis.com/prediction/online/replicas
ou ml.googleapis.com/prediction/online/accelerator/duty_cycle
.
Como monitorar métricas de desempenho
Você encontra informações sobre os padrões de tráfego, erros e latência do modelo no console do Google Cloud. Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Desempenho:
- Previsões: o número de previsões por segundo na previsão on-line e em lote. Se você tiver mais de uma instância por solicitação, cada instância será contada nesse gráfico.
- Erros: a taxa de erros que seu modelo está produzindo. Uma alta taxa de erros geralmente é um sinal de que há algo errado com o modelo ou com as solicitações para o modelo. Os códigos de resposta podem ser usados para determinar quais erros estão ocorrendo.
- Latência do modelo e latência total: a latência do modelo. Latência total é o tempo total que a solicitação gasta no serviço. A latência do modelo é o tempo gasto na computação.
Para visualizar os gráficos de desempenho, siga estas etapas:
Acesse a página Modelos do AI Platform Prediction no console do Google Cloud.
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Se ela ainda não estiver selecionada, clique na guia Desempenho.
Role para visualizar cada um dos gráficos.
Como monitorar o consumo de recursos
Os gráficos de utilização de recursos das versões do modelo que usam tipos de máquina do Compute Engine (N1) estão disponíveis no console do Google Cloud. Os gráficos a seguir estão disponíveis na página Detalhes da versão, na guia Uso do recurso:
- Resposta: o número de réplicas da versão. Se você estiver usando o escalonamento manual, este gráfico mostrará o número de nós escolhidos quando você implantou ou atualizou a versão pela última vez. Se você tiver ativado o escalonamento automático, o gráfico mostrará como a contagem de réplicas do modelo muda ao longo do tempo em resposta a alterações no tráfego.
- Uso da CPU, uso da memória, ciclo de trabalho médio do Acelerador e uso da memória do Acelerador: a utilização da CPU, da GPU e da memória da versão por réplica.
Bytes de rede enviados e bytes de rede recebidos: o uso de rede do job, medido em bytes por segundo.
Para visualizar os gráficos de utilização de recursos, siga estas etapas:
Acesse a página Modelos do AI Platform Prediction no console do Google Cloud.
Clique no nome do seu modelo na lista para acessar a página Detalhes do modelo.
Clique no nome da sua versão na lista para acessar a página Detalhes da versão.
Clique na guia Uso de recursos.
Role para visualizar cada um dos gráficos.
A seguir
- Solucione problemas com a versão do modelo.
- Selecione um tipo de máquina para diminuir a latência ou os custos.