Métricas do Cloud Monitoring para Vertex AI

A Vertex AI exporta métricas para o Cloud Monitoring. A Vertex AI também mostra algumas dessas métricas no console do Google Cloud para a Vertex AI. É possível usar o Cloud Monitoring para criar painéis ou configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão de um modelo no Vertex AI for muito alta.

As seções a seguir descrevem as métricas disponíveis no console do Google Cloud para a Vertex AI, que podem ser métricas diretas ou calculadas que a Vertex AI envia ao Cloud Monitoring.

Para visualizar uma lista de métricas que o Vertex AI exporta para o Cloud Monitoring, consulte a seção "aiplatform" na página Métricas do Google Cloud do Monitoring. Para métricas de treinamento personalizadas, consulte os tipos de métricas que começam com training na seção "ml" dessa página.

Métricas personalizadas de monitoramento de treinamento

Ao fazer treinamentos personalizados, é possível monitorar os seguintes tipos de uso de recursos para cada nó de treinamento:

  • Uso da CPU ou da GPU de cada nó de treinamento
  • Utilização da memória de cada nó de treinamento
  • Uso da rede (bytes enviados por segundo e bytes recebidos por segundo)

Se você estiver usando o ajuste de hiperparâmetro, será possível ver as métricas de cada teste.

Para visualizar essas métricas depois de iniciar o treinamento personalizado, faça o seguinte:

  1. No console do Google Cloud, acesse uma das páginas a seguir, dependendo se você está usando o ajuste de hiperparâmetro:

  2. Clique no nome do recurso de treinamento personalizado.

    Se você criou um recurso TrainingPipeline personalizado, clique no nome do job criado pelo TrainingPipeline; por exemplo, TRAINING_PIPELINE_NAME-custom-job ou TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.

  3. Clique na guia CPU, GPU ou Rede para ver os gráficos de utilização da métrica em que você tem interesse.

    Se você estiver usando o ajuste de hiperparâmetros, poderá clicar em uma linha na tabela Testes de ajuste do Hyperparamater para ver as métricas de um teste específico.

Para ver métricas mais antigas ou personalizar a forma como você visualiza as métricas, use o Monitoring. O Vertex AI exporta métricas de treinamento personalizadas para o Monitoring como tipos de métricas com o prefixo ml.googleapis.com/training. O tipo de recurso monitorado é cloudml_job.

O AI Platform Training exporta métricas para o Monitoring com os mesmos tipos de métrica e de recurso.

Métricas de monitoramento de endpoints

Depois de implantar um modelo em um endpoint, você pode monitorar o endpoint para entender o desempenho do modelo e o uso dos recursos. É possível rastrear métricas, como padrões de tráfego, taxas de erro, latência e utilização de recursos para garantir que o modelo responda às solicitações de maneira consistente e previsível. Por exemplo, é possível reimplantar o modelo com um tipo de máquina diferente para otimizar o custo. Depois de fazer as alterações, é possível monitorar o modelo para verificar se as alterações afetaram negativamente o desempenho.

No Cloud Monitoring, o tipo de recurso monitorado para modelos implantados é aiplatform.googleapis.com/Endpoint.

Métricas de desempenho

As métricas de desempenho podem ajudar você a encontrar informações sobre padrões de tráfego, erros e latência do seu modelo. Veja as métricas de desempenho a seguir no console do Google Cloud.

  • Previsões por segundo: o número de previsões por segundo, tanto on-line quanto em lote. Se você tiver mais de uma instância por solicitação, cada instância será contabilizada no gráfico.
  • Porcentagem de erro da previsão: a taxa de erro do seu modelo. Uma taxa de erro alta pode indicar um problema com o modelo ou as solicitações feitas para ele. Veja o gráfico de códigos de resposta para determinar quais erros estão ocorrendo.
  • Latência do modelo (somente para modelos tabulares e personalizados): o tempo gasto na execução de computação.
  • Latência de sobrecarga (somente para modelos tabulares e personalizados): o tempo total gasto processando uma solicitação, fora do cálculo.
  • Duração total da latência: o tempo total que uma solicitação gasta no serviço. Esse valor é a latência do modelo mais a latência de sobrecarga.

Uso de recursos

As métricas de uso de recursos ajudam a rastrear o uso da CPU, o uso da memória e o uso da rede do modelo. Veja as métricas de uso a seguir no console do Google Cloud.

  • Contagem de réplicas: o número de réplicas ativas usadas pelo modelo implantado.
  • Destino da réplica: o número de réplicas ativas necessárias para o modelo implantado.
  • Uso da CPU: taxa atual de uso do núcleo da CPU da réplica do modelo implantado. 100% representa um núcleo de CPU totalmente utilizado. Portanto, uma réplica poderá atingir mais de 100% de utilização se o tipo de máquina tiver vários núcleos.
  • Uso da memória: a quantidade de memória alocada pela réplica do modelo implantada e atualmente em uso.
  • Bytes da rede enviados: o número de bytes enviados pela rede pela réplica do modelo implantado.
  • Bytes de rede recebidos: o número de bytes recebidos pela rede pela réplica do modelo implantado.
  • Ciclo de trabalho médio do acelerador: a fração média de tempo durante o período de amostra anterior em que um ou mais aceleradores estavam processando ativamente.
  • Uso da memória do acelerador: a quantidade de memória alocada pela réplica do modelo implantada.

Ver gráficos de métricas de monitoramento do endpoint

  1. Acesse a página Endpoints da Vertex AI no console do Google Cloud.

    Acessar a página Endpoints

  2. Clique no nome de um endpoint para visualizar as métricas dele.

  3. Abaixo dos intervalos do gráfico, clique em Desempenho ou Uso do recurso para ver as métricas de desempenho ou uso do recurso.

    Você pode selecionar intervalos de gráfico diferentes para ver os valores das métricas em um determinado período, como 1 hora, 12 horas ou 14 dias.

    Se você tiver vários modelos implantados no endpoint, poderá selecionar ou desmarcar os modelos para visualizar ou ocultar métricas de modelos específicos. Se você selecionar vários modelos, o console agrupará algumas métricas de modelo em um único gráfico. Por exemplo, quando uma métrica fornece apenas um valor por modelo, o console agrupa as métricas do modelo em um único gráfico, como o uso da CPU. Para métricas que podem ter vários valores por modelo, o console fornece um gráfico para cada modelo. Por exemplo, o console fornece um gráfico com códigos de resposta para cada modelo.

Métricas de monitoramento do Feature Store da Vertex AI

Depois de criar um featurestore, é possível monitorar o desempenho e a utilização dos recursos, como as latências de veiculação de armazenamento on-line ou o número de nós de armazenamento on-line. Por exemplo, é possível atualizar o número de nós de armazenamento on-line de um featurestore e, em seguida, monitorar as alterações nas métricas de disponibilização de armazenamento on-line.

No Cloud Monitoring, o tipo de recurso monitorado de um featurestore é aiplatform.googleapis.com/Featurestore.

Métricas

  • Tamanho da solicitação: o tamanho da solicitação por tipo de entidade no featurestore.
  • Gravação de armazenamento off-line para gravação em streaming: o número de solicitações de gravação de streaming processadas para o armazenamento off-line.
  • Tempo de atraso de gravação de streaming no armazenamento off-line: o tempo decorrido (em segundos) entre a chamada da API de gravação e a gravação no armazenamento off-line.
  • Contagem de nós: o número de nós de exibição on-line do featurestore.
  • Latência: o tempo total que uma solicitação de ingestão de streaming ou disponibilização on-line consome no serviço.
  • Consultas por segundo: o número de consultas de ingestão de streaming ou disponibilização on-line processadas pelo featurestore.
  • Porcentagem de erros: a porcentagem de erros gerados pelo featurestore ao processar solicitações de ingestão de streaming ou disponibilização on-line.
  • Utilização da CPU: a fração da CPU alocada pelo featurestore e atualmente em uso pelo armazenamento on-line. Esse número poderá exceder 100% se o armazenamento de exibição on-line estiver sobrecarregado. Considere aumentar o número de nós de exibição on-line do feature store para reduzir a utilização da CPU.
  • Uso da CPU: nó mais quente: a carga da CPU para o nó mais quente no armazenamento on-line do featurestore.
  • Armazenamento off-line total: quantidade de dados armazenados no armazenamento off-line do featurestore.
  • Armazenamento on-line total: quantidade de dados armazenados no armazenamento on-line do featurestore.
  • Capacidade de veiculação on-line: em MB/s, a capacidade de solicitações de disponibilização on-line.

Ver gráficos de métricas de monitoramento da featurestore

  1. Acesse a página Recursos da Vertex AI no console do Google Cloud.

    Acessar a página Recursos

  2. Na coluna Featurestore, clique no nome de um featurestore para ver as métricas.

    Você pode selecionar intervalos de gráfico diferentes para ver os valores de métricas em um determinado período, como 1 hora, 1 dia ou 1 semana.

    Para algumas métricas de veiculação on-line, é possível visualizar métricas de um método específico, que detalha as métricas por tipo de entidade. Por exemplo, é possível ver a latência do método ReadFeatureValues ou StreamingReadFeatureValues.