Esta página foi traduzida pela API Cloud Translation.

Métricas do Cloud Monitoring para Vertex AI

A Vertex AI exporta métricas para o Cloud Monitoring. A Vertex AI também mostra algumas dessas métricas no console da Vertex AI Google Cloud . É possível usar o Cloud Monitoring para criar painéis ou configurar alertas com base nas métricas. Por exemplo, é possível receber alertas se a latência de previsão de um modelo no Vertex AI for muito alta.

As seções a seguir descrevem as métricas disponíveis no console da Vertex AI Google Cloud , que podem ser métricas diretas ou calculadas que a Vertex AI envia ao Cloud Monitoring.

Para conferir uma lista das métricas que a Vertex AI exporta para o Cloud Monitoring, consulte aiplatform. Para métricas de treinamento personalizadas, consulte os tipos de métricas que começam com training na seção ml.

Métricas personalizadas de monitoramento de treinamento

Ao fazer treinamentos personalizados, é possível monitorar os seguintes tipos de uso de recursos para cada nó de treinamento:

Uso da CPU ou da GPU de cada nó de treinamento
Utilização da memória de cada nó de treinamento
Uso da rede (bytes enviados por segundo e bytes recebidos por segundo)

Se você estiver usando o ajuste de hiperparâmetro, será possível ver as métricas de cada teste.

Para visualizar essas métricas depois de iniciar o treinamento personalizado, faça o seguinte:

No Google Cloud console, acesse uma das seguintes páginas, dependendo se você está usando o ajuste de hiperparâmetros:
- Se você não estiver usando o ajuste de hiperparâmetros, acesse a página Jobs personalizados.
  
  Acessar "Jobs personalizados"
- Se você estiver usando o ajuste de hiperparâmetros, acesse a página Jobs de ajuste de hiperparâmetros.
  
  Acessar jobs de ajuste de hiperparâmetros
Clique no nome do recurso de treinamento personalizado.

Se você criou um recurso TrainingPipeline personalizado, clique no nome do job criado pelo TrainingPipeline; por exemplo, TRAINING_PIPELINE_NAME-custom-job ou TRAINING_PIPELINE_NAME-hyperparameter-tuning-job.
Clique na guia CPU, GPU ou Rede para ver os gráficos de utilização da métrica em que você tem interesse.

Se você estiver usando o ajuste de hiperparâmetros, poderá clicar em uma linha na tabela Testes de ajuste do Hyperparamater para ver as métricas de um teste específico.

Para ver métricas mais antigas ou personalizar a forma como você visualiza as métricas, use o Monitoring. O Vertex AI exporta métricas de treinamento personalizadas para o Monitoring como tipos de métricas com o prefixo ml.googleapis.com/training. O tipo de recurso monitorado é cloudml_job.

O AI Platform Training exporta métricas para o Monitoring com os mesmos tipos de métrica e de recurso.

Métricas de monitoramento de endpoints

Depois de implantar um modelo em um endpoint, você pode monitorar o endpoint para entender o desempenho do modelo e o uso dos recursos. É possível rastrear métricas, como padrões de tráfego, taxas de erro, latência e utilização de recursos para garantir que o modelo responda às solicitações de maneira consistente e previsível. Por exemplo, é possível reimplantar o modelo com um tipo de máquina diferente para otimizar o custo. Depois de fazer as alterações, é possível monitorar o modelo para verificar se as alterações afetaram negativamente o desempenho.

No Cloud Monitoring, o tipo de recurso monitorado para modelos implantados é aiplatform.googleapis.com/Endpoint.

Métricas de desempenho

As métricas de desempenho podem ajudar você a encontrar informações sobre padrões de tráfego, erros e latência do seu modelo. Veja as métricas de desempenho a seguir no console Google Cloud .

Previsões por segundo: o número de previsões por segundo, tanto on-line quanto em lote. Se você tiver mais de uma instância por solicitação, cada instância será contabilizada no gráfico.
Porcentagem de erro da previsão: a taxa de erro do seu modelo. Uma taxa de erro alta pode indicar um problema com o modelo ou as solicitações feitas para ele. Veja o gráfico de códigos de resposta para determinar quais erros estão ocorrendo.
Latência do modelo (somente para modelos tabulares e personalizados): o tempo gasto na execução de computação.
Latência de sobrecarga (somente para modelos tabulares e personalizados): o tempo total gasto processando uma solicitação, fora do cálculo.
Duração total da latência: o tempo total que uma solicitação gasta no serviço. Esse valor é a latência do modelo mais a latência de sobrecarga.

Uso de recursos

As métricas de uso de recursos ajudam a rastrear o uso da CPU, o uso da memória e o uso da rede do modelo. Veja as métricas de uso a seguir no console doGoogle Cloud .

Contagem de réplicas: o número de réplicas ativas usadas pelo modelo implantado.
Destino da réplica: o número de réplicas ativas necessárias para o modelo implantado.
Uso da CPU: taxa atual de uso do núcleo da CPU da réplica do modelo implantado. 100% representa um núcleo de CPU totalmente utilizado. Portanto, uma réplica poderá atingir mais de 100% de utilização se o tipo de máquina tiver vários núcleos.
Uso da memória: a quantidade de memória alocada pela réplica do modelo implantada e atualmente em uso.
Bytes da rede enviados: o número de bytes enviados pela rede pela réplica do modelo implantado.
Bytes de rede recebidos: o número de bytes recebidos pela rede pela réplica do modelo implantado.
Ciclo de trabalho médio do acelerador: a fração média de tempo durante o período de amostra anterior em que um ou mais aceleradores estavam processando ativamente.
Uso da memória do acelerador: a quantidade de memória alocada pela réplica do modelo implantada.

Ver gráficos de métricas de monitoramento do endpoint

Acesse a página Endpoints da Vertex AI no Google Cloud console.

Acessar a página Endpoints
Clique no nome de um endpoint para visualizar as métricas dele.
Abaixo dos intervalos do gráfico, clique em Desempenho ou Uso do recurso para ver as métricas de desempenho ou uso do recurso.

Você pode selecionar intervalos de gráfico diferentes para ver os valores das métricas em um determinado período, como 1 hora, 12 horas ou 14 dias.

Se você tiver vários modelos implantados no endpoint, poderá selecionar ou desmarcar os modelos para visualizar ou ocultar métricas de modelos específicos. Se você selecionar vários modelos, o console agrupará algumas métricas de modelo em um único gráfico. Por exemplo, quando uma métrica fornece apenas um valor por modelo, o console agrupa as métricas do modelo em um único gráfico, como o uso da CPU. Para métricas que podem ter vários valores por modelo, o console fornece um gráfico para cada modelo. Por exemplo, o console fornece um gráfico com códigos de resposta para cada modelo.

Métricas de monitoramento do Vertex AI Feature Store (legado)

Depois de criar um feature store usando a Vertex AI Feature Store (legado), é possível monitorar o desempenho e a utilização de recursos, como as latências de veiculação de armazenamento on-line ou o número de nós de armazenamento on-line. Por exemplo, é possível monitorar as mudanças nas métricas de veiculação de armazenamento on-line depois de atualizar o número de nós de armazenamento on-line de um featurestore.

No Cloud Monitoring, o tipo de recurso monitorado de um featurestore é aiplatform.googleapis.com/Featurestore.

Métricas

Tamanho da solicitação: o tamanho da solicitação por tipo de entidade no featurestore.
Gravação de armazenamento off-line para gravação em streaming: o número de solicitações de gravação de streaming processadas para o armazenamento off-line.
Tempo de atraso de gravação de streaming no armazenamento off-line: o tempo decorrido (em segundos) entre a chamada da API de gravação e a gravação no armazenamento off-line.
Contagem de nós: o número de nós de exibição on-line do featurestore.
Latência: o tempo total que uma solicitação de ingestão de streaming ou disponibilização on-line consome no serviço.
Consultas por segundo: o número de consultas de ingestão de streaming ou disponibilização on-line processadas pelo featurestore.
Porcentagem de erros: a porcentagem de erros gerados pelo featurestore ao processar solicitações de ingestão de streaming ou disponibilização on-line.
Utilização da CPU: a fração da CPU alocada pelo featurestore que está sendo utilizada pelo armazenamento on-line. Esse número poderá exceder 100% se o armazenamento de exibição on-line estiver sobrecarregado. Considere aumentar o número de nós de exibição on-line do feature store para reduzir a utilização da CPU.
Uso da CPU: nó mais quente: a carga da CPU para o nó mais quente no armazenamento on-line do featurestore.
Armazenamento off-line total: quantidade de dados armazenados no armazenamento off-line do featurestore.
Armazenamento on-line total: quantidade de dados armazenados no armazenamento on-line do featurestore.
Capacidade de veiculação on-line: em MBps, a capacidade de solicitações de disponibilização on-line.

Ver gráficos de métricas de monitoramento da featurestore

Acesse a página Recursos da Vertex AI no Google Cloud console.

Acessar a página Recursos
Na coluna Featurestore, clique no nome de um featurestore para ver as métricas.

Você pode selecionar intervalos de gráfico diferentes para ver os valores de métricas em um determinado período, como 1 hora, 1 dia ou 1 semana.

Para algumas métricas de veiculação on-line, é possível visualizar métricas de um método específico, que detalha as métricas por tipo de entidade. Por exemplo, é possível ver a latência do método ReadFeatureValues ou StreamingReadFeatureValues.

Métricas de monitoramento do Feature Store da Vertex AI

Depois de configurar a veiculação on-line usando o Feature Store da Vertex AI, é possível monitorar a performance e a utilização de recursos. Por exemplo, é possível monitorar as cargas da CPU, o número de nós para exibição on-line otimizada e o número de solicitações de exibição.

No Cloud Monitoring, o tipo de recurso monitorado para uma instância de loja on-line é aiplatform.googleapis.com/FeatureOnlineStore.

Métricas

Bytes armazenados: a quantidade de dados em bytes na instância da loja on-line.
Carga da CPU: a carga média da CPU dos nós na instância da loja on-line.
Carga da CPU (nó mais quente): a carga da CPU do nó mais quente na instância da loja on-line.
Contagem de nós: o número de nós de exibição on-line para uma instância de loja on-line configurada para exibição on-line do Bigtable.
Contagem de nós otimizada: o número de nós de veiculação on-line para uma instância de loja on-line configurada para veiculação on-line otimizada.
Contagem de solicitações: o número de solicitações recebidas pela instância da loja on-line.
Latência de solicitação: a latência de solicitação do lado do servidor da instância da loja on-line.
Contagem de bytes de resposta: a quantidade de dados em bytes enviados nas respostas de exibição on-line.
Idades dos dados de exibição: a idade dos dados de exibição em segundos, medida como a diferença entre o horário atual e o horário da última sincronização.
Sincronizações em execução: o número de sincronizações em execução em um determinado momento.
Exibição de dados por tempo sincronizado: detalhamento dos dados na instância da loja on-line por carimbo de data/hora sincronizado.