A Vertex AI exporta métricas para o Cloud Monitoring. O Vertex AI também mostra algumas destas métricas na consola do Vertex AI Google Cloud . Pode usar o Cloud Monitoring para criar painéis de controlo ou configurar alertas com base nas métricas. Por exemplo, pode receber alertas se a latência de previsão de um modelo no Vertex AI ficar demasiado elevada.
As secções seguintes descrevem as métricas fornecidas na consola do Google Cloud Vertex AI, que podem ser métricas diretas ou calculadas que o Vertex AI envia para o Cloud Monitoring.
Para ver uma lista da maioria das métricas que o Vertex AI exporta para o
Cloud Monitoring, consulte o artigo
aiplatform
. Para métricas de
preparação
personalizadas, consulte os tipos de métricas que começam com training
na secção
ml
.
Métricas de monitorização da preparação personalizada
Quando realiza uma preparação personalizada, pode monitorizar os seguintes tipos de utilização de recursos para cada nó de preparação:
- Utilização da CPU ou da GPU de cada nó de preparação
- Utilização da memória de cada nó de preparação
- Utilização da rede (bytes enviados por segundo e bytes recebidos por segundo)
Se estiver a usar a ajuste de hiperparâmetros, pode ver as métricas de cada tentativa.
Para ver estas métricas depois de iniciar o treino personalizado, faça o seguinte:
Na Google Cloud consola, aceda a uma das seguintes páginas, consoante esteja a usar o aperfeiçoamento de hiperparâmetros:
Se não estiver a usar o ajuste de hiperparâmetros, aceda à página Tarefas personalizadas.
Se estiver a usar o aperfeiçoamento de hiperparâmetros, aceda à página Tarefas de aperfeiçoamento de hiperparâmetros.
Clique no nome do recurso de preparação personalizado.
Se criou um recurso personalizado
TrainingPipeline
, clique no nome da tarefa criada peloTrainingPipeline
; por exemplo,TRAINING_PIPELINE_NAME-custom-job
ouTRAINING_PIPELINE_NAME-hyperparameter-tuning-job
.Clique no separador CPU, GPU ou Rede para ver gráficos de utilização da métrica que lhe interessa.
Se estiver a usar o aperfeiçoamento de hiperparâmetros, pode clicar numa linha na tabela Aperfeiçoamento de hiperparâmetros para ver as métricas de uma avaliação específica.
Para ver métricas mais antigas ou personalizar a forma como vê as métricas, use a
Monitorização. O Vertex AI exporta métricas de preparação personalizadas para a monitorização como tipos de métricas com o prefixo ml.googleapis.com/training
. O tipo de recurso monitorizado é cloudml_job
.
Tenha em atenção que a AI Platform Training exporta métricas para o Monitoring com os mesmos tipos de métricas e tipo de recurso.
Métricas de monitorização de pontos finais
Depois de implementar um modelo num ponto final, pode monitorizar o ponto final para compreender o desempenho do modelo e a utilização de recursos. Pode acompanhar métricas como padrões de tráfego, taxas de erro, latência e utilização de recursos para garantir que o seu modelo responde aos pedidos de forma consistente e previsível. Por exemplo, pode voltar a implementar o modelo com um tipo de máquina diferente para otimizar os custos. Depois de fazer a alteração, pode monitorizar o modelo para verificar se as alterações afetaram negativamente o respetivo desempenho.
No Cloud Monitoring, o tipo de recurso monitorizado para modelos implementados é aiplatform.googleapis.com/Endpoint
.
Métricas de desempenho
As métricas de desempenho podem ajudar a encontrar informações sobre os padrões de tráfego, os erros e a latência do seu modelo. Pode ver as seguintes métricas de desempenho na Google Cloud consola.
- Previsões por segundo: o número de previsões por segundo em previsões online e em lote. Se tiver mais do que uma instância por pedido, cada instância é contabilizada neste gráfico.
- Percentagem de erros de previsão: a taxa de erros que o seu modelo está a produzir. Uma taxa de erro elevada pode indicar um problema com o modelo ou com os pedidos ao modelo. Veja o gráfico de códigos de resposta para determinar que erros estão a ocorrer.
- Latência do modelo (apenas para modelos tabulares e personalizados): o tempo gasto a realizar cálculos.
- Latência de sobrecarga (apenas para modelos tabulares e personalizados): o tempo total gasto no processamento de um pedido, fora do cálculo.
- Duração total da latência: o tempo total que um pedido passa no serviço, que é a latência do modelo mais a latência de sobrecarga.
Utilização de recursos
As métricas de utilização de recursos podem ajudar a acompanhar a utilização da CPU, a utilização de memória e a utilização da rede do seu modelo. Pode ver as seguintes métricas de utilização na Google Cloud consola.
- Número de réplicas: o número de réplicas ativas usadas pelo modelo implementado.
- Alvo de réplica: o número de réplicas ativas necessárias para o modelo implementado.
- Utilização da CPU: taxa de utilização atual do núcleo da CPU da réplica do modelo implementado. 100% representa um núcleo da CPU totalmente utilizado, pelo que uma réplica pode atingir uma utilização superior a 100% se o respetivo tipo de máquina tiver vários núcleos.
- Utilização da memória: a quantidade de memória atribuída pela réplica do modelo implementado e atualmente em utilização.
- Bytes de rede enviados: o número de bytes enviados através da rede pela réplica do modelo implementado.
- Bytes recebidos pela rede: o número de bytes recebidos através da rede pela réplica do modelo implementado.
- Ciclo de trabalho médio do acelerador: a fração média de tempo durante o período de amostragem anterior em que um ou mais aceleradores estavam a processar ativamente.
- Utilização da memória do acelerador: a quantidade de memória atribuída pela réplica do modelo implementado.
Veja gráficos de métricas de monitorização de pontos finais
Aceda à página Endpoints do Vertex AI na Google Cloud consola.
Clique no nome de um ponto final para ver as respetivas métricas.
Abaixo dos intervalos do gráfico, clique em Desempenho ou Utilização de recursos para ver as métricas de desempenho ou de utilização de recursos.
Pode selecionar diferentes intervalos de gráficos para ver os valores das métricas durante um período específico, como 1 hora, 12 horas ou 14 dias.
Se tiver vários modelos implementados no ponto final, pode selecionar ou desmarcar modelos para ver ou ocultar métricas de modelos específicos. Se selecionar vários modelos, a consola agrupa algumas métricas de modelos num único gráfico. Por exemplo, se uma métrica fornecer apenas um valor por modelo, a consola agrupa as métricas do modelo num único gráfico, como a utilização da CPU. Para as métricas que podem ter vários valores por modelo, a consola apresenta um gráfico para cada modelo. Por exemplo, a consola fornece um gráfico de códigos de resposta para cada modelo.
Métricas de monitorização do Vertex AI Feature Store (antigo)
Depois de criar um Feature Store com o Vertex AI Feature Store (antigo), pode monitorizar o respetivo desempenho e utilização de recursos, como as latências de fornecimento de armazenamento online ou o número de nós de armazenamento online. Por exemplo, pode querer monitorizar as alterações às métricas de publicação de armazenamento online após atualizar o número de nós de armazenamento online de um Feature Store.
No Cloud Monitoring, o tipo de recurso monitorizado para um Feature Store é aiplatform.googleapis.com/Featurestore
.
Métrica
- Tamanho do pedido: o tamanho do pedido por tipo de entidade na sua Feature Store.
- Gravação de armazenamento offline para gravação de streaming: o número de pedidos de gravação de streaming processados para o armazenamento offline.
- Tempo de atraso da gravação de streaming no armazenamento offline: o tempo decorrido (em segundos) entre a chamada da API de gravação e a gravação no armazenamento offline.
- Número de nós: o número de nós de publicação online para o seu Feature Store.
- Latência: o tempo total que um pedido de publicação ou carregamento de streaming online passa no serviço.
- Consultas por segundo: o número de consultas de publicação online ou carregamento de streaming que o seu Feature Store processa.
- Percentagem de erros: a percentagem de erros que o featurestore produz ao processar pedidos de publicação online ou carregamento de streaming.
- Utilização da CPU: a fração da CPU atribuída pelo Feature Store que está a ser usada pelo armazenamento online. Este número pode exceder 100% se o armazenamento de publicação online estiver sobrecarregado. Considere aumentar o número de nós de publicação online do Feature Store para reduzir a utilização da CPU.
- Utilização da CPU – nó mais quente: a carga da CPU para o nó mais quente no armazenamento online do featurestore.
- Armazenamento offline total: quantidade de dados armazenados no armazenamento offline do Feature Store.
- Armazenamento online total: quantidade de dados armazenados no armazenamento online do Feature Store.
- Débito de publicação online: em MBps, o débito para pedidos de publicação online.
Veja gráficos de métricas de monitorização da Feature Store
Aceda à página Funcionalidades do Vertex AI na Google Cloud consola.
Na coluna Featurestore, clique no nome de um Featurestore para ver as respetivas métricas.
Pode selecionar diferentes intervalos do gráfico para ver os valores das métricas durante um período específico, como 1 hora, 1 dia ou 1 semana.
Para algumas métricas de publicação online, pode optar por ver métricas para um método específico, o que divide ainda mais as métricas por tipo de entidade. Por exemplo, pode ver a latência do método
ReadFeatureValues
ou do métodoStreamingReadFeatureValues
.
Métricas de monitorização do Vertex AI Feature Store
Depois de configurar a publicação online através do Vertex AI Feature Store, pode monitorizar o respetivo desempenho e utilização de recursos. Por exemplo, pode monitorizar as cargas da CPU, o número de nós para a publicação online otimizada e o número de pedidos de publicação.
No Cloud Monitoring, o tipo de recurso monitorizado para uma instância de loja online é aiplatform.googleapis.com/FeatureOnlineStore
.
Métrica
Bytes armazenados: a quantidade de dados em bytes na instância da loja online.
Carga da CPU: a carga média da CPU dos nós na instância da loja online.
Carga da CPU (nó mais quente): a carga da CPU do nó mais quente na instância da loja online.
Número de nós: o número de nós de publicação online para uma instância de loja online configurada para publicação online do Bigtable.
Contagem de nós otimizados: o número de nós de publicação online para uma instância de loja online configurada para publicação online otimizada.
Contagem de pedidos: o número de pedidos recebidos pela instância da loja online.
Latência do pedido: a latência do pedido do lado do servidor da instância da loja online.
Contagem de bytes de resposta: a quantidade de dados em bytes enviados nas respostas de serviço online.
Idade dos dados de publicação: a idade dos dados de publicação em segundos, medida como a diferença entre a hora atual e a hora da última sincronização.
Sincronizações em execução: o número de sincronizações em execução num determinado momento.
Apresentação de dados por hora sincronizada: discriminação dos dados na instância da loja online pela data/hora sincronizada.