Este documento explica como monitorizar o comportamento, o estado e o desempenho dos seus modelos totalmente geridos no Vertex AI. Descreve como usar o painel de controlo de observabilidade do modelo pré-criado para obter estatísticas sobre a utilização do modelo, identificar problemas de latência e resolver erros.
Aprende a fazer o seguinte:
- Aceder e interpretar o painel de controlo de observabilidade do modelo.
- Veja as métricas de monitorização disponíveis.
- Monitorize o tráfego do ponto final do modelo através do explorador de métricas.
Aceda e interprete o painel de controlo de observabilidade do modelo
A IA generativa no Vertex AI oferece um painel de controlo de observabilidade de modelos pré-criados para ver o comportamento, o estado e o desempenho dos modelos totalmente geridos. Os modelos totalmente geridos, também conhecidos como modelo como serviço (MaaS), são fornecidos pela Google e incluem os modelos Gemini da Google e modelos de parceiros com pontos finais geridos. As métricas de modelos alojados por si não estão incluídas no painel de controlo.
A IA generativa na Vertex AI recolhe e comunica automaticamente a atividade dos modelos de MaaS para ajudar a resolver rapidamente problemas de latência e monitorizar a capacidade.

Exemplo de utilização
Como programador de aplicações, pode ver como os utilizadores estão a interagir com os modelos que expôs. Por exemplo, pode ver a tendência de utilização do modelo (pedidos do modelo por segundo) e a intensidade de computação dos comandos do utilizador (latências de invocação do modelo) ao longo do tempo. Consequentemente, como estas métricas estão relacionadas com a utilização do modelo, também pode estimar os custos de execução de cada modelo.
Quando surge um problema, pode resolvê-lo rapidamente a partir do painel de controlo. Pode verificar se os modelos estão a responder de forma fiável e atempada através da visualização das taxas de erro da API, das latências do primeiro token e do débito de tokens.
Métricas de monitorização disponíveis
O painel de controlo de observabilidade do modelo apresenta um subconjunto de métricas recolhidas pelo Cloud Monitoring, como o pedido de modelo por segundo (QPS), o débito de tokens e as latências do primeiro token. Veja o painel de controlo para ver todas as métricas disponíveis.
Limitações
O Vertex AI captura métricas do painel de controlo apenas para chamadas API ao ponto final de um modelo. Google Cloud A utilização da consola, como as métricas do Vertex AI Studio, não é adicionada ao painel de controlo.
Ver o painel de controlo
- Na secção Vertex AI da Google Cloud consola, aceda à página Painel de controlo.
Aceda ao Vertex AI 1. No painel de controlo, em Observabilidade do modelo, clique em Mostrar todas as métricas para ver o painel de controlo de observabilidade do modelo na consola Google Cloud Observability.
Para ver métricas de um modelo específico ou numa localização específica, defina um ou mais filtros na parte superior da página do painel de controlo.
Para ver descrições de cada métrica, consulte a secção "
aiplatform
" na página Google Cloud métricas.
Monitorize o tráfego do ponto final do modelo
Use as instruções seguintes para monitorizar o tráfego para o seu ponto final no Explorador de métricas.
Na Google Cloud consola, aceda à página Explorador de métricas.
Selecione o projeto para o qual quer ver as métricas.
No menu pendente Métrica, clique em Selecionar uma métrica.
Na barra de pesquisa Filtrar por nome do recurso ou da métrica, introduza
Vertex AI Endpoint
.Selecione a categoria de métricas Ponto final do Vertex AI > Previsão. Em Métricas ativas, selecione qualquer uma das seguintes métricas:
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
Clique em Aplicar. Para adicionar mais do que uma métrica, clique em Adicionar consulta.
Pode filtrar ou agregar as métricas através dos seguintes menus pendentes:
Para selecionar e ver um subconjunto dos seus dados com base em critérios especificados, use o menu pendente Filtro. Por exemplo, para filtrar o modelo
gemini-2.0-flash-001
, useendpoint_id = gemini-2p0-flash-001
(tenha em atenção que o.
na versão do modelo é substituído por ump
).Para combinar vários pontos de dados num único valor e ver uma vista resumida das suas métricas, use o menu pendente Agregação. Por exemplo, pode agregar a soma de
response_code
.
Opcionalmente, pode configurar alertas para o seu ponto final. Para mais informações, consulte o artigo Faça a gestão das políticas de alerta.
Para ver as métricas que adiciona ao seu projeto através de um painel de controlo, consulte o artigo Vista geral dos painéis de controlo.
O que se segue?
- Para saber como criar alertas para o seu painel de controlo, consulte o artigo Vista geral dos alertas.
- Para saber mais sobre a retenção de dados de métricas, consulte o artigo Monitorizar quotas e limites.
- Para saber mais acerca dos dados em repouso, consulte o artigo Proteger dados em repouso.
- Para ver uma lista de todas as métricas que o Cloud Monitoring recolhe, consulte a secção "
aiplatform
" na página Google Cloud métricas.