A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Este documento explica como monitorar o comportamento, a integridade e a performance dos seus modelos totalmente gerenciados na Vertex AI. Ele descreve como usar o painel de observabilidade do modelo pré-criado para ter insights sobre o uso do modelo, identificar problemas de latência e resolver erros.
Você vai aprender a fazer o seguinte:
Acessar e interpretar o painel de capacidade de observação do modelo.
Confira as métricas de monitoramento disponíveis.
Monitore o tráfego do endpoint do modelo usando o Metrics Explorer.
Acessar e interpretar o painel de observabilidade do modelo
A IA generativa na Vertex AI oferece um painel de observabilidade de modelo pré-criado para
analisar o comportamento, a integridade e o desempenho de modelos totalmente gerenciados.
Os modelos totalmente gerenciados, também conhecidos como modelo como serviço (MaaS), são fornecidos pelo
Google e incluem os modelos Gemini do Google e modelos de parceiros
com endpoints gerenciados. As métricas de modelos auto-hospedados não estão incluídas no painel.
A IA generativa na Vertex AI coleta e informa automaticamente a atividade dos modelos de MaaS para ajudar você a resolver rapidamente problemas de latência e monitorar a capacidade.
Exemplo de painel de observabilidade do modelo
Caso de uso
Como desenvolvedor de aplicativos, você pode ver como os usuários estão interagindo com os modelos que você expôs. Por exemplo, é possível ver como o uso do modelo (solicitações de modelo por segundo) e a intensidade de computação dos comandos do usuário (latências de invocação do modelo) estão mudando ao longo do tempo. Como essas métricas estão relacionadas ao uso do modelo, também é possível estimar os custos de execução de cada um deles.
Quando um problema surge, você pode solucionar rapidamente no painel. Para verificar se os modelos estão respondendo de maneira confiável e em tempo hábil, confira as taxas de erro da API, as latências do primeiro token e a capacidade de processamento de tokens.
Métricas de monitoramento disponíveis
O painel de observabilidade do modelo mostra um subconjunto de métricas coletadas pelo Cloud Monitoring, como solicitações de modelo por segundo (QPS), taxa de transferência de tokens e latências do primeiro token. Acesse o painel para conferir todas as métricas disponíveis.
Limitações
A Vertex AI captura métricas do painel apenas para chamadas de API a um endpoint de modelo.O uso do console Google Cloud , como métricas do Vertex AI Studio, não é adicionado ao painel.
Ver o painel
Na seção "Vertex AI" do console Google Cloud , acesse a página
Painel.
Na seção Observabilidade do modelo, clique em Mostrar todas as métricas para ver
o painel de observabilidade do modelo no console do Google Cloud Observability.
Para conferir métricas de um modelo específico ou em um local específico, defina um ou mais filtros na parte de cima da página do painel.
Para ver uma descrição de cada métrica, consulte a seção "aiplatform" na página Google Cloud métricas.
Monitorar o tráfego do endpoint do modelo
Siga as instruções abaixo para monitorar o tráfego do seu endpoint no Metrics Explorer.
No console do Google Cloud , acesse a página Metrics Explorer.
Selecione o projeto para o qual você quer ver as métricas.
No menu suspenso Métrica, clique em Selecionar uma métrica.
Na barra de pesquisa Filtrar por nome do recurso ou da métrica, digite
Vertex AI Endpoint.
Selecione a categoria de métrica Endpoint da Vertex AI > Previsão. Em Métricas ativas, selecione uma das seguintes métricas:
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
Clique em Aplicar. Para adicionar mais de uma métrica, clique em Adicionar consulta.
É possível filtrar ou agregar suas métricas usando os seguintes menus suspensos:
Para selecionar e visualizar um subconjunto de dados com base em critérios especificados, use o menu suspenso Filtro. Por exemplo, para filtrar o modelo
gemini-2.0-flash-001, use endpoint_id = gemini-2p0-flash-001. Observe que
o . na versão do modelo é substituído por um p.
Para combinar vários pontos de dados em um único valor e ver uma visão resumida das suas métricas, use o menu suspenso Agregação. Por exemplo, é possível agregar a soma de response_code.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[],[],null,["# Monitor models\n\nThis document explains how to monitor the behavior, health, and performance of\nyour fully-managed models in Vertex AI. It describes how to use the prebuilt\nmodel observability dashboard to gain insights into model usage, identify\nlatency issues, and troubleshoot errors.\n\nYou learn how to do the following:\n\n- Access and interpret the model observability dashboard.\n- View available monitoring metrics.\n- Monitor model endpoint traffic using Metrics Explorer.\n\nAccess and interpret the model observability dashboard\n------------------------------------------------------\n\nGenerative AI on Vertex AI provides a prebuilt model observability dashboard to\nview the behavior, health, and performance of fully-managed models.\nFully-managed models, also known as Model as a Service (MaaS), are provided by\nGoogle and include Google's Gemini models and partner\nmodels with managed endpoints. Metrics from self-hosted models aren't included\nin the dashboard.\n\nGenerative AI on Vertex AI automatically collects and reports activity from MaaS\nmodels to help you quickly troubleshoot latency issues and monitor capacity.\n^Model observability dashboard example^\n\n### Use case\n\nAs an application developer, you can view how your users are interacting with\nthe models that you've exposed. For example, you can view how model usage (model\nrequests per second) and the compute intensity of user prompts (model invocation\nlatencies) are trending over time. Consequently, because these metrics are\nrelated to model usage, you can also estimate costs for running each model.\n\nWhen an issue arises, you can quickly troubleshoot from the dashboard. You can\ncheck if models are responding reliably and in a timely manner by viewing API\nerror rates, first token latencies, and token throughput.\n\n### Available monitoring metrics\n\nThe model observability dashboard displays a subset of metrics that are\ncollected by Cloud Monitoring, such as model request per second (QPS), token\nthroughput, and first token latencies. [View the dashboard](#view) to see all\nthe available metrics.\n\n### Limitations\n\nVertex AI captures dashboard metrics only for API calls to a\nmodel's endpoint. Google Cloud console usage, such as metrics from\nVertex AI Studio, aren't added to the dashboard.\n\n### View the dashboard\n\n1. In the Vertex AI section of the Google Cloud console, go to the\n **Dashboard** page.\n\n [Go to Vertex AI](https://console.cloud.google.com/vertex-ai/)\n2. In the **Model observability** section, click **Show all metrics** to view\n the model observability dashboard in the Google Cloud Observability console.\n\n | **Note:** The observability section is available only if you or another user has made API calls to a MaaS model in your project.\n3. To view metrics for a specific model or in a particular location, set one or\n more filters at the top of the dashboard page.\n\n For descriptions of each metric, see the \"`aiplatform`\" section on the\n [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page.\n\nMonitor model endpoint traffic\n------------------------------\n\nUse the following instructions to monitor traffic to your endpoint in the\nMetrics Explorer.\n\n1. In the Google Cloud console, go to the **Metrics Explorer** page.\n\n [Go\n to Metrics Explorer](https://console.cloud.google.com/projectselector/monitoring/metrics-explorer?supportedpurview=project,folder,organizationId)\n2. Select the project you want to view metrics for.\n\n3. From the **Metric** drop-down menu, click **Select a metric**.\n\n4. In the **Filter by resource or metric name** search bar, enter\n `Vertex AI Endpoint`.\n\n5. Select the **Vertex AI Endpoint \\\u003e Prediction** metric category. Under **Active metrics**, select any of the following metrics:\n\n - **`prediction/online/error_count`**\n - **`prediction/online/prediction_count`**\n - **`prediction/online/prediction_latencies`**\n - **`prediction/online/response_count`**\n\n Click **Apply** . To add more than one metric, click **Add query**.\n\n You can filter or aggregate your metrics using the following drop-down menus:\n - To select and view a subset of your data based on specified criteria, use\n the **Filter** drop-down menu. For example, to filter for the model\n `gemini-2.0-flash-001`, use `endpoint_id = gemini-2p0-flash-001` (note that\n the `.` in the model version is replaced with a `p`).\n\n - To combine multiple data points into a single value and see a summarized\n view of your metrics, use the **Aggregation** drop-down menu. For example, you can aggregate the **Sum** of `response_code`.\n\n6. Optionally, you can set up alerts for your endpoint. For more information,\n see [Manage alerting policies](/monitoring/alerts/manage-alerts).\n\nTo view the metrics you add to your project using a dashboard, see\n[Dashboards overview](/monitoring/dashboards).\n\nWhat's next\n-----------\n\n- To learn how to create alerts for your dashboard, see [Alerting overview](/monitoring/alerts).\n- To learn about metrics data retention, see the [Monitoring quotas and limits](/monitoring/quotas#data_retention_policy).\n- To learn about data at rest, see [Protecting data at rest](/monitoring/compliance/data-at-rest).\n- To view a list of all metrics that Cloud Monitoring collects, see the \"`aiplatform`\" section on the [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page."]]