A partire dal 29 aprile 2025, i modelli Gemini 1.5 Pro e Gemini 1.5 Flash non sono disponibili nei progetti che non li hanno mai utilizzati, inclusi i nuovi progetti. Per maggiori dettagli, vedi Versioni e ciclo di vita dei modelli.
Mantieni tutto organizzato con le raccolte
Salva e classifica i contenuti in base alle tue preferenze.
Questo documento spiega come monitorare il comportamento, l'integrità e le prestazioni dei modelli completamente gestiti in Vertex AI. Descrive come utilizzare la dashboard di osservabilità del modello predefinita per ottenere informazioni sull'utilizzo del modello, identificare problemi di latenza e risolvere gli errori.
Imparerai a:
Accedere alla dashboard di osservabilità del modello e interpretarla.
Visualizza le metriche di monitoraggio disponibili.
Monitora il traffico dell'endpoint del modello utilizzando Metrics Explorer.
Accedere alla dashboard di osservabilità del modello e interpretarla
L'AI generativa su Vertex AI fornisce un dashboard di osservabilità del modello predefinito per
visualizzare il comportamento, l'integrità e le prestazioni dei modelli completamente gestiti.
I modelli completamente gestiti, noti anche come Model as a Service (MaaS), sono forniti da Google e includono i modelli Gemini di Google e i modelli dei partner con endpoint gestiti. Le metriche dei modelli self-hosted non sono incluse
nella dashboard.
L'IA generativa su Vertex AI raccoglie e segnala automaticamente l'attività dei modelli MaaS
per aiutarti a risolvere rapidamente i problemi di latenza e monitorare la capacità.
Esempio di dashboard di osservabilità del modello
Caso d'uso
In qualità di sviluppatore di applicazioni, puoi visualizzare in che modo gli utenti interagiscono con
i modelli che hai esposto. Ad esempio, puoi visualizzare l'andamento nel tempo dell'utilizzo del modello (richieste
del modello al secondo) e dell'intensità di calcolo dei prompt degli utenti (latenze
di invocazione del modello). Di conseguenza, poiché queste metriche sono
correlate all'utilizzo del modello, puoi anche stimare i costi di esecuzione di ciascun modello.
Quando si verifica un problema, puoi risolverlo rapidamente dalla dashboard. Puoi
verificare se i modelli rispondono in modo affidabile e tempestivo visualizzando i tassi di errore dell'API, le latenze del primo token e la velocità effettiva dei token.
Metriche di monitoraggio disponibili
La dashboard di osservabilità del modello mostra un sottoinsieme di metriche raccolte da Cloud Monitoring, come le richieste al secondo (QPS) del modello, il throughput dei token e le latenze del primo token. Visualizza la dashboard per vedere tutte
le metriche disponibili.
Limitazioni
Vertex AI acquisisce le metriche della dashboard solo per le chiamate API a un
endpoint del modello. Google Cloud L'utilizzo della console, ad esempio le metriche di
Vertex AI Studio, non vengono aggiunte alla dashboard.
Visualizzare la dashboard
Nella sezione Vertex AI della console Google Cloud , vai alla pagina
Dashboard.
Nella sezione Osservabilità del modello, fai clic su Mostra tutte le metriche per visualizzare
la dashboard di osservabilità del modello nella console Google Cloud Observability.
Per visualizzare le metriche per un modello specifico o in una località particolare, imposta uno o più filtri nella parte superiore della pagina della dashboard.
Per le descrizioni di ogni metrica, consulta la sezione "aiplatform" nella pagina
Google Cloud Metriche.
Monitorare il traffico dell'endpoint del modello
Segui queste istruzioni per monitorare il traffico verso l'endpoint in
Metrics Explorere.
Nella console Google Cloud , vai alla pagina Esplora metriche.
Seleziona il progetto per cui vuoi visualizzare le metriche.
Nel menu a discesa Metrica, fai clic su Seleziona una metrica.
Nella barra di ricerca Filtra in base al nome della risorsa o della metrica, inserisci Vertex AI Endpoint.
Seleziona la categoria di metriche Endpoint Vertex AI > Previsione. In Metriche attive, seleziona una delle seguenti metriche:
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
Fai clic su Applica. Per aggiungere più di una metrica, fai clic su Aggiungi query.
Puoi filtrare o aggregare le metriche utilizzando i seguenti menu a discesa:
Per selezionare e visualizzare un sottoinsieme dei dati in base a criteri specifici, utilizza
il menu a discesa Filtro. Ad esempio, per filtrare in base al modello
gemini-2.0-flash-001, utilizza endpoint_id = gemini-2p0-flash-001 (tieni presente che
. nella versione del modello viene sostituito da p).
Per combinare più punti dati in un unico valore e visualizzare una visualizzazione riepilogativa delle metriche, utilizza il menu a discesa Aggregazione. Ad esempio, puoi aggregare la Somma di response_code.
(Facoltativo) Puoi configurare avvisi per l'endpoint. Per saperne di più,
consulta Gestire i criteri di avviso.
Per visualizzare le metriche che aggiungi al progetto utilizzando una dashboard, consulta la panoramica delle dashboard.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[],[],null,["# Monitor models\n\nThis document explains how to monitor the behavior, health, and performance of\nyour fully-managed models in Vertex AI. It describes how to use the prebuilt\nmodel observability dashboard to gain insights into model usage, identify\nlatency issues, and troubleshoot errors.\n\nYou learn how to do the following:\n\n- Access and interpret the model observability dashboard.\n- View available monitoring metrics.\n- Monitor model endpoint traffic using Metrics Explorer.\n\nAccess and interpret the model observability dashboard\n------------------------------------------------------\n\nGenerative AI on Vertex AI provides a prebuilt model observability dashboard to\nview the behavior, health, and performance of fully-managed models.\nFully-managed models, also known as Model as a Service (MaaS), are provided by\nGoogle and include Google's Gemini models and partner\nmodels with managed endpoints. Metrics from self-hosted models aren't included\nin the dashboard.\n\nGenerative AI on Vertex AI automatically collects and reports activity from MaaS\nmodels to help you quickly troubleshoot latency issues and monitor capacity.\n^Model observability dashboard example^\n\n### Use case\n\nAs an application developer, you can view how your users are interacting with\nthe models that you've exposed. For example, you can view how model usage (model\nrequests per second) and the compute intensity of user prompts (model invocation\nlatencies) are trending over time. Consequently, because these metrics are\nrelated to model usage, you can also estimate costs for running each model.\n\nWhen an issue arises, you can quickly troubleshoot from the dashboard. You can\ncheck if models are responding reliably and in a timely manner by viewing API\nerror rates, first token latencies, and token throughput.\n\n### Available monitoring metrics\n\nThe model observability dashboard displays a subset of metrics that are\ncollected by Cloud Monitoring, such as model request per second (QPS), token\nthroughput, and first token latencies. [View the dashboard](#view) to see all\nthe available metrics.\n\n### Limitations\n\nVertex AI captures dashboard metrics only for API calls to a\nmodel's endpoint. Google Cloud console usage, such as metrics from\nVertex AI Studio, aren't added to the dashboard.\n\n### View the dashboard\n\n1. In the Vertex AI section of the Google Cloud console, go to the\n **Dashboard** page.\n\n [Go to Vertex AI](https://console.cloud.google.com/vertex-ai/)\n2. In the **Model observability** section, click **Show all metrics** to view\n the model observability dashboard in the Google Cloud Observability console.\n\n | **Note:** The observability section is available only if you or another user has made API calls to a MaaS model in your project.\n3. To view metrics for a specific model or in a particular location, set one or\n more filters at the top of the dashboard page.\n\n For descriptions of each metric, see the \"`aiplatform`\" section on the\n [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page.\n\nMonitor model endpoint traffic\n------------------------------\n\nUse the following instructions to monitor traffic to your endpoint in the\nMetrics Explorer.\n\n1. In the Google Cloud console, go to the **Metrics Explorer** page.\n\n [Go\n to Metrics Explorer](https://console.cloud.google.com/projectselector/monitoring/metrics-explorer?supportedpurview=project,folder,organizationId)\n2. Select the project you want to view metrics for.\n\n3. From the **Metric** drop-down menu, click **Select a metric**.\n\n4. In the **Filter by resource or metric name** search bar, enter\n `Vertex AI Endpoint`.\n\n5. Select the **Vertex AI Endpoint \\\u003e Prediction** metric category. Under **Active metrics**, select any of the following metrics:\n\n - **`prediction/online/error_count`**\n - **`prediction/online/prediction_count`**\n - **`prediction/online/prediction_latencies`**\n - **`prediction/online/response_count`**\n\n Click **Apply** . To add more than one metric, click **Add query**.\n\n You can filter or aggregate your metrics using the following drop-down menus:\n - To select and view a subset of your data based on specified criteria, use\n the **Filter** drop-down menu. For example, to filter for the model\n `gemini-2.0-flash-001`, use `endpoint_id = gemini-2p0-flash-001` (note that\n the `.` in the model version is replaced with a `p`).\n\n - To combine multiple data points into a single value and see a summarized\n view of your metrics, use the **Aggregation** drop-down menu. For example, you can aggregate the **Sum** of `response_code`.\n\n6. Optionally, you can set up alerts for your endpoint. For more information,\n see [Manage alerting policies](/monitoring/alerts/manage-alerts).\n\nTo view the metrics you add to your project using a dashboard, see\n[Dashboards overview](/monitoring/dashboards).\n\nWhat's next\n-----------\n\n- To learn how to create alerts for your dashboard, see [Alerting overview](/monitoring/alerts).\n- To learn about metrics data retention, see the [Monitoring quotas and limits](/monitoring/quotas#data_retention_policy).\n- To learn about data at rest, see [Protecting data at rest](/monitoring/compliance/data-at-rest).\n- To view a list of all metrics that Cloud Monitoring collects, see the \"`aiplatform`\" section on the [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page."]]