Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Ce document explique comment surveiller le comportement, l'état et les performances de vos modèles entièrement gérés dans Vertex AI. Il explique comment utiliser le tableau de bord d'observabilité des modèles prédéfinis pour obtenir des insights sur l'utilisation des modèles, identifier les problèmes de latence et résoudre les erreurs.
Vous allez apprendre à :
Accédez au tableau de bord d'observabilité des modèles et interprétez-le.
Affichez les métriques de surveillance disponibles.
Surveillez le trafic des points de terminaison du modèle à l'aide de l'explorateur de métriques.
Accéder au tableau de bord d'observabilité des modèles et l'interpréter
L'IA générative sur Vertex AI fournit un tableau de bord d'observabilité de modèle prédéfini pour afficher le comportement, l'état et les performances des modèles entièrement gérés.
Les modèles entièrement gérés, également appelés "modèle en tant que service" (MaaS, Model as a Service), sont fournis par Google. Ils incluent les modèles Gemini de Google et les modèles partenaires avec des points de terminaison gérés. Les métriques des modèles auto-hébergés ne sont pas incluses dans le tableau de bord.
L'IA générative sur Vertex AI collecte et signale automatiquement l'activité des modèles MaaS pour vous aider à résoudre rapidement les problèmes de latence et à surveiller la capacité.
Exemple de tableau de bord d'observabilité des modèles
Cas d'utilisation
En tant que développeur d'applications, vous pouvez voir comment vos utilisateurs interagissent avec les modèles que vous avez exposés. Par exemple, vous pouvez voir comment l'utilisation du modèle (demandes de modèle par seconde) et l'intensité de calcul des requêtes utilisateur (latences d'invocation du modèle) évoluent au fil du temps. Par conséquent, comme ces métriques sont liées à l'utilisation des modèles, vous pouvez également estimer les coûts d'exécution de chaque modèle.
En cas de problème, vous pouvez le résoudre rapidement depuis le tableau de bord. Vous pouvez vérifier si les modèles répondent de manière fiable et rapide en consultant les taux d'erreur de l'API, les latences du premier jeton et le débit de jetons.
Métriques de surveillance disponibles
Le tableau de bord d'observabilité des modèles affiche un sous-ensemble de métriques collectées par Cloud Monitoring, telles que les requêtes par seconde (RPS) du modèle, le débit de jetons et les latences du premier jeton. Affichez le tableau de bord pour voir toutes les métriques disponibles.
Limites
Vertex AI ne capture les métriques du tableau de bord que pour les appels d'API à un point de terminaison de modèle.L'utilisation de la console Google Cloud , comme les métriques de Vertex AI Studio, n'est pas ajoutée au tableau de bord.
Consulter le tableau de bord
Dans la section Vertex AI de la console Google Cloud , accédez à la page Tableau de bord.
Dans la section Observabilité du modèle, cliquez sur Afficher toutes les métriques pour afficher le tableau de bord d'observabilité du modèle dans la console Google Cloud Observability.
Pour afficher les métriques d'un modèle spécifique ou dans un lieu particulier, définissez un ou plusieurs filtres en haut de la page du tableau de bord.
Pour obtenir une description de chaque métrique, consultez la section "aiplatform" de la page Google Cloud métriques.
Surveiller le trafic des points de terminaison du modèle
Suivez les instructions ci-dessous pour surveiller le trafic vers votre point de terminaison dans l'explorateur de métriques.
Dans la console Google Cloud , accédez à la page Explorateur de métriques.
Sélectionnez le projet pour lequel vous souhaitez afficher les métriques.
Dans le menu déroulant Métrique, cliquez sur Sélectionner une métrique.
Dans la barre de recherche Filtrer par nom de ressource ou de métrique, saisissez Vertex AI Endpoint.
Sélectionnez la catégorie de métrique Point de terminaison Vertex AI > Prédiction. Sous Métriques actives, sélectionnez l'une des métriques suivantes :
prediction/online/error_count
prediction/online/prediction_count
prediction/online/prediction_latencies
prediction/online/response_count
Cliquez sur Appliquer. Pour ajouter plusieurs métriques, cliquez sur Ajouter une requête.
Vous pouvez filtrer ou agréger vos métriques à l'aide des menus déroulants suivants :
Pour sélectionner et afficher un sous-ensemble de vos données en fonction de critères spécifiés, utilisez le menu déroulant Filtre. Par exemple, pour filtrer le modèle gemini-2.0-flash-001, utilisez endpoint_id = gemini-2p0-flash-001 (notez que le . dans la version du modèle est remplacé par un p).
Pour combiner plusieurs points de données en une seule valeur et afficher un récapitulatif de vos métriques, utilisez le menu déroulant Agrégation. Par exemple, vous pouvez agréger la somme de response_code.
Vous pouvez éventuellement configurer des alertes pour votre point de terminaison. Pour en savoir plus, consultez Gérer les règles d'alerte.
Pour afficher les métriques que vous ajoutez à votre projet à l'aide d'un tableau de bord, consultez Présentation des tableaux de bord.
Étapes suivantes
Pour savoir comment créer des alertes pour votre tableau de bord, consultez la présentation des alertes.
Pour afficher la liste de toutes les métriques collectées par Cloud Monitoring, consultez la section "aiplatform" de la page Google Cloud métriques.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Monitor models\n\nThis document explains how to monitor the behavior, health, and performance of\nyour fully-managed models in Vertex AI. It describes how to use the prebuilt\nmodel observability dashboard to gain insights into model usage, identify\nlatency issues, and troubleshoot errors.\n\nYou learn how to do the following:\n\n- Access and interpret the model observability dashboard.\n- View available monitoring metrics.\n- Monitor model endpoint traffic using Metrics Explorer.\n\nAccess and interpret the model observability dashboard\n------------------------------------------------------\n\nGenerative AI on Vertex AI provides a prebuilt model observability dashboard to\nview the behavior, health, and performance of fully-managed models.\nFully-managed models, also known as Model as a Service (MaaS), are provided by\nGoogle and include Google's Gemini models and partner\nmodels with managed endpoints. Metrics from self-hosted models aren't included\nin the dashboard.\n\nGenerative AI on Vertex AI automatically collects and reports activity from MaaS\nmodels to help you quickly troubleshoot latency issues and monitor capacity.\n^Model observability dashboard example^\n\n### Use case\n\nAs an application developer, you can view how your users are interacting with\nthe models that you've exposed. For example, you can view how model usage (model\nrequests per second) and the compute intensity of user prompts (model invocation\nlatencies) are trending over time. Consequently, because these metrics are\nrelated to model usage, you can also estimate costs for running each model.\n\nWhen an issue arises, you can quickly troubleshoot from the dashboard. You can\ncheck if models are responding reliably and in a timely manner by viewing API\nerror rates, first token latencies, and token throughput.\n\n### Available monitoring metrics\n\nThe model observability dashboard displays a subset of metrics that are\ncollected by Cloud Monitoring, such as model request per second (QPS), token\nthroughput, and first token latencies. [View the dashboard](#view) to see all\nthe available metrics.\n\n### Limitations\n\nVertex AI captures dashboard metrics only for API calls to a\nmodel's endpoint. Google Cloud console usage, such as metrics from\nVertex AI Studio, aren't added to the dashboard.\n\n### View the dashboard\n\n1. In the Vertex AI section of the Google Cloud console, go to the\n **Dashboard** page.\n\n [Go to Vertex AI](https://console.cloud.google.com/vertex-ai/)\n2. In the **Model observability** section, click **Show all metrics** to view\n the model observability dashboard in the Google Cloud Observability console.\n\n | **Note:** The observability section is available only if you or another user has made API calls to a MaaS model in your project.\n3. To view metrics for a specific model or in a particular location, set one or\n more filters at the top of the dashboard page.\n\n For descriptions of each metric, see the \"`aiplatform`\" section on the\n [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page.\n\nMonitor model endpoint traffic\n------------------------------\n\nUse the following instructions to monitor traffic to your endpoint in the\nMetrics Explorer.\n\n1. In the Google Cloud console, go to the **Metrics Explorer** page.\n\n [Go\n to Metrics Explorer](https://console.cloud.google.com/projectselector/monitoring/metrics-explorer?supportedpurview=project,folder,organizationId)\n2. Select the project you want to view metrics for.\n\n3. From the **Metric** drop-down menu, click **Select a metric**.\n\n4. In the **Filter by resource or metric name** search bar, enter\n `Vertex AI Endpoint`.\n\n5. Select the **Vertex AI Endpoint \\\u003e Prediction** metric category. Under **Active metrics**, select any of the following metrics:\n\n - **`prediction/online/error_count`**\n - **`prediction/online/prediction_count`**\n - **`prediction/online/prediction_latencies`**\n - **`prediction/online/response_count`**\n\n Click **Apply** . To add more than one metric, click **Add query**.\n\n You can filter or aggregate your metrics using the following drop-down menus:\n - To select and view a subset of your data based on specified criteria, use\n the **Filter** drop-down menu. For example, to filter for the model\n `gemini-2.0-flash-001`, use `endpoint_id = gemini-2p0-flash-001` (note that\n the `.` in the model version is replaced with a `p`).\n\n - To combine multiple data points into a single value and see a summarized\n view of your metrics, use the **Aggregation** drop-down menu. For example, you can aggregate the **Sum** of `response_code`.\n\n6. Optionally, you can set up alerts for your endpoint. For more information,\n see [Manage alerting policies](/monitoring/alerts/manage-alerts).\n\nTo view the metrics you add to your project using a dashboard, see\n[Dashboards overview](/monitoring/dashboards).\n\nWhat's next\n-----------\n\n- To learn how to create alerts for your dashboard, see [Alerting overview](/monitoring/alerts).\n- To learn about metrics data retention, see the [Monitoring quotas and limits](/monitoring/quotas#data_retention_policy).\n- To learn about data at rest, see [Protecting data at rest](/monitoring/compliance/data-at-rest).\n- To view a list of all metrics that Cloud Monitoring collects, see the \"`aiplatform`\" section on the [Google Cloud metrics](/monitoring/api/metrics_gcp_a_b#gcp-aiplatform) page."]]