Monitorizar modelos

En este documento se explica cómo monitorizar el comportamiento, el estado y el rendimiento de los modelos totalmente gestionados en Vertex AI. Describe cómo usar el panel de control de observabilidad de modelos precompilados para obtener información valiosa sobre el uso de los modelos, identificar problemas de latencia y solucionar errores.

Aprenderás a hacer lo siguiente:

  • Acceder al panel de control de observabilidad del modelo e interpretarlo.
  • Consulta las métricas de monitorización disponibles.
  • Monitoriza el tráfico de los endpoints de modelos con el explorador de métricas.

Acceder al panel de control de observabilidad del modelo e interpretarlo

La IA generativa en Vertex AI proporciona un panel de control de observabilidad de modelos precompilado para ver el comportamiento, el estado y el rendimiento de los modelos totalmente gestionados. Google proporciona modelos totalmente gestionados, también conocidos como modelo como servicio (MaaS), que incluyen los modelos de Gemini de Google y los modelos de partners con endpoints gestionados. Las métricas de los modelos autohospedados no se incluyen en el panel de control.

La IA generativa en Vertex AI recoge y registra automáticamente la actividad de los modelos de MaaS para ayudarte a solucionar rápidamente los problemas de latencia y monitorizar la capacidad.

Panel de control de observabilidad de un modelo de ejemplo en la consola de Cloud
Ejemplo de panel de observabilidad de modelos

Caso práctico

Como desarrollador de aplicaciones, puede ver cómo interactúan sus usuarios con los modelos que ha expuesto. Por ejemplo, puede ver cómo evolucionan con el tiempo el uso del modelo (solicitudes de modelo por segundo) y la intensidad computacional de las peticiones de los usuarios (latencias de invocación del modelo). Por lo tanto, como estas métricas están relacionadas con el uso del modelo, también puedes estimar los costes de ejecutar cada modelo.

Si se produce un problema, puedes solucionarlo rápidamente desde el panel de control. Puedes comprobar si los modelos responden de forma fiable y oportuna consultando las tasas de errores de la API, las latencias del primer token y el rendimiento de los tokens.

Métricas de monitorización disponibles

El panel de control de observabilidad del modelo muestra un subconjunto de métricas que recoge Cloud Monitoring, como las solicitudes de modelo por segundo (QPS), el rendimiento de los tokens y las latencias del primer token. Consulta el panel de control para ver todas las métricas disponibles.

Limitaciones

Vertex AI solo registra las métricas del panel de control de las llamadas a la API al endpoint de un modelo. Google Cloud El uso de la consola, como las métricas de Vertex AI Studio, no se añade al panel de control.

Consultar el panel de control

  1. En la sección Vertex AI de la Google Cloud consola, ve a la página Panel de control.

    Ir a Vertex AI

  2. En la sección Observabilidad del modelo, haga clic en Mostrar todas las métricas para ver el panel de observabilidad del modelo en la consola de observabilidad de Google Cloud.

  3. Para ver las métricas de un modelo específico o de una ubicación concreta, defina uno o varios filtros en la parte superior de la página del panel de control.

    Para ver las descripciones de cada métrica, consulte la sección "aiplatform" de la página Google Cloud Métricas.

Monitorizar el tráfico de endpoints de modelos

Sigue estas instrucciones para monitorizar el tráfico de tu endpoint en el explorador de métricas.

  1. En la Google Cloud consola, ve a la página Explorador de métricas.

    Ir a Explorador de métricas

  2. Selecciona el proyecto cuyas métricas quieras ver.

  3. En el menú desplegable Métrica, haga clic en Seleccionar una métrica.

  4. En la barra de búsqueda Filtrar por nombre de recurso o métrica, introduce Vertex AI Endpoint.

  5. Seleccione la categoría de métrica Endpoint de Vertex AI > Predicción. En Métricas activas, seleccione una de las siguientes métricas:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    Haz clic en Aplicar. Para añadir más de una métrica, haga clic en Añadir consulta.

    Puede filtrar o agregar sus métricas mediante los siguientes menús desplegables:

    • Para seleccionar y ver un subconjunto de sus datos en función de los criterios especificados, utilice el menú desplegable Filtrar. Por ejemplo, para filtrar por el modelo gemini-2.0-flash-001, usa endpoint_id = gemini-2p0-flash-001 (ten en cuenta que el . de la versión del modelo se sustituye por un p).

    • Para combinar varios puntos de datos en un solo valor y ver un resumen de las métricas, usa el menú desplegable Agregación. Por ejemplo, puedes agregar la Suma de response_code.

  6. También puedes configurar alertas para tu endpoint. Para obtener más información, consulta Gestionar políticas de alertas.

Para ver las métricas que añades a tu proyecto mediante un panel de control, consulta el artículo Descripción general de los paneles de control.

Siguientes pasos