Supervisa modelos

En este documento, se explica cómo supervisar el comportamiento, el estado y el rendimiento de tus modelos completamente administrados en Vertex AI. En él, se describe cómo usar el panel de observabilidad del modelo prediseñado para obtener estadísticas sobre el uso del modelo, identificar problemas de latencia y solucionar errores.

Aprenderás a hacer lo siguiente:

  • Acceder al panel de observabilidad del modelo e interpretarlo
  • Consulta las métricas de supervisión disponibles.
  • Supervisa el tráfico del extremo del modelo con el Explorador de métricas.

Cómo acceder al panel de observabilidad del modelo y cómo interpretarlo

La IA generativa en Vertex AI proporciona un panel de observabilidad de modelos prediseñado para ver el comportamiento, el estado y el rendimiento de los modelos completamente administrados. Google proporciona los modelos completamente administrados, también conocidos como Modelos como servicio (MaaS), que incluyen los modelos Gemini de Google y los modelos de socios con extremos administrados. Las métricas de los modelos alojados por el usuario no se incluyen en el panel.

La IA generativa en Vertex AI recopila y registra automáticamente la actividad de los modelos de MaaS para ayudarte a solucionar rápidamente los problemas de latencia y supervisar la capacidad.

Un panel de observabilidad del modelo de ejemplo en la consola de Cloud
Ejemplo de panel de observabilidad del modelo

Caso de uso

Como desarrollador de aplicaciones, puedes ver cómo interactúan los usuarios con los modelos que expusiste. Por ejemplo, puedes ver cómo evoluciona el uso del modelo (solicitudes del modelo por segundo) y la intensidad de procesamiento de las instrucciones del usuario (latencias de invocación del modelo) con el tiempo. Por lo tanto, como estas métricas se relacionan con el uso del modelo, también puedes estimar los costos de ejecución de cada modelo.

Cuando surge un problema, puedes solucionarlo rápidamente desde el panel. Puedes verificar si los modelos responden de manera confiable y oportuna consultando las tasas de error de la API, las latencias del primer token y la capacidad de procesamiento de tokens.

Métricas de supervisión disponibles

En el panel de observabilidad del modelo, se muestra un subconjunto de las métricas que recopila Cloud Monitoring, como las solicitudes del modelo por segundo (QPS), el rendimiento de los tokens y las latencias del primer token. Consulta el panel para ver todas las métricas disponibles.

Limitaciones

Vertex AI captura las métricas del panel solo para las llamadas a la API al extremo de un modelo. Google Cloud El uso de la consola, como las métricas de Vertex AI Studio, no se agrega al panel.

Visualiza el panel

  1. En la sección Vertex AI de la Google Cloud consola, ve a la página Panel.

    Ir a Vertex AI

  2. En la sección Observabilidad del modelo, haz clic en Mostrar todas las métricas para ver el panel de observabilidad del modelo en la consola de Google Cloud Observability.

  3. Para ver las métricas de un modelo específico o en una ubicación en particular, configura uno o más filtros en la parte superior de la página del panel.

    Para ver descripciones de cada métrica, consulta la sección "aiplatform" en la página Google Cloud métricas.

Supervisa el tráfico del extremo del modelo

Sigue las instrucciones que se indican a continuación para supervisar el tráfico hacia tu extremo en el Explorador de métricas.

  1. En la consola de Google Cloud , ve a la página Explorador de métricas.

    Ir al Explorador de métricas

  2. Selecciona el proyecto cuyas métricas deseas ver.

  3. En el menú desplegable Métrica, haz clic en Seleccionar una métrica.

  4. En la barra de búsqueda Filtrar por nombre de recurso o métrica, ingresa Vertex AI Endpoint.

  5. Selecciona la categoría de métrica Vertex AI Endpoint > Prediction. En Métricas activas, selecciona cualquiera de las siguientes métricas:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    Haz clic en Aplicar. Para agregar más de una métrica, haz clic en Agregar consulta.

    Puedes filtrar o agregar tus métricas con los siguientes menús desplegables:

    • Para seleccionar y ver un subconjunto de tus datos según criterios específicos, usa el menú desplegable Filtro. Por ejemplo, para filtrar el modelo gemini-2.0-flash-001, usa endpoint_id = gemini-2p0-flash-001 (ten en cuenta que el . en la versión del modelo se reemplaza por un p).

    • Para combinar varios puntos de datos en un solo valor y ver un resumen de tus métricas, usa el menú desplegable Agregación. Por ejemplo, puedes agregar la Suma de response_code.

  6. De forma opcional, puedes configurar alertas para tu extremo. Para obtener más información, consulta Administra políticas de alertas.

Para ver las métricas que agregas a tu proyecto con un panel, consulta Descripción general de los paneles.

¿Qué sigue?