En esta página, se proporciona una lista completa de las métricas administradas basadas en rúbricas que ofrece el servicio de evaluación de IA generativa, que puedes usar en el cliente de GenAI en el SDK de Vertex AI.
Para obtener más información sobre la evaluación basada en pruebas, consulta Define tus métricas de evaluación.
Descripción general
El servicio de evaluación de IA generativa ofrece una lista de métricas administradas basadas en rúbricas para el framework de evaluación basado en pruebas:
En el caso de las métricas con rúbricas adaptativas, la mayoría incluye el flujo de trabajo para la generación de rúbricas para cada instrucción y la validación de la rúbrica. Puedes ejecutarlos por separado si es necesario. Consulta Ejecuta una evaluación para obtener más detalles.
Para las métricas con rúbricas estáticas, no se generan rúbricas por instrucción. Para obtener detalles sobre los resultados previstos, consulta Detalles de las métricas.
Cada métrica administrada basada en rúbricas tiene un número de versión. La métrica usa la versión más reciente de forma predeterminada, pero puedes fijar una versión específica si es necesario:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Retrocompatibilidad
En el caso de las métricas que se ofrecen como plantillas de instrucciones de métricas, aún puedes acceder a las métricas puntuales a través del cliente de GenAI en el SDK de Vertex AI con el mismo enfoque. El cliente de IA generativa en el SDK de Vertex AI no admite métricas de pares, pero consulta Cómo ejecutar una evaluación para comparar dos modelos en la misma evaluación.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detalles de las métricas administradas
En esta sección, se enumeran las métricas administradas con detalles como su tipo, las entradas requeridas y el resultado esperado:
- Calidad general
- Calidad del texto
- Acatamiento de instrucciones
- Fundamentación
- Seguridad
- Calidad general de varios turnos
- Calidad del texto en conversaciones de varios turnos
- Coincidencia de la respuesta final del agente
- Referencia de respuesta final del agente gratuita
Calidad general
Versión más reciente | general_quality_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica integral de rúbricas adaptativas que evalúa la calidad general de la respuesta de un modelo. Genera y evalúa automáticamente una amplia variedad de criterios en función del contenido de la instrucción. Este es el punto de partida recomendado para la mayoría de las evaluaciones. |
Cómo acceder en el SDK | types.RubricMetric.GENERAL_QUALITY |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 6 llamadas a Gemini 2.5 Flash |
Calidad del texto
Versión más reciente | text_quality_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica de rúbricas adaptativas segmentada que evalúa específicamente la calidad lingüística de la respuesta. Evalúa aspectos como la fluidez, la coherencia y la gramática. |
Cómo acceder en el SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 6 llamadas a Gemini 2.5 Flash |
Seguimiento de las instrucciones
Versión más reciente | instruction_following_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica de rúbricas adaptativas segmentada que mide qué tan bien se ajusta la respuesta a las instrucciones y restricciones específicas que se indican en la instrucción. |
Cómo acceder en el SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 6 llamadas a Gemini 2.5 Flash |
Fundamentos
Versión más reciente | grounding_v1 |
Tipo | Rúbricas estáticas |
Descripción | Es una métrica basada en la puntuación que verifica la facticidad y la coherencia. Verifica que la respuesta del modelo se base en el contexto. |
Cómo acceder en el SDK | types.RubricMetric.GROUNDING |
Entrada |
|
Resultado |
0-1 y representa la proporción de afirmaciones etiquetadas como supported o no_rad (que no requieren atribuciones fácticas, como saludos, preguntas o renuncias de responsabilidad) en la instrucción de entrada.
La explicación contiene agrupaciones de oraciones, etiquetas, razonamientos y extractos del contexto. |
Cantidad de llamadas al LLM | 1 llamada a Gemini 2.5 Flash |
Seguridad
Versión más reciente | safety_v1 |
Tipo | Rúbricas estáticas |
Descripción |
Es una métrica basada en la puntuación que evalúa si la respuesta del modelo incumplió una o más de las siguientes políticas:
|
Cómo acceder en el SDK | types.RubricMetric.SAFETY |
Entrada |
|
Resultado |
0 no es seguro y 1 es seguro.
El campo de explicación incluye las políticas incumplidas. |
Cantidad de llamadas al LLM | 10 llamadas a Gemini 2.5 Flash |
Calidad general de varios turnos
Versión más reciente | multi_turn_general_quality_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica de rúbricas adaptativas que evalúa la calidad general de la respuesta de un modelo en el contexto de un diálogo de varios turnos. |
Cómo acceder en el SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 6 llamadas a Gemini 2.5 Flash |
Calidad del texto de varios turnos
Versión más reciente | multi_turn_text_quality_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica de rúbricas adaptativas que evalúa la calidad del texto de la respuesta de un modelo en el contexto de un diálogo de varios turnos. |
Cómo acceder en el SDK | types.RubricMetric.TEXT_QUALITY |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 6 llamadas a Gemini 2.5 Flash |
Coincidencia de la respuesta final del agente
Versión más reciente | final_response_match_v2 |
Tipo | Rúbricas estáticas |
Descripción | Es una métrica que evalúa la calidad de la respuesta final de un agente de IA comparándola con una respuesta de referencia proporcionada (verdad fundamental). |
Cómo acceder en el SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Entrada |
|
Resultado |
Puntuación
|
Cantidad de llamadas al LLM | 5 llamadas a Gemini 2.5 Flash |
Referencia de respuesta final del agente sin cargo
Versión más reciente | final_response_reference_free_v1 |
Tipo | Rúbricas adaptables |
Descripción | Es una métrica de rúbricas adaptativas que evalúa la calidad de la respuesta final de un agente de IA sin necesidad de una respuesta de referencia.
Debes proporcionar rúbricas para esta métrica, ya que no admite rúbricas generadas automáticamente. |
Cómo acceder en el SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Entrada |
|
Resultado |
|
Cantidad de llamadas al LLM | 5 llamadas a Gemini 2.5 Flash |