Desde el 29 de abril del 2025, los modelos Gemini 1.5 Pro y Gemini 1.5 Flash no están disponibles en proyectos donde no se hayan utilizado previamente, incluidos los proyectos nuevos. Para obtener más información, consulta Versiones y ciclo de vida de los modelos.

Esta página se ha traducido con Cloud Translation API.

Evaluar un agente

Después de desarrollar un agente, puedes usar el servicio de evaluación de IA generativa para evaluar la capacidad del agente de completar tareas y objetivos en un caso práctico concreto.

Definir métricas de evaluación

Empieza con una lista de métricas vacía (por ejemplo, metrics = []) y añade las métricas relevantes. Para incluir métricas adicionales, sigue estos pasos:

Respuesta final

La evaluación de la respuesta final sigue el mismo proceso que la evaluación basada en modelos. Para obtener más información, consulta Definir las métricas de evaluación.

Concordancia exacta

metrics.append("trajectory_exact_match")

Si la trayectoria prevista es idéntica a la trayectoria de referencia, con las mismas llamadas a herramientas en el mismo orden, la métrica trajectory_exact_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: lista de llamadas a herramientas que ha usado el agente para llegar a la respuesta final.
reference_trajectory: el uso esperado de la herramienta por parte del agente para responder a la consulta.

Coincidencia en orden

metrics.append("trajectory_in_order_match")

Si la trayectoria prevista contiene todas las llamadas a herramientas de la trayectoria de referencia en el mismo orden y puede tener llamadas a herramientas adicionales, la métrica trajectory_in_order_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: la trayectoria prevista que usa el agente para llegar a la respuesta final.
reference_trajectory: la trayectoria prevista del agente para responder a la consulta.

Coincidencia en cualquier orden

metrics.append("trajectory_any_order_match")

Si la trayectoria prevista contiene todas las llamadas a herramientas de la trayectoria de referencia, pero el orden no importa y puede contener llamadas a herramientas adicionales, la métrica trajectory_any_order_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: lista de llamadas a herramientas que ha usado el agente para llegar a la respuesta final.
reference_trajectory: el uso esperado de la herramienta por parte del agente para responder a la consulta.

Precisión

metrics.append("trajectory_precision")

La métrica trajectory_precision mide cuántas de las llamadas a herramientas de la trayectoria prevista son relevantes o correctas según la trayectoria de referencia. Es un valor de float en el intervalo de [0, 1]: cuanto mayor sea la puntuación, más precisa será la trayectoria prevista.

La precisión se calcula de la siguiente manera: cuenta cuántas acciones de la trayectoria predicha también aparecen en la trayectoria de referencia. Divide ese recuento entre el número total de acciones de la trayectoria prevista.

Parámetros de entrada:

predicted_trajectory: lista de llamadas a herramientas que ha usado el agente para llegar a la respuesta final.
reference_trajectory: el uso esperado de la herramienta por parte del agente para responder a la consulta.

Recuperación

metrics.append("trajectory_recall")

La métrica trajectory_recall mide cuántas de las llamadas a herramientas esenciales de la trayectoria de referencia se capturan realmente en la trayectoria prevista. Es un valor float en el intervalo de [0, 1]: cuanto mayor sea la puntuación, mejor será el recuerdo de la trayectoria prevista.

El recall se calcula de la siguiente manera: cuenta cuántas acciones de la trayectoria de referencia también aparecen en la trayectoria predicha. Divide ese recuento entre el número total de acciones de la trayectoria de referencia.

Parámetros de entrada:

predicted_trajectory: lista de llamadas a herramientas que ha usado el agente para llegar a la respuesta final.
reference_trajectory: el uso esperado de la herramienta por parte del agente para responder a la consulta.

Uso de una sola herramienta

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La métrica trajectory_single_tool_use comprueba si se usa una herramienta específica que se indica en la especificación de la métrica en la trayectoria prevista. No comprueba el orden de las llamadas a herramientas ni cuántas veces se usa la herramienta, solo si está presente o no. Es un valor de 0 si la herramienta no está presente y 1 en caso contrario.

Parámetros de entrada:

predicted_trajectory: lista de llamadas a herramientas que ha usado el agente para llegar a la respuesta final.

Personalizado

Puede definir una métrica personalizada de la siguiente manera:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Las dos métricas de rendimiento siguientes siempre se incluyen en los resultados. No es necesario que los especifiques en EvalTask:

latency (float): tiempo que tarda el agente en responder (en segundos).
failure (bool): 0 si la invocación del agente se ha realizado correctamente; de lo contrario, 1.

Preparar el conjunto de datos de evaluación

Para preparar tu conjunto de datos para la respuesta final o la evaluación de la trayectoria, sigue estos pasos: