Se usó la API de Cloud Translation para traducir esta página.

Cómo evaluar un agente

Después de desarrollar un agente, puedes usar el servicio de evaluación de IA generativa para evaluar la capacidad del agente de completar tareas y objetivos para un caso de uso determinado.

Define las métricas de evaluación

Comienza con una lista vacía de métricas (es decir, metrics = []) y agrégale las métricas pertinentes. Para incluir métricas adicionales, sigue estos pasos:

Respuesta final

La evaluación de la respuesta final sigue el mismo proceso que la evaluación basada en el modelo. Para obtener más información, consulta Define tus métricas de evaluación.

Concordancia exacta

metrics.append("trajectory_exact_match")

Si la trayectoria predicha es idéntica a la de referencia, con las mismas llamadas a herramientas en el mismo orden, la métrica trajectory_exact_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la búsqueda.

Coincidencia en orden

metrics.append("trajectory_in_order_match")

Si la trayectoria predicha contiene todas las llamadas a herramientas de la trayectoria de referencia en el mismo orden y también puede tener llamadas a herramientas adicionales, la métrica trajectory_in_order_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: Es la trayectoria predicha que usa el agente para llegar a la respuesta final.
reference_trajectory: Es la trayectoria prevista esperada para que el agente satisfaga la búsqueda.

Coincidencia en cualquier orden

metrics.append("trajectory_any_order_match")

Si la trayectoria predicha contiene todas las llamadas a herramientas de la trayectoria de referencia, pero el orden no importa y puede contener llamadas a herramientas adicionales, la métrica trajectory_any_order_match devuelve una puntuación de 1; de lo contrario, devuelve 0.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la búsqueda.

Precisión

metrics.append("trajectory_precision")

La métrica trajectory_precision mide cuántas de las llamadas a herramientas en la trayectoria predicha son realmente relevantes o correctas según la trayectoria de referencia. Es un valor de float en el rango de [0, 1]: Cuanto mayor sea la puntuación, más precisa será la trayectoria predicha.

La precisión se calcula de la siguiente manera: Cuenta cuántas acciones en la trayectoria predicha también aparecen en la trayectoria de referencia. Divide ese recuento por la cantidad total de acciones en la trayectoria predicha.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la búsqueda.

Recuperación

metrics.append("trajectory_recall")

La métrica trajectory_recall mide cuántas de las llamadas a herramientas esenciales de la trayectoria de referencia se capturan realmente en la trayectoria predicha. Es un valor de float en el rango de [0, 1]: Cuanto mayor sea la puntuación, mejor será la recuperación de la trayectoria predicha.

El recuento se calcula de la siguiente manera: Cuenta cuántas acciones en la trayectoria de referencia también aparecen en la trayectoria predicha. Divide ese recuento por la cantidad total de acciones en la trayectoria de referencia.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.
reference_trajectory: Es el uso esperado de la herramienta para que el agente satisfaga la búsqueda.

Uso de una sola herramienta

from vertexai.preview.evaluation import metrics

metrics.append(metrics.TrajectorySingleToolUse(tool_name='tool_name'))

La métrica trajectory_single_tool_use verifica si se usa una herramienta específica que se especifica en la especificación de la métrica en la trayectoria predicha. No verifica el orden de las llamadas a herramientas ni cuántas veces se usa la herramienta, solo si está presente o no. Es un valor de 0 si la herramienta no está presente y 1 en caso contrario.

Parámetros de entrada:

predicted_trajectory: Es la lista de llamadas a herramientas que usa el agente para llegar a la respuesta final.

Personalizado

Puedes definir una métrica personalizada de la siguiente manera:

from vertexai.preview.evaluation import metrics

def word_count(instance):
  response = instance["response"]
  score = len(response.split(" "))
  return {"word_count": score}

metrics.append(
  metrics.CustomMetric(name="word_count", metric_function=word_count)
)

Las siguientes dos métricas de rendimiento siempre se incluyen en los resultados. No es necesario que los especifiques en EvalTask:

latency (float): Tiempo que tardó el agente en responder (en segundos).
failure (bool): 0 si la invocación del agente se realizó correctamente; de lo contrario, 1.

Prepara el conjunto de datos de evaluación

Para preparar tu conjunto de datos para la evaluación final de la respuesta o la trayectoria, haz lo siguiente: