En esta página, se describe cómo ver e interpretar los resultados de la evaluación del modelo después de ejecutarla con el servicio de evaluación de IA generativa.
Visualiza los resultados de la evaluación
El servicio de evaluación de IA generativa te permite visualizar los resultados de la evaluación directamente en tu entorno de desarrollo, como un notebook de Colab o Jupyter. El método .show()
, disponible en los objetos EvaluationDataset
y EvaluationResult
, renderiza un informe HTML interactivo para el análisis.
Visualiza las rúbricas generadas en tu conjunto de datos
Si ejecutas client.evals.generate_rubrics()
, el objeto EvaluationDataset
resultante contiene una columna rubric_groups
. Puedes visualizar este conjunto de datos para inspeccionar las rúbricas generadas para cada instrucción antes de ejecutar la evaluación.
# Example: Generate rubrics using a predefined method
data_with_rubrics = client.evals.generate_rubrics(
src=prompts_df,
rubric_group_name="general_quality_rubrics",
predefined_spec_name=types.RubricMetric.GENERAL_QUALITY,
)
# Display the dataset with the generated rubrics
data_with_rubrics.show()
Se muestra una tabla interactiva con cada instrucción y las rúbricas asociadas que se generaron para ella, anidadas dentro de la columna rubric_groups
:
Visualiza los resultados de la inferencia
Después de generar respuestas con run_inference()
, puedes llamar a .show()
en el objeto EvaluationDataset
resultante para inspeccionar los resultados del modelo junto con tus instrucciones y referencias originales. Esto es útil para realizar una verificación rápida de la calidad antes de ejecutar una evaluación completa:
# First, run inference to get an EvaluationDataset
gpt_response = client.evals.run_inference(
model='gpt-4o',
src=prompt_df
)
# Now, visualize the inference results
gpt_response.show()
Se muestra una tabla con cada instrucción, su referencia correspondiente (si se proporciona) y la respuesta recién generada:
Visualiza informes de evaluación
Cuando llamas a .show()
en un objeto EvaluationResult
, se muestra un informe con dos secciones principales:
Métricas de resumen: Es una vista agregada de todas las métricas que muestra la puntuación media y la desviación estándar en todo el conjunto de datos.
Resultados detallados: Un desglose caso por caso que te permite inspeccionar la instrucción, la referencia, la respuesta candidata y la puntuación y explicación específicas de cada métrica.
Informe de evaluación de un solo candidato
En el caso de una sola evaluación del modelo, el informe detalla las puntuaciones de cada métrica:
# First, run an evaluation on a single candidate
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[
types.RubricMetric.TEXT_QUALITY,
types.RubricMetric.FLUENCY,
types.Metric(name='rouge_1'),
]
)
# Visualize the detailed evaluation report
eval_result.show()
En todos los informes, puedes expandir la sección Ver JSON sin procesar para inspeccionar los datos en cualquier formato estructurado, como Gemini o el formato de la API de Chat Completion de OpenAI.
Informe de evaluación adaptable basado en rúbricas con veredictos
Cuando se usan métricas adaptativas basadas en rúbricas, los resultados incluyen los veredictos de aprobación o rechazo y el razonamiento de cada rúbrica aplicada a la respuesta.
eval_result = client.evals.evaluate(
dataset=eval_dataset,
metrics=[types.PrebuiltMetric.GENERAL_QUALITY],
)
eval_result.show()
La visualización muestra cada rúbrica, su veredicto (aprobado o reprobado) y el razonamiento, anidados dentro de los resultados de las métricas para cada caso. Para cada veredicto específico de la rúbrica, puedes expandir una tarjeta para mostrar la carga útil de JSON sin procesar. Esta carga útil JSON incluye detalles adicionales, como la descripción completa de la rúbrica, el tipo de rúbrica, la importancia y el razonamiento detallado detrás del veredicto.
Informe de comparación de varios candidatos
El formato del informe se adapta según si evalúas a un solo candidato o comparas a varios. En el caso de una evaluación de varios candidatos, el informe proporciona una vista comparativa y, en la tabla de resumen, incluye cálculos de la tasa de victorias o empates.
# Example of comparing two models
inference_result_1 = client.evals.run_inference(
model="gemini-2.0-flash",
src=prompts_df,
)
inference_result_2 = client.evals.run_inference(
model="gemini-2.5-flash",
src=prompts_df,
)
comparison_result = client.evals.evaluate(
dataset=[inference_result_1, inference_result_2],
metrics=[types.PrebuiltMetric.TEXT_QUALITY]
)
comparison_result.show()