En esta página, se describe cómo ver e interpretar los resultados de la evaluación del modelo después de ejecutarla.
Visualiza los resultados de la evaluación
Después de definir la tarea de evaluación, ejecuta la tarea para obtener los resultados de la evaluación, de la siguiente manera:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
La clase EvalResult
representa el resultado de una ejecución de evaluación con los siguientes atributos:
metrics_table
: Los resultados por instancia.summary_metrics
: Los resultados agregados de todas las instancias para todas las métricas solicitadas.metadata
: El nombre del experimento y el nombre de la ejecución del experimento para la ejecución de evaluación.
La clase EvalResult
se define de la siguiente manera:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Con el uso de funciones auxiliares, los resultados de la evaluación se pueden mostrar en el notebook de Colab de la siguiente manera:
Visualiza los resultados de la evaluación
Puedes trazar las métricas de resumen en un gráfico de radar o de barras para la visualización y la comparación entre los resultados de diferentes ejecuciones de evaluación. Esta visualización puede ser útil para evaluar diferentes modelos y diferentes plantillas de instrucciones.
En el siguiente ejemplo, visualizamos cuatro métricas (coherencia, fluidez, seguimiento de instrucciones y calidad general del texto) para las respuestas generadas con cuatro plantillas de instrucciones diferentes. A partir del gráfico de radar y de barras, podemos inferir que la plantilla de instrucción 2 supera de manera coherente a las otras plantillas en las cuatro métricas. Esto es particularmente evidente en sus puntuaciones significativamente más altas en cuanto a la obediencia a las instrucciones y la calidad del texto. En función de este análisis, la plantilla de instrucción 2 parece ser la opción más eficaz entre las cuatro.
Comprende los resultados de las métricas
En las siguientes tablas, se enumeran varios componentes de los resultados agregados y a nivel de la instancia que se incluyen en metrics_table
y summary_metrics
, respectivamente, para PointwiseMetric
, PairwiseMetric
y las métricas basadas en el procesamiento:
PointwiseMetric
Resultados a nivel de la instancia
Columna | Descripción |
---|---|
respuesta | La respuesta que genera el modelo para la instrucción. |
puntuación | Es la calificación que se le otorga a la respuesta según los criterios y la rúbrica de calificación. La puntuación puede ser binaria (0 y 1), de Likert (de 1 a 5 o de -2 a 2) o de números de punto flotante (de 0.0 a 1.0). |
explicación | El motivo del modelo del juez para la puntuación. Usamos el razonamiento de cadena de pensamiento para guiar al modelo de juez y que explique su lógica detrás de cada veredicto. Se ha demostrado que forzar al modelo de juez a justificar mejora la exactitud de la evaluación. |
Resultados agregados
Columna | Descripción |
---|---|
puntuación media | Es la puntuación promedio de todas las instancias. |
desviación estándar | Desviación estándar de todas las puntuaciones. |
PairwiseMetric
Resultados a nivel de la instancia
Columna | Descripción |
---|---|
respuesta | La respuesta que genera el modelo candidato para la instrucción. |
baseline_model_response | La respuesta generada para la instrucción por el modelo de referencia. |
pairwise_choice | El modelo con la mejor respuesta Los valores posibles son CANDIDATE, BASELINE o TIE. |
explicación | El motivo del modelo de juez para la elección. |
Resultados agregados
Columna | Descripción |
---|---|
candidate_model_win_rate | Es la proporción de veces que el modelo del juez decidió que el modelo candidato tenía la mejor respuesta en relación con el total de respuestas. Varía entre 0 y 1. |
baseline_model_win_rate | Es la proporción de veces que el modelo del juez decidió que el modelo de referencia tenía la mejor respuesta en relación con el total de respuestas. Varía entre 0 y 1. |
Métricas basadas en procesamiento
Resultados a nivel de la instancia
Columna | Descripción |
---|---|
respuesta | La respuesta del modelo que se está evaluando |
referencia | La respuesta de referencia. |
puntuación | La puntuación se calcula para cada par de respuestas y referencias. |
Resultados agregados
Columna | Descripción |
---|---|
puntuación media | Es la puntuación promedio de todas las instancias. |
desviación estándar | Es la desviación estándar de todas las puntuaciones. |
Ejemplos
En los ejemplos de esta sección, se muestra cómo leer y comprender los resultados de la evaluación.
Ejemplo 1
En el primer ejemplo, considera evaluar una instancia de evaluación por puntos para TEXT_QUALITY
. La puntuación de la evaluación por puntos de la métrica TEXT_QUALITY
es 4 (en una escala del 1 al 5), lo que significa que la respuesta es buena. Además, la explicación en el resultado de la evaluación muestra por qué el modelo del juez considera que la predicción merece una puntuación de 4 y no otra mayor o menor.
Conjunto de datos
prompt
: “Resume el siguiente texto de una manera que un niño de cinco años pueda comprender: Plataforma de redes sociales causa revuelo por políticas de moderación de contenido\nUna plataforma de redes sociales destacada se encuentra expuesta a la controversia, ya que los usuarios y los creadores de contenido expresan descontento por sus políticas de moderación de contenido. Las acusaciones de censura sesgada, aplicación incoherente y supresión de ciertos puntos de vista provocaron indignación entre los usuarios que afirman que la plataforma restringe la libertad de expresión. Por otro lado, la plataforma confirma que sus políticas están diseñadas para mantener un entorno en línea inclusivo y seguro. Esta controversia genera preguntas más amplias sobre el papel de las redes sociales en la configuración del discurso público y las responsabilidades de las plataformas en la selección de contenido en línea”.response
: “Las personas están molestas con un sitio web porque creen que no está siendo justo con lo que pueden publicar. Algunas personas dicen que el sitio web les impide decir lo que quieren. Pero el sitio web dice que intenta proteger a todos. Esto hace que las personas se pregunten si los sitios web deberían controlar lo que las personas pueden decir en internet".
Resultado
score
: 4,explanation
: El resumen en la respuesta sigue la instrucción para resumir el contexto de una manera que un niño de cinco años pueda comprender. Se basa en el contexto y proporciona detalles importantes en su resumen. Sin embargo, el lenguaje que se usa en la respuesta es un poco copioso.
Ejemplo 2
El segundo ejemplo es una evaluación de comparación por pares en PAIRWISE_QUESTION_ANSWERING_QUALITY
. El resultado pairwise_choice
muestra que el modelo de juez prefiere la respuesta candidata "Francia es un país ubicado en Europa Occidental" en comparación con la respuesta del modelo de referencia "Francia es un país" para responder la pregunta en la instrucción. Al igual que con los resultados puntuales, también se proporciona una explicación para explicar por qué la respuesta candidata es mejor que la respuesta de referencia (la respuesta candidata es más útil en este caso).
Conjunto de datos
prompt
: “¿Puedes responder dónde está Francia según el siguiente párrafo? Francia es un país ubicado en Europa Occidental. Limita con Bélgica, Luxemburgo, Alemania, Suiza, Italia, Mónaco, España y Andorra. La costa de Francia se extiende a lo largo del canal de la Mancha, el mar del Norte, el océano Atlántico y el mar Mediterráneo. Conocida por su rica historia, sus sitios icónicos como la Torre Eiffel y su deliciosa gastronomía, Francia es una importante potencia cultural y económica en Europa y en todo el mundo".response
: "Francia es un país ubicado en Europa Occidental",baseline_model_response
: "Francia es un país",
Resultado
pairwise_choice
: CANDIDATA,explanation
: La respuesta de BASELINE se basa en datos, pero no responde por completo la pregunta. Sin embargo, la respuesta CANDIDATA es correcta y proporciona detalles útiles sobre la ubicación de Francia.
¿Qué sigue?
Prueba un notebook de ejemplo de evaluación.
Obtén información sobre la evaluación de IA generativa.