Visualiza e interpreta los resultados de la evaluación

En esta página, se describe cómo ver e interpretar los resultados de la evaluación del modelo después de ejecutarla.

Visualiza los resultados de la evaluación

Después de definir la tarea de evaluación, ejecuta la tarea para obtener los resultados de la evaluación, de la siguiente manera:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

La clase EvalResult representa el resultado de una ejecución de evaluación con los siguientes atributos:

  • metrics_table: Los resultados por instancia.
  • summary_metrics: Los resultados agregados de todas las instancias para todas las métricas solicitadas.
  • metadata: El nombre del experimento y el nombre de la ejecución del experimento para la ejecución de evaluación.

La clase EvalResult se define de la siguiente manera:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Con el uso de funciones auxiliares, los resultados de la evaluación se pueden mostrar en el notebook de Colab de la siguiente manera:

Tablas para métricas de resumen y métricas basadas en filas

Visualiza los resultados de la evaluación

Puedes trazar las métricas de resumen en un gráfico de radar o de barras para la visualización y la comparación entre los resultados de diferentes ejecuciones de evaluación. Esta visualización puede ser útil para evaluar diferentes modelos y diferentes plantillas de instrucciones.

En el siguiente ejemplo, visualizamos cuatro métricas (coherencia, fluidez, seguimiento de instrucciones y calidad general del texto) para las respuestas generadas con cuatro plantillas de instrucciones diferentes. A partir del gráfico de radar y de barras, podemos inferir que la plantilla de instrucción 2 supera de manera coherente a las otras plantillas en las cuatro métricas. Esto es particularmente evidente en sus puntuaciones significativamente más altas en cuanto a la obediencia a las instrucciones y la calidad del texto. En función de este análisis, la plantilla de instrucción 2 parece ser la opción más eficaz entre las cuatro.

Gráfico radial que muestra las puntuaciones de coherencia, cumplimiento de instrucciones, calidad del texto y fluidez para todas las plantillas de instrucciones

Gráfico de barras que muestra el promedio de coherencia, instruction_following, text_quality y fluency para todas las plantillas de instrucciones

Comprende los resultados de las métricas

En las siguientes tablas, se enumeran varios componentes de los resultados agregados y a nivel de la instancia que se incluyen en metrics_table y summary_metrics, respectivamente, para PointwiseMetric, PairwiseMetric y las métricas basadas en el procesamiento:

PointwiseMetric

Resultados a nivel de la instancia

Columna Descripción
respuesta La respuesta que genera el modelo para la instrucción.
puntuación Es la calificación que se le otorga a la respuesta según los criterios y la rúbrica de calificación. La puntuación puede ser binaria (0 y 1), de Likert (de 1 a 5 o de -2 a 2) o de números de punto flotante (de 0.0 a 1.0).
explicación El motivo del modelo del juez para la puntuación. Usamos el razonamiento de cadena de pensamiento para guiar al modelo de juez y que explique su lógica detrás de cada veredicto. Se ha demostrado que forzar al modelo de juez a justificar mejora la exactitud de la evaluación.

Resultados agregados

Columna Descripción
puntuación media Es la puntuación promedio de todas las instancias.
desviación estándar Desviación estándar de todas las puntuaciones.

PairwiseMetric

Resultados a nivel de la instancia

Columna Descripción
respuesta La respuesta que genera el modelo candidato para la instrucción.
baseline_model_response La respuesta generada para la instrucción por el modelo de referencia.
pairwise_choice El modelo con la mejor respuesta Los valores posibles son CANDIDATE, BASELINE o TIE.
explicación El motivo del modelo de juez para la elección.

Resultados agregados

Columna Descripción
candidate_model_win_rate Es la proporción de veces que el modelo del juez decidió que el modelo candidato tenía la mejor respuesta en relación con el total de respuestas. Varía entre 0 y 1.
baseline_model_win_rate Es la proporción de veces que el modelo del juez decidió que el modelo de referencia tenía la mejor respuesta en relación con el total de respuestas. Varía entre 0 y 1.

Métricas basadas en procesamiento

Resultados a nivel de la instancia

Columna Descripción
respuesta La respuesta del modelo que se está evaluando
referencia La respuesta de referencia.
puntuación La puntuación se calcula para cada par de respuestas y referencias.

Resultados agregados

Columna Descripción
puntuación media Es la puntuación promedio de todas las instancias.
desviación estándar Es la desviación estándar de todas las puntuaciones.

Ejemplos

En los ejemplos de esta sección, se muestra cómo leer y comprender los resultados de la evaluación.

Ejemplo 1

En el primer ejemplo, considera evaluar una instancia de evaluación por puntos para TEXT_QUALITY. La puntuación de la evaluación por puntos de la métrica TEXT_QUALITY es 4 (en una escala del 1 al 5), lo que significa que la respuesta es buena. Además, la explicación en el resultado de la evaluación muestra por qué el modelo del juez considera que la predicción merece una puntuación de 4 y no otra mayor o menor.

Conjunto de datos

  • prompt: “Resume el siguiente texto de una manera que un niño de cinco años pueda comprender: Plataforma de redes sociales causa revuelo por políticas de moderación de contenido\nUna plataforma de redes sociales destacada se encuentra expuesta a la controversia, ya que los usuarios y los creadores de contenido expresan descontento por sus políticas de moderación de contenido. Las acusaciones de censura sesgada, aplicación incoherente y supresión de ciertos puntos de vista provocaron indignación entre los usuarios que afirman que la plataforma restringe la libertad de expresión. Por otro lado, la plataforma confirma que sus políticas están diseñadas para mantener un entorno en línea inclusivo y seguro. Esta controversia genera preguntas más amplias sobre el papel de las redes sociales en la configuración del discurso público y las responsabilidades de las plataformas en la selección de contenido en línea”.

  • response: “Las personas están molestas con un sitio web porque creen que no está siendo justo con lo que pueden publicar. Algunas personas dicen que el sitio web les impide decir lo que quieren. Pero el sitio web dice que intenta proteger a todos. Esto hace que las personas se pregunten si los sitios web deberían controlar lo que las personas pueden decir en internet".

Resultado

  • score: 4,
  • explanation: El resumen en la respuesta sigue la instrucción para resumir el contexto de una manera que un niño de cinco años pueda comprender. Se basa en el contexto y proporciona detalles importantes en su resumen. Sin embargo, el lenguaje que se usa en la respuesta es un poco copioso.

Ejemplo 2

El segundo ejemplo es una evaluación de comparación por pares en PAIRWISE_QUESTION_ANSWERING_QUALITY. El resultado pairwise_choice muestra que el modelo de juez prefiere la respuesta candidata "Francia es un país ubicado en Europa Occidental" en comparación con la respuesta del modelo de referencia "Francia es un país" para responder la pregunta en la instrucción. Al igual que con los resultados puntuales, también se proporciona una explicación para explicar por qué la respuesta candidata es mejor que la respuesta de referencia (la respuesta candidata es más útil en este caso).

Conjunto de datos

  • prompt: “¿Puedes responder dónde está Francia según el siguiente párrafo? Francia es un país ubicado en Europa Occidental. Limita con Bélgica, Luxemburgo, Alemania, Suiza, Italia, Mónaco, España y Andorra. La costa de Francia se extiende a lo largo del canal de la Mancha, el mar del Norte, el océano Atlántico y el mar Mediterráneo. Conocida por su rica historia, sus sitios icónicos como la Torre Eiffel y su deliciosa gastronomía, Francia es una importante potencia cultural y económica en Europa y en todo el mundo".

  • response: "Francia es un país ubicado en Europa Occidental",

  • baseline_model_response: "Francia es un país",

Resultado

  • pairwise_choice: CANDIDATA,
  • explanation: La respuesta de BASELINE se basa en datos, pero no responde por completo la pregunta. Sin embargo, la respuesta CANDIDATA es correcta y proporciona detalles útiles sobre la ubicación de Francia.

¿Qué sigue?