Métricas de evaluación automática de resúmenes

La evaluación automática de resúmenes evalúa la calidad de los resúmenes generados por IA en función de la precisión, la integridad y la coherencia.

Precisión

La precisión mide el grado de coincidencia entre un resumen y los detalles objetivos de la transcripción de la conversación. En cada resumen, la autoevaluación determina un porcentaje de corrección, junto con una justificación correspondiente. Una puntuación de precisión baja significa que hay problemas de hechos en el resumen.

Los resultados de precisión tienen este aspecto:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Cada point del ejemplo anterior es una parte descompuesta del resumen. El parámetro binario is_accurate muestra el resultado de la evaluación de la precisión. El parámetro accuracy proporciona la justificación.

Cumplimiento

La autoevaluación de resúmenes aplica un conjunto de preguntas al resumen proporcionado. La autoevaluación usa estas preguntas y la transcripción de la conversación para evaluar si el resumen cumple cada instrucción. Sin embargo, la autoevaluación de resúmenes se basa en Gemini, que puede que no verifique correctamente las instrucciones gramaticales. Por lo tanto, es posible que la autoevaluación de resúmenes no determine con precisión si un resumen cumple las instrucciones gramaticales.

Una puntuación de cumplimiento baja significa que el resumen no se ajusta a las instrucciones proporcionadas en la definición de la sección de resumen. Solo se puede generar una puntuación de cumplimiento en los resúmenes que hayan usado secciones personalizadas.

Para la evaluación automática de la adecuación, se reconocen los dos tipos de tareas de resumen siguientes:

  • Resúmenes categóricos: proporciona un valor categórico definido en las instrucciones. Por ejemplo, las instrucciones piden una respuesta Soleado o Nublado. La autoevaluación comprueba si el resumen proporcionado solo incluye Soleado o Nublado sin texto descriptivo.
  • Resúmenes no categóricos: proporciona texto de formato libre. La autoevaluación comprueba si un resumen no categórico sigue las instrucciones definidas en la descripción de la tarea.

Los resultados de cumplimiento tienen este aspecto:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Cada pregunta se deriva de la definición de la sección de resumen proporcionada. El parámetro binario is_addressed muestra el resultado de la evaluación del cumplimiento. El parámetro reasoning proporciona una justificación.

  • Si alguna pregunta no se ajusta a tu objetivo, significa que la definición de ese objetivo en la sección de resumen no era clara. De esta forma, podrás entender el problema y mejorar las definiciones de las secciones.

Completeness

La autoevaluación de resúmenes aplica un conjunto de rúbricas para evaluar la integridad de un resumen generado por IA en función de las instrucciones de la definición de la sección del resumen. Una puntuación de integridad baja significa que el resumen no ha incluido la información importante de la transcripción.

Los resultados de integridad tienen este aspecto:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Cada pregunta se deriva de la descripción de la tarea y de la transcripción proporcionadas. El parámetro binario is_addressed muestra el resultado de la evaluación.

  • Si alguna de las preguntas no se ajusta a tu objetivo, significa que la definición de la sección de tu resumen no era clara. Identifique el problema y mejore la definición de la sección.