La evaluación automática de resúmenes (autoevaluación) evalúa la calidad de los resúmenes generados por IA en función de la precisión, la integridad y la adecuación.
Exactitud
La precisión mide qué tan cerca se alinea un resumen con los detalles fácticos de la transcripción de la conversación. Para cada resumen, la autoevaluación determina un porcentaje de corrección, junto con una justificación correspondiente. Un puntaje de precisión bajo significa que hay problemas fácticos en el resumen.
Los resultados de precisión se verán de la siguiente manera:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Cada
point
del ejemplo anterior es una parte descompuesta del resumen. El parámetro binariois_accurate
muestra el resultado de la evaluación de la precisión. El parámetroaccuracy
proporciona la justificación.
Cumplimiento
La autoevaluación del resumen aplica un conjunto de preguntas al resumen proporcionado. La autoevaluación usa estas preguntas y la transcripción de la conversación para evaluar el cumplimiento del resumen con cada instrucción. Sin embargo, la autoevaluación del resumen se basa en Gemini, que podría no verificar con precisión las instrucciones gramaticales. Por lo tanto, es posible que la autoevaluación del resumen no evalúe con precisión si un resumen cumple con las instrucciones gramaticales.
Una puntuación de cumplimiento baja significa que el resumen no cumple con las instrucciones proporcionadas en la definición de la sección de resumen. Solo los resúmenes que usaron secciones personalizadas pueden generar una puntuación de cumplimiento.
Para la adhesión, la autoevaluación del resumen reconoce los siguientes dos tipos de tareas de resumen:
- Resúmenes categóricos: Proporcionan un valor categórico definido en las instrucciones. Por ejemplo, las instrucciones solicitan una respuesta Soleado o Nublado. La autoevaluación verifica si el resumen proporcionado solo es Soleado o Nublado sin texto descriptivo.
- Resúmenes no categóricos: Proporcionan texto de formato libre. La autoevaluación verifica si un resumen no categórico sigue las instrucciones definidas en la descripción de la tarea.
Los resultados de la adhesión se ven de la siguiente manera:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Cada pregunta se deriva de la definición de la sección de resumen proporcionada. El parámetro binario
is_addressed
muestra el resultado de la evaluación de la adhesión. El parámetroreasoning
proporciona una justificación.Si alguna pregunta no se alinea con tu objetivo, significa que la definición de la sección de resumen de ese objetivo no era clara. Puedes comprender el problema y mejorar las definiciones de las secciones.
Integridad
La autoevaluación del resumen aplica un conjunto de rúbricas para evaluar la integridad de un resumen generado por IA en función de las instrucciones de la definición de la sección del resumen. Una puntuación de integridad baja significa que el resumen no incluyó la información importante de la transcripción.
Los resultados de integridad se ven de la siguiente manera:
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Cada pregunta se deriva de la transcripción y la descripción de la tarea proporcionadas. El parámetro binario
is_addressed
muestra el resultado de la evaluación.Si alguna de las preguntas no se alinea con tu objetivo, significa que la definición de la sección de tu resumen no fue clara. Comprende el problema y mejora la definición de la sección.