L'évaluation automatique des résumés (auto-évaluation) évalue la qualité des résumés générés par l'IA en fonction de leur précision, de leur exhaustivité et de leur conformité.
Précision
La précision mesure la fidélité d'un résumé aux détails factuels de la transcription de la conversation. Pour chaque résumé, l'auto-évaluation détermine un pourcentage d'exactitude, ainsi qu'une justification correspondante. Un faible score de précision signifie que le résumé contient des problèmes factuels.
Les résultats de précision se présentent comme suit :
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Chaque
point
de l'exemple précédent est une partie décomposée du résumé. Le paramètre binaireis_accurate
affiche le résultat de l'évaluation de la précision. Le paramètreaccuracy
fournit la justification.
Respect
L'auto-évaluation de la synthèse applique un ensemble de questions à la synthèse fournie. L'auto-évaluation utilise ces questions et la transcription de la conversation pour évaluer la conformité du résumé à chaque instruction. Toutefois, l'évaluation automatique de la synthèse repose sur Gemini, qui peut ne pas vérifier correctement les instructions grammaticales. Par conséquent, l'auto-évaluation de la synthèse peut ne pas évaluer avec précision si une synthèse respecte les instructions grammaticales.
Un faible score d'adhérence signifie que le résumé ne respecte pas les instructions fournies dans la définition de la section "Résumé". Seuls les résumés qui utilisent des sections personnalisées peuvent générer un score d'adhérence.
Pour l'évaluation automatique de l'adhérence et de la synthèse, les deux types de tâches de synthèse suivants sont reconnus :
- Résumés catégoriels : fournissez une valeur catégorielle définie dans les instructions. Par exemple, les instructions demandent une réponse Ensoleillé ou Nuageux. L'auto-évaluation vérifie si le résumé fourni ne contient que Ensoleillé ou Nuageux sans texte descriptif.
- Résumés non catégoriels : fournissez du texte libre. L'auto-évaluation vérifie si un résumé non catégoriel suit les instructions définies dans la description de la tâche.
Les résultats de l'adhérence se présentent comme suit :
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Chaque question est basée sur la définition de la section "Résumé" fournie. Le paramètre binaire
is_addressed
affiche le résultat de l'évaluation de l'adhérence. Le paramètrereasoning
fournit une justification.Si des questions ne sont pas alignées sur votre objectif, cela signifie que la définition de cet objectif dans la section "Résumé" n'était pas claire. Vous pouvez comprendre le problème et améliorer vos définitions de sections.
Exhaustivité
L'auto-évaluation de la synthèse applique un ensemble de rubriques pour évaluer l'exhaustivité d'un résumé généré par IA en fonction des instructions de la définition de la section du résumé. Un score d'exhaustivité faible signifie que le résumé n'a pas inclus les informations importantes de la transcription.
Les résultats de l'exhaustivité se présentent comme suit :
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Chaque question est basée sur la description de la tâche et la transcription fournies. Le paramètre binaire
is_addressed
affiche le résultat de l'évaluation.Si l'une des questions ne correspond pas à votre objectif, cela signifie que la définition de la section de votre résumé n'était pas claire. Comprenez le problème et améliorez la définition de votre section.