Automatische Bewertungsmesswerte für die Zusammenfassung

Bei der automatischen Zusammenfassungsbewertung (Autoevaluation) wird die Qualität von KI-generierten Zusammenfassungen anhand von Genauigkeit, Vollständigkeit und Einhaltung bewertet.

Genauigkeit

Die Genauigkeit gibt an, wie genau eine Zusammenfassung mit den Fakten im Transkript der Unterhaltung übereinstimmt. Für jede Zusammenfassung wird bei der automatischen Bewertung ein Korrektheitswert in Prozent zusammen mit einer entsprechenden Begründung ermittelt. Ein niedriger Genauigkeitswert bedeutet, dass es in der Zusammenfassung sachliche Probleme gibt.

Die Genauigkeitsergebnisse sehen so aus:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Jedes point im vorherigen Beispiel ist ein zerlegter Teil der Zusammenfassung. Der binäre Parameter is_accurate zeigt das Ergebnis der Genauigkeitsbewertung an. Der Parameter accuracy enthält die Begründung.

Adhärenz

Bei der automatischen Bewertung von Zusammenfassungen wird eine Reihe von Fragen auf die bereitgestellte Zusammenfassung angewendet. Bei der automatischen Überprüfung werden diese Fragen und das Unterhaltungsprotokoll verwendet, um die Einhaltung der einzelnen Anweisungen in der Zusammenfassung zu bewerten. Die automatische Auswertung der Zusammenfassung basiert jedoch auf Gemini, das grammatische Anweisungen möglicherweise nicht genau überprüft. Daher kann die automatische Zusammenfassungsbewertung möglicherweise nicht genau beurteilen, ob eine Zusammenfassung grammatikalischen Anweisungen entspricht.

Ein niedriger Einhaltungs-Score bedeutet, dass die Zusammenfassung nicht den Anweisungen entspricht, die in der Definition des Zusammenfassungsbereichs angegeben sind. Nur für Zusammenfassungen, in denen benutzerdefinierte Abschnitte verwendet wurden, kann ein Adherence-Score generiert werden.

Für die Einhaltung werden bei der automatischen Zusammenfassungsauswertung die folgenden zwei Arten von Zusammenfassungsaufgaben erkannt:

  • Kategorische Zusammenfassungen: Geben Sie einen in der Anleitung definierten kategorischen Wert an. In der Anleitung wird beispielsweise nach einer Antwort mit Sonnig oder Bewölkt gefragt. Bei der automatischen Bewertung wird geprüft, ob die angegebene Zusammenfassung nur Sonnig oder Bewölkt ohne beschreibenden Text enthält.
  • Zusammenfassungen ohne Kategorien: Geben Sie Text in freiem Format an. Bei der automatischen Bewertung wird geprüft, ob eine nicht kategorische Zusammenfassung den in der Aufgabenbeschreibung definierten Anweisungen entspricht.

Die Ergebnisse zur Einhaltung sehen so aus:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Jede Frage wird aus der bereitgestellten Definition des Zusammenfassungsbereichs abgeleitet. Der binäre Parameter is_addressed zeigt das Ergebnis der Einhaltungsbewertung an. Der Parameter reasoning enthält eine Begründung.

  • Wenn Fragen nicht auf Ihr Ziel abgestimmt sind, war die Definition des Zusammenfassungsbereichs für dieses Ziel unklar. So können Sie das Problem nachvollziehen und Ihre Abschnittsdefinitionen verbessern.

Vollständigkeit

Bei der automatischen Bewertung von Zusammenfassungen wird eine Reihe von Schemata verwendet, um die Vollständigkeit einer KI-generierten Zusammenfassung anhand der Anweisungen in der Abschnittsdefinition der Zusammenfassung zu bewerten. Ein niedriger Vollständigkeitswert bedeutet, dass die Zusammenfassung nicht alle wichtigen Informationen aus dem Transkript enthält.

Die Ergebnisse für die Vollständigkeit sehen so aus:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Jede Frage basiert auf der bereitgestellten Aufgabenbeschreibung und dem Transkript. Der binäre Parameter is_addressed zeigt das Ergebnis der Auswertung an.

  • Wenn eine der Fragen nicht mit Ihrem Ziel übereinstimmt, war die Abschnittsdefinition Ihrer Zusammenfassung unklar. Verstehen Sie das Problem und verbessern Sie die Definition Ihres Websitebereichs.