要約の自動評価指標

要約の自動評価(自動評価)では、精度、完全性、準拠性に基づいて、AI が生成した要約の品質を評価します。

精度

正確性は、要約が会話の文字起こしの事実の詳細とどの程度一致しているかを測定します。各要約について、自動評価によって正答率と対応する正当性が判断されます。精度スコアが低い場合は、要約に事実に関する問題があることを意味します。

精度結果は次のようになります。

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • 上記の例の各 point は、要約の分解された部分です。バイナリ パラメータ is_accurate には、精度評価の結果が表示されます。accuracy パラメータには正当性が指定されます。

服薬遵守

要約の自動評価では、提供された要約に対して一連の質問が適用されます。自動評価では、これらの質問と会話の文字起こしを使用して、各指示に対する要約の準拠性を評価します。ただし、要約の自動評価は Gemini に依存しているため、文法的な指示を正確に検証できない場合があります。そのため、要約の自動評価では、要約が文法的な指示に準拠しているかどうかを正確に評価できない場合があります。

遵守スコアが低い場合は、概要セクションの定義で指定された手順に概要が準拠していないことを意味します。カスタム セクションを使用した要約のみが、遵守スコアを生成できます。

要約の自動評価では、次の 2 種類の要約タスクが認識されます。

  • カテゴリの要約: 手順で定義されているカテゴリ値を指定します。たとえば、回答として「晴れ」または「曇り」が求められます。自動評価では、提供された要約に説明文がなく、晴れまたは曇りのみが含まれているかどうかが確認されます。
  • カテゴリなしの要約: 自由形式のテキストを指定します。自動評価では、カテゴリ以外の要約がタスクの説明で定義された指示に従っているかどうかがチェックされます。

遵守状況の結果は次のようになります。

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • 各質問は、指定された概要セクションの定義から導き出されます。バイナリ パラメータ is_addressed には、遵守状況の評価結果が表示されます。reasoning パラメータは正当な理由を提供します。

  • 質問が目標と一致しない場合は、その目標の概要セクションの定義が不明確です。問題を把握し、セクション定義を改善できます。

完全性

要約の自動評価では、要約のセクション定義の指示に基づいて、AI 生成の要約の完全性を評価するために一連のルーブリックが適用されます。完全性スコアが低い場合は、要約に文字起こしから重要な情報が含まれていないことを意味します。

完全性の結果は次のようになります。

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • 各質問は、指定されたタスクの説明と文字起こしから導き出されます。バイナリ パラメータ is_addressed に評価結果が表示されます。

  • 質問のいずれかが目標と一致しない場合は、要約のセクション定義が不明確です。問題を理解し、セクション定義を改善します。