Métricas de avaliação automática de resumo

A avaliação automática da geração de resumos (avaliação automática) avalia a qualidade dos resumos gerados pela IA com base na precisão, na integridade e na conformidade.

Precisão

A precisão mede a correspondência entre um resumo e os detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma percentagem de correção, juntamente com uma justificação correspondente. Uma pontuação de precisão baixa significa que existem problemas factuais no resumo.

Os resultados de precisão têm o seguinte aspeto:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Cada point no exemplo anterior é uma parte decomposta do resumo. O parâmetro binário is_accurate apresenta o resultado da avaliação da precisão. O parâmetro accuracy fornece a justificação.

Adesão

A autoavaliação de resumos aplica um conjunto de perguntas ao resumo fornecido. A avaliação automática usa estas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a avaliação automática da geração de resumos baseia-se no Gemini, que pode não validar com precisão as instruções gramaticais. Assim, a avaliação automática da geração de resumos pode não avaliar com precisão se um resumo cumpre as instruções gramaticais.

Uma pontuação de conformidade baixa significa que o resumo não cumpre as instruções fornecidas na definição da secção de resumo. Apenas os resumos que usaram secções personalizadas podem gerar uma pontuação de aderência.

Para a conformidade, a avaliação automática da sumarização reconhece os dois tipos de tarefas de resumo seguintes:

  • Resumos categóricos: forneça um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A avaliação automática verifica se o resumo fornecido contém apenas Sol ou Nublado sem texto descritivo.
  • Resumos não categóricos: fornecem texto de forma livre. A avaliação automática verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.

Os resultados da aderência têm o seguinte aspeto:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Cada pergunta é derivada da definição da secção de resumo fornecida. O parâmetro binário is_addressed apresenta o resultado da avaliação da aderência. O parâmetro reasoning fornece uma justificação.

  • Se alguma pergunta não estiver alinhada com o seu objetivo, a definição da secção de resumo desse objetivo não era clara. Pode compreender o problema e melhorar as definições das secções.

Integridade

A avaliação automática de resumos aplica um conjunto de rubricas para avaliar a integridade de um resumo gerado pela IA com base nas instruções na definição da secção do resumo. Uma pontuação de integridade baixa significa que o resumo não incluiu as informações importantes da transcrição.

Os resultados da integridade têm o seguinte aspeto:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Cada pergunta é derivada da descrição da tarefa e da transcrição fornecidas. O parâmetro binário is_addressed apresenta o resultado da avaliação.

  • Se alguma das perguntas não estiver alinhada com o seu objetivo, a definição da secção do resumo não foi clara. Compreenda o problema e melhore a definição da secção.