Métricas de avaliação automática de resumo

A avaliação automática de resumo (autoavaliação) avalia a qualidade dos resumos gerados por IA com base na acurácia, integridade e aderência.

Precisão

A acurácia mede o quanto um resumo se alinha aos detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma porcentagem de correção, além de uma justificativa correspondente. Uma pontuação de acurácia baixa significa que há problemas factuais no resumo.

Os resultados de acurácia são parecidos com isto:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Cada point no exemplo anterior é uma parte decomposta do resumo. O parâmetro binário is_accurate mostra o resultado da avaliação de acurácia. O parâmetro accuracy fornece a justificativa.

Adesão

A autoavaliação de resumo aplica um conjunto de perguntas ao resumo fornecido. A autoavaliação usa essas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a autoavaliação de resumo depende do Gemini, que pode não verificar com precisão as instruções gramaticais. Por isso, a autoavaliação de resumo pode não avaliar com precisão se um resumo segue as instruções gramaticais.

Uma pontuação baixa significa que o resumo não segue as instruções fornecidas na definição da seção. Somente os resumos que usaram seções personalizadas podem gerar uma pontuação de aderência.

Para a fidelidade, a autoavaliação de resumo reconhece os dois tipos de tarefas de resumo a seguir:

  • Resumos categóricos: forneça um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A avaliação automática verifica se o resumo fornecido tem apenas Ensolarado ou Nublado sem texto descritivo.
  • Resumos não categóricos: fornecem texto formato livre. A autoavaliação verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.

Os resultados de adesão são semelhantes a este:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Cada pergunta é derivada da definição da seção de resumo fornecida. O parâmetro binário is_addressed mostra o resultado da avaliação de aderência. O parâmetro reasoning fornece uma justificativa.

  • Se alguma pergunta não estiver alinhada à sua meta, a definição da seção de resumo dela não estava clara. Assim, você entende o problema e melhora as definições das seções.

Integridade

A autoavaliação de resumo aplica um conjunto de rubricas para avaliar a integridade de um resumo gerado por IA com base nas instruções na definição da seção do resumo. Uma pontuação baixa significa que o resumo não incluiu as informações importantes da transcrição.

Os resultados de integridade são assim:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Cada pergunta é derivada da descrição da tarefa e da transcrição fornecidas. O parâmetro binário is_addressed mostra o resultado da avaliação.

  • Se alguma das perguntas não estiver alinhada à sua meta, a definição da seção do resumo não ficou clara. Entenda o problema e melhore a definição da seção.