A avaliação automática da geração de resumos (avaliação automática) avalia a qualidade dos resumos gerados pela IA com base na precisão, na integridade e na conformidade.
Precisão
A precisão mede a correspondência entre um resumo e os detalhes factuais da transcrição da conversa. Para cada resumo, a autoavaliação determina uma percentagem de correção, juntamente com uma justificação correspondente. Uma pontuação de precisão baixa significa que existem problemas factuais no resumo.
Os resultados de precisão têm o seguinte aspeto:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Cada
point
no exemplo anterior é uma parte decomposta do resumo. O parâmetro bináriois_accurate
apresenta o resultado da avaliação da precisão. O parâmetroaccuracy
fornece a justificação.
Adesão
A autoavaliação de resumos aplica um conjunto de perguntas ao resumo fornecido. A avaliação automática usa estas perguntas e a transcrição da conversa para avaliar a conformidade do resumo com cada instrução. No entanto, a avaliação automática da geração de resumos baseia-se no Gemini, que pode não validar com precisão as instruções gramaticais. Assim, a avaliação automática da geração de resumos pode não avaliar com precisão se um resumo cumpre as instruções gramaticais.
Uma pontuação de conformidade baixa significa que o resumo não cumpre as instruções fornecidas na definição da secção de resumo. Apenas os resumos que usaram secções personalizadas podem gerar uma pontuação de aderência.
Para a conformidade, a avaliação automática da sumarização reconhece os dois tipos de tarefas de resumo seguintes:
- Resumos categóricos: forneça um valor categórico definido nas instruções. Por exemplo, as instruções pedem uma resposta Ensolarado ou Nublado. A avaliação automática verifica se o resumo fornecido contém apenas Sol ou Nublado sem texto descritivo.
- Resumos não categóricos: fornecem texto de forma livre. A avaliação automática verifica se um resumo não categórico segue as instruções definidas na descrição da tarefa.
Os resultados da aderência têm o seguinte aspeto:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Cada pergunta é derivada da definição da secção de resumo fornecida. O parâmetro binário
is_addressed
apresenta o resultado da avaliação da aderência. O parâmetroreasoning
fornece uma justificação.Se alguma pergunta não estiver alinhada com o seu objetivo, a definição da secção de resumo desse objetivo não era clara. Pode compreender o problema e melhorar as definições das secções.
Integridade
A avaliação automática de resumos aplica um conjunto de rubricas para avaliar a integridade de um resumo gerado pela IA com base nas instruções na definição da secção do resumo. Uma pontuação de integridade baixa significa que o resumo não incluiu as informações importantes da transcrição.
Os resultados da integridade têm o seguinte aspeto:
{ "rubrics": [ { "question": "Does the summary identify that the customer initially considered cancelling their subscription?", "is_addressed": "True" }, { "question": "Does the summary identify that the customer inquired about a previously issued credit?", "is_addressed": "False" }, { "question": "Does the summary mention the specific amount of the credit ($20)?", "is_addressed": "False" } ] }
Cada pergunta é derivada da descrição da tarefa e da transcrição fornecidas. O parâmetro binário
is_addressed
apresenta o resultado da avaliação.Se alguma das perguntas não estiver alinhada com o seu objetivo, a definição da secção do resumo não foi clara. Compreenda o problema e melhore a definição da secção.