Metriche di valutazione automatica del riepilogo

La valutazione automatica del riepilogo (autovalutazione) valuta la qualità dei riepiloghi creati con l'AI in base ad accuratezza, completezza e aderenza.

Accuratezza

L'accuratezza misura il grado di allineamento di un riepilogo con i dettagli oggettivi della trascrizione della conversazione. Per ogni riepilogo, l'autovalutazione determina una percentuale di correttezza, insieme a una giustificazione corrispondente. Un punteggio di accuratezza basso indica che ci sono problemi di accuratezza nel riepilogo.

I risultati dell'accuratezza sono simili ai seguenti:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Ogni point nell'esempio precedente è una parte scomposta del riepilogo. Il parametro binario is_accurate mostra il risultato della valutazione dell'accuratezza. Il parametro accuracy fornisce la motivazione.

Adesione

L'autovalutazione del riepilogo applica una serie di domande al riepilogo fornito. L'autovalutazione utilizza queste domande e la trascrizione della conversazione per valutare la conformità del riepilogo a ogni istruzione. Tuttavia, la valutazione automatica del riepilogo si basa su Gemini, che potrebbe non verificare con precisione le istruzioni grammaticali. Pertanto, la valutazione automatica del riepilogo potrebbe non valutare con precisione se un riepilogo rispetta le istruzioni grammaticali.

Un punteggio di aderenza basso indica che il riepilogo non rispetta le istruzioni fornite nella definizione della sezione del riepilogo. Solo i riepiloghi che utilizzano sezioni personalizzate possono generare un punteggio di aderenza.

Per l'aderenza, la valutazione automatica del riepilogo riconosce i seguenti due tipi di attività di riepilogo:

  • Riepiloghi categorici: fornisci un valore categorico definito nelle istruzioni. Ad esempio, le istruzioni richiedono una risposta Soleggiato o Nuvoloso. L'autovalutazione verifica se il riepilogo fornito contiene solo Soleggiato o Nuvoloso senza testo descrittivo.
  • Riepiloghi non categorici: fornisci testo in formato libero. L'autovalutazione verifica se un riepilogo non categorico segue le istruzioni definite nella descrizione dell'attività.

I risultati di aderenza sono simili ai seguenti:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Ogni domanda deriva dalla definizione della sezione di riepilogo fornita. Il parametro binario is_addressed mostra il risultato della valutazione dell'aderenza. Il parametro reasoning fornisce una giustificazione.

  • Se alcune domande non sono in linea con il tuo obiettivo, la definizione della sezione di riepilogo dell'obiettivo non era chiara. Puoi comprendere il problema e migliorare le definizioni delle sezioni.

Completezza

La valutazione automatica del riepilogo applica una serie di rubriche per valutare la completezza di un riepilogo generato dall'AI in base alle istruzioni nella definizione della sezione del riepilogo. Un punteggio di completezza basso indica che il riepilogo non è riuscito a includere le informazioni importanti della trascrizione.

I risultati di completezza sono simili ai seguenti:

{
  "rubrics": [
    {
      "question": "Does the summary identify that the customer initially considered cancelling their subscription?",
      "is_addressed": "True"
    },
    {
      "question": "Does the summary identify that the customer inquired about a previously issued credit?",
      "is_addressed": "False"
    },
    {
      "question": "Does the summary mention the specific amount of the credit ($20)?",
      "is_addressed": "False"
    }
  ]
}
  • Ogni domanda deriva dalla descrizione dell'attività e dalla trascrizione fornite. Il parametro binario is_addressed mostra il risultato della valutazione.

  • Se una delle domande non è in linea con il tuo obiettivo, la definizione della sezione del riepilogo non era chiara. Comprendi il problema e migliora la definizione della sezione.