Visualizzare e interpretare i risultati della valutazione

Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo aver eseguito la valutazione.

Visualizza i risultati di una valutazione

Dopo aver definito l'attività di valutazione, eseguila per ottenere i risultati della valutazione, come segue:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

La classe EvalResult rappresenta il risultato di un'esecuzione di valutazione con i seguenti attributi:

  • metrics_table: i risultati per istanza.
  • summary_metrics: i risultati aggregati per tutte le istanze per tutte le metriche richieste.
  • metadata: il nome dell'esperimento e della relativa esecuzione per l'esecuzione della valutazione.

La classe EvalResult è definita come segue:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Con l'utilizzo di funzioni di supporto, i risultati della valutazione possono essere visualizzati nel notebook di Colab come segue:

Tabelle per le metriche di riepilogo e quelle basate su riga

Visualizza i risultati della valutazione

Puoi tracciare le metriche di riepilogo in un grafico a radar o a barre per visualizzarle e confrontarle con i risultati di diverse esecuzioni di valutazione. Questa visualizzazione può essere utile per valutare diversi modelli e diversi modelli di prompt.

Nell'esempio seguente, vengono visualizzate quattro metriche (coerenza, fluidità, seguire le istruzioni e qualità del testo complessiva) per le risposte generate utilizzando quattro diversi modelli di prompt. Dal grafico radar e a barre, possiamo dedurre che il modello di prompt 2 supera costantemente gli altri modelli in tutte e quattro le metriche. Ciò è particolarmente evidente nei suoi punteggi significativamente più elevati per quanto riguarda le attività di seguire le istruzioni e la qualità del testo. In base a questa analisi, il modello di prompt 2 sembra essere la scelta più efficace tra le quattro opzioni.

Grafico radar che mostra i punteggi di coerenza, rispetto_istruzioni, qualità_del_testo e scorrevolezza per tutti i modelli di prompt

Grafico a barre che mostra la media di coerenza, rispetto_istruzioni, qualità_del_testo e scorrevolezza per tutti i modelli di prompt

Informazioni sui risultati delle metriche

Le tabelle seguenti elencano i vari componenti dei risultati aggregati e a livello di istanza inclusi rispettivamente in metrics_table e summary_metrics per le metriche PointwiseMetric, PairwiseMetric e basate sui calcoli:

PointwiseMetric

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta generata per il prompt dal modello.
punteggio La valutazione assegnata alla risposta in base ai criteri e alla griglia di valutazione. Il punteggio può essere binario (0 e 1), una scala di Likert (da 1 a 5 o da -2 a 2) o un numero con virgola mobile (da 0,0 a 1,0).
spiegazione Il motivo del punteggio del modello di giudice. Utilizziamo il ragionamento per deduzione per guidare il modello di giudice a spiegare la motivazione alla base di ogni verdetto. È possibile costringere il modello di giudice a ragionare per migliorare l'accuratezza della valutazione.

Risultati aggregati

Colonna Descrizione
punteggio medio Punteggio medio per tutte le istanze.
deviazione standard Deviazione standard per tutti i punteggi.

PairwiseMetric

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta generata per il prompt dal modello candidato.
baseline_model_response La risposta generata per il prompt in base al modello di riferimento.
pairwise_choice Il modello con la risposta migliore. I valori possibili sono CANDIDATE, BASELINE o TIE.
spiegazione Il motivo della scelta del modello di giudice.

Risultati aggregati

Colonna Descrizione
candidate_model_win_rate Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello candidato aveva la risposta migliore e il numero totale di risposte. Deve essere compreso tra 0 e 1.
baseline_model_win_rate Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello di riferimento aveva la risposta migliore e il numero totale di risposte. Valore compreso tra 0 e 1.

Metriche basate su calcolo

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta del modello in fase di valutazione.
riferimento La risposta di riferimento.
punteggio Il punteggio viene calcolato per ogni coppia di risposte e riferimenti.

Risultati aggregati

Colonna Descrizione
punteggio medio Punteggio medio per tutte le istanze.
deviazione standard Deviazione standard per tutti i punteggi.

Esempi

Gli esempi in questa sezione mostrano come leggere e comprendere i risultati della valutazione.

Esempio 1

Nel primo esempio, considera la valutazione di un'istanza di valutazione basata su punti per TEXT_QUALITY. Il punteggio della valutazione puntuale della metrica TEXT_QUALITY è 4 (su una scala da 1 a 5), il che significa che la risposta è buona. Inoltre, la spiegazione nel risultato della valutazione mostra perché il modello di giudice ritiene che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore.

Set di dati

  • prompt: "Riassumi il seguente testo in modo che possa essere compreso da un bambino di cinque anni: La piattaforma di social media è al centro di polemiche per le sue norme sulla moderazione dei contenuti\nUna nota piattaforma di social media è al centro di polemiche per le sue norme sulla moderazione dei contenuti. Le accuse di censura di parte, di un'applicazione non coerente e di repressione di determinati punti di vista hanno suscitato indignazione tra gli utenti che affermano che la piattaforma sta soffocando la libertà di parola. La piattaforma afferma invece che le sue norme sono pensate per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva domande più ampie sul ruolo dei social media nel plasmare il dibattito pubblico e sulle responsabilità delle piattaforme nella selezione dei contenuti online."

  • response: "Le persone sono arrabbiate con un sito web perché pensano che non sia corretto con ciò che le persone possono pubblicare. Alcune persone affermano che il sito web impedisce loro di dire ciò che vogliono. Ma secondo il sito web, l'obiettivo è garantire la sicurezza di tutti. Questo fa sorgere il dubbio se i siti web debbano controllare ciò che le persone possono dire online."

Risultato

  • score: 4,
  • explanation: il riepilogo in risposta segue le istruzioni per sintetizzare il contesto in modo che un bambino di cinque anni possa comprenderlo. Si basa sul contesto e fornisce dettagli importanti nella sua sintesi. Tuttavia, il linguaggio utilizzato nella risposta è un po' prolisso.

Esempio 2

Il secondo esempio è una valutazione di un confronto a coppie su PAIRWISE_QUESTION_ANSWERING_QUALITY. Il risultato di pairwise_choice mostra la risposta del candidato: "La Francia è un paese dell'Europa occidentale". è preferita dal modello di giudice rispetto alla risposta di riferimento "La Francia è un paese". per rispondere alla domanda nel prompt. Analogamente ai risultati puntuali, viene fornita anche una spiegazione del motivo per cui la risposta candidata è migliore della risposta di riferimento (in questo caso la risposta candidata è più utile).

Set di dati

  • prompt: "Puoi rispondere dove si trova la Francia nel paragrafo seguente? La Francia è un paese dell'Europa occidentale. Confina con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa della Francia si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i suoi monumenti iconici come la Torre Eiffel e la sua deliziosa cucina, la Francia è una grande potenza culturale ed economica in Europa e in tutto il mondo."

  • response: "La Francia è un paese dell'Europa occidentale.",

  • baseline_model_response: "La Francia è un paese.",

Risultato

  • pairwise_choice: CANDIDATE,
  • explanation: la risposta DI RIFERIMENTO è fondata ma non risponde in modo esaustivo alla domanda. La risposta del CANDIDATO, tuttavia, è corretta e fornisce dettagli utili sulla posizione della Francia.

Passaggi successivi