Visualizzare e interpretare i risultati della valutazione

Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo aver eseguito la valutazione.

Visualizza i risultati di una valutazione

Dopo aver definito l'attività di valutazione, esegui l'attività per ottenere i risultati della valutazione come segue:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

La classe EvalResult rappresenta il risultato di un'esecuzione di valutazione con i seguenti attributi:

  • metrics_table: i risultati per istanza.
  • summary_metrics: i risultati aggregati per tutte le istanze per tutte le metriche richieste.
  • metadata: il nome dell'esperimento e dell'esecuzione dell'esperimento per l'esecuzione della valutazione.

La classe EvalResult è definita come segue:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Con l'utilizzo di funzioni di supporto, i risultati della valutazione possono essere visualizzati nel notebook di Colab come segue:

Tabelle per le metriche di riepilogo e quelle basate su riga

Visualizzare i risultati della valutazione

Puoi tracciare le metriche di riepilogo in un grafico a radar o a barre per visualizzarle e confrontarle con i risultati di diverse esecuzioni di valutazione. Questa visualizzazione può essere utile per valutare diversi modelli e diversi modelli di prompt.

Nell'esempio seguente, visualizziamo quattro metriche (coerenza, scorrevolezza, rispetto delle istruzioni e qualità complessiva del testo) per le risposte generate utilizzando quattro diversi modelli di prompt. Dal grafico radar e a barre, possiamo dedurre che il modello di prompt 2 supera costantemente gli altri modelli in tutte e quattro le metriche. Ciò è particolarmente evidente nei punteggi significativamente più elevati per l'applicazione delle istruzioni e la qualità del testo. In base a questa analisi, il modello di prompt 2 sembra essere la scelta più efficace tra le quattro opzioni.

Grafico radar che mostra i punteggi di coerenza, rispetto_istruzioni, qualità_del_testo e scorrevolezza per tutti i modelli di prompt

Grafico a barre che mostra la media per coerenza, instruction_following, text_quality e fluency per tutti i modelli di prompt

Informazioni sui risultati delle metriche

Le tabelle seguenti elencano i vari componenti dei risultati aggregati e a livello di istanza inclusi rispettivamente in metrics_table e summary_metrics per le metriche PointwiseMetric, PairwiseMetric e basate sui calcoli:

PointwiseMetric

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta generata per il prompt dal modello.
punteggio La valutazione assegnata alla risposta in base ai criteri e alla griglia di valutazione. Il punteggio può essere binario (0 e 1), una scala di Likert (da 1 a 5 o da -2 a 2) o un numero con virgola mobile (da 0, 0 a 1,0).
spiegazione Il motivo del punteggio del modello di giudice. Utilizziamo il ragionamento per deduzione per guidare il modello del giudice a spiegare la motivazione alla base di ogni verdetto. È stato dimostrato che forzare il modello di giudice a ragionare migliora l'accuratezza della valutazione.

Risultati aggregati

Colonna Descrizione
punteggio medio Punteggio medio per tutte le istanze.
deviazione standard Deviazione standard per tutti i punteggi.

PairwiseMetric

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta generata per il prompt dal modello candidato.
baseline_model_response La risposta generata per il prompt dal modello di riferimento.
pairwise_choice Il modello con la risposta migliore. I valori possibili sono CANDIDATE, BASELINE o TIE.
spiegazione Il motivo della scelta del modello di giudice.

Risultati aggregati

Colonna Descrizione
candidate_model_win_rate Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello candidato aveva la risposta migliore e il numero totale di risposte. Deve essere compreso tra 0 e 1.
baseline_model_win_rate Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello di riferimento aveva la risposta migliore e il numero totale di risposte. Deve essere compreso tra 0 e 1.

Metriche basate su calcolo

Risultati a livello di istanza

Colonna Descrizione
risposta La risposta del modello in fase di valutazione.
riferimento La risposta di riferimento.
punteggio Il punteggio viene calcolato per ogni coppia di risposte e riferimenti.

Risultati aggregati

Colonna Descrizione
punteggio medio Punteggio medio per tutte le istanze.
deviazione standard Deviazione standard per tutti i punteggi.

Esempi

Gli esempi in questa sezione mostrano come leggere e comprendere i risultati della valutazione.

Esempio 1

Nel primo esempio, considera la valutazione di un'istanza di valutazione basata su punti per TEXT_QUALITY. Il punteggio della valutazione puntuale della metrica TEXT_QUALITY è 4 (su una scala da 1 a 5), il che significa che la risposta è buona. Inoltre, la spiegazione nel risultato della valutazione mostra perché il modello di giudice ritiene che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore.

Set di dati

  • prompt: "Riassumi il seguente testo in modo che possa essere compreso da un bambino di cinque anni: La piattaforma di social media è oggetto di polemiche per le norme sulla moderazione dei contenuti\nUna nota piattaforma di social media è al centro di una polemica in quanto utenti e creator di contenuti esprimono il loro scontento per le sue norme sulla moderazione dei contenuti. Le accuse di censura parziale, applicazione incoerente delle norme e soppressione di determinati punti di vista hanno suscitato l'indignazione degli utenti, che sostengono che la piattaforma stia limitando la libertà di parola. D'altra parte, la piattaforma afferma che le sue norme sono progettate per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva questioni più ampie sul ruolo dei social media nella formazione del discorso pubblico e sulle responsabilità delle piattaforme nella cura dei contenuti online".

  • response: "Le persone sono arrabbiate con un sito web perché pensano che non sia giusto per quanto riguarda ciò che possono pubblicare. Alcune persone dicono che il sito web impedisce loro di dire ciò che vogliono. Tuttavia, il sito web afferma di voler garantire la sicurezza di tutti. Questo fa sorgere il dubbio se i siti web debbano controllare ciò che le persone possono dire online".

Risultato

  • score: 4,
  • explanation: il riassunto nella risposta segue l'istruzione di riassumere il contesto in modo che possa essere compreso da un bambino di cinque anni. È basato sul contesto e fornisce dettagli importanti nel riepilogo. Tuttavia, il linguaggio utilizzato nella risposta è un po' prolisso.

Esempio 2

Il secondo esempio è una valutazione del confronto tra coppie su PAIRWISE_QUESTION_ANSWERING_QUALITY. Il risultato pairwise_choice mostra che la risposta candidata "La Francia è un paese situato nell'Europa occidentale" è preferita dal modello di valutazione rispetto alla risposta di riferimento "La Francia è un paese" per rispondere alla domanda nel prompt. Analogamente ai risultati puntuali, viene fornita anche una spiegazione del motivo per cui la risposta candidata è migliore della risposta di riferimento (in questo caso la risposta candidata è più utile).

Set di dati

  • prompt: "Puoi rispondere a dove si trova la Francia in base al seguente paragrafo? La Francia è un paese dell'Europa occidentale. Confina con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa della Francia si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i suoi monumenti iconici come la Torre Eiffel e la sua deliziosa cucina, la Francia è una grande potenza culturale ed economica in Europa e in tutto il mondo."

  • response: "La Francia è un paese situato nell'Europa occidentale.",

  • baseline_model_response: "La Francia è un paese.",

Risultato

  • pairwise_choice: CANDIDATE,
  • explanation: la risposta BASELINE è basata su dati, ma non risponde completamente alla domanda. La risposta del CANDIDATO, tuttavia, è corretta e fornisce dettagli utili sulla posizione della Francia.

Passaggi successivi