Questa pagina descrive come visualizzare e interpretare i risultati della valutazione del modello dopo aver eseguito la valutazione.
Visualizza i risultati di una valutazione
Dopo aver definito l'attività di valutazione, eseguila per ottenere i risultati della valutazione, come segue:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
La classe EvalResult
rappresenta il risultato di un'esecuzione di valutazione con i seguenti attributi:
metrics_table
: i risultati per istanza.summary_metrics
: i risultati aggregati per tutte le istanze per tutte le metriche richieste.metadata
: il nome dell'esperimento e della relativa esecuzione per l'esecuzione della valutazione.
La classe EvalResult
è definita come segue:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Con l'utilizzo di funzioni di supporto, i risultati della valutazione possono essere visualizzati nel notebook di Colab come segue:
Visualizza i risultati della valutazione
Puoi tracciare le metriche di riepilogo in un grafico a radar o a barre per visualizzarle e confrontarle con i risultati di diverse esecuzioni di valutazione. Questa visualizzazione può essere utile per valutare diversi modelli e diversi modelli di prompt.
Nell'esempio seguente, vengono visualizzate quattro metriche (coerenza, fluidità, seguire le istruzioni e qualità del testo complessiva) per le risposte generate utilizzando quattro diversi modelli di prompt. Dal grafico radar e a barre, possiamo dedurre che il modello di prompt 2 supera costantemente gli altri modelli in tutte e quattro le metriche. Ciò è particolarmente evidente nei suoi punteggi significativamente più elevati per quanto riguarda le attività di seguire le istruzioni e la qualità del testo. In base a questa analisi, il modello di prompt 2 sembra essere la scelta più efficace tra le quattro opzioni.
Informazioni sui risultati delle metriche
Le tabelle seguenti elencano i vari componenti dei risultati aggregati e a livello di istanza inclusi rispettivamente in metrics_table
e summary_metrics
per le metriche PointwiseMetric
, PairwiseMetric
e basate sui calcoli:
PointwiseMetric
Risultati a livello di istanza
Colonna | Descrizione |
---|---|
risposta | La risposta generata per il prompt dal modello. |
punteggio | La valutazione assegnata alla risposta in base ai criteri e alla griglia di valutazione. Il punteggio può essere binario (0 e 1), una scala di Likert (da 1 a 5 o da -2 a 2) o un numero con virgola mobile (da 0,0 a 1,0). |
spiegazione | Il motivo del punteggio del modello di giudice. Utilizziamo il ragionamento per deduzione per guidare il modello di giudice a spiegare la motivazione alla base di ogni verdetto. È possibile costringere il modello di giudice a ragionare per migliorare l'accuratezza della valutazione. |
Risultati aggregati
Colonna | Descrizione |
---|---|
punteggio medio | Punteggio medio per tutte le istanze. |
deviazione standard | Deviazione standard per tutti i punteggi. |
PairwiseMetric
Risultati a livello di istanza
Colonna | Descrizione |
---|---|
risposta | La risposta generata per il prompt dal modello candidato. |
baseline_model_response | La risposta generata per il prompt in base al modello di riferimento. |
pairwise_choice | Il modello con la risposta migliore. I valori possibili sono CANDIDATE, BASELINE o TIE. |
spiegazione | Il motivo della scelta del modello di giudice. |
Risultati aggregati
Colonna | Descrizione |
---|---|
candidate_model_win_rate | Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello candidato aveva la risposta migliore e il numero totale di risposte. Deve essere compreso tra 0 e 1. |
baseline_model_win_rate | Rapporto tra il numero di volte in cui il modello di valutazione ha deciso che il modello di riferimento aveva la risposta migliore e il numero totale di risposte. Valore compreso tra 0 e 1. |
Metriche basate su calcolo
Risultati a livello di istanza
Colonna | Descrizione |
---|---|
risposta | La risposta del modello in fase di valutazione. |
riferimento | La risposta di riferimento. |
punteggio | Il punteggio viene calcolato per ogni coppia di risposte e riferimenti. |
Risultati aggregati
Colonna | Descrizione |
---|---|
punteggio medio | Punteggio medio per tutte le istanze. |
deviazione standard | Deviazione standard per tutti i punteggi. |
Esempi
Gli esempi in questa sezione mostrano come leggere e comprendere i risultati della valutazione.
Esempio 1
Nel primo esempio, considera la valutazione di un'istanza di valutazione basata su punti per TEXT_QUALITY
. Il punteggio della valutazione puntuale della metrica TEXT_QUALITY
è 4 (su una scala da 1 a 5), il che significa che la risposta è buona. Inoltre, la spiegazione nel risultato della valutazione mostra perché il modello di giudice ritiene che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore.
Set di dati
prompt
: "Riassumi il seguente testo in modo che possa essere compreso da un bambino di cinque anni: La piattaforma di social media è al centro di polemiche per le sue norme sulla moderazione dei contenuti\nUna nota piattaforma di social media è al centro di polemiche per le sue norme sulla moderazione dei contenuti. Le accuse di censura di parte, di un'applicazione non coerente e di repressione di determinati punti di vista hanno suscitato indignazione tra gli utenti che affermano che la piattaforma sta soffocando la libertà di parola. La piattaforma afferma invece che le sue norme sono pensate per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva domande più ampie sul ruolo dei social media nel plasmare il dibattito pubblico e sulle responsabilità delle piattaforme nella selezione dei contenuti online."response
: "Le persone sono arrabbiate con un sito web perché pensano che non sia corretto con ciò che le persone possono pubblicare. Alcune persone affermano che il sito web impedisce loro di dire ciò che vogliono. Ma secondo il sito web, l'obiettivo è garantire la sicurezza di tutti. Questo fa sorgere il dubbio se i siti web debbano controllare ciò che le persone possono dire online."
Risultato
score
: 4,explanation
: il riepilogo in risposta segue le istruzioni per sintetizzare il contesto in modo che un bambino di cinque anni possa comprenderlo. Si basa sul contesto e fornisce dettagli importanti nella sua sintesi. Tuttavia, il linguaggio utilizzato nella risposta è un po' prolisso.
Esempio 2
Il secondo esempio è una valutazione di un confronto a coppie su PAIRWISE_QUESTION_ANSWERING_QUALITY
. Il risultato di pairwise_choice
mostra la risposta del candidato: "La Francia è un paese dell'Europa occidentale". è preferita dal modello di giudice rispetto alla risposta di riferimento "La Francia è un paese". per rispondere alla domanda nel prompt. Analogamente ai risultati puntuali, viene fornita anche una spiegazione del motivo per cui la risposta candidata è migliore della risposta di riferimento (in questo caso la risposta candidata è più utile).
Set di dati
prompt
: "Puoi rispondere dove si trova la Francia nel paragrafo seguente? La Francia è un paese dell'Europa occidentale. Confina con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa della Francia si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i suoi monumenti iconici come la Torre Eiffel e la sua deliziosa cucina, la Francia è una grande potenza culturale ed economica in Europa e in tutto il mondo."response
: "La Francia è un paese dell'Europa occidentale.",baseline_model_response
: "La Francia è un paese.",
Risultato
pairwise_choice
: CANDIDATE,explanation
: la risposta DI RIFERIMENTO è fondata ma non risponde in modo esaustivo alla domanda. La risposta del CANDIDATO, tuttavia, è corretta e fornisce dettagli utili sulla posizione della Francia.
Passaggi successivi
Prova un notebook di esempio per la valutazione.
Scopri di più sulla valutazione dell'IA generativa.