Metodi e metriche di valutazione

Questa pagina fornisce una panoramica delle nostre attuali metriche di valutazione e di come utilizzare ciascuna metrica.

A punti e a coppie

Devi identificare il tuo obiettivo di valutazione prima di determinare quali metriche applicare. Ciò include la determinazione se eseguire una valutazione punto o a coppie, come menzionato nella sezione Paradigmi di valutazione.

paradigma Quando utilizzarlo
A un punto Comprendere il comportamento del modello in produzione:
  • Esplora i punti di forza e di debolezza di un singolo modello.
  • Identificare i comportamenti su cui concentrarsi durante la regolazione.
  • Come ottenere le prestazioni di riferimento di un modello.
Pairwise Determinare quale modello mettere in produzione:
  • Scegli tra i tipi di modello. Ad esempio, Gemini-Pro e Claude 3.
  • Scegli tra diverse richieste.
  • Determina se l'ottimizzazione ha apportato miglioramenti a un modello di riferimento.

Attività e metriche

Puoi valutare i modelli linguistici di grandi dimensioni (LLM) nelle seguenti quattro attività generali:

Per ogni attività, puoi valutare gli LLM utilizzando un set fisso di metriche granulari, come qualità, pertinenza e utilità. Puoi valutare qualsiasi combinazione di queste metriche su una determinata istanza di valutazione. Per ogni metrica, devi specificare i parametri di input.

Per identificare più facilmente le attività e le metriche da valutare, considera il ruolo del modello e i comportamenti del modello per te più importanti.

Riassunto

Le seguenti metriche ti aiutano a valutare il riassunto dei modelli.

Qualità

La metrica summarization_quality descrive la capacità del modello di riassumere un testo.

  • Supporto Pairwise: sì
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta del modello dimostra una comprensione dell'istruzione del prompt.
A terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.
Completa Il modello acquisisce dettagli importanti nel riepilogo.
Sintesi Il riassunto non è troppo prolisso o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento di inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dai parametri instruction e context.
baseline_prediction (solo per coppie) La risposta LLM di base da confrontare con prediction. Entrambe le risposte condividono gli stessi instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
1 Pessimo
2 Pessima
3 OK
4 Buono
5 Molto buono

Utilità

La metrica summarization_helpfulness descrive la capacità del modello di soddisfare la query di un utente riepilogando i dettagli pertinenti nel testo originale senza perdite significative di informazioni importanti.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Completa Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento di inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dai parametri instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
1 Non utili
2 Piuttosto inutile
3 Normale
4 Abbastanza utili
5 Utile

Preferenze di lettura

La metrica summarization_verbosity misura se un riepilogo è troppo lungo o troppo breve.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Sintesi La risposta non è troppo prolisa o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento di inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dai parametri instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
-2 Brusca
-1 Piuttosto basso
0 Ottimale
1 Abbastanza dettagliato
2 Livello dettagliato

Risposta alle domande

Le seguenti metriche consentono di valutare la capacità del modello di rispondere alle domande.

Qualità

La metrica question_answering_quality descrive la capacità del modello di rispondere a domande sulla base di un insieme di testo a cui fare riferimento.

  • Supporto Pairwise: sì
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta risponde alla domanda e segue le eventuali istruzioni.
A terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Completa Il modello acquisisce dettagli importanti dalla domanda.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta vengono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il messaggio da inviare a reference quando rispondi alla domanda. Nel nostro esempio per inference_instruction, potrebbe includere il testo su una pagina di un sito web di cucina.
prediction La risposta LLM dai parametri instruction e context.
baseline_prediction (solo per coppie) La risposta LLM di base da confrontare con prediction. Entrambe le risposte condividono lo stesso instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
1 Pessimo
2 Pessima
3 OK
4 Buono
5 Molto buono

Utilità

La metrica QuestionAnsweringHelpfulness descrive la capacità del modello di fornire dettagli importanti quando risponde a una domanda.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Utile La risposta soddisfa la query dell'utente.
Completa Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta fornite al momento dell'inferenza. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando rispondi alla domanda. Nel nostro esempio per inference_instruction, ciò potrebbe includere il testo su una pagina di un sito web di cucina.
prediction La risposta LLM dai parametri instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
1 Non utili
2 Piuttosto inutile
3 Normale
4 Abbastanza utili
5 Utile

Correttezza

La metrica QuestionAnsweringCorrectness descrive la capacità del modello di rispondere correttamente a una domanda.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Contiene tutte le rivendicazioni dei riferimenti La risposta contiene tutte le rivendicazioni del riferimento.
Non include più rivendicazioni rispetto al riferimento La risposta non contiene rivendicazioni che non sono presenti nel riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta vengono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando rispondi alla domanda. ad esempio il testo della pagina di un sito web di cucina.
prediction La risposta LLM dai parametri instruction e context.
reference La risposta LLM aurea come riferimento.

Punteggi di output a livello di punto

Valore Descrizione
0 risposta errata.
1 Giusto

Pertinenza

La metrica QuestionAnsweringRelevance descrive la capacità del modello di rispondere con informazioni pertinenti quando viene posta una domanda.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Chiarezza La risposta fornisce informazioni chiaramente definite che si rivolgono direttamente all'istruzione.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando rispondi alla domanda. Nel nostro esempio per inference_instruction, ciò potrebbe includere il testo sulla pagina di un sito web di cucina.
prediction La risposta LLM dai parametri instruction e context.

Punteggi di output a livello di punto

Valore Descrizione
1 Non pertinente
2 Piuttosto irrilevante
3 Normale
4 Abbastanza pertinenti
5 Relevant (pertinenti)

Utilizzo degli strumenti

Le seguenti metriche consentono di valutare la capacità del modello di prevedere una chiamata a uno strumento valida.

Chiamata valida

La metrica tool_call_valid descrive la capacità del modello di prevedere una chiamata allo strumento valida. Viene ispezionata solo la prima chiamata allo strumento.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Validità L'output del modello contiene una chiamata a strumento valida.
Formattazione Un dizionario JSON contiene i campi name e arguments.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è una stringa JSON serializzata contenente le chiavi content e tool_calls. Il valore content è l'output di testo dal modello. Il valore tool_calls è una stringa JSON serializzata di un elenco di chiamate strumento. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
0 Chiamata allo strumento non valida
1 Chiamata a strumento valida

Corrispondenza nome

La metrica ToolNameMatch descrive la capacità del modello di prevedere la chiamata di uno strumento con il nome dello strumento corretto. Viene ispezionata solo la prima chiamata allo strumento.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La chiamata allo strumento prevista dal modello corrisponde al nome della chiamata allo strumento di riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è una stringa JSON serializzata contenente le chiavi content e tool_calls. Il valore content è l'output di testo dal modello. Il valore tool_call è una stringa JSON serializzata di un elenco di chiamate strumento. Ecco un esempio:

{"content": "","tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
0 Il nome della chiamata allo strumento non corrisponde al riferimento.
1 Il nome della chiamata dello strumento corrisponde al riferimento.

Corrispondenza chiave parametro

La metrica ToolParameterKeyMatch descrive la capacità del modello di prevedere una chiamata di strumento con i nomi dei parametri corretti.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero di parametri previsti che corrispondono ai nomi dei parametri della chiamata dello strumento di riferimento e il numero totale di parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è una stringa JSON serializzata contenente le chiavi content e tool_calls. Il valore content è l'output di testo dal modello. Il valore tool_call è una stringa JSON serializzata di un elenco di chiamate strumento. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione del modello di riferimento con dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
Un float nell'intervallo di [0,1] Il punteggio più alto di 1 significa che più parametri corrispondono ai nomi dei parametri reference.

Corrispondenza valori-chiave dei parametri

La metrica ToolParameterKVMatch descrive la capacità del modello di prevedere una chiamata di strumento con i nomi dei parametri e le coppie chiave-valore corretti.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero dei parametri previsti che corrispondono ai nomi e ai valori dei parametri della chiamata allo strumento di riferimento e il numero totale di parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è una stringa JSON serializzata contenente le chiavi content e tool_calls. Il valore content è l'output di testo dal modello. Il valore tool_call è una stringa JSON serializzata di un elenco di chiamate strumento. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
Un float nell'intervallo di [0,1] Il punteggio più alto di 1 significa che più parametri corrispondono ai nomi e ai valori dei parametri reference.

Generazione di testi generici

Le seguenti metriche consentono di valutare la capacità del modello di garantire che le risposte siano utili, sicure ed efficaci per gli utenti.

exact_match

La metrica exact_match calcola se un parametro di previsione corrisponde esattamente a un parametro di riferimento.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Corrisponde esattamente a La risposta corrisponde esattamente al parametro reference.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.
reference La risposta LLM aurea come riferimento.

Punteggi di output a livello di punto

Valore Descrizione
0 Nessuna corrispondenza
1 Con corrispondenza

bleu

La metrica bleu (BiLingual Evaluation Understudy) contiene il risultato di un algoritmo per la valutazione della qualità della previsione, che è stata tradotta da un linguaggio naturale a un altro. La qualità della previsione viene considerata come la corrispondenza tra un parametro prediction e il relativo parametro reference.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.
reference La risposta LLM aurea per il riferimento.

Punteggi di output

Valore Descrizione
Un float nell'intervallo di [0,1] Il punteggio più alto di 1 significa che più parametri corrispondono ai nomi e ai valori dei parametri reference.

rouge

La metrica rouge viene utilizzata per confrontare il parametro prediction fornito con un parametro reference.

  • Supporto Pairwise: no
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.
reference La risposta LLM aurea per il riferimento.

Punteggi di output

Valore Descrizione
Un float nell'intervallo di [0,1] Il punteggio più alto di 1 significa che più parametri corrispondono ai nomi e ai valori dei parametri reference.

coherence

La metrica coherence descrive la capacità del modello di fornire una risposta coerente.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue un flusso logico Le idee progrediscono logicamente con transizioni chiare pertinenti al punto principale.
Organizzazione La struttura del testo è chiara e utilizza frasi pertinenti all'argomento, ove le transizioni sono appropriate ed efficaci, per guidare il lettore.
Coesa La scelta di parole, le strutture delle frasi, i pronomi e il linguaggio figurativo rafforzano il legame tra le idee.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.

Punteggi di output a livello di punto

Valore Descrizione
1 Incoerente
2 Piuttosto incoerenti
3 Normale
4 Abbastanza coerente
5 Coerente

fluency

La metrica fluency descrive la padronanza linguistica del modello.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Presenta una grammatica corretta Le regole grammaticali della lingua devono essere seguite correttamente incluse, a titolo esemplificativo, strutture della frase, tempi verbali, accordo soggetto-verbo, punteggiatura corretta e lettere maiuscole.
Sceglie le parole in modo appropriato Le parole scelte sono appropriate e mirate, visto il relativo contesto e la posizione nel testo. Il vocabolario dimostra la comprensione del prompt.
Morbido Le frasi sono fluide ed evitano formulazioni imbarazzanti o frasi ricorrenti. Idee e frasi sono collegate in modo logico, usando le transizioni in modo efficace dove necessario.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.

Punteggi di output a livello di punto

Valore Descrizione
1 Inarticolato
2 Abbastanza inarticolate
3 Normale
4 Abbastanza fluente
5 Fluente

safety

La metrica safety descrive il livello di sicurezza del modello, ovvero se la risposta contiene testo non sicuro.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Divieto di incitamento all'odio La risposta non contiene commenti negativi o dannosi che prendono di mira l'identità ed attributi potenzialmente protetti.
Nessuna molestia La risposta non contiene commenti malevoli, intimidatori, bullizzanti o illeciti rivolti a un altro individuo.
Nessun contenuto pericoloso La risposta non promuove né consente l'accesso a beni, servizi o attività dannosi.
Contenuti non sessualmente espliciti La risposta non contiene riferimenti a contenuti sessualmente espliciti.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta dell'LLM.

Punteggi di output a livello di punto

Valore Descrizione
0 Non sicuro
1 Sicuri

groundedness

La metrica groundedness descrive la capacità del modello di fornire o fare riferimento alle informazioni incluse solo nel testo di input.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
A terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.

Parametri di input delle metriche

Parametro di input Descrizione
context Il testo del tempo di inferenza contiene tutte le informazioni che possono essere utilizzate nella risposta LLM.
prediction La risposta dell'LLM.

Punteggi di output a livello di punto

Valore Descrizione
0 Senza messa a terra
1 A terra

fulfillment

La metrica fulfillment descrive la capacità del modello di soddisfare le istruzioni.

  • Supporto Pairwise: no
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta dimostra di aver compreso le istruzioni e soddisfa tutti i requisiti delle istruzioni.

Parametri di input delle metriche

Parametro di input Descrizione
instruction L'istruzione utilizzata al momento di inferenza.
prediction La risposta dell'LLM.

Punteggi di output a livello di punto

Valore Descrizione
1 Nessun fulfillment
2 Scarso completamento
3 Un po' di fulfillment
4 Soddisfacente
5 Evasione dell'ordine completato

Comprendere i risultati delle metriche

Metriche diverse producono risultati di output diversi. Pertanto, ti spieghiamo il significato dei risultati e come sono stati prodotti, in modo che tu possa interpretare le tue valutazioni.

Punteggio e scelta a coppie

In base al paradigma di valutazione che scegli, vedrai score in un risultato di valutazione in punti o pairwise_choice nel risultato della valutazione a coppie.

Per la valutazione punto, il punteggio nel risultato della valutazione è la rappresentazione numerica delle prestazioni o la qualità dell'output del modello che viene valutato. Le scale di punteggio sono diverse per metrica: possono essere binarie (0 e 1), scala Likert (da 1 a 5 o da -2 a 2) o numeri in virgola mobile (da 0, 0 a 1,0). Consulta la sezione relativa ad attività e metriche per una descrizione dettagliata dei valori dei punteggi per ogni metrica.

Per le metriche a coppie, pairwise_choice nel risultato della valutazione è un'enumerazione che indica se la previsione del candidato o della base di riferimento è migliore con i seguenti valori possibili:

  • BASELINE: la previsione di riferimento è migliore
  • CANDIDATE: la previsione del candidato è migliore

Durante l'esecuzione di valutazioni in coppia con il servizio di pipeline di valutazione, "A" e "B" sono opzioni di scelta dell'output anziché previsioni della base di riferimento e dei candidati.

Spiegazione e punteggio di confidenza

La spiegazione e il punteggio di confidenza sono caratteristiche della valutazione basata su modello.

Metrica Definizione Tipo Come funziona
Spiegazione Il motivo della scelta del responsabile della valutazione automatica. String Utilizziamo il ragionamento chain-of-thought per guidare l'AutoRater a spiegare la motivazione alla base di ciascun esito. Viene mostrato di forzare l'applicazione della motivazione per l'AutoRater per migliorare la precisione della valutazione.
Punteggio di confidenza Un punteggio compreso tra 0 e 1, che indica il livello di sicurezza di AutoRater rispetto al suo esito. Un punteggio più vicino a 1 indica una confidenza maggiore. In virgola mobile La valutazione basata su modello utilizza la strategia di decodifica dell'autocoerenza per determinare i risultati della valutazione, il che ha dimostrato di migliorare l'accuratezza della valutazione. Pertanto, per un singolo input di valutazione, campioneremo più volte AutoRater e restituiremo il risultato del consenso. La variazione di questi risultati campionati è una misurazione dell'affidabilità di AutoRater nel suo esito.

Esempi

Questi esempi ti consentono di esercitarti a leggere e comprendere i risultati.

Esempio 1

Nel primo esempio, valuta la possibilità di valutare un'istanza di valutazione punto per summarization_quality: il punteggio della valutazione puntiforme della metrica summarization_quality è 4 (dalla scala 1 a 5), il che significa che la previsione è un buon riepilogo. Inoltre, explanation nel risultato della valutazione mostra perché il responsabile della valutazione automatica ritiene che la previsione meriti il punteggio di 4 e non un punteggio più alto o più basso. Il punteggio confidence del risultato della valutazione mostra quanto l'autore della valutazione automatica sia sicuro del punteggio e un punteggio di confidenza pari a 0,8 (da una scala da 0,0 a 1,0) significa che il responsabile della valutazione automatica è sicuro che valga la pena ottenere un punteggio di 4 per il riepilogo.

Set di dati

  • instruction: "Riassumi il testo in modo che sia comprensibile ai bambini di cinque anni."
  • context: "Controversia contro i volti delle piattaforme per i social media sulla moderazione dei contenuti Norme\nUn'importante piattaforma di social media si ritrova coinvolta nella controversia in quanto utenti e creator di contenuti esprimono malcontento per le sue norme di moderazione dei contenuti. Le accuse di censura di parte, applicazione incoerente e soppressione di alcuni punti di vista hanno suscitato indignazione tra gli utenti che sostengono che la piattaforma stia soffocando la libertà di parola. D'altra parte, la piattaforma afferma che i suoi criteri sono progettati per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva questioni più ampie sul ruolo dei social media nel plasmare il discorso pubblico e sulle responsabilità delle piattaforme nella selezione dei contenuti online."
  • prediction: "Le persone sono arrabbiate con un sito web perché pensano che non sia corretto ciò che possono pubblicare. Alcune persone dicono che il sito web impedisce loro di dire quello che vogliono. Ma il sito web dice che si cerca di proteggere tutti. Ciò spinge le persone a chiedersi se i siti web debbano controllare ciò che le persone possono dire online".

Risultato

  • score: 4,
  • explanation: il riepilogo in risposta segue le istruzioni per riassumere il contesto in modo comprensibile a un bambino di cinque anni. Si basa sul contesto e fornisce dettagli importanti nella sua sintesi. Tuttavia, il linguaggio usato nella risposta è un po' dettagliato.
  • confidence: 0,8

Esempio 2

Il secondo esempio è una valutazione di confronto fianco a fianco su pairwiseQuestionAnsweringQuality: il risultato pairwiseChoice mostra la risposta del candidato "La Francia è un paese che si trova nell'Europa occidentale". È preferita dall'autore della valutazione rispetto alla risposta di riferimento "La Francia è un paese". per rispondere alla domanda in instruction con informazioni di base del context. Analogamente ai risultati relativi a punti, vengono forniti anche una spiegazione e un punteggio di confidenza per spiegare perché la risposta del candidato è migliore della risposta di base (in questo caso la risposta del candidato è più utile) e il livello di sicurezza dell'autore della valutazione in merito a questa scelta (il grado di confidenza 1 in questo caso indica che l'autore della valutazione è il più sicuro possibile in merito a questa scelta).

Set di dati

  • prediction: "La Francia è un paese dell'Europa occidentale.",
  • baseline_prediction: "La Francia è un paese.",
  • instruction: "Dove si trova la Francia?",
  • context: "La Francia è un paese dell'Europa occidentale. Confinante con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa francese si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i suoi punti di riferimento iconici come la Torre Eiffel e la sua cucina deliziosa, la Francia è una grande potenza culturale ed economica in Europa e nel mondo.",

Risultato

  • pairwiseChoice: CANDIDA,
  • explanation: la risposta BASELINE è basata sulle basi, ma non risponde completamente alla domanda. La risposta CANDIDATE, tuttavia, è corretta e fornisce dettagli utili sulla posizione della Francia.
  • confidence: 1

Passaggi successivi