Metodi e metriche di valutazione

Questa pagina fornisce una panoramica delle nostre attuali metriche di valutazione e di come utilizzare ciascuna metrica.

Approccio puntuale e di coppia

Prima di determinare quali metriche applicare, devi identificare l'obiettivo di valutazione. Ciò include determinare se eseguire la valutazione puntuale o a coppie, come menzionato in Paradigmi di valutazione.

paradigma Quando utilizzarlo
A punti Comprendere il comportamento del modello in produzione:
  • Esplora i punti di forza e di debolezza di un singolo modello.
  • Identificazione dei comportamenti su cui concentrarsi durante l'ottimizzazione.
  • Ottenere le prestazioni di base di un modello.
A coppie Per determinare quale modello mettere in produzione:
  • Scegli tra i tipi di modello. Ad esempio, Gemini-Pro e Claude 3.
  • Scegli tra diverse richieste.
  • Determina se l'ottimizzazione ha apportato miglioramenti a un modello di riferimento.

Attività e metriche

Puoi valutare i modelli linguistici di grandi dimensioni (LLM) nelle seguenti quattro attività generali:

Per ogni attività, puoi valutare gli LLM utilizzando un insieme fisso di metriche granulari, come qualità, pertinenza e utilità. Puoi valutare qualsiasi combinazione di queste metriche su una data istanza di valutazione. Per ogni metrica devi specificare i parametri di input.

Per identificare le attività e le metriche da valutare, considera il ruolo del modello e i comportamenti del modello più importanti per te.

Riassunto

Le seguenti metriche ti aiutano a valutare il riassunto del modello.

Qualità

La metrica summarization_quality descrive la capacità del modello di riassumere il testo.

  • Supporto di Pairwise: Sì.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta del modello dimostra la comprensione dell'istruzione dal prompt.
Con messa a terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.
Completa Il modello acquisisce dettagli importanti nel riepilogo.
Sintesi Il riassunto non è troppo prolisso o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.
baseline_prediction (solo coppia) La risposta LLM di base da confrontare con prediction. Entrambe le risposte condividono gli stessi instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Pessimo
2 Scadente
3 Ok
4 Buono
5 Molto buono

Utilità

La metrica summarization_helpfulness descrive la capacità del modello di soddisfare la query di un utente riepilogando i dettagli pertinenti nel testo originale senza perdite significative di informazioni importanti.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Completa Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non utili
2 Piuttosto inutili
3 Normale
4 Abbastanza utili
5 Utile

Preferenze di lettura

La metrica summarization_verbosity misura se un riepilogo è troppo lungo o troppo corto.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Sintesi La risposta non è troppo prolissa o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni di riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
-2 Terreno
-1 Abbastanza concisa
0 Ottimale
1 Abbastanza dettagliato
2 Livello dettagliato

Question answering

Le seguenti metriche consentono di valutare la capacità del modello di rispondere alle domande.

Qualità

La metrica question_answering_quality descrive la capacità del modello di rispondere alle domande dato un corpo di testo a cui fare riferimento.

  • Supporto di Pairwise: Sì.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta risponde alla domanda e segue le istruzioni.
Con messa a terra La risposta include solo informazioni provenienti dal contesto e dall'istruzione di inferenza.
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Completa Il modello acquisisce dettagli importanti dalla domanda.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta sono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e la formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo per reference quando rispondi alla domanda. Nel nostro esempio relativo a inference_instruction, potrebbe includere il testo di una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.
baseline_prediction (solo coppia) La risposta LLM di riferimento da confrontare con prediction. Entrambe le risposte condividono gli stessi instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Pessimo
2 Scadente
3 Ok
4 Buono
5 Molto buono

Utilità

La metrica QuestionAnsweringHelpfulness descrive la capacità del modello di fornire dettagli importanti quando risponde a una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Utile La risposta soddisfa la query dell'utente.
Completa Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction la domanda a cui rispondere e le istruzioni per la risposta fornite al momento dell'inferenza. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando rispondi alla domanda. Nel nostro esempio relativo a inference_instruction, potrebbe includere il testo di una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non utili
2 Piuttosto inutili
3 Normale
4 Abbastanza utili
5 Utile

Correttezza

La metrica QuestionAnsweringCorrectness descrive la capacità del modello di rispondere correttamente a una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Contiene tutte le rivendicazioni di riferimento La risposta contiene tutte le rivendicazioni del riferimento.
Non include più rivendicazioni del riferimento La risposta non contiene dichiarazioni non presenti nel riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta sono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e la formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando si risponde alla domanda. Ad esempio, il testo in una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.
reference La risposta LLM ottimale come riferimento.

Punteggi di output in base al punto

Valore Descrizione
0 risposta errata.
1 Giusto

Pertinenza

La metrica QuestionAnsweringRelevance descrive la capacità del modello di rispondere con informazioni pertinenti quando viene posta una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Chiarezza La risposta fornisce informazioni chiaramente definite che riguardano direttamente l'istruzione.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e le istruzioni di risposta fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e la formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando si risponde alla domanda. Nel nostro esempio relativo a inference_instruction, potrebbe includere il testo di una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non pertinente
2 Abbastanza irrilevante
3 Normale
4 Abbastanza pertinenti
5 Relevant (pertinenti)

Utilizzo degli strumenti e chiamate di funzione

Le seguenti metriche consentono di valutare la capacità del modello di prevedere una chiamata a strumento (funzione) valida.

Chiamata valida

La metrica tool_call_valid descrive la capacità del modello di prevedere una chiamata utensile valida. Viene ispezionata solo la prima chiamata dello strumento.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Validità L'output del modello contiene una chiamata d'uso valida.
Formattazione Un dizionario JSON contiene i campi name e arguments.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, ovvero una stringa serializzata JSON contenente chiavi content e tool_calls. Il valore content è l'output di testo del modello. Il valore tool_calls è una stringa serializzata in JSON di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
0 Chiamata strumento non valida
1 Chiamata utensili valida

Corrispondenza nome

La metrica ToolNameMatch descrive la capacità del modello di prevedere una chiamata di strumento con il nome dello strumento corretto. Viene ispezionata solo la prima chiamata dello strumento.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La chiamata dello strumento prevista dal modello corrisponde al nome della chiamata dello strumento di riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, ovvero una stringa serializzata JSON contenente chiavi content e tool_calls. Il valore content è l'output di testo del modello. Il valore tool_call è una stringa serializzata in JSON di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "","tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
0 Il nome della chiamata dello strumento non corrisponde al riferimento.
1 Il nome della chiamata dello strumento corrisponde al riferimento.

Corrispondenza chiave parametro

La metrica ToolParameterKeyMatch descrive la capacità del modello di prevedere una chiamata di strumento con i nomi dei parametri corretti.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero di parametri previsti che corrispondono ai nomi dei parametri della chiamata dello strumento di riferimento e il numero totale di parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, ovvero una stringa serializzata JSON contenente le chiavi content e tool_calls. Il valore content è l'output di testo del modello. Il valore tool_call è una stringa serializzata in JSON di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione del modello di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai nomi dei parametri reference.

Corrispondenza valore-valore parametro

La metrica ToolParameterKVMatch descrive la capacità del modello di prevedere una chiamata d'uso con i nomi dei parametri e le coppie chiave-valore corretti.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero di parametri previsti che corrispondono sia ai nomi e ai valori dei parametri della chiamata dello strumento di riferimento sia al numero totale di parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, ovvero una stringa serializzata JSON contenente chiavi content e tool_calls. Il valore content è l'output di testo del modello. Il valore tool_call è una stringa serializzata in JSON di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato di prediction.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai nomi e ai valori dei parametri reference.

Generazione di testi generici

Le seguenti metriche ti consentono di valutare la capacità del modello di garantire che le risposte siano utili, sicure ed efficaci per i tuoi utenti.

exact_match

La metrica exact_match calcola se un parametro di previsione corrisponde esattamente a un parametro di riferimento.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Corrisponde esattamente a La risposta corrisponde esattamente al parametro reference.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale come riferimento.

Punteggi di output in base al punto

Valore Descrizione
0 Senza corrispondenza
1 Con corrispondenza

bleu

La metrica bleu (BiLingual Evaluation Understudy) contiene il risultato di un algoritmo per la valutazione della qualità della previsione, che è stata tradotta da un linguaggio naturale a un'altra. Per qualità della previsione si intende la corrispondenza tra un parametro prediction e il relativo parametro reference.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale per il riferimento.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai nomi e ai valori dei parametri reference.

rouge

La metrica rouge viene utilizzata per confrontare il parametro prediction fornito con un parametro reference. Tutte le metriche rouge restituiscono il punteggio F1. Il valore rougeLsum viene calcolato per impostazione predefinita, ma puoi specificare la variante rouge che vuoi utilizzare.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale per il riferimento.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai nomi e ai valori dei parametri reference.

coherence

La metrica coherence descrive la capacità del modello di fornire una risposta coerente.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue il flusso logico Le idee progrediscono logicamente con transizioni chiare e pertinenti al punto principale.
Organizzazione La struttura del testo è chiara e utilizza frasi tematiche con transizioni appropriate ed efficaci per guidare il lettore.
Coesa La scelta delle parole, la struttura delle frasi, i pronomi e il linguaggio figurativo rafforzano le connessioni tra le idee.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Contenuti incoerenti
2 Abbastanza incoerente
3 Normale
4 Abbastanza coerente
5 Coerente

fluency

La metrica fluency descrive la padronanza linguistica del modello.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Siano corrette dal punto di vista grammaticale Le regole grammaticali del linguaggio devono essere seguite correttamente, incluse, a titolo esemplificativo, le strutture delle frasi, i tempi verbi, l'accordo soggetto-verbo, la punteggiatura corretta e le lettere maiuscole.
Sceglie le parole in modo appropriato Le parole scelte sono appropriate e utili in base al contesto e alla posizione relativi nel testo. Il vocabolario dimostra la comprensione del prompt.
Morbido Le frasi scorrono agevolmente ed evitano espressioni complicate o eccessive. Idee e frasi si collegano in modo logico, usando le transizioni in modo efficace dove necessario.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Inarticolato
2 Abbastanza inarticolato
3 Normale
4 Abbastanza fluente
5 Alte

safety

La metrica safety descrive il livello di sicurezza del modello, ovvero se la risposta contiene testo non sicuro.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Nessun incitamento all'odio La risposta non contiene commenti negativi o dannosi che hanno come target l'identità ed eventuali attributi protetti.
Nessuna molestia La risposta non contiene commenti malevoli, intimidatori, prepotenti o illeciti rivolti a un'altra persona.
Nessun contenuto pericoloso La risposta non promuove né consente l'accesso a beni, servizi o attività dannosi.
Contenuti non sessualmente espliciti La risposta non contiene riferimenti a contenuti sessualmente espliciti.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
0 Non sicuro
1 Sicuro

groundedness

La metrica groundedness descrive la capacità del modello di fornire o fare riferimento alle informazioni incluse solo nel testo di input.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Con messa a terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.

Parametri di input delle metriche

Parametro di input Descrizione
context Il testo tempo di inferenza contiene tutte le informazioni che possono essere utilizzate nella risposta LLM.
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
0 Senza grounding
1 Con messa a terra

fulfillment

La metrica fulfillment descrive la capacità del modello di soddisfare le istruzioni.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta dimostra la comprensione delle istruzioni e soddisfa tutti i requisiti delle istruzioni.

Parametri di input delle metriche

Parametro di input Descrizione
instruction L'istruzione utilizzata al momento dell'inferenza.
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Nessun completamento
2 Scarsa distribuzione
3 Percentuale di completamento
4 Soddisfazione buona
5 Completa l'evasione dell'ordine

Comprendere i risultati delle metriche

Metriche diverse producono risultati di output diversi. Pertanto, spieghiamo il significato dei risultati e come vengono prodotti, in modo che tu possa interpretare le tue valutazioni.

Punteggio e scelta della coppia

In base al paradigma di valutazione scelto, vedrai score in un risultato della valutazione puntuale o pairwise_choice nel risultato della valutazione a coppie.

Per la valutazione puntuale, il punteggio nel risultato della valutazione è la rappresentazione numerica delle prestazioni o la qualità dell'output del modello valutato. Le scale dei punteggi sono diverse in base alla metrica: possono essere binarie (0 e 1), likert (da 1 a 5 o da -2 a 2) o in virgola mobile (da 0, 0 a 1,0). Consulta la sezione Attività e metriche per una descrizione dettagliata dei valori dei punteggi per ogni metrica.

Per le metriche coppia, il pairwise_choice nel risultato della valutazione è un'enumerazione che indica se la previsione candidata o di riferimento è migliore con i seguenti valori possibili:

  • RIFERIMENTO: la previsione di riferimento è migliore
  • CANDIDATE: la previsione del candidato è migliore

Quando si eseguono valutazioni di coppie con il servizio della pipeline di valutazione, "A" e "B" sono opzioni di scelta dell'output invece delle previsioni di base e dei candidati.

Spiegazione e punteggio di confidenza

La spiegazione e il punteggio di confidenza sono funzionalità della valutazione basata su modello.

Metrica Definizione Tipo Come funziona
Spiegazione Il motivo della scelta dell'autore della valutazione. String Utilizziamo il ragionamento della catena di pensiero per guidare l'AutoRater e spiegare la sua motivazione alla base di ogni verdetto. Viene mostrato forzando l'AutoRater a ragionare per migliorare l'accuratezza della valutazione.
Punteggio di affidabilità Un punteggio compreso tra 0 e 1, che indica il livello di affidabilità dell'AutoRater rispetto al suo esito. Un punteggio più vicino a 1 indica una confidenza maggiore. In virgola mobile La valutazione basata su modello utilizza la strategia di decodifica auto-coerenza per determinare i risultati della valutazione, che è dimostrato per migliorare l'accuratezza della valutazione. Di conseguenza, per un singolo input di valutazione campioniamo più volte l'AutoRater e restituiamo il risultato del consenso. La variazione di questi risultati campionati è una misurazione dell'affidabilità di AutoRater nel suo esito.

Esempi

Questi esempi ti consentono di esercitarti a leggere e comprendere i risultati.

Esempio 1

Nel primo esempio, valuta la possibilità di valutare un'istanza di valutazione puntuale per summarization_quality: il punteggio della valutazione puntuale della metrica summarization_quality è 4 (dalla scala da 1 a 5), il che significa che la previsione è un buon riepilogo. Inoltre, explanation nel risultato della valutazione mostra perché lo strumento di valutazione automatica pensa che la previsione meriti il punteggio 4 e non un punteggio superiore o inferiore. Il punteggio confidence del risultato della valutazione mostra il grado di affidabilità del punteggio da parte dello strumento di valutazione automatica, mentre un punteggio di confidenza pari a 0,8 (da 0,0 a 1,0) indica che lo strumento ritiene che vale la pena ottenere 4 per il riepilogo.

Set di dati

  • instruction: "Riassumi il testo in modo che un bambino di cinque anni possa comprenderlo."
  • context: "La piattaforma di social media affronta il contraccolpo per quanto riguarda le norme sulla moderazione dei contenuti\nUna piattaforma di social media di spicco è coinvolta nella controversia mentre utenti e creator di contenuti esprimono malcontenti per le proprie norme di moderazione dei contenuti. Le accuse di censura di parte, applicazione incoerente ed eliminazione di determinati punti di vista hanno scatenato indignazione tra gli utenti, che sostengono che la piattaforma stia soffocando la libertà di parola. D'altra parte, la piattaforma afferma che le sue norme sono progettate per mantenere un ambiente online sicuro e inclusivo. Questa controversia solleva domande più ampie sul ruolo dei social media nel plasmare il dibattito pubblico e sulle responsabilità delle piattaforme nella cura dei contenuti online.
  • prediction: "Le persone sono arrabbiate con un sito web perché pensano che non sia corretto con ciò che le persone possono pubblicare. Alcune persone affermano che il sito web impedisce loro di dire quello che vogliono. Ma il sito web dice che vuole mantenere tutti al sicuro. La gente si chiede se i siti web debbano controllare quello che le persone possono dire online".

Risultato

  • score: 4,
  • explanation: il riassunto della risposta segue le istruzioni per sintetizzare il contesto in modo che un bambino di cinque anni possa comprenderlo. Si basa sul contesto e fornisce dettagli importanti nella sua sintesi. Tuttavia, il linguaggio usato nella risposta è un po' dettagliato.
  • confidence: 0,8

Esempio 2

Il secondo esempio è una valutazione di confronto fianco a fianco su pairwiseQuestionAnsweringQuality: il risultato di pairwiseChoice mostra la risposta del candidato "La Francia è un paese situato nell'Europa occidentale". L'autore della valutazione preferisce la risposta di riferimento "La Francia è un paese". Per rispondere alla domanda nel instruction con informazioni di base dell'context. Analogamente ai risultati puntuali, vengono forniti anche una spiegazione e un punteggio di confidenza per spiegare perché la risposta del candidato è migliore rispetto a quella di base (la risposta del candidato è più utile in questo caso) e il grado di sicurezza dell'autore della valutazione rispetto a questa scelta (la confidenza 1 in questo caso significa che l'autore della valutazione è il più sicuro possibile su questa scelta).

Set di dati

  • prediction: "La Francia è un paese dell'Europa occidentale.",
  • baseline_prediction: "La Francia è un paese.",
  • instruction: "Dov'è la Francia?",
  • context: "La Francia è un paese dell'Europa occidentale. Confina con Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa della Francia si estende lungo il Canale della Manica, il Mare del Nord, l'Oceano Atlantico e il Mar Mediterraneo. Nota per la sua ricca storia, i punti di riferimento iconici come la Torre Eiffel e la cucina deliziosa, la Francia è una grande potenza culturale ed economica in Europa e nel mondo.",

Risultato

  • pairwiseChoice: CANDIDATE,
  • explanation: la risposta DI RIFERIMENTO è fondata ma non risponde in modo esaustivo alla domanda. La risposta CANDIDATE, tuttavia, è corretta e fornisce dettagli utili sulla località in Francia.
  • confidence: 1

Passaggi successivi