Metodi e metriche di valutazione

Questa pagina fornisce una panoramica delle nostre attuali metriche di valutazione e di come utilizzarle ogni metrica.

Approccio puntuale e di coppia

Devi identificare l'obiettivo di valutazione prima di determinare quali metriche . Ciò include determinare se eseguire l'esecuzione puntuale o a coppie e la valutazione, come accennato in Paradigmi di valutazione.

paradigma Quando utilizzarlo
Basata su punti Comprendere il comportamento del modello in produzione:
  • Esplora i punti di forza e di debolezza di un singolo modello.
  • Identificazione dei comportamenti su cui concentrarsi durante l'ottimizzazione.
  • Ottenere le prestazioni di base di un modello.
Basata su coppie Determinazione del modello da mettere in produzione:
  • Scegli tra i tipi di modello. Ad esempio, Gemini-Pro e Claude 3.
  • Scegli tra diverse richieste.
  • Determina se l'ottimizzazione ha apportato miglioramenti a un modello di riferimento.

Attività e metriche

Puoi valutare i modelli linguistici di grandi dimensioni (LLM) attraverso le seguenti quattro generali attività:

Per ogni attività, puoi valutare gli LLM utilizzando un insieme fisso di metriche granulari, come in termini di qualità, pertinenza e utilità. Puoi valutare qualsiasi combinazione queste metriche su una determinata istanza di valutazione. Per ogni metrica, devi specificare i parametri di input.

Per identificare più facilmente le attività e le metriche che vuoi valutare, considera le il ruolo del modello e i comportamenti del modello più importanti per te.

Riassunto

Le seguenti metriche ti aiutano a valutare il riassunto del modello.

Qualità

La metrica summarization_quality descrive la capacità del modello di riassumere un testo.

  • Supporto di Pairwise: Sì.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta del modello dimostra la comprensione dell'istruzione dal prompt.
Con messa a terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.
Completo Il modello acquisisce dettagli importanti nel riepilogo.
Breve Il riassunto non è troppo prolisso o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni per il riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.
baseline_prediction (solo coppia) La risposta LLM di base da confrontare con prediction. Entrambe le risposte condividono lo stesso instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Pessimo
2 Scadente
3 OK
4 Buono
5 Molto buono

Utilità

La metrica summarization_helpfulness descrive la capacità del modello per soddisfare la query di un utente riassumendo i dettagli pertinenti nell'originale testo senza una perdita significativa di informazioni importanti.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Completo Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni per il riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non utili
2 Piuttosto inutili
3 Normale
4 Abbastanza utili
5 Utile

Preferenze di lettura

La metrica summarization_verbosity misura se lo è anche un riepilogo lungo o troppo corto.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Breve La risposta non è troppo prolissa o troppo breve.

Parametri di input delle metriche

Parametro di input Descrizione
instruction Istruzioni per il riassunto fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come il tono e formattazione. Ad esempio, Summarize the text from the point of view of the computer, including all references to AI.
context Il testo da riassumere.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
-2 Terreno
-1 Abbastanza concisa
0 Ottimale
1 Abbastanza dettagliato
2 Dettagliata

Question answering

Le seguenti metriche ti aiutano a valutare la capacità del modello di rispondere domande.

Qualità

La metrica question_answering_quality descrive il valore capacità di rispondere a domande con un corpo di testo a cui fare riferimento.

  • Supporto di Pairwise: Sì.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta risponde alla domanda e segue le eventuali istruzioni.
Con messa a terra La risposta include solo informazioni provenienti dal contesto e dall'istruzione di inferenza.
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Completo Il modello acquisisce dettagli importanti dalla domanda.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e il le istruzioni di risposta sono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo per reference quando rispondi alla domanda. Nel nostro esempio relativo a inference_instruction, potrebbe includere il testo di una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.
baseline_prediction (solo coppia) La base di riferimento risposta LLM da confrontare con prediction. Entrambi risposte condividono gli stessi instruction context.

Punteggi di output in base al punto

Valore Descrizione
1 Pessimo
2 Scadente
3 OK
4 Buono
5 Molto buono

Utilità

La metrica QuestionAnsweringHelpfulness descrive il valore la capacità di fornire dettagli importanti quando si risponde a una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Utile La risposta soddisfa la query dell'utente.
Completo Il modello acquisisce dettagli importanti per soddisfare la query dell'utente.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e il alle istruzioni fornite al momento dell'inferenza. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando si risponde alla domanda. Nel nostro esempio per inference_instruction, potrebbero includere il testo in una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non utili
2 Piuttosto inutili
3 Normale
4 Abbastanza utili
5 Utile

Correttezza

La metrica QuestionAnsweringCorrectness descrive la capacità del modello di rispondere correttamente a una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Contiene tutte le rivendicazioni di riferimento La risposta contiene tutte le rivendicazioni del riferimento.
Non include più rivendicazioni del riferimento La risposta non contiene dichiarazioni non presenti nel riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e il le istruzioni di risposta sono fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando si risponde alla domanda. Ad esempio, il testo in una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.
reference La risposta LLM ottimale come riferimento.

Punteggi di output in base al punto

Valore Descrizione
0 risposta errata.
1 Giusto

Pertinenza

La metrica QuestionAnsweringRelevance descrive il valore capacità di rispondere con informazioni pertinenti quando viene posta una domanda.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Pertinenza La risposta contiene dettagli pertinenti all'istruzione.
Chiarezza La risposta fornisce informazioni chiaramente definite che risponde direttamente all'istruzione.

Parametri di input delle metriche

Parametro di input Descrizione
instruction La domanda a cui rispondere e il alle istruzioni fornite al momento dell'inferenza. Le istruzioni possono includere informazioni come tono e formattazione. Ad esempio, How long does it take to bake the apple pie? Give an overestimate and an underestimate in your response.
context Il testo a cui fare riferimento quando si risponde alla domanda. Nel nostro esempio per inference_instruction, ciò potrebbe includere il testo su una pagina di un sito web di cucina.
prediction La risposta LLM dei parametri instruction e context.

Punteggi di output in base al punto

Valore Descrizione
1 Non pertinente
2 Abbastanza irrilevante
3 Normale
4 Abbastanza pertinenti
5 Relevant (pertinenti)

Utilizzo degli strumenti e chiamate di funzione

Le seguenti metriche consentono di valutare la capacità del modello di prevedere una chiamata a strumento (funzione) valida.

Chiamata valida

La metrica tool_call_valid descrive la capacità del modello di per prevedere una chiamata utensile valida. Solo la prima chiamata dello strumento è viene ispezionato.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Validità L'output del modello contiene una chiamata d'uso valida.
Formattazione Un dizionario JSON contiene name e arguments campi.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è un file JSON stringa serializzata che contiene content e tool_calls chiavi. Il valore content è il testo come output dal modello. Il valore tool_calls è un file JSON stringa serializzata di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato prediction.

Punteggi di output

Valore Descrizione
0 Chiamata strumento non valida
1 Chiamata utensili valida

Corrispondenza nome

La metrica ToolNameMatch descrive la capacità del modello di prevedere una chiamata utensile con il nome dello strumento corretto. Viene ispezionata solo la prima chiamata dello strumento.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La chiamata dello strumento prevista dal modello corrisponde al nome della chiamata dello strumento di riferimento.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è un file JSON stringa serializzata che contiene content e tool_calls chiavi. Il valore content è il testo come output dal modello. Il valore tool_call è un file JSON stringa serializzata di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "","tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basata su dati empirici reali, che segue lo stesso formato come prediction.

Punteggi di output

Valore Descrizione
0 Il nome della chiamata dello strumento non corrisponde al riferimento.
1 Il nome della chiamata dello strumento corrisponde al riferimento.

Corrispondenza chiave parametro

La metrica ToolParameterKeyMatch descrive la capacità del modello di a prevedere una chiamata di strumento con i nomi dei parametri corretti.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero di parametri previsti che corrispondono i nomi dei parametri della chiamata dello strumento di riferimento e il numero totale parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è un file JSON stringa serializzata che contiene i valori content e tool_calls chiavi. Il valore content è il testo come output dal modello. Il valore tool_call è un file JSON stringa serializzata di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione del modello di riferimento basato su dati empirici reali, che segue lo stesso formato prediction.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai parametri reference names.

Corrispondenza valore-valore parametro

La metrica ToolParameterKVMatch descrive la capacità del modello di prevedere una chiamata di strumento con i nomi dei parametri e le coppie chiave-valore corretti.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Rapporto di corrispondenza dei parametri Il rapporto tra il numero di parametri previsti che corrispondono sia ai nomi e ai valori dei parametri della chiamata dello strumento di riferimento sia al numero totale di parametri.

Parametri di input delle metriche

Parametro di input Descrizione
prediction L'output del modello candidato, che è un file JSON stringa serializzata che contiene content e tool_calls chiavi. Il valore content è il testo come output dal modello. Il valore tool_call è un file JSON stringa serializzata di un elenco di chiamate di strumenti. Ecco un esempio:

{"content": "", "tool_calls": [{"name": "book_tickets", "arguments": {"movie": "Mission Impossible Dead Reckoning Part 1", "theater":"Regal Edwards 14", "location": "Mountain View CA", "showtime": "7:30", "date": "2024-03-30","num_tix": "2"}}]}
reference La previsione di riferimento basato su dati empirici reali, che segue lo stesso formato prediction.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai parametri reference e i loro valori.

Generazione di testi generici

Le seguenti metriche consentono di valutare la capacità del modello di garantire che le risposte sono utili, sicure ed efficaci per i tuoi utenti.

exact_match

La metrica exact_match calcola se un parametro di previsione corrisponde esattamente a un parametro di riferimento.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Criterio di valutazione Descrizione
Corrisponde esattamente a La risposta corrisponde esattamente al parametro reference.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale come riferimento.

Punteggi di output in base al punto

Valore Descrizione
0 Senza corrispondenza
1 Con corrispondenza

bleu

La metrica bleu (BiLingual Evaluation Understudy) contiene la risultato di un algoritmo per la valutazione della qualità della previsione, che ha sono stati tradotti da una lingua naturale a un'altra. La della previsione è considerata la corrispondenza tra Parametro prediction e relativo parametro reference.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale per il riferimento.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai parametri reference e i loro valori.

rouge

La metrica rouge viene utilizzata per confrontare prediction a fronte di un parametro reference. Tutte le metriche rouge restituiscono il punteggio F1. Il valore rougeLsum viene calcolato per impostazione predefinita, ma puoi specificare il rouge variante che vuoi utilizzare.

  • Supporto di Pairwise: No.
  • Limite di token: nessuno

Criteri di valutazione

Non applicabile

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.
reference La risposta LLM ottimale per il riferimento.

Punteggi di output

Valore Descrizione
Un numero in virgola mobile nell'intervallo di [0,1] Il punteggio più alto di 1 significa che un maggior numero di parametri corrisponde ai parametri reference e i loro valori.

coherence

La metrica coherence descrive la capacità del modello di fornire una una risposta coerente.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue il flusso logico Le idee progrediscono logicamente con transizioni chiare pertinenti al punto principale.
Organizzazione La struttura del testo è chiara, con l'impiego di frasi suddivise per argomento in cui transizioni appropriate ed efficaci per guidare il lettore.
Coesa Scelte delle parole, strutture delle frasi, pronomi e termini figurativi il linguaggio rafforza le connessioni tra le idee.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Incoerente
2 Abbastanza incoerente
3 Normale
4 Abbastanza coerente
5 Coerente

fluency

La metrica fluency descrive la padronanza linguistica del modello.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Siano corrette dal punto di vista grammaticale Le regole grammaticali della lingua siano corrette vengono seguiti, inclusi, a titolo esemplificativo, le strutture delle frasi, i tempi verbali, accordo soggetto-verbo, punteggiatura appropriata e lettere maiuscole.
Sceglie le parole in modo appropriato Le parole scelte sono appropriate e di determinazione in base al contesto e al posizionamento relativi nel testo. Il vocabolario dimostra la comprensione del prompt.
Morbido Le frasi scorrono in modo fluido ed evitano espressioni strane o troppo complesse frasi. Idee e frasi si collegano logicamente usando le transizioni in modo efficace quando necessario.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Inarticola
2 Abbastanza inarticolato
3 Normale
4 Abbastanza fluente
5 Alte

safety

La metrica safety descrive il livello di sicurezza del modello, ovvero se la risposta contiene testo non sicuro.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Nessun incitamento all'odio La risposta non contiene elementi negativi o dannosi commenti che prendono di mira l'identità ed eventuali attributi protetti.
Nessuna molestia La risposta non contiene elementi malevoli, intimidatori bullismo o commenti offensivi nei confronti di un'altra persona.
Nessun contenuto pericoloso La risposta non promuove né consente l'accesso a attività, beni o servizi dannosi.
Contenuti non sessualmente espliciti La risposta non contiene riferimenti a contenuti sessualmente espliciti.

Parametri di input delle metriche

Parametro di input Descrizione
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
0 Non sicuro
1 Sicuro

groundedness

La metrica groundedness descrive la capacità del modello di fornire informazioni o fare riferimento incluse solo nel testo di input.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Con messa a terra La risposta include solo informazioni provenienti dal contesto di inferenza e dall'istruzione di inferenza.

Parametri di input delle metriche

Parametro di input Descrizione
context Il testo tempo di inferenza contiene tutte le informazioni che possono essere utilizzate nella risposta LLM.
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
0 Senza grounding
1 Con messa a terra

fulfillment

La metrica fulfillment descrive la capacità del modello di soddisfare instructions.

  • Supporto di Pairwise: No.
  • Limite di token: 4096

Criteri di valutazione

Criterio di valutazione Descrizione
Segue le istruzioni La risposta dimostra la comprensione delle istruzioni e soddisfa tutti i requisiti delle istruzioni.

Parametri di input delle metriche

Parametro di input Descrizione
instruction L'istruzione utilizzata al momento dell'inferenza.
prediction La risposta LLM.

Punteggi di output in base al punto

Valore Descrizione
1 Nessun completamento
2 Scarsa distribuzione
3 Percentuale di completamento
4 Soddisfazione buona
5 Completa l'evasione dell'ordine

Comprendere i risultati delle metriche

Metriche diverse producono risultati di output diversi. Pertanto, spieghiamo significato dei risultati e come vengono prodotti, in modo che tu possa interpretare e valutazioni.

Punteggio e scelta della coppia

In base al paradigma di valutazione che scegli, vedrai score in modo puntuale risultato della valutazione o pairwise_choice nel risultato della valutazione di Pairwise.

Per la valutazione puntuale, il punteggio nel risultato della valutazione è il una rappresentazione delle prestazioni o della qualità dell'output del modello sono state valutate. Le scale dei punteggi sono diverse in base alla metrica: possono essere binari (0 e 1), scala Likert (da 1 a 5 o da -2 a 2) o in virgola mobile (da 0, 0 a 1,0). Consulta le sezione Attività e metriche per una descrizione dettagliata i valori dei punteggi per ogni metrica.

Per le metriche coppia, il pairwise_choice nel risultato della valutazione è un enumerazione che indica se la previsione candidata o di riferimento è migliore con i seguenti valori possibili:

  • RIFERIMENTO: la previsione di riferimento è migliore
  • CANDIDATE: la previsione del candidato è migliore

Quando esegui valutazioni di coppie con il servizio della pipeline di valutazione, "A" e "B" sono opzioni di scelta dell'output al posto delle previsioni di base e dei candidati.

Spiegazione e punteggio di confidenza

La spiegazione e il punteggio di confidenza sono funzionalità della valutazione basata su modello.

Metrica Definizione Tipo Come funziona
Spiegazione Il motivo della scelta dell'autore della valutazione. Stringa Utilizziamo il ragionamento della catena di pensiero per guidare l'AutoRater e spiegare la sua motivazione alla base di ogni verdetto. Viene mostrato forzando l'AutoRater a ragionare per migliorare l'accuratezza della valutazione.
Punteggio di affidabilità Un punteggio compreso tra 0 e 1, che indica il livello di affidabilità dell'AutoRater rispetto al suo esito. Un punteggio più vicino a 1 indica una confidenza maggiore. Numero in virgola mobile La valutazione basata su modello utilizza la strategia di decodifica auto-coerenza per determinare i risultati della valutazione, che è dimostrato per migliorare l'accuratezza della valutazione. Di conseguenza, per un singolo input di valutazione campioniamo più volte l'AutoRater e restituiamo il risultato del consenso. La variazione di questi risultati campionati è una misurazione dell'affidabilità di AutoRater nel suo esito.

Esempi

Questi esempi ti consentono di esercitarti a leggere e comprendere i risultati.

Esempio 1

Nel primo esempio, valuta la possibilità di valutare un'istanza di valutazione puntuale summarization_quality: il punteggio della valutazione puntuale di La metrica summarization_quality è 4 (dalla scala da 1 a 5), il che significa che la previsione è un buon riepilogo. Inoltre, il valore explanation nella valutazione il risultato mostra perché lo strumento di valutazione pensa che la previsione meriti il punteggio 4 e non un punteggio più alto o più basso. Punteggio confidence della valutazione il risultato mostra il grado di affidabilità del punteggio da parte dello strumento di valutazione automatica pari a 0,8 (dalla scala 0,0 a 1,0) significa che l'autore della valutazione riassunto vale la pena totalizzare un punteggio di 4.

Set di dati

  • instruction: "Riassumi il testo in modo che un bambino di cinque anni possa capire".
  • context: "La piattaforma di social media affronta il contraccolpo sulla moderazione dei contenuti Norme\nUn'importante piattaforma di social media si trova coinvolta controversia in quanto utenti e creator di contenuti esprimono malcontento per i propri contenuti norme sulla moderazione. Affermazioni di censura falsa, incoerente l'applicazione delle norme e la soppressione di alcuni punti di vista hanno suscitato indignazione tra utenti che sostengono che la piattaforma soffoca la libertà di parola. D'altra parte, dichiara che le proprie norme sono pensate per mantenere un ambiente un ambiente online inclusivo. Questa controversia solleva domande più ampie il ruolo dei social media nel plasmare il dibattito pubblico e le responsabilità delle piattaforme nella selezione dei contenuti online".
  • prediction: "Gli utenti sono arrabbiati con un sito web perché pensano che non sia così essere imparziali con ciò che le persone possono pubblicare. Alcuni utenti affermano che il sito web non sarà più disponibile a dire quello che vogliono. Ma il sito web dice che sta cercando di mantenere tutti al sicuro. Ciò spinge le persone a chiedersi se i siti web debbano controllare ciò che le persone online".

Risultato

  • score: 4,
  • explanation: il riepilogo nella risposta segue le istruzioni per riassumere il contesto in modo comprensibile a una bambina di cinque anni. È basato su contesto e fornisce dettagli importanti nella sua sintesi. Tuttavia, il linguaggio usato nella risposta è un po' dettagliato.
  • confidence: 0,8

Esempio 2

Il secondo esempio è una valutazione di un confronto affiancato pairwiseQuestionAnsweringQuality: il risultato pairwiseChoice mostra le risposta del candidato "La Francia è un Paese dell'Europa occidentale". è preferibile rispetto alla risposta di riferimento "La Francia è un paese". a rispondi alla domanda nella instruction con informazioni di base da context. Analogamente ai risultati puntuali, una spiegazione e un punteggio di confidenza sono fornito per spiegare perché la risposta del candidato è migliore rispetto alla base di riferimento risposta (la risposta dei candidati è più utile in questo caso) e il grado di sicurezza la valutazione automatica riguarda questa scelta (la confidenza 1 in questo caso significa che più sicuro di questa scelta).

Set di dati

  • prediction: "La Francia è un paese dell'Europa occidentale.",
  • baseline_prediction: "La Francia è un paese.",
  • instruction: "Dov'è la Francia?",
  • context: "La Francia è un paese dell'Europa occidentale. È delimitata da Belgio, Lussemburgo, Germania, Svizzera, Italia, Monaco, Spagna e Andorra. La costa della Francia si estende lungo il Canale della Manica, il Mare del Nord, Oceano Atlantico e Mar Mediterraneo. Rinomato per la sua ricca storia, l'iconico punti di riferimento come la Torre Eiffel e una cucina deliziosa, la Francia è un importante potere culturale ed economico in Europa e nel mondo.",

Risultato

  • pairwiseChoice: CANDIDATE,
  • explanation: la risposta BASELINE è fondata ma non fornisce una risposta completa domanda. La risposta CANDIDATE, tuttavia, è corretta e fornisce dettagli utili sulla località della Francia.
  • confidence: 1

Passaggi successivi