Valuta i modelli

Dopo aver addestrato un modello, AutoML Translation utilizza il tuo set TEST per valutare la qualità e la precisione del nuovo modello. AutoML Translation esprime la qualità del modello utilizzando il suo punteggio BLEU (Bilingual Evaluation Understudy), che indica quanto è simile il testo del candidato al testo di riferimento. Un punteggio BLEU più vicino a uno indica che una traduzione è più vicina al testo di riferimento.

Utilizza questi dati per valutare l'idoneità del modello. Per migliorare la qualità del modello, ti consigliamo di aggiungere più coppie (e più diversificate) di segmenti di addestramento. Dopo aver modificato il set di dati, addestra un nuovo modello utilizzando il set di dati migliorato.

Ottieni la valutazione del modello

  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.

  3. Fai clic sul modello da valutare.

  4. Fai clic sulla scheda Addestra per visualizzare le metriche di valutazione del modello, ad esempio il punteggio BLEU.

Testa le previsioni del modello

Utilizzando la console Google Cloud, confronti i risultati della traduzione del tuo modello personalizzato con il modello NMT predefinito.

  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.

  3. Fai clic sul modello da testare.

  4. Fai clic sulla scheda Previsione.

  5. Aggiungi un testo di input nella casella di testo della lingua di origine.

  6. Fai clic su Traduci.

    AutoML Translation mostra i risultati della traduzione per il modello personalizzato e il modello NMT.

Valuta e confronta i modelli utilizzando un nuovo set di test

Dalla console Google Cloud, puoi rivalutare i modelli esistenti utilizzando un nuovo set di dati di test. In una singola valutazione, puoi includere fino a 5 modelli diversi e confrontarne i risultati.

Carica i dati di test in Cloud Storage come valori separati da tabulazioni (TSV) o file Translation eXchange (TMX).

AutoML Translation valuta i tuoi modelli in base al set di test e poi genera punteggi di valutazione. Se vuoi, puoi salvare i risultati per ogni modello come file TSV in un bucket Cloud Storage, in cui ogni riga ha il formato seguente:

Source segment tab Model candidate translation tab Reference translation
  1. Vai alla console di AutoML Translation.

    Vai alla pagina Traduzione

  2. Nel menu di navigazione, fai clic su Modelli per visualizzare un elenco dei tuoi modelli.

  3. Fai clic sul modello da valutare.

  4. Fai clic sulla scheda Valuta.

  5. Nella scheda Valuta, fai clic su Nuova valutazione.

  6. Seleziona i modelli che vuoi valutare e confrontare, quindi fai clic su Avanti.

    Deve essere selezionato il modello attuale e Google NMT per impostazione predefinita, che puoi deselezionare.

  7. Specifica un nome per il Nome set di test per distinguerlo dalle altre valutazioni, quindi seleziona il nuovo set di test da Cloud Storage.

  8. Tocca Next (Avanti).

  9. Per esportare le previsioni, specifica una cartella di destinazione di Cloud Storage.

  10. Fai clic su Avvia valutazione.

    AutoML Translation presenta i punteggi di valutazione in formato tabella nella console al termine della valutazione. Puoi eseguire una sola valutazione alla volta. Se hai specificato una cartella per archiviare i risultati della previsione, AutoML Translation scrive i file TSV in quella posizione denominata con l'ID modello associato, aggiunto con il nome del set di test.

Comprendere il punteggio BLEU

BLEU (Bilualizzazione gioco) è una metrica per la valutazione automatica del testo tradotto automaticamente. Il punteggio BLEU è un numero compreso tra zero e uno che misura la somiglianza del testo tradotto automaticamente con una serie di traduzioni di riferimento di alta qualità. Un valore 0 significa che l'output tradotto automaticamente non ha sovrapposizioni con la traduzione di riferimento (che indica una qualità inferiore), mentre un valore 1 significa una sovrapposizione perfetta con le traduzioni di riferimento (che indica una qualità superiore).

È stato dimostrato che i punteggi BLEU sono strettamente correlati al giudizio umano sulla qualità della traduzione. Tieni presente che anche i traduttori umani non ottengono un punteggio perfetto di 1,0.

AutoML Translation esprime i punteggi BLEU in percentuale invece di un numero decimale compreso tra 0 e 1.

Interpretazione

È sconsigliato provare a confrontare i punteggi BLEU tra diversi corpora e lingue. Anche confrontare i punteggi BLEU per lo stesso corpus, ma con un numero diverso di traduzioni, può essere molto fuorviante.

Tuttavia, come guida generale, potrebbe essere utile la seguente interpretazione dei punteggi BLEU (espressi in percentuali anziché in decimali).

Punteggio BLEU Interpretazione
Meno di 10 Quasi inutile
10-19 Difficile da capire
20 - 29 I concetti sono chiari, ma contengono errori grammaticali significativi
30 - 40 Comprensibile per le traduzioni di buona qualità
40 - 50 Traduzioni di alta qualità
50 - 60 Traduzioni di qualità, adeguata e fluente
> 60 Qualità spesso migliore degli esseri umani

Il seguente gradiente di colore può essere utilizzato come interpretazione internazionale del punteggio BLEU in scala:

Interpretabilità generale della scalabilità

Dettagli matematici

Matematicamente, il punteggio BLEU è definito come:

$$ \text{BLEU} = \underbrace{\vphantom{\prod_i^4}\min\Big(1, \exp\big(1-\frac{\text{reference-length}} {Mozillaext{output-length}}\big)\Big)}_{\text{brevity penali}}}}

con

\{

dove

  • \(m_{cand}^i\hphantom{xi}\) è il conteggio di i-gram nel candidato corrispondente alla traduzione di riferimento
  • \(m_{ref}^i\hphantom{xxx}\) è il conteggio di i-gram nella traduzione di riferimento
  • \(w_t^i\hphantom{m_{max}}\) è il numero totale di i-grammi nella traduzione del candidato

La formula è composta da due parti: la penalità per brevità e la sovrapposizione n-grammo.

  • Penatura della brevità
    La sanzione della brevità penalizza le traduzioni generate che sono troppo brevi rispetto alla durata di riferimento più vicina con un decadimento esponenziale. La pena di risarcimento compensa il fatto che il punteggio BLEU non ha un termine di richiamo.

  • Sovrapposizione N-Gram
    La sovrapposizione n-gram conta il numero di unigrammi, bigram, trigrammi e quattro grammi (i=1,...,4) che corrispondono alla loro controparte n-gram nelle traduzioni dei riferimenti. Questo termine funge da metrica di precisione. Gli unigrammi rappresentano l'adeguatezza, mentre il numero n-gram più lungo tiene conto della fluenza della traduzione. Per evitare una sovrastima, i conteggi di n-grammi vengono ritagliati in base al conteggio massimo di n-grammi che si verifica nel riferimento (\(m_{ref}^n\)).

Esempi

Calcolo di \(precision_1\)

Considera questa frase di riferimento e la traduzione del candidato:

Riferimento: the cat is on the mat
Candidato: the the the cat mat

Il primo passaggio consiste nel conteggiare le occorrenze di ogni unigram nel riferimento e nel candidato. Tieni presente che la metrica BLEU è sensibile alle maiuscole.

Unigramma \(m_{cand}^i\hphantom{xi}\) \(m_{ref}^i\hphantom{xxx}\.) \(\min(m^i_{cand}, m^i_{ref})\)
the 3 2 2
cat 1 1 1
is 0 1 0
on 0 1 0
mat 1 1 1

Il numero totale di unigrammi nel candidato (\(w_t^1\)) è 5, quindi \(precision_1\) = (2 + 1 + 1)/5 = 0,8.

Calcolo del punteggio BLEU

Riferimento:     The NASA Opportunity rover is battling a massive dust storm on Mars .
Candidato 1: The Opportunity rover is combating a big sandstorm on Mars .
Candidato 2: A NASA rover is fighting a massive storm on Mars .

L'esempio precedente è costituito da un unico riferimento e da due traduzioni candidati. Le frasi vengono tokenizzate prima di calcolare il punteggio BLEU, come illustrato sopra; ad esempio, il periodo finale viene conteggiato come un token separato.

Per calcolare il punteggio BLEU per ogni traduzione, calcoliamo le seguenti statistiche.

  • Precisioni di N-Gram
    La seguente tabella contiene le precisione di n-gram per entrambi i candidati.
  • Brevità-sanzione
    La brevità-penalità è la stessa per il candidato 1 e il candidato 2, in quanto entrambe le frasi sono composte da 11 token.
  • Punteggio BLEU
    Tieni presente che è richiesto almeno 4 grammi per ottenere un punteggio BLEU > 0. Poiché la traduzione candidata non ha un valore di 4 grammi corrispondente, ha un punteggio BLEU pari a 0.
Metrica Candidato 1 Candidato 2
\(precision_1\) (1grammo) 11/8 11/9
\(precisione_2\) (2grammi) 10/4 10/5
\(precisione_3\) (3grammi) 9/2 9/2
\(precisione_4\) (4grammi) 0/8 8/1
Gravità-pena 0,83 0,83
Punteggio BLEU 0,0 0,27

Proprietà

  • BLEU è una metrica basata sul corpus
    La metrica BLEU ha un rendimento scarso quando viene utilizzata per valutare le singole frasi. Ad esempio, entrambe le frasi di esempio ottengono punteggi BLEU molto bassi anche se comprendono la maggior parte del significato. Poiché le statistiche n-gram per le singole frasi sono meno significative, BLEU progetta una metrica basata sul corpus. In altre parole, le statistiche vengono raccolte sull'intero corpus durante il calcolo del punteggio. Tieni presente che la metrica BLEU definita sopra non può essere presa in considerazione per le singole frasi.

  • Nessuna distinzione tra contenuti e parole funzionali
    La metrica BLEU non fa distinzione tra contenuti e parole funzionali, ovvero una parola funzione eliminata come "a" ha la stessa sanzione di se il nome "NASA" è stato sostituito erroneamente da "ESA".

  • Non è in grado di comprendere il significato e la grammatica di una frase
    La diminuzione di una singola parola, ad esempio "non", può cambiare la polarità di una frase. Inoltre, tenendo conto solo di n-grammi con n≤4, si ignorano le dipendenze a lungo raggio e pertanto BLEU impone spesso una piccola sanzione alle frasi non grammaticali.

  • Normalizzazione e tokenizzazione
    Prima di calcolare il punteggio BLEU, sia le traduzioni dei riferimenti sia quelle dei candidati vengono normalizzate e tokenizzate. La scelta dei passaggi di normalizzazione e tokenizzazione influisce in modo significativo sul punteggio BLEU finale.