Valutare i modelli di traduzione

Il servizio di valutazione dell'IA generativa offre le seguenti metriche di valutazione delle attività di traduzione:

MetricX e COMET sono metriche basate su modelli puntuali che sono state addestrate per le attività di traduzione. Puoi valutare la qualità e l'accuratezza dei risultati del modello di traduzione per i tuoi contenuti, che si tratti di output di modelli NMT, TranslationLLM o Gemini.

Puoi anche utilizzare Gemini come modello di valutazione per valutare il tuo modello in termini di fluidità, coerenza, livello di dettaglio e qualità del testo in combinazione con MetricX, COMET o BLEU.

  • MetricX è una metrica basata sugli errori sviluppata da Google che prevede un punteggio a virgola mobile compreso tra 0 e 25 che rappresenta la qualità di una traduzione. MetricX è disponibile sia come metodo basato su riferimento sia come metodo senza riferimento (QE). Quando utilizzi questa metrica, un punteggio più basso è un punteggio migliore, perché indica che ci sono meno errori.

  • COMET utilizza un approccio di regressione basato su riferimento che fornisce punteggi da 0 a 1, dove 1 indica una traduzione perfetta.

  • BLEU (Bilingual Evaluation Understudy) è una metrica basata su calcolo. Il punteggio BLEU indica quanto il testo candidato è simile al testo di riferimento. Un valore del punteggio BLEU più vicino a 1 indica che una traduzione è più simile al testo di riferimento.

Tieni presente che i punteggi BLEU non sono consigliati per il confronto tra corpora e lingue diversi. Ad esempio, un punteggio BLEU dall'inglese al tedesco pari a 50 non è paragonabile a un punteggio BLEU dal giapponese all'inglese pari a 50. Molti esperti di traduzione hanno adottato approcci metrici basati su modelli, che hanno una correlazione più elevata con le valutazioni umane e sono più granulari nell'identificazione degli scenari di errore.

Per scoprire come eseguire valutazioni per i modelli di traduzione, consulta Valutare un modello di traduzione.