Il servizio di valutazione dell'AI generativa offre le seguenti metriche di valutazione delle attività di traduzione:
MetricX e COMET sono metriche basate su modelli puntuali che sono state addestrate per le attività di traduzione. Puoi valutare la qualità e l'accuratezza dei risultati del modello di traduzione per i tuoi contenuti, indipendentemente dal fatto che siano output di modelli NMT, TranslationLLM o Gemini.
Puoi anche utilizzare Gemini come modello di valutazione per valutare il tuo modello in termini di fluidità, coerenza, livello di dettaglio e qualità del testo in combinazione con MetricX, COMET o BLEU.
MetricX è una metrica basata sugli errori sviluppata da Google che prevede un punteggio in virgola mobile compreso tra 0 e 25 che rappresenta la qualità di una traduzione. MetricX è disponibile sia come metodo basato su riferimenti che senza riferimenti (QE). Quando utilizzi questa metrica, un punteggio più basso è migliore perché significa che ci sono meno errori.
COMET utilizza un approccio di regressione basato sul riferimento che fornisce punteggi compresi tra 0 e 1, dove 1 indica una traduzione perfetta.
BLEU (Bilingual Evaluation Understudy) è una metrica basata su calcolo. Il punteggio BLEU indica il grado di somiglianza tra il testo candidato e il testo di riferimento. Un valore del punteggio BLEU più vicino a 1 indica che una traduzione è più vicina al testo di riferimento.
Tieni presente che i punteggi BLEU non sono consigliati per il confronto tra corpus e lingue diversi. Ad esempio, un punteggio BLEU di 50 per la traduzione dall'inglese al tedesco non è paragonabile a un punteggio BLEU di 50 per la traduzione dal giapponese all'inglese. Molti esperti di traduzione sono passati ad approcci basati su metriche basate su modelli, che hanno una correlazione più elevata con le valutazioni umane e sono più granulari nell'identificazione degli scenari di errore.
Per scoprire come eseguire le valutazioni per i modelli di traduzione, consulta Valutare un modello di traduzione.