Übersetzungsmodelle bewerten

Der Gen AI Evaluation Service bietet die folgenden Bewertungsmesswerte für Übersetzungsaufgaben:

MetricX und COMET sind punktbasierte, modellbasierte Messwerte, die für Übersetzungsaufgaben trainiert wurden. Sie können die Qualität und Genauigkeit der Übersetzungsmodellergebnisse für Ihre Inhalte bewerten, unabhängig davon, ob es sich um NMT-, TranslationLLM- oder Gemini-Modelle handelt.

Sie können Gemini auch als Bewertungsmodell verwenden, um Ihr Modell in Kombination mit MetricX, COMET oder BLEU auf Sprachfluss, Kohäsion, Ausführlichkeit und Textqualität zu bewerten.

  • MetricX ist ein von Google entwickelter fehlerbasierter Messwert, der einen Gleitkommawert zwischen 0 und 25 vorhersagt, der die Qualität einer Übersetzung darstellt. MetricX ist sowohl als referenzbasierte als auch als referenzfreie Methode (QE) verfügbar. Je niedriger der Wert, desto besser, da es weniger Fehler gibt.

  • COMET verwendet einen referenzbasierten Regressionsansatz, der Bewertungen von 0 bis 1 liefert, wobei 1 für eine perfekte Übersetzung steht.

  • BLEU (Bilingual Evaluation Understudy) ist ein berechnungsbasierter Messwert. Der BLEU-Wert gibt an, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Score-Wert an 1 liegt, desto näher ist die Übersetzung dem Referenztext.

BLEU-Werte werden nicht empfohlen, um verschiedene Korpora und Sprachen zu vergleichen. Ein BLEU-Wert von 50 für eine Übersetzung vom Englischen ins Deutsche ist beispielsweise nicht mit einem BLEU-Wert von 50 für eine Übersetzung vom Japanischen ins Englische vergleichbar. Viele Übersetzungsexperten haben zu modellbasierten Messmethoden gewechselt, die eine höhere Korrelation mit Bewertungen durch Menschen aufweisen und Fehlerszenarien detaillierter identifizieren.

Weitere Informationen zum Ausführen von Bewertungen für Übersetzungsmodelle finden Sie unter Übersetzungsmodell bewerten.