Übersetzungsmodelle bewerten

Der Gen AI Evaluation Service bietet die folgenden Messwerte für die Bewertung von Übersetzungsaufgaben:

MetricX und COMET sind punktbasierte, modellbasierte Messwerte, die für Übersetzungsaufgaben trainiert wurden. Sie können die Qualität und Genauigkeit der Ergebnisse von Übersetzungsmodellen für Ihre Inhalte bewerten, unabhängig davon, ob es sich um Ausgaben von NMT-, TranslationLLM- oder Gemini-Modellen handelt.

Sie können Gemini auch als Judge-Modell verwenden, um Ihr Modell in Kombination mit MetricX, COMET oder BLEU hinsichtlich Flüssigkeit, Kohärenz, Ausführlichkeit und Textqualität zu bewerten.

  • MetricX ist eine von Google entwickelte, auf Fehlern basierende Metrik, mit der ein Gleitkommawert zwischen 0 und 25 vorhergesagt wird, der die Qualität einer Übersetzung angibt. MetricX ist sowohl als referenzbasierte als auch als referenzfreie (QE) Methode verfügbar. Wenn Sie diesen Messwert verwenden, ist ein niedrigerer Wert besser, da er auf weniger Fehler hinweist.

  • COMET verwendet einen referenzbasierten Regressionsansatz, der Werte zwischen 0 und 1 liefert, wobei 1 für eine perfekte Übersetzung steht.

  • BLEU (Bilingual Evaluation Understudy) ist ein berechnungsbasierter Messwert. Der BLEU-Score gibt an, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Score-Wert an 1 liegt, desto näher ist die Übersetzung dem Referenztext.

Beachten Sie, dass BLEU-Werte nicht für den Vergleich verschiedener Korpora und Sprachen empfohlen werden. Ein BLEU-Score von 50 für Englisch nach Deutsch ist beispielsweise nicht mit einem BLEU-Score von 50 für Japanisch nach Englisch vergleichbar. Viele Übersetzungsexperten sind zu modellbasierten Messwertansätzen übergegangen, die eine höhere Korrelation mit menschlichen Bewertungen aufweisen und Fehler besser erkennen.

Informationen zum Ausführen von Bewertungen für Übersetzungsmodelle finden Sie unter Übersetzungsmodell bewerten.