Modelle bewerten

Nach dem Training eines Modells verwendet AutoML Translation das TEST-Set, um die Qualität und Genauigkeit des neuen Modells zu bewerten. AutoML Translation ermittelt die Modellqualität. Es nutzt dazu die BLEU-Wertung (Bilingual Evaluation Understudy), die angibt, wie ähnlich der Kandidatentext dem Referenztext ist. Je näher ein BLEU-Score-Wert an 1 liegt, desto näher ist die Übersetzung dem Referenztext.

Verwenden Sie diese Daten, um die Bereitschaft Ihres Modells zu bewerten. Zur Verbesserung der Qualität Ihres Modells können Sie weitere (und stärker unterschiedliche) Trainingssegmentpaare hinzufügen. Nachdem Sie das Dataset angepasst haben, trainieren Sie ein neues Modell mit dem verbesserten Dataset.

BLEU-Werte werden nicht empfohlen, um verschiedene Korpora und Sprachen zu vergleichen. Ein BLEU-Wert von 50 für eine Übersetzung vom Englischen ins Deutsche ist beispielsweise nicht mit einem BLEU-Wert von 50 für eine Übersetzung vom Japanischen ins Englische vergleichbar. Viele Übersetzungsexperten haben zu modellbasierten Messmethoden gewechselt, die eine höhere Korrelation mit menschlichen Bewertungen aufweisen und Fehlerszenarien detaillierter identifizieren.

AutoML Translation unterstützt nur BLEU-Werte. Informationen zum Bewerten Ihres Übersetzungsmodells mithilfe von modellbasierten Messwerten finden Sie im Hilfeartikel Gen AI-Bewertungsdienst in Vertex AI.

Modellbewertung abrufen

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Klicken Sie im Navigationsmenü auf Modelle, um eine Liste Ihrer Modelle aufzurufen.

  3. Klicken Sie auf das Modell, das Sie bewerten möchten.

  4. Klicken Sie auf den Tab Trainieren, um die Bewertungsmesswerte des Modells aufzurufen, darunter dessen BLEU-Wert.

Modellvorhersagen testen

Mit der Google Cloud Console vergleichen Sie die Übersetzungsergebnisse Ihres benutzerdefinierten Modells mit denen des Standard-NMT-Modells.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Klicken Sie im Navigationsmenü auf Modelle, um eine Liste Ihrer Modelle aufzurufen.

  3. Klicken Sie auf das zu testende Modell.

  4. Klicken Sie auf den Tab Vorhersagen.

  5. Geben Sie den Eingabetext in das Textfeld für die Ausgangssprache ein.

  6. Klicken Sie auf Übersetzen.

    In AutoML Translation werden die Übersetzungsergebnisse für das benutzerdefinierte Modell und das NMÜ-Modell angezeigt.

Modelle mit einem neuen Test-Dataset bewerten und vergleichen

In der Google Cloud Console können Sie vorhandene Modelle mithilfe eines neuen Satzes an Testdaten neu bewerten. In einer einzelnen Bewertung können Sie bis zu fünf verschiedene Modelle einschließen und dann deren Ergebnisse vergleichen.

Laden Sie Ihre Testdaten als TSV-Datei mit tabulatorgetrennten Werten oder als Translation Memory eXchange(TMX)-Datei in Cloud Storage hoch.

AutoML Translation wertet Ihre Modelle anhand des Testsets aus und erstellt dann Bewertungsergebnisse. Sie können die Ergebnisse für jedes Modell optional als TSV-Datei in einem Cloud Storage-Bucket speichern, wobei jede Zeile das folgende Format hat:

Source segment tab Model candidate translation tab Reference translation
  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Klicken Sie im Navigationsmenü auf Modelle, um eine Liste Ihrer Modelle aufzurufen.

  3. Klicken Sie auf das Modell, das Sie bewerten möchten.

  4. Klicken Sie auf den Tab Bewerten.

  5. Klicken Sie auf dem Tab Bewerten auf Neue Bewertung.

  6. Wählen Sie die Modelle aus, die Sie bewerten und vergleichen möchten, und klicken Sie dann auf Weiter.

    Das aktuelle Modell muss ausgewählt werden und Google NMÜ ist standardmäßig ausgewählt, was Sie aufheben können.

  7. Geben Sie einen Namen für den Testsatzname an, damit Sie ihn von anderen Auswertungen unterscheiden können, und wählen Sie dann Ihr neues Test-Dataset aus Cloud Storage aus.

  8. Klicken Sie auf Weiter.

  9. Geben Sie einen Cloud Storage-Zielordner an, um Vorhersagen zu exportieren.

  10. Klicken Sie auf Bewertung starten.

    Nachdem die Bewertung abgeschlossen ist, werden in AutoML Console die Bewertungsergebnisse in einem Tabellenformat in einer Tabelle angezeigt. Es kann immer nur eine Bewertung gleichzeitig ausgeführt werden. Wenn Sie einen Ordner zum Speichern von Vorhersageergebnissen angegeben haben, schreibt AutoML Translation TSV-Dateien an diesen Speicherort. Diese Dateien sind mit der zugehörigen Modell-ID, gefolgt vom Testsatznamen, benannt.

Hintergrundinformationen zum BLEU-Score

BLEU (BiLingual Evaluation Understudy) ist ein Messverfahren für die automatische Bewertung von maschinell übersetzten Texten. Der BLEU-Score ist eine Zahl zwischen null und eins, die die Ähnlichkeit des maschinenübersetzten Textes mit einer Reihe von Referenzübersetzungen hoher Qualität misst. Der Wert 0 bedeutet, dass die maschinell übersetzte Ausgabe keinerlei Übereinstimmung mit der Referenzübersetzung hat (was auf eine geringere Qualität hinweist). Der Wert 1 bedeutet, dass die maschinelle Übersetzung vollkommen deckungsgleich mit den Referenzübersetzungen ist (was auf eine höhere Qualität hinweist).

AutoML Translation gibt BLEU-Werte als Prozentsatz und nicht als Dezimalzahl zwischen 0 und 1 an.

Interpretation

Als grobe Richtlinie kann jedoch die folgende Interpretation der BLEU-Werte hilfreich sein (angegeben in Prozent statt als Dezimalzahlen).

BLEU-Wertung Interpretation
< 10 Fast unbrauchbar
10–19 Schwierig, das Wesentliche zu verstehen
20–29 Das Wesentliche ist verständlich, aber es gibt erhebliche Grammatikfehler
30–40 Verständliche bis gute Übersetzungen
40–50 Hochwertige Übersetzungen
50–60 Sehr hochwertige, adäquate und flüssige Übersetzungen
> 60 Qualität oft besser als menschliche Übersetzungen

Der folgende Farbverlauf kann als generelle Skala zur Interpretation des BLEU-Scores verwendet werden.

Allgemeine Interpretierbarkeit der Skala

Die mathematischen Details

Mathematisch gesehen wird der BLEU-Score so definiert:

$$ \text{BLEU} = \underbrace{\vphantom{\prod_i^4}\min\Big(1, \exp\big(1-\frac{\text{reference-length}} {\text{output-length}}\big)\Big)}_{\text{brevity penalty}} \underbrace{\Big(\prod_{i=1}^{4} precision_i\Big)^{1/4}}_{\text{n-gram overlap}} $$

mit

\[ precision_i = \dfrac{\sum_{\text{snt}\in\text{Cand-Corpus}}\sum_{i\in\text{snt}}\min(m^i_{cand}, m^i_{ref})} {w_t^i = \sum_{\text{snt'}\in\text{Cand-Corpus}}\sum_{i'\in\text{snt'}} m^{i'}_{cand}} \]

Dabei gilt:

  • \(m_{cand}^i\hphantom{xi}\) ist die Anzahl der i-Gramme für den Kandidaten, die mit der Referenzübersetzung übereinstimmen
  • \(m_{ref}^i\hphantom{xxx}\) ist die Anzahl der i-Gramme in der Referenzübersetzung
  • \(w_t^i\hphantom{m_{max}}\) ist die Gesamtzahl der i-Gramme in der Kandidatenübersetzung

Die Formel besteht aus zwei Teilen: dem Abzug für die Kürze und der N-Gramm-Übereinstimmung.

  • Abzug für die Kürze
    Der Abzug für die Kürze bestraft generierte Übersetzungen, die verglichen mit der ähnlichsten Referenzlänge exponentiell abnehmend zu kurz sind. Der Abzug für die Kürze kompensiert die Tatsache, dass der BLEU-Score keinen Term für Recall hat.

  • N-Gramm-Übereinstimmung
    Die N-Gramm-Übereinstimmung zählt, wie viele Unigramme, Bigramme, Trigramme und Tetragramme (i = 1, ..., 4) mit ihrem N-Gramm-Gegenstück in den Referenzübersetzungen übereinstimmen. Über die N-Gramm-Übereinstimmung wird die Genauigkeit (Precision) der Übersetzung gemessen. Unigramme ermitteln die Adäquatheit, längere N-Gramme die Flüssigkeit der Übersetzung. Zur Vermeidung einer unnötigen Zählung wird die n-Gramm-Zählung auf die maximale n-Gramm-Anzahl begrenzt, die in der Referenz auftritt (\(m_{ref}^n\)).

Beispiele

\(precision_1\)berechnen

Betrachten Sie folgenden Referenzsatz und den Kandidaten für die Übersetzung:

Referenz: the cat is on the mat
Kandidat: the the the cat mat

Im ersten Schritt wird berechnet, wie oft die einzelnen Unigramme jeweils in der Referenzübersetzung und in der Kandidatenübersetzung vorkommen. Beachten Sie, dass für den BLEU-Score zwischen Groß- und Kleinschreibung unterschieden wird.

Unigramm \(m_{cand}^i\hphantom{xi}\) \(m_{ref}^i\hphantom{xxx}\) \(\min(m^i_{cand}, m^i_{ref})\)
the 3 2 2
cat 1 1 1
is 0 1 0
on 0 1 0
mat 1 1 1

Die Gesamtzahl der Unigramme für den Kandidaten (\(w_t^1\)) beträgt 5, also gilt \(precision_1\) = (2 + 1 + 1)/5 = 0,8.

Berechnung des BLEU-Scores

Referenz:     The NASA Opportunity rover is battling a massive dust storm on Mars .
Kandidat 1: The Opportunity rover is combating a big sandstorm on Mars .
Kandidat 2: A NASA rover is fighting a massive storm on Mars .

Das Beispiel oben besteht aus einer Referenz- und zwei Kandidatenübersetzungen. Die Sätze werden vor dem Berechnen der BLEU-Scores, wie oben dargestellt, tokenisiert; beispielsweise wird der abschließende Punkt als separates Token gezählt.

Wir stellen die folgenden Statistikwerte fest, um den BLEU-Score für jede der beiden Übersetzungen zu berechnen.

  • N-Gramm-Genauigkeit
    Die folgende Tabelle enthält die N-Gramm-Genauigkeit für beide Kandidaten.
  • Abzug für die Kürze
    Der Abzug für die Kürze ist für Kandidat 1 und Kandidat 2 identisch, da beide Sätze aus elf Tokens bestehen.
  • BLEU-Score
    Es ist mindestens ein übereinstimmendes Tetragramm erforderlich, um einen BLEU-Wert > 0 zu erhalten. Da die Kandidatenübersetzung 1 kein übereinstimmendes Tetragramm aufweist, hat sie den BLEU-Wert 0.
Messwert Kandidat 1 Kandidat 2
\(precision_1\) (1gram) 8/11 9/11
\(precision_2\) (2gram) 4/10 5/10
\(precision_3\) (3gram) 2/9 2/9
\(precision_4\) (4gram) 0/8 1/8
Abzug für die Kürze 0,83 0,83
BLEU-Score 0,0 0,27

Eigenschaften

  • BLEU ist ein Corpus-basierter Messwert
    BLEU als Messverfahren funktioniert schlecht, wenn es zum Bewerten einzelner Sätze verwendet wird. So erhalten die beiden Beispielsätze sehr niedrige BLEU-Werte, obwohl sie den größten Teil der Bedeutung erfassen. Aufgrund der niedrigen Aussagekraft der N-Gramm-Statistik für einzelne Sätze ist BLEU ein korpusbasierter Messwert. Das heißt, zur Berechnung des Ergebnisses werden Statistikwerte über ein gesamtes Korpus gesammelt. Achten Sie daher darauf, dass das oben definierte BLEU-Messverfahren für einzelne Sätze nicht faktorisiert werden kann.

  • Keine Unterscheidung zwischen Inhalts- und Funktionswörtern
    Das BLEU-Messverfahren unterscheidet nicht zwischen Inhalts- und Funktionswörtern, das heißt, dass ein ausgelassenes Funktionswort wie "ein" zum gleichen Abzug führt wie die fälschliche Ersetzung des Namens "NASA" durch "ESA".

  • Schwach in der Erfassung von Bedeutung und Grammatik eines Satzes
    Das Auslassen eines einzelnen Wortes wie "nicht" kann die Polarität eines ganzen Satzes ändern. Und wenn nur N-Gramme mit n ≤ 4 berücksichtigt werden, werden weiterreichende Abhängigkeiten ignoriert, sodass BLEU oft nur einen geringen Abzug für grammatisch falsche Sätze vornimmt.

  • Normalisierung und Tokenisierung
    Vor der Berechnung des BLEU-Scores werden sowohl die Referenz- als auch die Kandidatenübersetzungen normalisiert und tokenisiert. Die Auswahl der Normalisierungs- und Tokenisierungsschritte hat einen erheblichen Einfluss auf den endgültigen BLEU-Score.