Trainingsdaten vorbereiten

AutoML Translation trainiert benutzerdefinierte Modelle mithilfe von passenden Satzpaaren in den Quell- und Zielsprachen. Jedes Satzpaar wird als unabhängiges Trainingselement behandelt, ohne einen Zusammenhang zwischen den einzelnen Paaren anzunehmen.

Die Satzpaare, die zum Trainieren des benutzerdefinierten Modells verwendet werden, müssen als tabulatorgetrennte Werte (TSV) oder im TMX-Format (Translation Memory eXchange) vorliegen. Sie können mehrere TSV- und TMX-Dateien in einer kommagetrennten CSV-Datei ablegen. Sie können einzelne TSV- oder TMX-Dateien mit der Google Cloud Console importieren. Wenn Sie die AutoML API verwenden, können Sie nur CSV-Dateien verwenden.

Satzpaare werden immer über alle importierten Satzpaare hinweg dedupliziert. Ein Satzpaar ist ein Duplikat eines anderen, wenn der Ausgangssatz mit einem anderen Ausgangssatz übereinstimmt. Darüber hinaus können Sie mit AutoML Translation keine Dateien mit demselben Inhalt importieren.

Eine Liste der unterstützten Sprachpaare finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.

Datenaufteilung

AutoML Translation verwendet die von Ihnen bereitgestellten Satzpaare, um Ihr benutzerdefiniertes Modell zu trainieren, zu validieren und zu testen.

  • TRAIN: sentence pairs wird zum Trainieren des Modells verwendet.
  • VALIDATION: sentence pairs wird zum Validieren der Ergebnisse verwendet, die das Modell während des Trainings zurückgibt.
  • TEST: sentence pairs wird nach dem Trainieren des Modells zum Prüfen der Ergebnisse des Modells verwendet.

Sie können bestimmen, welche Satzpaare von AutoML Translation für die einzelnen Zwecke verwendet werden. Hierzu laden Sie separate Dateien für die Trainings-, Validierungs- und Test-Sets hoch. Wenn Sie nicht ausdrücklich angeben, welche Dateien für diese drei Zwecke verwendet werden sollen, unterteilt AutoML Translation die Satzpaare automatisch in drei Sets. AutoML Translation verwendet ungefähr 80 % Ihrer Daten für das Training, 10 % für die Validierung und 10 % für Tests. AutoML Translation teilt Ihre Daten nach dem Zufallsprinzip in die drei Datasets auf. Sie können jeweils maximal 10.000 Satzpaare für die Validierungs- und Test-Sets haben. Nach 10.000 Paaren werden Satzpaare an das Trainings-Set übertragen.

Wenn Sie mehrere Datenimporte in dasselben Dataset ausführen, können Sie die Datenaufteilung manuell für einen Import angeben und die automatische Aufteilung für einen anderen nutzen. Die Daten werden nach jedem Import und jedem Löschen von Dateien neu in Bezug auf die manuelle Aufteilung verteilt.

Datenanforderungen

Ihre Trainingsdaten müssen folgende Anforderungen erfüllen:

  • Wenn Sie AutoML Translation Ihre Daten automatisch aufteilen lassen, müssen Sie mindestens 1.000 Satzpaare senden, um ein benutzerdefiniertes Modell zu trainieren.
  • Wenn Sie Ihre Daten manuell aufteilen, müssen Sie mindestens drei Satzpaare für das TRAIN-Set angeben und mindestens 100 Satzpaare für die VALIDATION- und TEST-Sets bereitstellen.
  • Für die Sets VALIDATION und TEST können Sie maximal 10.000 Satzpaare angeben.
  • Das Dataset darf nicht mehr als 15 Millionen Satzpaare enthalten.

Datenempfehlungen

Folgende Empfehlungen können dabei helfen, die Qualität Ihres Trainings-Datasets zu steigern:

  • Verwenden Sie mindestens 5.000 Satzpaare für TRAIN, 500 Satzpaare für VALIDATION und 500 Satzpaare für TEST. Verwenden Sie daher nach Möglichkeit mehr Daten. Mehr Daten für das Set TRAIN helfen dem Modell, Muster zu lernen, und mehr Daten für die Sets VALIDATION und TEST helfen zu überprüfen, ob das Modell auf eine größere Vielfalt von Szenarien in Ihrem Bereich verallgemeinert werden kann.
  • Verwenden Sie Sets mit maximal 200 Wörtern. AutoML Translation kann Satzpaare auslassen, die größer sind als diese. Weitere Informationen finden Sie unter Importprobleme.
  • Beheben Sie häufig auftretende Datenprobleme. Weitere Informationen finden Sie im Abschnitt "Unstrukturierte Daten bereinigen" in der Anleitung für Einsteiger Datenvorbereitung.

Tabulatorgetrennte Werte (TSV)

AutoML Translation unterstützt durch Tabs getrennte Dateien, wobei jede Zeile das folgende Format hat:

  • Source sentence tab Translated sentence

Beispiel:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Eine .tsv-Datei darf nur Text enthalten. Wenn der Text HTML-Tags oder anderes Markup enthält, behandelt AutoML Translation das Markup ebenfalls als Text.

Die tabulatorgetrennten Quelldaten enthalten keine Sprachcodes, um die Quell- und Zielsprachen zu identifizieren. Sie legen die Codes der Quell- und Zielsprache fest, wenn Sie das zu trainierende Modell beschreiben. AutoML Translation interpretiert das erste Segment als Quellsprache und das zweite Segment als Zielsprache. Im gezeigten Beispiel ist die Ausgangssprache Englisch und die Zielsprache Deutsch.

Translation Memory eXchange (TMX)

Translation Memory eXchange ist ein Standard-XML-Format, das Übersetzungssätze der Quell- und Zielsprache beschreibt. AutoML Translation unterstützt Eingabedateien in einem Format, das auf TMX Version 1.4 basiert. Das folgende Beispiel zeigt die erforderliche Struktur:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Das <header>-Element einer wohlgeformten .tmx-Datei muss die Ausgangssprache mithilfe des Attributs srclang angeben und jedes <tuv>-Element muss die Sprache des enthaltenen Textes mithilfe des Attributs xml:lang identifizieren.

Alle <tu>-Elemente müssen ein Paar aus <tuv>-Elementen mit der jeweils gleichen Quell- und Zielsprache enthalten. Wenn ein <tu>-Element mehr als zwei <tuv>-Elemente enthält, verarbeitet AutoML Translation nur das erste <tuv>-Element, das der Ausgangssprache entspricht, und das erste Element, das der Zielsprache entspricht. Der Rest wird ignoriert. Wenn ein <tu>-Element kein passendes Paar aus <tuv>-Elementen enthält, wird das ungültige <tu>-Element von AutoML Translation übersprungen.

AutoML Translation entfernt die Markup-Tags aus einem <seg>-Element, bevor dieses verarbeitet wird. Wenn ein <tuv>-Element mehrere <seg>-Elemente enthält, verkettet AutoML Translation den Text in ein einzelnes, durch Leerzeichen getrenntes Element.

Wenn die Datei andere als die oben aufgeführten XML-Tags enthält, werden sie von AutoML Translation ignoriert.

Wenn die Datei nicht dem richtigen XML- und TMX-Format entspricht, z. B. wenn ein End-Tag oder ein <tmx>-Element fehlt, wird die Verarbeitung durch AutoML Translation abgebrochen. AutoML Translation bricht die Verarbeitung auch dann ab, wenn mehr als 1.024 ungültige <tu>-Elemente übersprungen werden.

Kommagetrennte Werte (CSV)

Zum Hochladen von Satzpaaren mithilfe der AutoML API erstellen Sie eine Datei mit kommagetrennten Werten (.csv). Diese Datei gibt die zu verwendenden TSV- und TMX-Dateien und gegebenenfalls die Paare an, die für Training, Validierung und Tests verwendet werden sollen. Die Datei kann einen beliebigen Dateinamen haben, muss aber UTF-8-codiert sein und mit der Erweiterung ".csv" enden. Die Datei enthält eine einzige Zeile für jede hochgeladene TSV- oder TMX-Datei, mit zwei Spalten in jeder Zeile:

  • Das Set, dem die Satzpaare in dieser Datei zuzuordnen sind. Dieses Feld ist optional und kann einen der folgenden Werte enthalten:

    • TRAIN
    • VALIDATION
    • TEST
    • UNASSIGNED

      Wenn ein Dataset als UNASSIGNED angegeben ist, wird es von AutoML Translation automatisch aufgeteilt. Hiermit wird dafür gesorgt, dass genügend Inhalte für Training, Validierung und Tests vorhanden sind.

  • Der vollständige Pfad zu einem TSV- oder TMX-Dokument, das Satzpaare enthält.

Ihre CSV-Datei könnte zum Beispiel Folgendes enthalten:

TRAIN,gs://my-project-vcm/csv/en-fr-train.tsv
VALIDATION,gs://my-project-vcm/csv/en-fr-validation.tsv
TEST,gs://my-project-vcm/csv/en-fr-test.tsv