Trainingsdaten vorbereiten
Cloud Translation trainiert benutzerdefinierte Modelle mithilfe von übereinstimmenden Segmentpaaren in den Quell- und Zielsprachen. Jedes Segmentpaar wird als unabhängiges Trainingselement behandelt, ohne einen Zusammenhang zwischen den einzelnen Paaren anzunehmen.
Die Segmentpaare, die zum Trainieren des benutzerdefinierten Modells verwendet werden, müssen sich in den tabulatorgetrennten Werten (.tsv
) oder dem FormatTranslation Memory eXchange (.tmx
) befinden.
Weitere Informationen finden Sie unter Beispielübersetzungen vorbereiten.
Segmentpaare werden immer über alle importierten Paare dedupliziert. Ein Segmentpaar ist ein Duplikat eines anderen, wenn das Quellsegment mit einem anderen Quellsegment übereinstimmt. Mit Cloud Translation können Sie keine Dateien mit demselben Inhalt importieren.
Datenaufteilung
AutoML Translation verwendet die Segmentpaare, die Sie für verschiedene Zwecke zur Erstellung Ihres benutzerdefinierten Modells zur Verfügung stellen:
- Trainieren: Segmentpaare zum Trainieren des Modells. Zu diesem Zweck die meisten Daten zuweisen.
- Validierung: Segmentpaare, um die Ergebnisse zu validieren, die das Modell während des Trainings zurückgibt.
- Test: Segmentpaare, um die endgültigen Bewertungsmesswerte Ihres Modells zu generieren. Gibt die Leistung des Modells in der Produktion an.
Sie können bestimmen, welche Segmentpaare von AutoML Translation für die einzelnen Zwecke verwendet werden. Hierzu laden Sie separate Dateien für die Trainings-, Validierungs- und Test-Sets hoch. Wenn Sie nicht ausdrücklich angeben, welche Dateien für diese drei Zwecke verwendet werden sollen, unterteilt AutoML Translation die Segmentpaare automatisch in drei Sets. AutoML Translation verwendet ungefähr 80 % Ihrer Daten für das Training, 10 % für die Validierung und 10 % für Tests. AutoML Translation weist Ihre Segmentpaare nach dem Zufallsprinzip den drei Datasets zu. Sie können jeweils maximal 10.000 Segmentpaare für die Validierungs- und Test-Sets haben. Nach 10.000 Paaren werden Segmentpaare an das Trainings-Set übertragen.
Wenn Sie mehrere Datenimporte in dasselbe Dataset laden, können Sie die Datenaufteilung manuell für einen Import angeben und die automatische Aufteilung für einen anderen nutzen. Die Daten werden nach jedem Import und jedem Löschen von Dateien neu in Bezug auf die manuelle Aufteilung verteilt.
Datenanforderungen
Ihre Trainingsdaten müssen folgende Anforderungen erfüllen:
- Wenn Sie AutoML Translation Ihre Daten automatisch aufteilen lassen, müssen Sie mindestens 1.000 Segmentpaare senden, um ein benutzerdefiniertes Modell zu trainieren.
- Wenn Sie Ihre Daten manuell aufteilen, müssen Sie mindestens drei Segmentpaare für das
TRAIN
-Set angeben und mindestens 100 Segmentpaare für dieVALIDATION
- undTEST
-Sets bereitstellen. - Sie müssen mindestens drei Segmentpaare für das Set
TRAIN
angeben und mindestens 100 Segmentpaare für das SetVALIDATION
undTEST
bereitstellen. - Für die Sets
VALIDATION
undTEST
können Sie maximal 10.000 Segmentpaare angeben. - Das Dataset darf nicht mehr als 15 Millionen Segmentpaare enthalten.
Datenempfehlungen
Folgende Empfehlungen können dabei helfen, die Qualität Ihres Modells zu erhöhen:
- Verwenden Sie mindestens 5.000 Segmentpaare für
TRAIN
, 500 Segmentpaare fürVALIDATION
und 500 Segmentpaare fürTEST
. Verwenden Sie daher nach Möglichkeit mehr Daten. Mehr Daten für das SetTRAIN
helfen dem Modell, Muster zu lernen, und mehr Daten für die SetsVALIDATION
undTEST
helfen zu überprüfen, ob das Modell auf eine größere Vielfalt von Szenarien in Ihrem Bereich verallgemeinert werden kann. - Verwenden Sie Segmente mit maximal 200 Wörtern. AutoML Translation kann Segmentpaare auslassen, die größer sind. Weitere Informationen finden Sie unter Importprobleme.
- Beheben Sie häufige Quelldatenprobleme, wie im Abschnitt „Unstrukturierte Daten bereinigen“ im Abschnitt Datenvorbereitung der Übersicht beschrieben.