Benutzerdefiniertes Übersetzungsmodell erstellen
Benutzerdefiniertes Übersetzungsmodell mithilfe der Google Cloud Console trainieren und verwenden Im folgenden Beispiel wird mit AutoML Translation ein Übersetzungsmodell für die Übersetzung vom Englischen ins Spanische mithilfe eines Datasets trainiert, das technologieorientierte Segmentpaare aus der Softwarelokalisierung enthält.
Hinweis
Bevor Sie AutoML Translation verwenden können, muss die Cloud Translation API für Ihr Projekt aktiviert sein. Außerdem benötigen Sie die Berechtigungen, die durch die folgenden Rollen gewährt werden:
- Rolle Betrachter, um vorhandene Ressourcen in Ihrem Projekt aufzurufen
- Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
- Rolle Storage Admin zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket
Dataset zur Übersetzung erstellen und Segmentpaare importieren
Laden Sie die Archivdatei herunter, die die Beispieldaten zum Trainieren des Modells enthält, und extrahieren Sie die Dateien.
In dieser Anleitung verwenden Sie die TSV-Datei für die Übersetzung von Englisch nach Spanisch.
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.
Klicken Sie auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie
tutorial_dataset
als Namen für den Datensatz ein. - Wählen Sie in der Drop-down-Liste Englisch (EN) als Quellsprache aus.
- Wählen Sie Spanisch (ES) als Zielsprache aus.
- Klicken Sie auf Erstellen.
- Geben Sie
Klicken Sie nach dem Erstellen des Datasets auf den Namen, um die Details aufzurufen.
Rufen Sie den Tab Importieren auf und laden Sie den
en-es.tsv
-Datensatz in Cloud Storage hoch:- Wählen Sie Dateien von Ihrem Computer hochladen aus.
- Klicken Sie auf Dateien auswählen und wählen Sie die
en-es.tsv
-Datei aus, die Sie zuvor heruntergeladen und extrahiert haben. - Klicken Sie auf Durchsuchen, um einen neuen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem die TSV-Datei gespeichert werden soll. Die Bucket-Region muss
us-central1
sein.
Klicken Sie auf Weiter.
AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets ansehen.
Modell trainieren
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Datasets auf.
Klicken Sie auf das Dataset tutorial_dataset.
Rufen Sie den Tab Trainieren auf.
Klicken Sie auf Training starten. Daraufhin wird der Bereich Neues Modell trainieren geöffnet.
Geben Sie
tutorial_model
für den Modellnamen ein.Klicken Sie auf Training starten.
Das Trainieren eines Modells kann mehrere Stunden dauern.
Modell bewerten
Sehen Sie sich an, wie sich das Modell mit dem standardmäßigen Google NMÜ-Modell vergleicht, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Evaluate (Bewerten).
Im Bereich Vorherige Bewertungen sehen Sie den BLEU-Wert Ihres Modells im Vergleich zum NMÜ-Modell von Google. Der BLEU-Wert (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist. Je näher der Wert an 100 liegt, desto ähnlicher sind die Texte.
Übersetzungsmodell verwenden
In der Google Cloud Console können Sie mit Ihrem benutzerdefinierten Modell Text übersetzen.
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Vorhersagen.
Geben Sie im Textfeld Deutsch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.
Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem NMT-Modell von Google vergleichen.
Bereinigen
Um unnötige Google Cloud Kosten zu vermeiden, löschen Sie Ihr Modell, den Datensatz und die en-es.tsv
-Datei. Sie können Ihr Projekt auch mit der Google Cloud Console löschen, wenn Sie es nicht mehr benötigen.
Nächste Schritte
- Weitere Informationen zu benutzerdefinierten Modellen finden Sie im Leitfaden für Anfänger.
- Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.