Benutzerdefiniertes Übersetzungsmodell erstellen
Benutzerdefiniertes Übersetzungsmodell mithilfe der Google Cloud Console trainieren und verwenden. Im folgenden Beispiel wird AutoML Translation zum Trainieren eines Übersetzungsmodells vom Englischen ins Spanische mithilfe eines Datasets verwendet, das technologieorientierte Segmentpaare aus der Softwarelokalisierung enthält.
Hinweis
Bevor Sie AutoML Translation verwenden können, muss in Ihrem Projekt die Cloud Translation API aktiviert sein und Sie müssen die Berechtigungen haben, die von den folgenden Rollen gewährt werden:
- Rolle Betrachter, um vorhandene Ressourcen in Ihrem Projekt aufzurufen
- Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
- Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket
Dataset zur Übersetzung erstellen und Segmentpaare importieren
Laden Sie die Archivdatei herunter, die die Beispieldaten zum Training des Modells enthält, und extrahieren Sie die Dateien.
Für diese Anleitung verwenden Sie die TSV-Datei vom Englischen ins Spanische.
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.
Klicken Sie auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie
tutorial_dataset
als Namen für das Dataset ein. - Wählen Sie Englisch (EN) als Ausgangssprache aus der Drop-down-Liste aus.
- Wählen Sie Spanisch (ES) als Zielsprache aus.
- Klicken Sie auf Erstellen.
- Geben Sie
Klicken Sie nach dem Erstellen des Datasets auf den Namen des Datasets, um dessen Details aufzurufen.
Wechseln Sie zum Tab Importieren und laden Sie das Dataset
en-es.tsv
in Cloud Storage hoch:- Wählen Sie Dateien von Ihrem Computer hochladen aus.
- Klicken Sie auf Dateien auswählen und wählen Sie die Datei
en-es.tsv
aus, die Sie zuvor heruntergeladen und extrahiert haben. - Klicken Sie auf Durchsuchen, um einen neuen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem Ihre TSV gespeichert ist. Die Bucket-Region muss
us-central1
sein.
Klicken Sie auf Weiter.
AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets anzeigen.
Modell trainieren
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Datasets auf.
Klicken Sie auf das Dataset tutorial_dataset.
Rufen Sie den Tab Trainieren auf.
Klicken Sie auf Training starten, um den Bereich Neues Modell trainieren zu öffnen.
Geben Sie
tutorial_model
als Modellnamen ein.Klicken Sie auf Training starten.
Das Trainieren eines Modells kann mehrere Stunden dauern.
Modell bewerten
Prüfen Sie, wie das Modell mit dem Google NMÜ-Standardmodell verglichen wird, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Evaluate (Bewerten).
Im Abschnitt Vorherige Bewertungen zeigt Cloud Translation den BLEU-Score Ihres Modells im Vergleich zum Google NMÜ-Modell. Die BLEU-Wertung (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist; Werte näher 100 stellen ähnlichere Texte dar.
Übersetzungsmodell verwenden
In der Google Cloud Console können Sie Ihr benutzerdefiniertes Modell zum Übersetzen von Text verwenden.
Rufen Sie die AutoML Translation Console auf.
Rufen Sie im Navigationsbereich die Seite Modelle auf.
Klicken Sie auf das Modell tutorial_model.
Klicken Sie auf den Tab Vorhersagen.
Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.
Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem NMT-Modell von Google vergleichen.
Bereinigen
Löschen Sie das Modell, das Dataset und die Datei en-es.tsv
, um unnötige Google Cloud-Gebühren zu vermeiden. Sie können das Projekt auch mit der Google Cloud Console löschen, wenn Sie es nicht benötigen.
Nächste Schritte
- Weitere Informationen zu benutzerdefinierten Modellen finden Sie im Einsteigerleitfaden.
- Eine Anleitung zum Vorbereiten von Daten finden Sie unter Trainingsdaten vorbereiten.