Benutzerdefiniertes Übersetzungsmodell erstellen

Mit der Google Cloud Console können Sie ein benutzerdefiniertes Übersetzungsmodell trainieren und verwenden. Im folgenden Beispiel wird mit AutoML Translation ein Übersetzungsmodell für die Übersetzung vom Englischen ins Spanische trainiert. Dazu wird ein Dataset mit technologieorientierten Segmentpaaren aus der Softwarelokalisierung verwendet.

Hinweis

Bevor Sie AutoML Translation verwenden können, muss die Cloud Translation API für Ihr Projekt aktiviert sein. Außerdem benötigen Sie die Berechtigungen, die durch die folgenden Rollen gewährt werden:

  • Rolle Betrachter, um vorhandene Ressourcen in Ihrem Projekt aufzurufen
  • Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
  • Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket

Dataset zur Übersetzung erstellen und Segmentpaare importieren

  1. Laden Sie die Archivdatei mit den Beispieldaten herunter, um das Modell zu trainieren. Extrahieren Sie die Dateien.

    In dieser Anleitung verwenden Sie die TSV-Datei für die Übersetzung von Englisch nach Spanisch.

  2. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  3. Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.

  4. Klicken Sie auf Dataset erstellen.

  5. Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:

    1. Geben Sie tutorial_dataset als Namen für das Dataset ein.
    2. Wählen Sie in der Drop-down-Liste Englisch (EN) als Ausgangssprache aus.
    3. Wählen Sie als Zielsprache Spanisch (ES) aus.
    4. Klicken Sie auf Erstellen.
  6. Klicken Sie nach dem Erstellen des Datensatzes auf den Namen des Datensatzes, um die Details aufzurufen.

  7. Rufen Sie den Tab Importieren auf und laden Sie das en-es.tsv-Dataset in Cloud Storage hoch:

    1. Wählen Sie Dateien von Ihrem Computer hochladen aus.
    2. Klicken Sie auf Dateien auswählen und wählen Sie die Datei en-es.tsv aus, die Sie zuvor heruntergeladen und extrahiert haben.
    3. Klicken Sie auf Durchsuchen, um einen neuen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem die TSV-Datei gespeichert werden soll. Die Bucket-Region muss us-central1 sein.
  8. Klicken Sie auf Weiter.

    AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets aufrufen.

Modell trainieren

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Datasets auf.

  3. Klicken Sie auf das Dataset tutorial_dataset.

  4. Rufen Sie den Tab Trainieren auf.

  5. Klicken Sie auf Training starten. Daraufhin wird der Bereich Neues Modell trainieren geöffnet.

  6. Geben Sie tutorial_model für den Modellnamen ein.

  7. Klicken Sie auf Training starten.

Das Trainieren eines Modells kann mehrere Stunden dauern.

Modell bewerten

Sehen Sie sich an, wie sich das Modell im Vergleich zum standardmäßigen Google NMT-Modell schlägt, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Evaluate (Bewerten).

Im Bereich Vorherige Bewertungen zeigt Cloud Translation den BLEU-Wert Ihres Modells im Vergleich zum NMÜ-Modell von Google an. Der BLEU-Wert (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist. Werte, die näher bei 100 liegen, stehen für ähnlichere Texte.

Übersetzungsmodell verwenden

In der Google Cloud Console können Sie mit Ihrem benutzerdefinierten Modell Text übersetzen.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Vorhersagen.

  5. Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.

    Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem NMT-Modell von Google vergleichen.

Bereinigen

Um unnötige Google Cloud -Gebühren zu vermeiden, löschen Sie das Modell, den Datensatz und die en-es.tsv-Datei. Sie können das Projekt auch mit der Taste Google Cloud console löschen, wenn Sie es nicht mehr benötigen.

Nächste Schritte

  • Weitere Informationen zu benutzerdefinierten Modellen finden Sie im Leitfaden für Anfänger.
  • Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.