Benutzerdefiniertes Übersetzungsmodell erstellen

Benutzerdefiniertes Übersetzungsmodell mit der Google Cloud Konsole trainieren und verwenden Im folgenden Beispiel wird AutoML Translation verwendet, um ein Übersetzungsmodell vom Englischen ins Spanische zu trainieren. Dazu wird ein Dataset mit technologieorientierten Segmentpaaren aus der Softwarelokalisierung verwendet.

Hinweis

Bevor Sie AutoML Translation verwenden können, muss für Ihr Projekt die Cloud Translation API aktiviert sein. Außerdem benötigen Sie die Berechtigungen, die durch die folgenden Rollen gewährt werden:

  • Rolle Betrachter, um vorhandene Ressourcen in Ihrem Projekt anzusehen
  • Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
  • Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket

Dataset zur Übersetzung erstellen und Segmentpaare importieren

  1. Laden Sie die Archivdatei herunter, die die Beispieldaten zum Trainieren des Modells enthält, und extrahieren Sie die Dateien.

    In dieser Anleitung verwenden Sie die TSV-Datei für Englisch-Spanisch.

  2. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  3. Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.

  4. Klicken Sie auf Dataset erstellen.

  5. Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:

    1. Geben Sie tutorial_dataset als Namen für das Dataset ein.
    2. Wählen Sie in der Drop-down-Liste Englisch (EN) als Quellsprache aus.
    3. Wählen Sie Spanisch (ES) als Zielsprache aus.
    4. Klicken Sie auf Erstellen.
  6. Klicken Sie nach dem Erstellen des Datasets auf den Namen, um die Details aufzurufen.

  7. Rufen Sie den Tab Importieren auf und laden Sie das Dataset en-es.tsv in Cloud Storage hoch:

    1. Wählen Sie Dateien von Ihrem Computer hochladen aus.
    2. Klicken Sie auf Dateien auswählen und wählen Sie die en-es.tsv-Datei aus, die Sie zuvor heruntergeladen und extrahiert haben.
    3. Klicken Sie auf Durchsuchen, um einen neuen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem Ihre TSV-Datei gespeichert ist. Die Bucket-Region muss us-central1 sein.
  8. Klicken Sie auf Weiter.

    AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können sich diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets ansehen.

Modell trainieren

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Datasets auf.

  3. Klicken Sie auf das Dataset tutorial_dataset.

  4. Rufen Sie den Tab Trainieren auf.

  5. Klicken Sie auf Training starten. Daraufhin wird der Bereich Neues Modell trainieren geöffnet.

  6. Geben Sie tutorial_model für den Modellnamen ein.

  7. Klicken Sie auf Training starten.

Das Trainieren eines Modells kann mehrere Stunden dauern.

Modell bewerten

Vergleichen Sie das Modell mit dem standardmäßigen Google NMT-Modell, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Evaluate (Bewerten).

Im Bereich Vorherige Bewertungen wird der BLEU-Wert Ihres Modells im Vergleich zum Google-NMÜ-Modell angezeigt. Der BLEU-Score (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist. Je näher die Werte an 100 liegen, desto ähnlicher sind die Texte.

Übersetzungsmodell verwenden

In der Google Cloud -Konsole können Sie Ihr benutzerdefiniertes Modell verwenden, um Text zu übersetzen.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Vorhersagen.

  5. Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.

    Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem NMT-Modell von Google vergleichen.

Bereinigen

Um unnötige Google Cloud -Gebühren zu vermeiden, löschen Sie Ihr Modell, den Datensatz und die en-es.tsv-Datei. Sie können das Projekt auch mitGoogle Cloud console löschen, wenn Sie es nicht mehr benötigen.

Nächste Schritte

  • Weitere Informationen zu benutzerdefinierten Modellen finden Sie im Leitfaden für Anfänger.
  • Wenn Sie ein eigenes Dataset und ein benutzerdefiniertes Modell erstellen möchten, finden Sie unter Trainingsdaten vorbereiten eine Anleitung zum Vorbereiten Ihrer Daten.