Benutzerdefiniertes Übersetzungsmodell erstellen

Benutzerdefiniertes Übersetzungsmodell mithilfe der Google Cloud Console trainieren und verwenden. Im folgenden Beispiel wird AutoML Translation zum Trainieren eines Übersetzungsmodells vom Englischen ins Spanische mithilfe eines Datasets verwendet, das technologieorientierte Segmentpaare aus der Softwarelokalisierung enthält.

Hinweis

Bevor Sie AutoML Translation verwenden können, muss in Ihrem Projekt die Cloud Translation API aktiviert sein und Sie müssen die Berechtigungen haben, die von den folgenden Rollen gewährt werden:

  • Rolle Betrachter, um vorhandene Ressourcen in Ihrem Projekt aufzurufen
  • Rolle Cloud Translation API-Bearbeiter zum Erstellen und Verwalten von Datasets und Modellen
  • Rolle Storage-Administrator zum Hochladen von Trainingsdaten in einen Cloud Storage-Bucket

Dataset zur Übersetzung erstellen und Segmentpaare importieren

  1. Laden Sie die Archivdatei herunter, die die Beispieldaten zum Training des Modells enthält, und extrahieren Sie die Dateien.

    Für diese Anleitung verwenden Sie die TSV-Datei vom Englischen ins Spanische.

  2. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  3. Klicken Sie im Navigationsbereich auf Datasets, um die Seite Datasets aufzurufen.

  4. Klicken Sie auf Dataset erstellen.

  5. Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:

    1. Geben Sie tutorial_dataset als Namen für das Dataset ein.
    2. Wählen Sie Englisch (EN) als Ausgangssprache aus der Drop-down-Liste aus.
    3. Wählen Sie Spanisch (ES) als Zielsprache aus.
    4. Klicken Sie auf Erstellen.
  6. Klicken Sie nach dem Erstellen des Datasets auf den Namen des Datasets, um dessen Details aufzurufen.

  7. Wechseln Sie zum Tab Importieren und laden Sie das Dataset en-es.tsv in Cloud Storage hoch:

    1. Wählen Sie Dateien von Ihrem Computer hochladen aus.
    2. Klicken Sie auf Dateien auswählen und wählen Sie die Datei en-es.tsv aus, die Sie zuvor heruntergeladen und extrahiert haben.
    3. Klicken Sie auf Durchsuchen, um einen neuen Cloud Storage-Bucket auszuwählen oder zu erstellen, in dem Ihre TSV gespeichert ist. Die Bucket-Region muss us-central1 sein.
  8. Klicken Sie auf Weiter.

    AutoML Translation teilt Ihre Daten automatisch in Trainings-, Validierungs- und Test-Datasets auf. Sie können diese Aufteilungen und die importierten Satzpaare auf dem Tab Sätze Ihres Datasets anzeigen.

Modell trainieren

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Datasets auf.

  3. Klicken Sie auf das Dataset tutorial_dataset.

  4. Rufen Sie den Tab Trainieren auf.

  5. Klicken Sie auf Training starten, um den Bereich Neues Modell trainieren zu öffnen.

  6. Geben Sie tutorial_model als Modellnamen ein.

  7. Klicken Sie auf Training starten.

Das Trainieren eines Modells kann mehrere Stunden dauern.

Modell bewerten

Prüfen Sie, wie das Modell mit dem Google NMÜ-Standardmodell verglichen wird, das auf Segmentpaaren aus Ihrem Test-Dataset basiert.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Evaluate (Bewerten).

Im Abschnitt Vorherige Bewertungen zeigt Cloud Translation den BLEU-Score Ihres Modells im Vergleich zum Google NMÜ-Modell. Die BLEU-Wertung (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist; Werte näher 100 stellen ähnlichere Texte dar.

Übersetzungsmodell verwenden

In der Google Cloud Console können Sie Ihr benutzerdefiniertes Modell zum Übersetzen von Text verwenden.

  1. Rufen Sie die AutoML Translation Console auf.

    Zur Seite „Übersetzung“

  2. Rufen Sie im Navigationsbereich die Seite Modelle auf.

  3. Klicken Sie auf das Modell tutorial_model.

  4. Klicken Sie auf den Tab Vorhersagen.

  5. Geben Sie im Textfeld Englisch den zu übersetzenden Text ein und klicken Sie dann auf Übersetzen.

    Die Ergebnisse Ihres benutzerdefinierten Modells können Sie mit dem NMT-Modell von Google vergleichen.

Bereinigen

Löschen Sie das Modell, das Dataset und die Datei en-es.tsv, um unnötige Google Cloud-Gebühren zu vermeiden. Sie können das Projekt auch mit der Google Cloud Console löschen, wenn Sie es nicht benötigen.

Nächste Schritte