Benutzerdefiniertes Übersetzungsmodell erstellen

Auf dieser Seite erfahren Sie, wie Sie mithilfe der Google Cloud Console ein benutzerdefiniertes AutoML-Übersetzungsmodell trainieren und verwenden. Im folgenden Beispiel wird ein benutzerdefiniertes Modell für die Übersetzung vom Englischen ins Spanische mithilfe von technologieorientierten Satzpaaren aus der Softwarelokalisierung trainiert.

Vorbereitung

Gehen Sie zur Seite AutoML Translation und wählen Sie das Projekt aus der Drop-down-Liste aus. Sie benötigen mindestens die Berechtigung roles/editor für den Bearbeitungszugriff auf das Projekt. Die AutoML-Dokumentation führt Sie durch die Einrichtung eines Projekts und die Erteilung der erforderlichen Berechtigungen.

Dataset zur Übersetzung erstellen und Satzpaare importieren

  1. Laden Sie die Archivdatei herunter, die die Beispieldaten zum Training des Modells enthält, und extrahieren Sie die Datei en-es.tsv.

  2. Rufen Sie in der Console die Seite AutoML Translation auf.

  3. Wählen Sie das Projekt aus, für das Sie AutoML Translation aktiviert haben.

    Seite "Datasets" mit einem Dataset

  4. Klicken Sie auf die Schaltfläche Dataset erstellen.

  5. Geben Sie auf der Seite Dataset erstellen einen Namen für das Dataset ein und wählen Sie die Ausgangs- und die Zielsprache aus.

    Wenn Sie Englisch unter Ausgangssprache auswählen, werden die verfügbaren Sprachen für Zielsprache angezeigt. Wählen Sie Spanisch aus.

  6. Klicken Sie auf Erstellen.

  7. Gehen Sie so auf dem Tab Importieren für Ihr Dataset vor:

    Tab "Importieren" für "my_dataset"

    • Wählen Sie Dateien von Ihrem Computer hochladen aus, klicken Sie auf Dateien auswählen und wählen Sie die zuvor heruntergeladene Datei en-es.tsv aus.
    • Wenn Sie lokale Dateien auswählen, müssen Sie den Cloud Storage-Pfad angeben, unter dem die hochgeladenen Dateien gespeichert werden sollen. Die Region des Cloud Storage-Buckets muss dieser sein: us-central1.
  8. Klicken Sie auf Weiter.

    Sie werden zur Seite Datasets zurückgeleitet. Für Ihr Dataset wird während des Imports der Dokumente eine animierte Fortschrittsanzeige eingeblendet. Nachdem das Modell erfolgreich hochgeladen wurde, erhalten Sie eine Nachricht an die E-Mail-Adresse, mit der Sie sich für das Programm registriert haben.

  9. Überprüfen Sie das Dataset.

    Nachdem die Daten erfolgreich importiert wurden, wählen Sie das Dataset auf der Seite mit der Dataset-Liste aus. Sie können auch auf den Link in der E-Mail-Benachrichtigung klicken, um die Details zum Dataset zu sehen. Der Name des ausgewählten Datasets wird in der Titelleiste angezeigt. Auf der Seite werden die Satzpaare und die Verarbeitungsphase angezeigt, für die sie verwendet werden (TRAINIEREN, VALIDIEREN, TESTEN).

AutoML-Übersetzungsmodell trainieren

Wenn Sie mit dem Training Ihres benutzerdefinierten Modells beginnen möchten, klicken Sie auf der Seite mit den Dataset-Details unterhalb der Titelleiste auf den Tab Trainieren und dann auf die Schaltfläche Training starten.

Tab "Trainieren" für das Dataset "my_dataset"

Das Trainieren eines Modells kann mehrere Stunden dauern. Nachdem das Modell erfolgreich trainiert wurde, erhalten Sie eine Nachricht an die E-Mail-Adresse, unter der Sie sich beim Programm registriert haben.

Sobald Sie benachrichtigt werden, dass das Training abgeschlossen ist, öffnen Sie die E-Mail-Nachricht und klicken auf den Link, um zur Google Cloud Console zu wechseln. Auf der Seite Trainieren werden allgemeine Messwerte für das Modell gezeigt, allen voran dessen BLEU-Wert. Die BLEU-Wertung (Bilingual Evaluation Understudy) gibt an, wie ähnlich der Kandidatentext den Referenztexten ist, wobei Werte, die näher beieinander liegen, ähnlichere Texte darstellen.

Tab "Trainieren" für "my_dataset", in dem die Modellbewertung angezeigt wird

AutoML-Übersetzungsmodell verwenden

Klicken Sie direkt unterhalb der Titelleiste auf den Tab Prognose oder auf den Link Testen und Verwenden, der sich unter den Modellinformationen befindet. Geben Sie einen zu übersetzenden Text ein und klicken Sie auf die Schaltfläche Übersetzen. Sie können die Ergebnisse Ihres benutzerdefinierten Modells mit dem Google NMT-Modell vergleichen.

Bereinigen

Mit den folgenden Schritten vermeiden Sie, dass Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen in Rechnung gestellt werden:

Löschen Sie das Projekt mit der Google Cloud Console, wenn Sie es nicht benötigen. Damit vermeiden Sie unnötige Kosten für Google Cloud.

Nächste Schritte