Ein Dataset enthält repräsentative Beispiele für den zu übersetzenden Inhaltstyp in Form von übereinstimmenden Satzpaaren in den Quell- und Zielsprachen. Das Dataset dient als Eingabe zum Trainieren eines Modells.
Die wesentlichen Schritte zum Erstellen eines Datasets sind folgende:
- Erstellen eines Datasets und Bestimmen der Quell- und Zielsprachen.
- Importieren von Satzpaaren in das Dataset.
Ein Projekt kann mehrere Datasets enthalten, die jeweils zum Trainieren eines separaten Modells verwendet werden. Sie können eine Liste der verfügbaren Datasets abrufen und nicht mehr benötigte Datasets löschen.
Dataset erstellen
Der erste Schritt zum Erstellen eines benutzerdefinierten Modells besteht darin, ein leeres Dataset zu erstellen, das mit den Trainingsdaten für das Modell gefüllt wird. Beim Erstellen eines Datasets werden die Quell- und Zielsprachen für das Modell bestimmt. Weitere Informationen zu den unterstützten Sprachen und Varianten finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.
Web-UI
Mit der AutoML Translation-Benutzeroberfläche können Sie ein neues Dataset erstellen und Elemente von derselben Seite in dieses Dataset importieren.
Rufen Sie die AutoML Translation-UI auf.
Wählen Sie aus der Drop-down-Liste rechts oben in der Titelleiste das Projekt aus, für das Sie AutoML Translation aktiviert haben.
Klicken Sie auf dem Tab Datasets auf Dataset erstellen.
Führen Sie im Dialogfeld Dataset erstellen die folgenden Aufgaben aus:
- Geben Sie einen Namen für das Dataset ein.
Wählen Sie aus den Drop-down-Listen die Ausgangs- und Zielsprachen aus. Wenn Sie unter Ausgangssprache eine Sprache auswählen, werden die verfügbaren Sprachen für Zielsprache angezeigt.
Klicken Sie auf Erstellen. Der Tab Importieren wird angezeigt.
REST
Anfrage zum Erstellen eines Datasets senden
Im Folgenden wird gezeigt, wie eine POST
-Anfrage an die Methode project.locations.datasets/create
gesendet wird.
Im Beispiel wird das Zugriffstoken für ein Dienstkonto verwendet, das mit der Google Cloud CLI für das Projekt eingerichtet wurde.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- project-id: Ihre Google Cloud Platform-Projekt-ID
- dataset-name: der Name Ihres neuen Datasets
- source-language-code: Die Sprache, aus der übersetzt werden soll, als ISO 639-1-Code wie z. B. "en"
- target-language-code: Die Sprache, in die übersetzt werden soll, als ISO 639-1-Code wie z. B. "es"
HTTP-Methode und URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
JSON-Text anfordern:
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
Ergebnisse abrufen
Damit Sie die Ergebnisse Ihrer Anfrage erhalten, müssen Sie eine GET
-Anfrage an die Ressource operations
senden. Im Folgenden wird gezeigt, wie eine solche Anfrage gesendet wird.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- operation-name: der Name des Vorgangs, wie er in der Antwort auf den ursprünglichen Aufruf der API zurückgegeben wurde
- project-id: Ihre Google Cloud Platform-Projekt-ID
HTTP-Methode und URL:
GET https://automl.googleapis.com/v1/operation-name
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Go API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Java API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Node.js API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Python API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für Ruby auf.
Elemente in ein Dataset importieren
Nachdem Sie ein Dataset erstellt haben, können Sie Satzpaare zum Trainieren importieren. Details zum Vorbereiten von Trainingsdaten finden Sie unter Trainingsdaten vorbereiten.
Web-UI
Mit der AutoML Translation-UI können Sie ein neues Dataset erstellen und Elemente von derselben Seite in dieses Dataset importieren (siehe Dataset erstellen). In den folgenden Schritten werden Elemente in ein vorhandenes Dataset importiert.
Nachdem Sie den Dataset-Ordner erstellt haben, laden Sie Ihre Daten hoch.Laden Sie die Satzpaare hoch, die Sie zum Trainieren des Modells verwenden möchten.
Auf dem Tab Importieren können Sie TSV- oder TMX-Dateien von Ihrem lokalen Computer oder aus Cloud Storage hochladen. Klicken Sie bei lokal importierten Dateien nach der Auswahl der Datei auf Durchsuchen. Daraufhin erscheint eine Liste der Ordner. Wählen Sie den Ordner aus, in den Ihre Datei hochgeladen werden soll. Dieses in Cloud Storage gehostete Verzeichnis ist erforderlich, um den Datenzugriff zu gewährleisten.
Klicken Sie das Kästchen für Unterschiedliche Dateien für Training, Validierung und Test (erweitert) verwenden an, wenn Sie separate Dateien mit den Satzpaaren hochladen möchten. Diese Option wird empfohlen, wenn Ihr Dataset mehr als 100.000 Satzpaare enthält. Sie müssen mindestens 10.000 Satzpaare für Validierungs- und Testsets zuweisen. Andernfalls gibt AutoML Translation einen Fehler zurück.
Klicken Sie auf Weiter.
Sie werden zur Seite Datasets zurückgeleitet. Ihr Dataset zeigt während des Imports Ihrer Dokumente den Status "In Bearbeitung" an. Wenn Ihr Dataset hochgeladen wurde, erhalten Sie eine Nachricht an die E-Mail-Adresse, mit der Sie sich für das Programm registriert haben.
Prüfen Sie das Dataset.
Nachdem Ihre Daten importiert wurden, wählen Sie das Dataset auf dem Tab Datasets aus, um die Dataset-Details aufzurufen. Die Tab Satz ist aktiviert und zeigt den Namen des Datasets an. Die Satzpaare werden aufgelistet. Jedem Paar wird "Training", "Validierung" oder "Test" zugewiesen. Das gibt an, in welcher Phase der Verarbeitung das Paar verwendet wird.
REST
Verwenden Sie die projects.locations.datasets.importData
-Methode, um Elemente in ein Dataset zu importieren.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- dataset-name: Der Name des Datasets, wie er von der API beim Erstellen des Datasets zurückgegeben wurde
- bucket-name: Der Cloud Storage-Bucket, der die Eingabe-CSV-Datei enthält, die Ihr Dataset beschreibt
- csv-file-name: der Name der CSV-Eingabedatei, die Ihr Dataset beschreibt
- project-id: Ihre Google Cloud Platform-Projekt-ID
HTTP-Methode und URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
JSON-Text anfordern:
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Go API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Java API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Node.js API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Python API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für Ruby auf.
Sobald Sie das Dataset erstellt und gefüllt haben, können Sie das Modell trainieren (siehe Modelle erstellen und verwalten).
Datasets verwalten
Datasets auflisten
Ein Projekt kann zahlreiche Datasets enthalten. In diesem Abschnitt wird beschrieben, wie Sie eine Liste der verfügbaren Datasets für ein Projekt abrufen.
Web-UI
Zur Anzeige einer Liste der verfügbaren Datasets mithilfe der AutoML Translation-UI klicken Sie links oben im Navigationsmenü auf den Link Datasets.
Wenn Sie die Datasets für ein anderes Projekt anzeigen möchten, wählen Sie das Projekt in der Drop-down-Liste oben rechts in der Titelleiste aus.
REST
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- project-id: Ihre Google Cloud Platform-Projekt-ID
HTTP-Methode und URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Go API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Java API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Node.js API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Python API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für Ruby auf.
Dataset löschen
Web-UI
Klicken Sie in der AutoML Translation-UI links oben im Navigationsmenü auf den Link Datasets, um die Liste der verfügbaren Datasets aufzurufen.
Klicken Sie auf das Dreipunkt-Menü ganz rechts in der Zeile, die Sie löschen möchten, und wählen Sie Löschen aus.
Klicken Sie im Bestätigungsdialogfeld auf Bestätigen.
REST
- Ersetzen Sie dataset-name durch den vollständigen Namen Ihres Datasets aus der Antwort, die Sie beim Erstellen des Datasets erhalten haben. Der vollständige Name hat folgendes Format:
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- dataset-name: Name des zu löschenden Datasets im Format
project/project-id/locations/us-central1/datasets/dataset-id
HTTP-Methode und URL:
DELETE https://automl.googleapis.com/v1/dataset-name
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Go API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Java
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Java API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Node.js API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zum Installieren und Verwenden der Clientbibliothek für AutoML Translation finden Sie unter AutoML Translation-Clientbibliotheken. Weitere Informationen finden Sie in der AutoML Translation Python API-Referenzdokumentation.
Richten Sie die Standardanmeldedaten für Anwendungen ein, um sich bei AutoML Translation zu authentifizieren. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die AutoML Translation-Referenzdokumentation für Ruby auf.
Importprobleme
Beim Erstellen eines Datasets kann AutoML Translation Satzpaare verlieren, wenn sie zu lang sind oder die Paare in der Ausgangs- und Zielsprache identisch sind.
Bei zu langen Satzpaaren empfehlen wir, Sätze in maximal 200 Wörtern aufzuteilen und das Dataset neu zu erstellen, um die verworfenen Paare aufzunehmen. Bei der Verarbeitung Ihrer Daten verwendet AutoML Translation einen internen Prozess, um Ihre Eingabedaten in Token umzuwandeln, was die Größe Ihrer Sätze erhöhen kann. Diese tokenisierten Daten werden von AutoML Translation zur Messung der Datengröße verwendet. Daher ist das Limit von 200 Wörtern eine Schätzung für die maximale Länge.
Satzpaare, die in der Quell- und Zielsprache identisch sind, können aus dem Dataset entfernt werden. Wenn Sie diese Sätze nicht übersetzen möchten, verwenden Sie eine Glossarressource, um ein benutzerdefiniertes Wörterbuch zu erstellen, das definiert, wie AutoML Translation bestimmte Begriffe verarbeitet.