Datensätze erstellen und verwalten
Ein Dataset enthält repräsentative Beispiele für den zu übersetzenden Inhaltstyp in Form von übereinstimmenden Segmentpaaren in den Quell- und Zielsprachen. Das Dataset dient als Eingabe zum Trainieren eines Modells.
Ein Projekt kann mehrere Datasets enthalten. Jedes davon kann zum Trainieren eines separaten Modells verwendet werden.
Dataset erstellen
Erstellen Sie ein Dataset, das die Trainingsdaten für Ihr Modell enthält. Wenn Sie ein Dataset erstellen, geben Sie die Quell- und Zielsprachen Ihrer Trainingsdaten an. Weitere Informationen zu den unterstützten Sprachen und Varianten finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.
Web-UI
Mit der AutoML Translation Console können Sie ein neues Dataset erstellen und Elemente in dieses Dataset importieren.Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie auf der Seite Datasets auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie einen Namen für das Dataset ein.
- Wählen Sie aus den Drop-down-Listen die Ausgangs- und Zielsprachen aus.
- Klicken Sie auf Erstellen.
REST
Das folgende Beispiel zeigt, wie einePOST
-Anfrage an die Methode project.locations.datasets/create
gesendet wird.Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich das Dataset befindet, z. B.
us-central1
. - DATASET_NAME: Ein Name für das Dataset.
- SOURCE_LANG_CODE: Der Sprachcode, der die Ausgangssprache des Datasets angibt.
- TARGET_LANG_CODE: Der Sprachcode, der die Zielsprache des Datasets angibt.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
JSON-Text anfordern:
{ "display_name": "DATASET_NAME", "source_language_code": "SOURCE_LANG_CODE", "target_language_code": "TARGET_LANG_CODE" }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Segmente in ein Dataset importieren
Nachdem Sie ein Dataset erstellt haben, können Sie Segmentpaare in das Dataset importieren. Details zum Vorbereiten Ihrer Quelldaten finden Sie unter Trainingsdaten vorbereiten.
Web-UI
In den folgenden Schritten werden Elemente in ein vorhandenes Dataset importiert.
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie in der Dataset-Liste auf den Namen des Datasets, dem Sie Trainingsdaten hinzufügen möchten.
Wechseln Sie zum Tab Importieren.
Laden Sie die Segmentpaare hoch, die Sie zum Erstellen eines Modells verwenden möchten.
Laden Sie Dateien von Ihrem lokalen Computer in einen Cloud Storage-Bucket hoch oder wählen Sie vorhandene Dateien aus Cloud Storage aus.
Standardmäßig teilt Cloud Translation Ihre Daten automatisch in Trainings-, Validierungs- und Testsets auf. Wenn Sie für jede Aufteilung separate Dateien hochladen möchten, wählen Sie Separate Dateien für Training, Validierung und Tests verwenden (erweitert) aus. Verwenden Sie diese Option, wenn Ihr Dataset mehr als 100.000 Segmentpaare hat, um eine Überschreitung der maximalen 10.000 Segmentpaare für die Validierungs- und Testsets zu vermeiden.
Klicken Sie auf Weiter.
Nachdem der Import abgeschlossen ist, können Sie die importierten Satzpaare im Tab Sätze Ihres Datasets anzeigen. Sie können Segmente auch nach Aufteilung (Training, Validierung oder Test) filtern.
REST
Verwenden Sie dieprojects.locations.datasets.importData
-Methode, um Elemente in ein Dataset zu importieren.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich das Dataset befindet, z. B.
us-central1
. - DATASET_ID: Die ID des Datasets, dem Daten hinzugefügt werden sollen.
- FILE_DISPLAY_NAME: Der Name der Datei, die die zu importierenden Daten enthält.
- USAGE: Gibt die Datenaufteilung für diese Segmentpaare an (
TRAIN
,VALIDATION
oderTEST
). - FILE_PATH: Der Pfad zur Quelldatendatei in Cloud Storage.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
JSON-Text anfordern:
{ "input_config": { "input_files": [ { "display_name": "FILE_DISPLAY_NAME", "usage": "USAGE", "gcs_source": { "input_uris": "gs://FILE_PATH" } }, ... ] } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Nachdem Sie das Dataset erstellt und befüllt haben, können Sie ein Modell trainieren. Weitere Informationen finden Sie unter Labels erstellen und verwalten.
Importprobleme
Beim Erstellen eines Datasets kann AutoML Translation Segmentpaare löschen, wenn sie zu lang sind, wenn Segmente in den Ausgangs- und Zielsprachen identisch (nicht übersetzt) sind oder wenn Duplikate (mehrere Segmente mit demselben Text in der Ausgangssprache) vorhanden sind.
Bei zu langen Segmentpaaren empfehlen wir, Segmente auf etwa 200 Wörter zu beschränken und das Dataset dann neu zu erstellen. Das Limit von 200 Wörtern ist eine Schätzung der maximalen Länge. Bei der Verarbeitung Ihrer Daten verwendet AutoML Translation einen internen Prozess, um Ihre Eingabedaten in Token umzuwandeln, was die Größe Ihrer Segmente erhöhen kann. Diese tokenisierten Daten werden von AutoML Translation zur Messung der Datengröße verwendet.
Entfernen Sie identische Segmentpaare aus Ihrem Dataset. Wenn Sie verhindern möchten, dass gewisse Segmente übersetzt werden, erstellen Sie stattdessen ein benutzerdefiniertes Wörterbuch mit einer Glossarressource.
Daten exportieren
Sie können Segmentpaare aus vorhandenen Datasets in einen Cloud Storage-Bucket exportieren.
Web-UI
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets, um eine Liste Ihrer Datasets aufzurufen.
Klicken Sie auf den Namen des Datasets, für das Sie Daten exportieren möchten.
Klicken Sie auf der Seite mit den Dataset-Details auf Daten exportieren.
Wählen Sie ein Cloud Storage-Ziel aus, in dem die exportierten TSV-Dateien gespeichert sind.
Klicken Sie auf Exportieren.
AutoML Translation gibt TSV-Dateien aus, die nach ihrem Dataset-Satz (Training, Validierung und Test) benannt sind.
REST
Verwenden Sie dieprojects.locations.datasets.exportData
-Methode, um Daten als TSV-Dateien in Cloud Storage zu exportieren.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich das zu exportierende Dataset befindet, z. B.
us-central1
. - DATASET_ID: Die ID des Datasets, das exportiert werden soll.
- DESTINATION_DIRECTORY: Der Cloud Storage-Pfad, an den die Ausgabe gesendet wird.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
JSON-Text anfordern:
{ "output_config": { "gcs_destination": { "output_uri_prefix": "gs://DESTINATION_DIRECTORY" } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Datasets auflisten
Listen Sie die in Ihrem Projekt verfügbaren Datasets auf.
Web-UI
Um über die AutoML Translation-Konsole eine Liste der verfügbaren Datasets aufzurufen, klicken Sie im Navigationsbereich auf Datasets.
Wenn Sie die Datasets für ein anderes Projekt anzeigen möchten, wählen Sie das Projekt in der Drop-down-Liste oben rechts in der Titelleiste aus.
REST
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B.
us-central1
.
HTTP-Methode und URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID", "displayName": "DATASET_NAME", "sourceLanguageCode": "SOURCE_LANG_CODE", "targetLanguageCode": "TARGET_LANG_CODE", "exampleCount": 8720, "createTime": "2022-10-19T23:24:34.734549Z", "updateTime": "2022-10-19T23:24:35.357525Z" }, ... ] }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Dataset löschen
Web-UI
Klicken Sie in der AutoML Translation-Konsole im Navigationsbereich auf Datasets, um die Liste der verfügbaren Datasets aufzurufen.
Wählen Sie für das zu löschende Dataset
Mehr > Löschen aus.Klicken Sie im Bestätigungsdialogfeld auf Bestätigen.
REST
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden, z. B.
us-central1
. - DATASET_ID: Die ID des zu löschenden Datasets.
HTTP-Methode und URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata" }, "done": true }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.