Datensätze erstellen und verwalten
Ein Dataset enthält repräsentative Beispiele für den zu übersetzenden Inhaltstyp in Form von übereinstimmenden Segmentpaaren in den Quell- und Zielsprachen. Das Dataset dient als Eingabe zum Trainieren eines Modells.
Ein Projekt kann mehrere Datasets enthalten. Jedes davon kann zum Trainieren eines separaten Modells verwendet werden.
Dataset erstellen
Erstellen Sie ein Dataset, das die Trainingsdaten für Ihr Modell enthält. Wenn Sie ein Dataset erstellen, geben Sie die Quell- und Zielsprachen Ihrer Trainingsdaten an. Weitere Informationen zu den unterstützten Sprachen und Varianten finden Sie unter Sprachunterstützung für benutzerdefinierte Modelle.
Web-UI
Mit der AutoML Translation-Konsole können Sie ein neues Dataset erstellen und Elemente darin importieren.Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie auf der Seite Datasets auf Dataset erstellen.
Geben Sie im Dialogfeld Dataset erstellen Details zum Dataset an:
- Geben Sie einen Namen für das Dataset ein.
- Wählen Sie aus den Drop-down-Listen die Ausgangs- und Zielsprachen aus.
- Klicken Sie auf Erstellen.
REST
Das folgende Beispiel zeigt, wie einePOST
-Anfrage an die Methode project.locations.datasets/create
gesendet wird.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B.
us-central1
- DATASET_NAME: Ein Name für das Dataset.
- SOURCE_LANG_CODE: Der Sprachcode, der die Ausgangssprache des Datasets angibt.
- TARGET_LANG_CODE: Der Sprachcode, der die Zielsprache des Datasets angibt.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
JSON-Text anfordern:
{ "display_name": "DATASET_NAME", "source_language_code": "SOURCE_LANG_CODE", "target_language_code": "TARGET_LANG_CODE" }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Segmente in einen Datensatz importieren
Nachdem Sie ein Dataset erstellt haben, können Sie Segmentpaare in das Dataset importieren. Details zum Vorbereiten Ihrer Quelldaten finden Sie unter Trainingsdaten vorbereiten.
Für jede Datei können Sie in der Google Cloud Console importierte Segmentpaare mit einem oder mehreren Schlüssel/Wert-Paaren taggen. Mit Tags können Sie Segmente leichter nach Quelle finden und filtern. Ein Schlüssel/Wert-Paar könnte beispielsweise Domain:costmetics
oder Year:2020
sein.
Sie können Tags hinzufügen, wenn Sie Segmente über die Google Cloud Console importieren. Tag-Kennzeichnung wird von der API nicht unterstützt. Außerdem können Sie keine Tags ändern oder Tags zu Segmenten hinzufügen, die bereits importiert wurden.
Web-UI
In den folgenden Schritten werden Elemente in ein vorhandenes Dataset importiert.
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets.
Klicken Sie in der Dataset-Liste auf den Namen des Datasets, dem Sie Trainingsdaten hinzufügen möchten.
Wählen Sie den Tab Importieren aus.
Fügen Sie Dateien hinzu, um Segmentpaare für das Modelltraining zu importieren.
Laden Sie Dateien von Ihrem lokalen Computer in einen Cloud Storage-Bucket hoch oder wählen Sie vorhandene Dateien aus Cloud Storage aus.
Standardmäßig teilt Cloud Translation Ihre Daten automatisch in Trainings-, Validierungs- und Testsets auf. Wenn Sie separate Dateien für jeden Split hochladen möchten, wählen Sie Separate Dateien für Training, Validierung und Tests verwenden (erweitert) aus. Verwenden Sie diese Option, wenn Ihr Dataset mehr als 100.000 Segmentpaare hat, um eine Überschreitung der maximalen 10.000 Segmentpaare für die Validierungs- und Testsets zu vermeiden.
Wenn Sie Tags zu Segmentpaaren hinzufügen möchten, maximieren Sie Tags (optional).
Klicken Sie in der Liste der Dateien auf
Bearbeiten, um allen Segmentpaaren für eine bestimmte Datei ein oder mehrere Tags hinzuzufügen.Klicken Sie im Bereich Tags auf Tag hinzufügen.
Geben Sie einen Schlüssel und einen Wert ein. Sie können Segmente nach diesem Schlüssel/Wert-Paar filtern.
Klicken Sie auf Tag hinzufügen, um weitere Tags hinzuzufügen.
Klicken Sie auf Weiter, wenn Sie alle Tags hinzugefügt haben.
Klicken Sie auf Weiter, um Segmentpaare zu importieren.
Nachdem der Import abgeschlossen ist, können Sie die importierten Satzpaare im Tab Sätze Ihres Datasets anzeigen. Segmente können nach Aufteilung (Training, Validierung oder Test) und nach einem oder mehreren Tags gefiltert werden.
REST
Verwenden Sie dieprojects.locations.datasets.importData
-Methode, um Elemente in ein Dataset zu importieren.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der das Dataset gespeichert sein wird, z. B.
us-central1
- DATASET_ID: Die ID des Datasets, dem Daten hinzugefügt werden sollen.
- FILE_DISPLAY_NAME: der Name der Datei, die die Daten enthält, die importiert werden sollen.
- USAGE: Gibt die Datenaufteilung für diese Segmentpaare (
TRAIN
,VALIDATION
oderTEST
) an. - FILE_PATH: Der Pfad zur Quelldatendatei in Cloud Storage.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData
JSON-Text anfordern:
{ "input_config": { "input_files": [ { "display_name": "FILE_DISPLAY_NAME", "usage": "USAGE", "gcs_source": { "input_uris": "gs://FILE_PATH" } }, ... ] } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Nachdem Sie das Dataset erstellt und befüllt haben, können Sie ein Modell trainieren. Weitere Informationen finden Sie unter Labels erstellen und verwalten.
Importprobleme
Beim Erstellen eines Datasets kann AutoML Translation Segmentpaare löschen, wenn sie zu lang sind, wenn Segmente in den Ausgangs- und Zielsprachen identisch (nicht übersetzt) sind oder wenn Duplikate (mehrere Segmente mit demselben Text in der Ausgangssprache) vorhanden sind.
Bei zu langen Segmentpaaren empfehlen wir, Segmente auf etwa 200 Wörter zu beschränken und das Dataset dann neu zu erstellen. Das Limit von 200 Wörtern ist eine Schätzung der maximalen Länge. Bei der Verarbeitung Ihrer Daten verwendet AutoML Translation einen internen Prozess, um Ihre Eingabedaten in Token umzuwandeln, was die Größe Ihrer Segmente erhöhen kann. Diese tokenisierten Daten werden von AutoML Translation zur Messung der Datengröße verwendet.
Entfernen Sie identische Segmentpaare aus Ihrem Dataset. Wenn Sie verhindern möchten, dass gewisse Segmente übersetzt werden, erstellen Sie stattdessen ein benutzerdefiniertes Wörterbuch mit einer Glossarressource.
Daten exportieren
Sie können Segmentpaare aus vorhandenen Datasets in einen Cloud Storage-Bucket exportieren.
Web-UI
Rufen Sie die AutoML Translation Console auf.
Klicken Sie im Navigationsbereich auf Datasets, um eine Liste Ihrer Datasets aufzurufen.
Klicken Sie auf den Namen des Datasets, für das Sie Daten exportieren möchten.
Klicken Sie auf der Seite mit den Dataset-Details auf Daten exportieren.
Wählen Sie ein Cloud Storage-Ziel aus, in dem die exportierten TSV-Dateien gespeichert werden.
Klicken Sie auf Exportieren.
AutoML Translation gibt TSV-Dateien aus, die nach ihrem Dataset (Training, Validierung und Test) benannt sind.
REST
Verwenden Sie dieprojects.locations.datasets.exportData
-Methode, um Daten als TSV-Dateien in Cloud Storage zu exportieren.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich das zu exportierende Dataset befindet,
z. B.
us-central1
. - DATASET_ID ist die ID des zu exportierenden Datasets.
- DESTINATION_DIRECTORY: Der Cloud Storage-Pfad, an den die Ausgabe gesendet wird.
HTTP-Methode und URL:
POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData
JSON-Text anfordern:
{ "output_config": { "gcs_destination": { "output_uri_prefix": "gs://DESTINATION_DIRECTORY" } } }
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID" }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Datasets auflisten
Listen Sie die in Ihrem Projekt verfügbaren Datasets auf.
Web-UI
Um über die AutoML Translation-Konsole eine Liste der verfügbaren Datasets aufzurufen, klicken Sie im Navigationsbereich auf Datasets.
Wenn Sie die Datasets für ein anderes Projekt anzeigen möchten, wählen Sie das Projekt in der Drop-down-Liste oben rechts in der Titelleiste aus.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden,
z. B.
us-central1
.
HTTP-Methode und URL:
GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "datasets": [ { "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID", "displayName": "DATASET_NAME", "sourceLanguageCode": "SOURCE_LANG_CODE", "targetLanguageCode": "TARGET_LANG_CODE", "exampleCount": 8720, "createTime": "2022-10-19T23:24:34.734549Z", "updateTime": "2022-10-19T23:24:35.357525Z" }, ... ] }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.
Dataset löschen
Web-UI
Klicken Sie in der AutoML Translation-Konsole im Navigationsbereich auf Datasets, um die Liste der verfügbaren Datasets aufzurufen.
Wählen Sie für das zu löschende Dataset
Mehr > Löschen aus.Klicken Sie im Bestätigungsdialogfeld auf Bestätigen.
REST
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
- PROJECT_ID: Ihre Google Cloud-Projekt-ID.
- LOCATION: Die Region, in der sich die aufzulistenden Datasets befinden,
z. B.
us-central1
. - DATASET_ID: Die ID des zu löschenden Datasets.
HTTP-Methode und URL:
DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID
Wenn Sie die Anfrage senden möchten, maximieren Sie eine der folgenden Optionen:
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata" }, "done": true }
Weitere Sprachen
C#: Folgen Sie der Anleitung zur Einrichtung von C# auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für .NET auf.
PHP: Folgen Sie der Anleitung zur Einrichtung von PHP auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für PHP auf.
Ruby: Folgen Sie der Anleitung zur Einrichtung von Ruby auf der Seite der Clientbibliotheken und rufen Sie dann die Cloud Translation-Referenzdokumentation für Ruby auf.