Auf dieser Seite erfahren Sie, wie Sie ein Vertex AI-Dataset aus Ihren Textdaten erstellen, um mit dem Training von Prognosemodellen zu beginnen. Sie können ein Dataset mit der Google Cloud Console oder der Vertex AI API erstellen.
Hinweis
Bevor Sie ein Vertex AI-Dataset aus Ihren Textdaten erstellen können, müssen Sie die Textdaten vorbereiten.
Leeres Dataset erstellen und Daten importieren oder zuordnen
Google Cloud Console
Verwenden Sie die folgende Anleitung, um ein leeres Dataset zu erstellen und Ihre Daten entweder zu importieren oder zuzuordnen.
- Rufen Sie in der Google Cloud Console im Abschnitt "Vertex AI" die Seite Datasets auf.
- Klicken Sie auf Erstellen, um die Detailseite „Dataset erstellen” zu öffnen.
- Ändern Sie das Feld Dataset-Name, um einen beschreibenden Anzeigenamen für das Dataset zu erstellen.
- Wählen Sie den Tab Text aus.
- Wählen Sie Entitätsextraktion aus.
- Wählen Sie eine Region aus der Drop-down-Liste Region aus.
- Klicken Sie auf Erstellen, um ein leeres Dataset zu erstellen, und gehen Sie zur Seite für den Datenimport.
- Wählen Sie im Bereich Importmethode auswählen eine der folgenden Optionen aus:
Daten von Ihrem Computer hochladen
- Wählen Sie im Abschnitt Importmethode auswählen aus, dass Sie Daten von Ihrem Computer hochladen möchten.
- Klicken Sie auf Dateien auswählen und wählen Sie alle lokalen Dateien aus, die in einen Cloud Storage-Bucket hochgeladen werden sollen.
- Klicken Sie im Abschnitt Cloud Storage-Pfad auswählen auf Durchsuchen, um den Standort eines Cloud Storage-Buckets auszuwählen, in den die Daten hochgeladen werden sollen.
Importdatei von Ihrem Computer hochladen
- Klicken Sie auf Importdatei von Ihrem Computer hochladen.
- Klicken Sie auf Dateien auswählen und wählen Sie die lokale Importdatei aus, um sie in einen Cloud Storage-Bucket hochzuladen.
- Klicken Sie im Abschnitt Cloud Storage-Pfad auswählen auf Durchsuchen, um einen Speicherort für den Cloud Storage-Bucket auszuwählen, in den die Datei hochgeladen werden soll.
Klicken Sie auf Importdatei aus Cloud Storage auswählen.
- Klicken Sie auf Importdatei aus Cloud Storage auswählen.
- Klicken Sie im Abschnitt Cloud Storage-Pfad auswählen auf Durchsuchen, um die Importdatei in Cloud Storage auszuwählen.
- Klicken Sie auf Weiter.
Der Datenimport kann je nach Umfang der Daten mehrere Stunden dauern. Sie können diesen Tab schließen und später zurückkehren. Sie erhalten eine E-Mail, wenn Ihre Daten importiert werden.
API
Zum Erstellen eines Modells für maschinelles Lernen benötigen Sie zuerst eine repräsentative Sammlung von Daten, mit denen trainiert werden soll. Nachdem Sie Daten importiert haben, können Sie Änderungen vornehmen und mit dem Modelltraining beginnen.
Dataset erstellen
In den folgenden Beispielen wird ein Dataset für Ihre Daten erstellt.
REST
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
. Siehe Liste der verfügbaren Standorte. - PROJECT_ID: Ihre Projekt-ID
- DATASET_NAME: Name des Datasets.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/text_1.0.0.yaml" }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets" | Select-Object -Expand Content
Die Ausgabe sieht in etwa so aus: Sie können OPERATION_ID in der Antwort verwenden, um den Status des Vorgangs abzurufen.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } } }
Terraform
Im folgenden Beispiel wird die Terraform-Ressource google_vertex_ai_dataset
verwendet, um ein Text-Dataset mit dem Namen text-dataset
zu erstellen.
Informationen zum Anwenden oder Entfernen einer Terraform-Konfiguration finden Sie unter Grundlegende Terraform-Befehle.
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Im folgenden Beispiel werden mit dem Vertex AI SDK für Python ein Dataset erstellt und Daten importiert. Wenn Sie diesen Beispielcode ausführen, können Sie den Abschnitt Daten importieren dieses Leitfadens überspringen.
In diesem Beispiel werden Daten für die Klassifizierung mit einem einzigen Label importiert. Wenn Ihr Modell ein anderes Ziel hat, müssen Sie den Code anpassen.
Daten importieren
Nachdem Sie ein leeres Dataset erstellt haben, können Sie Ihre Daten in das Dataset importieren. Wenn Sie das Vertex AI SDK für Python verwendet haben, um das Dataset zu erstellen, haben Sie beim Erstellen des Datasets möglicherweise bereits Daten importiert. Wenn dies der Fall ist, können Sie diesen Abschnitt überspringen.
REST
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
- LOCATION: Region, in der Ihr Dataset gespeichert wird. Beispiel:
us-central1
. - PROJECT_ID: Ihre Projekt-ID.
- DATASET_ID: ID des Datasets.
- IMPORT_FILE_URI: Pfad zur CSV- oder JSON Lines-Datei in Cloud Storage, in der die in Cloud Storage gespeicherten Datenelemente für das Modelltraining aufgeführt werden. Weitere Informationen zu Importdateiformaten und Einschränkungen finden Sie unter Textdaten vorbereiten.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import
JSON-Text der Anfrage:
{ "import_configs": [ { "gcs_source": { "uris": "IMPORT_FILE_URI" }, "import_schema_uri" : "gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml" } ] }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:import" | Select-Object -Expand Content
Die Ausgabe sieht in etwa so aus: Sie können OPERATION_ID in der Antwort verwenden, um den Status des Vorgangs abzurufen.
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.ImportDataOperationMetadata", "genericMetadata": { "createTime": "2020-07-08T20:32:02.543801Z", "updateTime": "2020-07-08T20:32:02.543801Z" } } }
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java Schritten zur Einrichtung in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Vorgangsstatus abrufen
Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.