Auf dieser Seite erfahren Sie, wie Sie ein Vertex AI-Dataset aus Ihren Tabellendaten erstellen, um mit dem Training von Prognosemodellen zu beginnen. Sie können ein Dataset mit der Google Cloud Console oder der Vertex AI API erstellen.
Vorbereitung
Bevor Sie ein Vertex AI-Dataset aus Ihren Tabellendaten erstellen können, müssen Sie Trainingsdaten vorbereiten.
Leeres Dataset erstellen und die vorbereiteten Daten zuordnen
Zum Erstellen eines Machine-Learning-Modells für Prognosen benötigen Sie zuerst eine repräsentative Sammlung von Daten, mit denen trainiert werden soll. Verwenden Sie die Google Cloud Console oder die API, um die vorbereiteten Daten mit dem Dataset zu verknüpfen.
Wenn Sie ein Dataset erstellen, verknüpfen Sie es auch mit der Datenquelle. Die Trainingsdaten können entweder eine CSV-Datei in Cloud Storage oder eine Tabelle in BigQuery sein. Liegt die Datenquelle in einem anderen Projekt, müssen Sie die erforderlichen Berechtigungen einrichten.
Google Cloud Console
- Rufen Sie in der Google Cloud Console im Abschnitt "Vertex AI" die Seite Datasets auf.
- Klicken Sie auf Erstellen, um die Detailseite „Dataset erstellen” zu öffnen.
- Ändern Sie das Feld Dataset-Name, um einen beschreibenden Anzeigenamen für das Dataset zu erstellen.
- Wählen Sie den Tab Tabellarisch aus.
- Wählen Sie das Prognoseziel aus.
- Wählen Sie eine Region aus der Drop-down-Liste Region aus.
- Klicken Sie auf Erstellen, um ein leeres Dataset zu erstellen, und gehen Sie zum Tab Quelle.
- Wählen Sie je nach Datenquelle eine der folgenden Optionen aus.
CSV-Dateien auf Ihrem Computer
- Klicken Sie auf CSV-Dateien von Ihrem Computer hochladen.
- Klicken Sie auf Dateien auswählen und wählen Sie alle lokalen Dateien aus, die in einen Cloud Storage-Bucket hochgeladen werden sollen.
- Geben Sie im Abschnitt Cloud Storage-Pfad auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um einen Bucket-Speicherort auszuwählen.
CSV-Dateien in Cloud Storage
- Klicken Sie auf CSV-Dateien aus Cloud Storage auswählen.
- Geben Sie im Abschnitt CSV-Dateien aus Cloud Storage auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um den Speicherort Ihrer CSV-Dateien auszuwählen.
Tabelle oder Ansicht in BigQuery
- Klicken Sie auf Tabelle oder Ansicht aus BigQuery auswählen.
- Geben Sie die Projekt-, Dataset- und Tabellen-IDs für die Eingabedatei ein.
- Klicken Sie auf Weiter.
Die Datenquelle ist Ihrem Dataset zugeordnet.
-
Geben Sie auf dem Tab Analysieren die Spalte Zeitstempel und die Spalte Serien-ID für dieses Dataset an.
Sie können diese Spalten auch angeben, wenn Sie Ihr Modell trainieren, aber im Allgemeinen verfügt ein Prognose-Dataset über spezifische Zeit- und Zeitachsen-Kennungsspalten, sodass es sich empfiehlt, diese im Dataset anzugeben.
API : CSV
REST
Zum Erstellen eines Datasets verwenden Sie die Methode datasets.create.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: Pfade (URIs) zu den Cloud Storage-Buckets mit den Trainingsdaten.
Es können mehrere sein. Jeder URI hat das folgende Format:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
API : BigQuery
REST
Zum Erstellen eines Datasets verwenden Sie die Methode datasets.create.
Ersetzen Sie diese Werte in den folgenden Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI: Pfad zur BigQuery-Tabelle mit den Trainingsdaten. Im Format:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Sie sollten in etwa folgende JSON-Antwort erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Vorgangsstatus abrufen
Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.