Auf dieser Seite erfahren Sie, wie Sie ein Vertex AI-Dataset aus Ihren Tabellendaten erstellen, um mit dem Training von Klassifizierungs- und Regressionsmodellen zu beginnen. Sie können ein Dataset mit der Google Cloud Console oder der Vertex AI API erstellen.
Vorbereitung
Bevor Sie ein Vertex AI-Dataset aus Ihren tabellarischen Daten erstellen können, müssen Sie Ihre Daten zuerst vorbereiten. Weitere Informationen finden Sie unter:
- Tabellendaten für Klassifizierungs- und Regressionsmodelle vorbereiten
- Best Practices für das Erstellen von tabellarischen Trainingsdaten.
Leeres Dataset erstellen und die vorbereiteten Daten zuordnen
Zum Erstellen eines Modells für maschinelles Lernen für die Klassifizierung oder Regression benötigen Sie zuerst eine repräsentative Sammlung von Daten, mit denen Sie trainieren können. Verwenden Sie die Google Cloud Console oder die API, um die vorbereiteten Daten mit dem Dataset zu verknüpfen. Durch die Verknüpfung Ihrer Daten können Sie Änderungen vornehmen und das Modelltraining starten.
Google Cloud Console
- Rufen Sie in der Google Cloud Console im Abschnitt "Vertex AI" die Seite Datasets auf.
- Klicken Sie auf Erstellen, um die Detailseite „Dataset erstellen” zu öffnen.
- Ändern Sie das Feld Dataset-Name, um einen beschreibenden Anzeigenamen für das Dataset zu erstellen.
- Wählen Sie den Tab Tabellarisch aus.
- Wählen Sie das Ziel Regression/Klassifizierung aus.
- Wählen Sie eine Region aus der Drop-down-Liste Region aus.
- Wenn Sie vom Kunden verwaltete Verschlüsselungsschlüssel (CMEK) mit Ihrem Dataset verwenden möchten, öffnen Sie Erweiterte Optionen und geben Sie Ihren Schlüssel an. (Vorschau)
- Klicken Sie auf Erstellen, um ein leeres Dataset zu erstellen, und gehen Sie zum Tab Quelle.
- Wählen Sie je nach Datenquelle eine der folgenden Optionen aus.
CSV-Dateien auf Ihrem Computer
- Klicken Sie auf CSV-Dateien von Ihrem Computer hochladen.
- Klicken Sie auf Dateien auswählen und wählen Sie alle lokalen Dateien aus, die in einen Cloud Storage-Bucket hochgeladen werden sollen.
- Geben Sie im Abschnitt Cloud Storage-Pfad auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um einen Bucket-Speicherort auszuwählen.
CSV-Dateien in Cloud Storage
- Klicken Sie auf CSV-Dateien aus Cloud Storage auswählen.
- Geben Sie im Abschnitt CSV-Dateien aus Cloud Storage auswählen den Pfad zum Cloud Storage-Bucket ein oder klicken Sie auf Durchsuchen, um den Speicherort Ihrer CSV-Dateien auszuwählen.
Tabelle oder Ansicht in BigQuery
- Klicken Sie auf Tabelle oder Ansicht aus BigQuery auswählen.
- Geben Sie die Projekt-, Dataset- und Tabellen-IDs für die Eingabedatei ein.
- Klicken Sie auf Weiter.
Die Datenquelle ist Ihrem Dataset zugeordnet.
API
Wenn Sie ein Dataset erstellen, verknüpfen Sie es auch mit der Datenquelle. Der Code zum Erstellen eines Datasets hängt davon ab, ob sich die Trainingsdaten in Cloud Storage oder BigQuery befinden. Liegt die Datenquelle in einem anderen Projekt, müssen Sie die erforderlichen Berechtigungen einrichten.Dataset mit Daten in Cloud Storage erstellen
REST
Zum Erstellen eines Datasets verwenden Sie die Methode datasets.create.
Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: Pfade (URIs) zu den Cloud Storage-Buckets mit den Trainingsdaten.
Es können mehrere sein. Jeder URI hat das folgende Format:
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Dataset mit Daten in BigQuery erstellen
REST
Zum Erstellen eines Datasets verwenden Sie die Methode datasets.create.Ersetzen Sie dabei folgende Werte für die Anfragedaten:
-
LOCATION: Region, in der das Dataset gespeichert wird. Dies muss eine Region sein, die Dataset-Ressourcen unterstützt. Beispiel:
us-central1
- PROJECT: Ihre Projekt-ID.
- DATASET_NAME: Anzeigename für das Dataset.
-
METADATA_SCHEMA_URI: Der URI zur Schemadatei für Ihr Ziel.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI: Pfad zur BigQuery-Tabelle mit den Trainingsdaten. Füllen Sie das Formular aus:
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER: Die automatisch generierte Projektnummer Ihres Projekts.
HTTP-Methode und URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
JSON-Text der Anfrage:
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Wenn Sie die Anfrage senden möchten, wählen Sie eine der folgenden Optionen aus:
curl
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Speichern Sie den Anfragetext in einer Datei mit dem Namen request.json
und führen Sie den folgenden Befehl aus:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Sie sollten eine JSON-Antwort ähnlich wie diese erhalten:
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Bevor Sie dieses Beispiel anwenden, folgen Sie den Java-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Java API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Node.js
Bevor Sie dieses Beispiel anwenden, folgen Sie den Node.js-Einrichtungsschritten in der Vertex AI-Kurzanleitung zur Verwendung von Clientbibliotheken. Weitere Informationen finden Sie in der Referenzdokumentation zur Vertex AI Node.js API.
Richten Sie zur Authentifizierung bei Vertex AI Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.
Python
Informationen zur Installation des Vertex AI SDK for Python finden Sie unter Vertex AI SDK for Python installieren. Weitere Informationen finden Sie in der Referenzdokumentation zur Python API.
Vorgangsstatus abrufen
Einige Anfragen starten lang andauernde Vorgänge, die viel Zeit in Anspruch nehmen. Diese Anfragen geben einen Vorgangsnamen zurück, mit dem Sie den Status des Vorgangs aufrufen oder den Vorgang abbrechen können. Vertex AI stellt Hilfsmethoden bereit, um Aufrufe für Vorgänge mit langer Laufzeit auszuführen. Weitere Informationen finden Sie unter Mit lang andauernden Vorgängen arbeiten.